国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》

這篇具有很好參考價(jià)值的文章主要介紹了論文閱讀-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

?目錄

一、總述

1. 要解決的問題

2. 使用的方法

3. 取得的成果

二、摘要

三、介紹

四、相關(guān)工作

五、高分辨率網(wǎng)絡(luò)

1. HigherHRNet

i. HRNet

ii. HigherHRNet

2. 分組

3. 反卷積模塊

4. 多分辨率監(jiān)督

5. 熱圖聚合策略

六、實(shí)驗(yàn)

1. COCO數(shù)據(jù)集關(guān)鍵點(diǎn)預(yù)測

2. 消融實(shí)驗(yàn)

3. CrowdPose

七、結(jié)論


一、總述

1. 要解決的問題

????????該篇論文主要探討了自下而上的人體姿態(tài)估計(jì)問題。具體來說,論文關(guān)注于解決多人姿態(tài)估計(jì)中的尺度變化挑戰(zhàn),特別是在小尺度人體姿態(tài)估計(jì)方面的困難。

????????要解決的核心問題:在多人姿態(tài)估計(jì)中,由于人體尺度不同,不同人體在圖像中存在大小差異,自下而上的方法往往難以準(zhǔn)確預(yù)測小個(gè)體的正確姿態(tài)。這主要是由于先前的方法主要使用單一分辨率的特征圖來預(yù)測關(guān)鍵點(diǎn)的熱圖,忽略了尺度變化的挑戰(zhàn)。

特征圖(Feature map):特征圖可以被視為卷積層對(duì)輸入數(shù)據(jù)進(jìn)行特定類型特征提取后的結(jié)果。每個(gè)卷積核在輸入圖像上執(zhí)行卷積操作,其輸出即為一張?zhí)卣鲌D。這些特征圖實(shí)質(zhì)上是二維數(shù)組,每個(gè)元素代表一個(gè)特征值,反映了輸入圖像中某個(gè)局部區(qū)域的特定特征。

單一分辨率的特征圖:僅使用一種尺寸或分辨率的特征圖來進(jìn)行關(guān)鍵點(diǎn)的預(yù)測。這種特征圖往往無法有效地捕捉到圖像中不同尺度的人體姿態(tài)信息。多分辨率特征圖允許模型在不同尺度上提取和整合信息,從而更準(zhǔn)確地定位不同大小的人體姿態(tài)關(guān)鍵點(diǎn)。這種方法能夠增強(qiáng)模型對(duì)不同尺度人體的適應(yīng)能力,提高姿態(tài)估計(jì)的準(zhǔn)確性和魯棒性。在HigherHRNet方法中,通過引入反卷積操作和多分辨率監(jiān)督訓(xùn)練,模型能夠生成并利用多分辨率的特征圖進(jìn)行姿態(tài)估計(jì)。這種設(shè)計(jì)使得模型能夠更有效地學(xué)習(xí)并處理尺度變化,從而提高了人體姿態(tài)估計(jì)的性能。

舉例:假設(shè)我們有一張包含多個(gè)人的圖像,其中有的人距離相機(jī)較近,顯得較大,而有的人則距離較遠(yuǎn),顯得較小。我們的任務(wù)是準(zhǔn)確地估計(jì)出每個(gè)人的姿態(tài),即關(guān)鍵點(diǎn)的位置。如果我們使用單一分辨率的特征圖來進(jìn)行姿態(tài)估計(jì),那么模型會(huì)基于這個(gè)固定尺寸的特征圖來預(yù)測所有人的關(guān)鍵點(diǎn)。然而,由于不同人體在圖像中的大小不同,這個(gè)固定尺寸的特征圖可能無法同時(shí)捕捉到大型人體和小型人體的細(xì)節(jié)信息。對(duì)于大型人體,特征圖可能過于粗糙,無法精確定位關(guān)鍵點(diǎn)的具體位置;而對(duì)于小型人體,特征圖可能又包含了過多的無關(guān)信息,導(dǎo)致關(guān)鍵點(diǎn)的預(yù)測不準(zhǔn)確。相比之下,HigherHRNet通過構(gòu)建多分辨率的特征圖來解決這個(gè)問題。它使用不同尺寸的特征圖來提取不同尺度的信息。對(duì)于大型人體,模型可以利用較低分辨率的特征圖來捕捉整體結(jié)構(gòu);而對(duì)于小型人體,模型則可以利用高分辨率的特征圖來捕捉更精細(xì)的細(xì)節(jié)。這樣,模型就能夠更好地適應(yīng)不同尺度的人體,并更準(zhǔn)確地估計(jì)出每個(gè)人的姿態(tài)。

2. 使用的方法

????????為了解決這個(gè)問題,論文提出了HigherHRNet方法。HigherHRNet在HRNet原本輸出的特征圖基礎(chǔ)上,額外加入了一個(gè)反卷積操作,從而提高了模型的輸出尺寸,使得pose estimation效果更好。此外,HigherHRNet還具有多分辨率監(jiān)督訓(xùn)練和多分辨率聚合推理功能。多分辨率監(jiān)督用于訓(xùn)練,有助于模型更好地學(xué)習(xí)不同尺度的特征;而多分辨率聚合用于推理,可以更有效地整合不同尺度的信息,從而更精確地定位關(guān)鍵點(diǎn)。

3. 取得的成果

????????HigherHRNet方法在小尺度的人體姿態(tài)估計(jì)上相比之前的方法有了顯著的提升,高出了2.5%AP。此外,在CrowdPose測試集上,HigherHRNet甚至超過了所有的自上而下(top-down)方法,達(dá)到了67.6%AP,這顯示了其對(duì)擁擠場景的魯棒性。這些成果都證明了HigherHRNet方法在處理尺度變化問題上的有效性。

二、摘要

????????自下而上的HPE在預(yù)測小個(gè)體的正確姿態(tài)方面存在困難,故提出HigherHRNet——使用高分辨率特征金字塔學(xué)習(xí)尺度感知表示。通過高分辨率特征金字塔和多分辨率監(jiān)督與聚合,解決了尺度變化帶來的挑戰(zhàn),實(shí)現(xiàn)了更精確的關(guān)鍵點(diǎn)定位,尤其在處理小個(gè)體時(shí)表現(xiàn)優(yōu)異。

特征金字塔的主要思想是通過構(gòu)建多尺度的特征表示,使得模型能夠在不同尺度下對(duì)目標(biāo)進(jìn)行預(yù)測。

三、介紹

?????? 二維人體姿態(tài)估計(jì)旨在定位人體的關(guān)鍵點(diǎn)或部位,是理解人類行為的重要技術(shù)。目前的方法主要分為自上而下和自下而上兩類。自上而下方法依賴人體檢測器,將問題簡化為單人姿態(tài)估計(jì),對(duì)尺度變化不太敏感,性能較好,但計(jì)算量大且不是端到端系統(tǒng)。自下而上方法先定位所有無身份的關(guān)鍵點(diǎn),再分組為人體實(shí)例,速度快且有望實(shí)現(xiàn)實(shí)時(shí)估計(jì),但處理尺度變化時(shí)性能與自上而下方法存在差距,特別是在小尺度人體上。

????? 在預(yù)測小個(gè)體的關(guān)鍵點(diǎn)時(shí),主要面臨兩大挑戰(zhàn)。一是處理尺度變化問題,即在不犧牲大個(gè)體性能的前提下提高小個(gè)體的性能。另一個(gè)挑戰(zhàn)是生成高質(zhì)量的高分辨率熱圖,以便精確定位小個(gè)體的關(guān)鍵點(diǎn)。之前的自下而上方法主要關(guān)注于關(guān)鍵點(diǎn)分組,但忽視了尺度變化問題。通過提高輸入分辨率可以提高小個(gè)體的性能,但過大的分辨率會(huì)犧牲大個(gè)體的性能。因此,關(guān)鍵在于以不增加計(jì)算成本的方式生成更準(zhǔn)確且尺度感知的熱圖,以改進(jìn)自下而上的關(guān)鍵點(diǎn)預(yù)測。

?????? 本文提出了一種名為HigherHRNet的尺度感知高分辨率網(wǎng)絡(luò),用于解決預(yù)測小個(gè)體關(guān)鍵點(diǎn)時(shí)的尺度變化和高分辨率熱圖生成挑戰(zhàn)。HigherHRNet采用高分辨率特征金字塔模塊,直接從最高分辨率特征開始并生成更高分辨率的特征圖。通過多分辨率監(jiān)督策略,該網(wǎng)絡(luò)能夠處理尺度變化,并在推理時(shí)通過多分辨率熱圖聚合策略生成尺度感知的高分辨率熱圖。這種方法旨在提高小個(gè)體關(guān)鍵點(diǎn)的定位精度,同時(shí)保持計(jì)算效率。具體做法:在HRNet的1/4分辨率(網(wǎng)絡(luò)中的最高分辨率特征)路徑上構(gòu)建高分辨率特征金字塔,以提高效率。為了使HigherHRNet能夠處理尺度變化,進(jìn)一步提出了一種多分辨率監(jiān)督策略,將不同分辨率的訓(xùn)練目標(biāo)分配給相應(yīng)的特征金字塔級(jí)別。最后在推理過程中引入了一個(gè)簡單的多分辨率熱圖聚合策略,以生成尺度感知的高分辨率熱圖。

?????? 本文在COCO關(guān)鍵點(diǎn)檢測數(shù)據(jù)集上驗(yàn)證了提出的HigherHRNet方法,并展示了其出色的性能。該方法無需后處理即可實(shí)現(xiàn)高AP值,并顯著優(yōu)于現(xiàn)有的自下而上方法。特別是對(duì)于中等大小的人物,HigherHRNet表現(xiàn)出更高的AP,同時(shí)保持了對(duì)大人物的檢測性能。此外,HigherHRNet在擁擠場景的CrowdPose數(shù)據(jù)集上也取得了顯著成績,驗(yàn)證了自下而上方法在該場景中的優(yōu)勢。這些結(jié)果證明了HigherHRNet在解決尺度變化挑戰(zhàn)方面的有效性。

總結(jié)貢獻(xiàn):

1. 解決尺度變化挑戰(zhàn)在之前的自下而上多人姿態(tài)估計(jì)中很少被研究。

2. 它通過在訓(xùn)練階段采用多分辨率監(jiān)督生成高分辨率特征金字塔,并在推理階段進(jìn)行多分辨率熱圖聚合,以預(yù)測對(duì)尺度敏感的高分辨率熱圖,這對(duì)小人物的檢測非常有利

3. 模型超越了所有其他自下而上的方法。特別觀察到對(duì)于中等大小的人物,性能有了大幅提升。

4. 在CrowdPose數(shù)據(jù)集上取得了新的最先進(jìn)結(jié)果,這表明在擁擠場景中,自下而上的方法相比自上而下的方法更具魯棒性

四、相關(guān)工作

1. 自上而下:自上而下方法通過先檢測人體邊界框,然后在這些邊界框內(nèi)檢測單個(gè)人的關(guān)鍵點(diǎn)(人體邊界框由目標(biāo)檢測器生成)。Mask R-CNN和G-RMI是其中的代表方法,前者直接在目標(biāo)檢測器的基礎(chǔ)上添加關(guān)鍵點(diǎn)檢測分支,后者則將人體檢測和姿態(tài)估計(jì)分為兩個(gè)獨(dú)立步驟進(jìn)行。這些方法在姿態(tài)估計(jì)任務(wù)中發(fā)揮了重要作用。

2. 自下而上:自下而上方法首先檢測圖像中所有人的身體關(guān)節(jié)點(diǎn),然后利用不同的分組策略將這些關(guān)節(jié)點(diǎn)分配給不同的個(gè)體。OpenPose使用部分親和字段進(jìn)行分組,而Newell等人則采用關(guān)聯(lián)嵌入的方法。PersonLab和PifPaf則通過直接學(xué)習(xí)關(guān)鍵點(diǎn)之間的偏移場或關(guān)聯(lián)字段來實(shí)現(xiàn)分組。這些方法在多人姿態(tài)估計(jì)任務(wù)中顯示出較高的性能。

3. 特征金字塔:特征金字塔是處理尺度變化的有效方法,在物體檢測和分割任務(wù)中得到了廣泛應(yīng)用。然而,在自下而上的多人姿態(tài)估計(jì)中,這種金字塔式表示的應(yīng)用相對(duì)較少。本文提出了一種高分辨率特征金字塔,通過擴(kuò)展金字塔到不同方向并生成更高分辨率的特征金字塔,以更好地處理尺度變化問題。(特征金字塔網(wǎng)絡(luò)[26]通過添加自頂向下的路徑來擴(kuò)展骨干模型,該路徑使用雙線性上采樣和橫向連接逐步將特征分辨率從1/32恢復(fù)到1/4。它們的共同動(dòng)機(jī)是讓來自不同金字塔級(jí)別的特征預(yù)測不同尺度的實(shí)例。)

4. 高分辨率特征圖:生成高分辨率特征圖的方法主要有:① 編碼器-解碼器結(jié)構(gòu)——在編碼路徑中捕獲上下文信息,并在解碼路徑中恢復(fù)高分辨率特征。解碼器通常包含一系列雙線性上采樣操作,并與具有相同分辨率的編碼器特征進(jìn)行跳躍連接。② 空洞卷積——用于移除幾個(gè)步長卷積/最大池化操作以保留特征圖分辨率。空洞卷積防止了空間信息的丟失,但引入了更多的計(jì)算成本。③ 反卷積(轉(zhuǎn)置卷積)——在網(wǎng)絡(luò)末尾以序列形式使用,以有效地增加特征圖的分辨率。SimpleBaseline表明反卷積可以為熱圖預(yù)測生成高質(zhì)量的特征圖。

5. HRNet高分辨率網(wǎng)絡(luò)(HRNet)是一種在整個(gè)網(wǎng)絡(luò)中保持高分辨率傳遞的有效方法。HRNet由多個(gè)不同分辨率的分支組成。較低分辨率的分支捕獲上下文信息,而較高分辨率的分支保留空間信息。通過分支之間的多尺度融合,HRNet可以生成具有豐富語義信息的高分辨率特征圖。

本文采用HRNet作為基礎(chǔ)網(wǎng)絡(luò),并結(jié)合反卷積模塊,提出了一個(gè)名為HigherHRNet的模型,旨在高效生成用于熱圖預(yù)測的高分辨率特征圖。

五、高分辨率網(wǎng)絡(luò)

1. HigherHRNet

i. HRNet

????????HRNet在第一階段開始時(shí)就有一個(gè)高分辨率分支。在每個(gè)后續(xù)階段,都會(huì)在當(dāng)前分支的基礎(chǔ)上并行添加一個(gè)新的分支,其分辨率是當(dāng)前分支中最低分辨率的1/2。隨著網(wǎng)絡(luò)階段的增加,它將擁有更多具有不同分辨率的并行分支,并且前一階段的分辨率在后續(xù)階段中都被保留。

????????HigherHRNet 以與 HRNet 相似的方式實(shí)例化骨干網(wǎng)絡(luò)。該網(wǎng)絡(luò)從一個(gè)包含兩個(gè)步長為2的3×3卷積核開始,將分辨率降低到1/4。第一階段包含4個(gè)殘差單元,每個(gè)單元由一個(gè)寬度(通道數(shù))為64的瓶頸結(jié)構(gòu)組成,后跟一個(gè)3×3卷積,將特征圖的寬度減少到C。第二、第三、第四階段分別包含1、4和3個(gè)多分辨率塊。這四個(gè)分辨率的卷積寬度分別為C、2C、4C和8C。多分辨率組卷積中的每個(gè)分支包含4個(gè)殘差單元,每個(gè)單元在每個(gè)分辨率上都有兩個(gè)3×3卷積。我們通過設(shè)置C為32和48,分別實(shí)驗(yàn)了兩個(gè)具有不同容量的網(wǎng)絡(luò)。

????????HRNet最初是為自上而下的人體姿態(tài)估計(jì)設(shè)計(jì)的。在這項(xiàng)工作中,我們通過添加一個(gè)1×1卷積來預(yù)測熱圖和標(biāo)簽圖,從而將其應(yīng)用于自下而上的方法。

ii. HigherHRNet

???????在人體姿勢估計(jì)中,熱圖的分辨率對(duì)于小人物的關(guān)鍵點(diǎn)預(yù)測至關(guān)重要。傳統(tǒng)方法使用高斯平滑熱圖來預(yù)測關(guān)鍵點(diǎn),但對(duì)于小人物,這可能導(dǎo)致關(guān)鍵點(diǎn)定位的混淆。減少這種混淆的一個(gè)微不足道的解決方案是減小高斯核的標(biāo)準(zhǔn)偏差。然而這樣做會(huì)使優(yōu)化變得更加困難,并導(dǎo)致更糟糕的結(jié)果。為了解決這個(gè)問題,本文在不同分辨率下保持標(biāo)準(zhǔn)偏差不變地預(yù)測高分辨率熱圖。HigherHRNet模型在最高分辨率的特征圖上添加了一個(gè)反卷積模塊,以生成高質(zhì)量和高分辨率的特征圖,同時(shí)保持熱圖的準(zhǔn)確性。這個(gè)模型還使用了熱圖聚合策略來提高預(yù)測精度。

????????如果需要更高的分辨率,可以添加更多的反卷積模塊。我們發(fā)現(xiàn)反卷積模塊的數(shù)量取決于數(shù)據(jù)集中人物尺度的分布。一般來說,包含較小人物的數(shù)據(jù)集需要更高分辨率的特征圖來進(jìn)行預(yù)測,反之亦然。在實(shí)驗(yàn)中發(fā)現(xiàn)在COCO數(shù)據(jù)集上,添加單個(gè)反卷積模塊即可實(shí)現(xiàn)最佳性能。

2. 分組

????????最近的研究工作表明,通過使用關(guān)聯(lián)嵌入(associative embedding)的方法,可以實(shí)現(xiàn)高精度的人體部位分組。實(shí)驗(yàn)結(jié)果[30]顯示,在COCO關(guān)鍵點(diǎn)檢測數(shù)據(jù)集中,使用預(yù)測標(biāo)簽的地面真實(shí)檢測結(jié)果將COCO關(guān)鍵點(diǎn)檢測數(shù)據(jù)集[27]中500張訓(xùn)練圖像的AP從59.2提高到94.0。我們遵循[30]的方法,使用關(guān)聯(lián)嵌入來進(jìn)行關(guān)鍵點(diǎn)分組。該分組過程將無身份信息的關(guān)鍵點(diǎn)通過標(biāo)簽之間的L2距離較小距離的關(guān)鍵點(diǎn)分組,從而識(shí)別個(gè)體。

3. 反卷積模塊

????????本文提出了一種反卷積模塊,用于生成高質(zhì)量的特征圖,其分辨率是輸入特征圖的兩倍。我們使用4×4的反卷積(也稱為轉(zhuǎn)置卷積),隨后是批量歸一化和ReLU激活函數(shù),來學(xué)習(xí)對(duì)輸入特征圖進(jìn)行上采樣。同時(shí)也可以在反卷積之后添加幾個(gè)基礎(chǔ)殘差塊,以進(jìn)一步細(xì)化上采樣的特征圖。本文在HigherHRNet中添加了4個(gè)殘差塊。與[42]不同,本文反卷積模塊的輸入是特征圖和來自HRNet或先前反卷積模塊的預(yù)測熱圖的拼接。每個(gè)反卷積模塊的輸出特征圖也用于以多尺度方式預(yù)測熱圖。

4. 多分辨率監(jiān)督

????????與其他自下而上的方法不同,他們只對(duì)最大分辨率的熱圖應(yīng)用監(jiān)督, 我們?cè)谟?xùn)練過程中引入了一種多分辨率監(jiān)督來處理尺度變化。

(1)因?yàn)樘卣鹘鹱炙牟煌直媛蔬m合于預(yù)測不同尺度的關(guān)鍵點(diǎn),故此處不調(diào)整高斯核的標(biāo)準(zhǔn)偏差(默認(rèn)使用標(biāo)準(zhǔn)差=2),在更高分辨率的特征圖上,相對(duì)較小的標(biāo)準(zhǔn)偏差(與特征圖的分辨率相比)有助于更精確地定位小人物的關(guān)鍵點(diǎn)。

(2)在HigherHRNet的每個(gè)預(yù)測尺度上,通過計(jì)算該尺度預(yù)測熱圖與其關(guān)聯(lián)的真實(shí)熱圖之間的均方誤差,從而得出熱圖的最終損失。熱圖的最終損失是所有分辨率均方誤差的總和。

(3)本文沒有將不同尺度的人員分配給特征金字塔中的不同級(jí)別。原因如下:

????????a. 用于分配訓(xùn)練目標(biāo)的啟發(fā)式方法取決于數(shù)據(jù)集和網(wǎng)絡(luò)架構(gòu)。很難將FPN的啟發(fā)式方法轉(zhuǎn)換為HigherHRNet,因?yàn)閿?shù)據(jù)集(人物的尺度分布與所有對(duì)象的尺度分布)和架構(gòu)(HigherHRNet只有2級(jí)金字塔,而FPN有4級(jí))都發(fā)生了變化。

????????b. 由于本文應(yīng)用了高斯核,地面真實(shí)關(guān)鍵點(diǎn)目標(biāo)彼此之間存在交互作用。因此,僅僅通過設(shè)置忽略區(qū)域來解耦關(guān)鍵點(diǎn)是非常困難的。我們相信模型具有在特征金字塔的不同級(jí)別上自動(dòng)關(guān)注特定尺度的能力。(不將不同尺度的人物分配給特征金字塔的不同級(jí)別,而是讓模型自動(dòng)關(guān)注不同尺度。)

Tagmaps:在HigherHRNet中,Tagmaps的訓(xùn)練與熱圖不同。我們只在最低分辨率上預(yù)測Tagmaps,而不是使用所有分辨率。這是因?yàn)閷W(xué)習(xí)Tagmaps需要全局推理,并且更適合在較低分辨率下預(yù)測Tagmaps。因此,本文在輸入圖像的1/4分辨率的特征圖上訓(xùn)練Tagmaps。

5. 熱圖聚合策略

????????本文使用雙線性插值將所有不同分辨率的預(yù)測熱圖 上采樣 到輸入圖像的分辨率,并對(duì)所有尺寸的熱圖進(jìn)行平均,以進(jìn)行最終預(yù)測。這一策略與以前的方法有很大的不同,該策略充分利用了所有尺度的信息,而不僅僅是單一尺度或階段的信息。

????????熱圖聚合的目的是為了實(shí)現(xiàn)尺度感知的姿勢估計(jì),因?yàn)榈撞肯蛏系姆椒ㄐ枰紤]不同尺度以便從所有尺度檢測關(guān)鍵點(diǎn)。在HigherHRNet中,不同尺度的熱圖能夠更好地捕獲具有不同尺度的關(guān)鍵點(diǎn)。例如,較低分辨率熱圖中遺漏的小人物關(guān)鍵點(diǎn)可以在較高分辨率熱圖中恢復(fù)。因此,對(duì)不同分辨率的預(yù)測熱圖進(jìn)行平均使HigherHRNet成為一個(gè)尺度感知的姿勢估計(jì)器。

六、實(shí)驗(yàn)

1. COCO數(shù)據(jù)集關(guān)鍵點(diǎn)預(yù)測

(1)DataSetCOCO數(shù)據(jù)集。CrowdPose

(2)評(píng)估指標(biāo):標(biāo)準(zhǔn)評(píng)估指標(biāo)基于OKS(Object Keypoint Similarity—關(guān)鍵點(diǎn)相似度),平均精度和召回分?jǐn)?shù):

crowdpose aph apm,深度學(xué)習(xí),計(jì)算機(jī)視覺,深度學(xué)習(xí),人工智能

相關(guān)人體關(guān)鍵點(diǎn)評(píng)價(jià)指標(biāo)可參考如下兩個(gè)博客:

https://blog.csdn.net/Murdock_C/article/details/83827554

https://blog.csdn.net/lyx_323/article/details/107463923

crowdpose aph apm,深度學(xué)習(xí),計(jì)算機(jī)視覺,深度學(xué)習(xí),人工智能

crowdpose aph apm,深度學(xué)習(xí),計(jì)算機(jī)視覺,深度學(xué)習(xí),人工智能

ground truth:指的是為這個(gè)測試收集適當(dāng)?shù)哪繕?biāo)數(shù)據(jù)的過程?!癵round truth”一詞指的是訓(xùn)練集對(duì)監(jiān)督學(xué)習(xí)技術(shù)的分類的準(zhǔn)確性。總的來說就是就是把ground-truth當(dāng)成一個(gè)標(biāo)準(zhǔn),一個(gè)看看誤差,看看效果好壞的值。簡單來說就是有效的正確的數(shù)據(jù)。

(3)訓(xùn)練:使用隨機(jī)旋轉(zhuǎn)的數(shù)據(jù)擴(kuò)充([-30? , 30? ]), 隨機(jī)縮放([0.75,1.5])、隨機(jī)平移([-40,40])以裁剪大小為512×512的輸入圖像塊以及隨機(jī)翻轉(zhuǎn)。如第3.4節(jié)所述,我們生成了兩個(gè)分辨率分別為128×128和256×256的地面實(shí)況熱圖。本文使用Adam優(yōu)化器。基本學(xué)習(xí)率設(shè)置為1e?3,在第200個(gè)和第260個(gè)時(shí)期分別降至1e?4和1e?5。我們總共訓(xùn)練了300個(gè)時(shí)期的模型。為了平衡熱圖損失和分組損失,我們將這兩個(gè)損失的權(quán)重分別設(shè)置為1和1e?3。

(4)測試:首先將輸入圖像的短邊調(diào)整為512,并保持縱橫比。熱圖聚合是通過將所有預(yù)測的熱圖調(diào)整為輸入圖像的大小,并取平均值來完成的。遵循[30]的做法,我們?cè)谒袑?shí)驗(yàn)中都使用了翻轉(zhuǎn)測試。所有報(bào)告的數(shù)字均是使用單一模型而非模型組合獲得的。

????????表1總結(jié)了在COCO2017測試開發(fā)集上的結(jié)果。從結(jié)果中我們可以看出,使用HRNet本身已經(jīng)是底層方法的一個(gè)簡單且強(qiáng)大的基準(zhǔn)(64.1 AP)。本文的基準(zhǔn)方法僅使用單一尺度測試的HRNet表現(xiàn)優(yōu)于Hourglass[30]使用多尺度測試,而HRNet在參數(shù)和FLOPs方面的計(jì)算要比Hourglass少得多。然而配備輕量級(jí)反卷積模塊的HigherHRNet(66.4 AP)相比于HRNet有了+2.3 AP的提升,參數(shù)僅有輕微增加(+0.4%),F(xiàn)LOPs增加了23.1%。HigherHRNet可以與PersonLab的性能相媲美,但參數(shù)僅為其50%,F(xiàn)LOPs為其11%。如果我們進(jìn)一步使用多尺度測試,我們的HigherHRNet可以達(dá)到70.5 AP,在很大程度上優(yōu)于所有現(xiàn)有的底層方法。本文也沒有對(duì)計(jì)算結(jié)果使用像[3,30]中自上而下的方法進(jìn)行細(xì)化的后處理操作

crowdpose aph apm,深度學(xué)習(xí),計(jì)算機(jī)視覺,深度學(xué)習(xí),人工智能

????????表2列出了COCO2017測試開發(fā)集上的自下而上和自上而下的方法。HigherHRNet進(jìn)一步縮小了自下而上和自上而下方法之間的性能差距。

crowdpose aph apm,深度學(xué)習(xí),計(jì)算機(jī)視覺,深度學(xué)習(xí),人工智能

2. 消融實(shí)驗(yàn)

????????我們?cè)贑OCO2017[27]val數(shù)據(jù)集上進(jìn)行了大量消融實(shí)驗(yàn),以分析尺度感知高分辨率網(wǎng)絡(luò)(HigherHRNet)

(1)HRNet vs. HigherHRNet

????????作者對(duì)HRNet和HigherHRNet進(jìn)行了消融研究。他們首先將HRNet作為基線,使用特征步幅為4的底層基線達(dá)使AP值達(dá)到了64.4。然后,通過為HigherHRNet添加一個(gè)反卷積模塊,以特征步幅為2的方式,使AP值達(dá)到了66.9,相比HRNet提高了2.5個(gè)百分點(diǎn)。此外,提升主要來自對(duì)中等尺度人物的部分的改進(jìn),其中APM從HRNet的57.1提高到HigherHRNet的61.0。

????????研究結(jié)果表明,HigherHRNet在小尺度上的表現(xiàn)更好,這得益于其更高分辨率的熱圖。作者還發(fā)現(xiàn),大尺度人物姿勢的AP值沒有下降,這主要是因?yàn)樗麄冊(cè)陬A(yù)測中也使用了較小分辨率的熱圖,這表明了:1)在更高分辨率上進(jìn)行預(yù)測有利于底層姿勢估計(jì);2)尺度感知的預(yù)測是重要的。

crowdpose aph apm,深度學(xué)習(xí),計(jì)算機(jī)視覺,深度學(xué)習(xí),人工智能

????????在研究中,作者嘗試在HRNet后添加兩個(gè)反卷積模塊序列,以生成與輸入圖像相同分辨率的特征圖。然而,他們觀察到性能從僅添加一個(gè)反卷積模塊的66.9 AP下降到了66.5 AP。雖然中等人物的改進(jìn)微?。?0.1 AP),但大人物的性能下降很大(-0.8 AP)。作者推測這是因?yàn)樘卣鲌D尺度與對(duì)象尺度之間的錯(cuò)位。較高分辨率的特征圖(特征步幅=1)適合檢測更小人物的關(guān)鍵點(diǎn),但在COCO數(shù)據(jù)集中,小人物并不適用于姿勢估計(jì)。因此,建議在COCO數(shù)據(jù)集上默認(rèn)僅使用一個(gè)反卷積模塊。同時(shí),級(jí)聯(lián)反卷積模塊的數(shù)量應(yīng)該根據(jù)數(shù)據(jù)集而定。

(2)HigherHRNet gain breakdown.

????????為了更好地理解所提出各種組件的增益,作者對(duì)每個(gè)單獨(dú)的組件進(jìn)行了詳細(xì)的消融研究。

????????圖3展示了實(shí)驗(yàn)的所有架構(gòu),實(shí)驗(yàn)結(jié)果如表4所示。

crowdpose aph apm,深度學(xué)習(xí),計(jì)算機(jī)視覺,深度學(xué)習(xí),人工智能

crowdpose aph apm,深度學(xué)習(xí),計(jì)算機(jī)視覺,深度學(xué)習(xí),人工智能

????????反卷積模塊的影響(b):作者通過消融研究評(píng)估了添加反卷積模塊以生成更高分辨率熱圖的效果。他們僅使用最高分辨率的特征圖生成用于預(yù)測的熱圖,發(fā)現(xiàn)HRNet在基線上達(dá)到了64.4的AP。然而,通過添加一個(gè)反卷積模塊,模型的性能提高到了66.0的AP,比基線提高了1.6個(gè)百分點(diǎn)。這一改進(jìn)主要?dú)w因于在更大、更高質(zhì)量的特征圖上進(jìn)行預(yù)測。結(jié)果驗(yàn)證了預(yù)測在更高分辨率的特征圖上對(duì)底層姿勢估計(jì)的重要性。

????????特征串聯(lián)的影響(c):作者將來自HRNet的預(yù)測熱圖與特征圖串聯(lián)作為反卷積模塊的輸入,性能進(jìn)一步提高到了66.3的AP。并且還觀察到中等尺度人物的表現(xiàn)有了很大的提升,而大尺度人物的表現(xiàn)則下降了。將方法(a)和(c)進(jìn)行比較,預(yù)測更高分辨率熱圖的增益主要來自中等尺度人物(+3.7個(gè)APM)。此外,大人物的降低(-1.6個(gè)AP)證實(shí)了之前的說法,即不同分辨率的特征圖對(duì)不同尺度的人物敏感。

????????熱圖聚合的影響(d):使用熱圖聚合策略,對(duì)推理過程使用了所有分辨率的熱圖,相比僅使用最高分辨率熱圖,AP提高到了66.9。熱圖聚合的增益主要來自大尺度人物(+1.7個(gè)AP),其性能甚至略優(yōu)于在較低分辨率下進(jìn)行預(yù)測的情況,這表明熱圖聚合策略能夠真正實(shí)現(xiàn)尺度感知。

????????額外殘差塊的影響(e):在反卷積模塊中添加4個(gè)殘差塊,最佳模型的AP達(dá)到了67.1。添加殘差塊有助于進(jìn)一步優(yōu)化特征圖,并且對(duì)中等尺度人物和大尺度人物的AP都有提升。

(3)使用更大的圖像尺寸進(jìn)行訓(xùn)練

?????? 思考:使用更大的輸入尺寸是否可以進(jìn)一步提高性能?為了回答這個(gè)問題,作者使用640×640和768×768的尺寸訓(xùn)練HigherHRNet,訓(xùn)練結(jié)果如表5,所有三個(gè)模型都是使用訓(xùn)練圖像尺寸進(jìn)行測試的。結(jié)果發(fā)現(xiàn):通過使用640×640的圖像尺寸進(jìn)行訓(xùn)練,性能獲得了顯著的提升,提高了1.4個(gè)AP。這主要來自中等人的改善,但大人的性能略有下降。進(jìn)一步增加訓(xùn)練圖像尺寸到768×768后,整體AP沒有進(jìn)一步改變,但中等尺度人物有微小的改善,而大尺度人物的性能下降。

crowdpose aph apm,深度學(xué)習(xí),計(jì)算機(jī)視覺,深度學(xué)習(xí),人工智能

(4)更大的骨干網(wǎng)絡(luò)

?????? 在之前的實(shí)驗(yàn)中,作者使用HRNet-W32(1/4分辨率特征圖有32個(gè)通道)作為骨干網(wǎng)絡(luò),而后又嘗試使用更大的骨干網(wǎng)絡(luò)HRNet-W40和HRNet-W48,結(jié)果表明這些更大的骨干網(wǎng)絡(luò)在中等人和大人的性能上都有提升。結(jié)果見表6

crowdpose aph apm,深度學(xué)習(xí),計(jì)算機(jī)視覺,深度學(xué)習(xí),人工智能

3. CrowdPose

crowdpose aph apm,深度學(xué)習(xí),計(jì)算機(jī)視覺,深度學(xué)習(xí),人工智能

????????CrowdPose數(shù)據(jù)集包含20,000張圖像,約80,000個(gè)人物。訓(xùn)練、驗(yàn)證和測試子集的比例分別為5:1:4。與COCO關(guān)鍵點(diǎn)數(shù)據(jù)集相比,CrowdPose的場景更加擁擠,給姿勢估計(jì)方法帶來了更多挑戰(zhàn)。評(píng)估指標(biāo)與COCO相同。

????????自上而下方法的一個(gè)強(qiáng)假設(shè)是,每個(gè)人的檢測框僅包含一個(gè)位于中心的人,在擁擠場景中這個(gè)假設(shè)不再成立。如表7所示,在COCO上表現(xiàn)良好的自上而下的方法[16,15]在CrowdPose數(shù)據(jù)集上失敗。然而自下而上的方法在擁擠的場景中自然具有優(yōu)勢。

????????為了驗(yàn)證HigherHRNet在擁擠場景中的魯棒性,并為自下而上的方法建立強(qiáng)大的基線。作者在CrowdPose的訓(xùn)練集和驗(yàn)證集上訓(xùn)練了表現(xiàn)最佳的HigherHRNet-W48模型,并在測試集上報(bào)告了性能。所有訓(xùn)練參數(shù)與COCO相同,使用640×640的裁剪尺寸。

????????結(jié)果顯示,HigherHRNet在CrowdPose數(shù)據(jù)集上的性能顯著優(yōu)于傳統(tǒng)的自上而下的方法,并且提高了6.6個(gè)AP。HigherHRNet還優(yōu)于先前最佳方法,其性能提高了1.6個(gè)AP,大部分增益來自于包含最擁擠圖像的APM(+1.8AP)和APH(+1.5AP)。即使沒有進(jìn)行多尺度測試,HigherHRNet在APH上也比SPPE提高了0.5個(gè)AP。

七、結(jié)論

????????本文提出了一個(gè)尺度感知的高分辨率網(wǎng)絡(luò)(HigherHRNet),用于解決自下而上的多人姿勢估計(jì)問題中的尺度變化挑戰(zhàn),特別是對(duì)小人物的關(guān)鍵點(diǎn)進(jìn)行精確定位。本文發(fā)現(xiàn)多尺度圖像金字塔和更大的輸入尺寸在一定程度上可以解決這個(gè)問題,但這些方法存在高計(jì)算成本的問題。為了解決這個(gè)問題,本文提出了一種基于HRNet的高效高分辨率特征金字塔,并使用多分辨率監(jiān)督進(jìn)行訓(xùn)練。在推理過程中,使用多分辨率熱圖聚合的HigherHRNet能夠有效地生成多分辨率和更高分辨率的熱圖,從而實(shí)現(xiàn)更準(zhǔn)確的人體姿勢估計(jì)。HigherHRNet在具有挑戰(zhàn)性的COCO數(shù)據(jù)集上明顯優(yōu)于所有現(xiàn)有的底部方法,特別是對(duì)小尺度人物的情況。文章來源地址http://www.zghlxwxcb.cn/news/detail-849204.html

到了這里,關(guān)于論文閱讀-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文筆記:MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes

    論文筆記:MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes

    論文地址:MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes | IEEE Journals Magazine | IEEE Xploreb 該論文沒有公布源碼 廢話不多說,這篇文章就目前航天遙感所面對(duì)的挑戰(zhàn):場景和物體尺度的劇烈變化,提出了自己的模型。遙感圖像變化劇烈主要是因?yàn)楹脚慕嵌?、?/p>

    2024年02月04日
    瀏覽(21)
  • 【論文閱讀】Deep Graph Contrastive Representation Learning

    【論文閱讀】Deep Graph Contrastive Representation Learning

    作者:Yanqiao Zhu Yichen Xu 文章鏈接:Deep Graph Contrastive Representation Learning 代碼鏈接:Deep Graph Contrastive Representation Learning 現(xiàn)實(shí)世界中,圖的標(biāo)簽數(shù)量較少,盡管GNNs蓬勃發(fā)展,但是訓(xùn)練模型時(shí)標(biāo)簽的可用性問題也越來越受到關(guān)心。 傳統(tǒng)的無監(jiān)督圖表征學(xué)習(xí)方法,例如DeepWalk和nod

    2024年01月18日
    瀏覽(21)
  • 【論文閱讀筆記】4篇Disentangled representation learning用于圖像分割的論文

    【論文閱讀筆記】4篇Disentangled representation learning用于圖像分割的論文

    4篇應(yīng)用解耦表示學(xué)習(xí)的文章,這里只關(guān)注如何解耦,更多細(xì)節(jié)不關(guān)注,簡單記錄一下。 Chen C, Dou Q, Jin Y, et al. Robust multimodal brain tumor segmentation via feature disentanglement and gated fusion[C]//Medical Image Computing and Computer Assisted Intervention–MICCAI 2019: 22nd International Conference, Shenzhen, China, O

    2024年01月17日
    瀏覽(37)
  • 【論文閱讀筆記】 Representation Learning with Contrastive Predictive Coding

    【論文閱讀筆記】 Representation Learning with Contrastive Predictive Coding

    這段文字是論文的摘要,作者討論了監(jiān)督學(xué)習(xí)在許多應(yīng)用中取得的巨大進(jìn)展,然而無監(jiān)督學(xué)習(xí)并沒有得到如此廣泛的應(yīng)用,仍然是人工智能中一個(gè)重要且具有挑戰(zhàn)性的任務(wù)。在這項(xiàng)工作中,作者提出了一種通用的無監(jiān)督學(xué)習(xí)方法,用于從高維數(shù)據(jù)中提取有用的表示,被稱為“

    2024年01月25日
    瀏覽(26)
  • 論文閱讀:Rethinking Range View Representation for LiDAR Segmentation

    論文閱讀:Rethinking Range View Representation for LiDAR Segmentation

    來源ICCV2023 LiDAR分割對(duì)于自動(dòng)駕駛感知至關(guān)重要。最近的趨勢有利于基于點(diǎn)或體素的方法,因?yàn)樗鼈兺ǔ.a(chǎn)生比傳統(tǒng)的距離視圖表示更好的性能。在這項(xiàng)工作中,我們揭示了建立強(qiáng)大的距離視圖模型的幾個(gè)關(guān)鍵因素。我們觀察到, “多對(duì)一”的映射 , 語義不連貫性 , 形狀變

    2024年02月02日
    瀏覽(23)
  • 論文閱讀 (94):Substructure Aware Graph Neural Networks (SAGNN, AAAI2023)

    論文閱讀 (94):Substructure Aware Graph Neural Networks (SAGNN, AAAI2023)

    題目 : 子結(jié)構(gòu)感知圖神經(jīng)網(wǎng)絡(luò) (Substructure aware graph neural networks, SAGNN) 背景 :盡管圖神經(jīng)網(wǎng)絡(luò) (GNN) 在圖學(xué)習(xí)方面取得了巨大成就,但由于GNN的傳播范式與一階Weisfeiler-Leman圖同構(gòu)測試算法 (1-WL) 的一致性,導(dǎo)致其難以突破1-WL表達(dá)能力的上限。 思路 :通過子圖更容易區(qū)分原始圖

    2024年02月12日
    瀏覽(20)
  • Object Class Aware Video Anomaly Detection through Image Translation 論文閱讀

    Object Class Aware Video Anomaly Detection through Image Translation 論文閱讀

    文章信息: 原文鏈接:https://arxiv.org/abs/2205.01706 源代碼:無 發(fā)表于:CRV 2022 半監(jiān)督視頻異常檢測(VAD)方法將異常檢測任務(wù)表述為對(duì)學(xué)習(xí)到的正常模式的偏離進(jìn)行檢測。 該領(lǐng)域中的先前工作(基于重建或預(yù)測的方法)存在兩個(gè)缺點(diǎn) : 1)它們專注于低級(jí)特征,特別是整體方

    2024年01月23日
    瀏覽(17)
  • Exploiting Proximity-Aware Tasks for Embodied Social Navigation 論文閱讀

    Exploiting Proximity-Aware Tasks for Embodied Social Navigation 論文閱讀

    題目 :Exploiting Proximity-Aware Tasks for Embodied Social Navigation 作者 :Enrico Cancelli, Tommaso Campari 來源 :arXiv 時(shí)間 :2023 學(xué)習(xí)如何在封閉且空間受限的室內(nèi)環(huán)境中在人類之間導(dǎo)航,是體現(xiàn)主體融入我們社會(huì)所需的關(guān)鍵能力。 在本文中,我們提出了一種端到端架構(gòu),該架構(gòu)利用鄰近感

    2024年02月12日
    瀏覽(15)
  • 【論文閱讀筆記】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING

    ?本文提出了一種自監(jiān)督框架,名為“時(shí)間鄰域編碼”(Temporal Neighborhood Coding,TNC),用于學(xué)習(xí)非平穩(wěn)時(shí)間序列的可泛化表示。該方法利用信號(hào)生成過程的局部平滑性來定義具有平穩(wěn)性質(zhì)的時(shí)間鄰域。通過使用去偏差對(duì)比目標(biāo),該框架通過確保在編碼空間中,來自鄰域內(nèi)的信

    2024年02月21日
    瀏覽(21)
  • 論文閱讀——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    論文閱讀——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    原文鏈接: 2022 CVPR 2022 MAT: Mask-Aware Transformer for Large Hole Image Inpainting? [pdf] ? [code] 本文創(chuàng)新點(diǎn): 開發(fā)了一種新穎的修復(fù)框架 MAT,是第一個(gè)能夠直接處理高分辨率圖像的基于 transformer 的修復(fù)系統(tǒng)。 提出了一種新的多頭自注意力 (MSA) 變體,稱為多頭上下文注意力 (MCA),只使用

    2024年02月08日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包