論文鏈接:3D Human Pose Estimation with Spatial and Temporal Transformers
論文代碼:https://github.com/zczcwh/PoseFormer
論文出處:2021 ICCV
論文單位:University of Central Florida, USA文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-761587.html
摘要
- Transformer架構(gòu)已經(jīng)成為自然語(yǔ)言處理中的首選模型,現(xiàn)在正被引入到計(jì)算機(jī)視覺(jué)任務(wù)中,例如圖像分類、對(duì)象檢測(cè)和語(yǔ)義分割。
- 然而,在人體姿態(tài)估計(jì)領(lǐng)域,卷積架構(gòu)仍然占主導(dǎo)地位。
- 在這項(xiàng)工作中,我們呈現(xiàn)PoseFormer,一種純粹基于Transformer的方法,用于視頻中的3D人體姿勢(shì)估計(jì),不涉及卷積架構(gòu)。
- 受視覺(jué)Transformer最新發(fā)展的啟發(fā),我們?cè)O(shè)計(jì)了一個(gè)時(shí)空Transformer結(jié)構(gòu),以全面建模每幀內(nèi)的人體關(guān)節(jié)關(guān)系以及幀間的時(shí)間相關(guān)性,然后輸出中心幀的精確三維人體姿態(tài)。
- 我們?cè)趦蓚€(gè)流行的和標(biāo)準(zhǔn)的基準(zhǔn)數(shù)據(jù)集:Human3.6M和MPI-INF-3DHP上定量和定性地評(píng)估了我們的方法。大量的實(shí)驗(yàn)表明,PoseFormer在兩個(gè)數(shù)據(jù)集上都達(dá)到了最先進(jìn)的性能。
1. 簡(jiǎn)介
- 人體姿態(tài)估計(jì)(HPE) 旨在從圖像和視頻等輸入數(shù)據(jù)中定位關(guān)節(jié)并構(gòu)建身體表示(例如骨骼位置)。
- HPE提供人體的幾何和運(yùn)動(dòng)信息,可以應(yīng)用于廣泛的應(yīng)用(如人機(jī)交互,運(yùn)動(dòng)分析,醫(yī)療保健)。
- 目前的工作大致可以分為兩類: (1)直接估算方法,(2)2D-to-3D提升方法。
- 直接估計(jì)方法從2D圖像或視頻幀中推斷出3D人體姿勢(shì),而無(wú)需中間估計(jì)2D姿勢(shì)表示。
- 2D-to-3D提升方法從中間估計(jì)的2D姿勢(shì)推斷出3D人體姿勢(shì)。
- 得益于最先進(jìn)的2D姿態(tài)檢測(cè)器的優(yōu)異性能,2D-to-3D提升方法通常優(yōu)于直接估計(jì)方法。
- 然而,這些2D姿勢(shì)到3D的映射是non-trivial; 由于深度模糊和遮擋,相同的2D姿態(tài)可以生成各種潛在的3D姿態(tài)。
- 為了緩解這些問(wèn)題并保持自然的連貫性,許多最近的作品將來(lái)自視頻的時(shí)間信息整合到他們的方法中。然而,基于cnn的方法通常依賴于固有的有限時(shí)間連通性的擴(kuò)張技術(shù),而循環(huán)網(wǎng)絡(luò)主要受限于簡(jiǎn)單的順序相關(guān)性。
- 最近,Transformer 由于其效率、可擴(kuò)展性和強(qiáng)大的建模能力,已經(jīng)成為自然語(yǔ)言處理(NLP)事實(shí)上的模型。由于Transformer 的self-attention 機(jī)制,可以清楚地捕獲跨長(zhǎng)輸入序列的全局相關(guān)性。這使得它特別適合序列數(shù)據(jù)問(wèn)題的架構(gòu),因此可以自然地?cái)U(kuò)展到3D HPE。
- 憑借其全面的連通性和表達(dá),Transformer 提供了一個(gè)跨幀學(xué)習(xí)更強(qiáng)的時(shí)間表示的機(jī)會(huì)。
- 然而,最近的研究表明,Transformer 需要特定的設(shè)計(jì)才能在視覺(jué)任務(wù)中達(dá)到與CNN同類產(chǎn)品相當(dāng)?shù)男阅?。具體來(lái)說(shuō),它們通常需要非常大規(guī)模的訓(xùn)練數(shù)據(jù)集,或者如果應(yīng)用于較小的數(shù)據(jù)集,則增強(qiáng)數(shù)據(jù)增強(qiáng)和正則化。
- 此外,現(xiàn)有的視覺(jué)變壓器主要局限于圖像分類、目標(biāo)檢測(cè)和分割,但如何利用變壓器的力量進(jìn)行3D HPE仍然不清楚。
- 為了回答這個(gè)問(wèn)題,我們首先將變壓器直接應(yīng)用于2D-to-3D lifting HPE。在這種情況下,我們將給定序列中每幀的整個(gè)2D姿態(tài)視為一個(gè)標(biāo)記( token)(圖1(a))。 雖然這種基線方法在一定程度上是有效的,但它忽略了空間關(guān)系(關(guān)節(jié)對(duì)關(guān)節(jié))的自然區(qū)別。
- 對(duì)該基線的自然擴(kuò)展是將每個(gè)2D關(guān)節(jié)坐標(biāo)視為一個(gè)token,提供由序列所有幀中的這些關(guān)節(jié)組成的輸入(圖1(b))。然而,在這種情況下,當(dāng)使用長(zhǎng)幀序列時(shí),token的數(shù)量變得越來(lái)越大(在3D HPE中,每幀最多243幀,17個(gè)關(guān)節(jié)是常見(jiàn)的,token的數(shù)量將為243×17=4131)。由于Transformer計(jì)算每個(gè)token對(duì)另一個(gè)token的直接關(guān)注,因此模型的內(nèi)存需求接近不合理的水平。
- 因此,作為應(yīng)對(duì)這些挑戰(zhàn)的有效解決方案,我們提出了PoseFormer,這是第一個(gè)用于視頻中2d到3d提升HPE的純Transformer網(wǎng)絡(luò)。
- PoseFormer使用兩個(gè)維度的不同Transformer模塊直接對(duì)空間和時(shí)間方面進(jìn)行建模。
- PoseFormer不僅在空間和時(shí)間元素之間產(chǎn)生強(qiáng)大的表示,而且不會(huì)對(duì)長(zhǎng)輸入序列產(chǎn)生大量的token計(jì)數(shù)。
- 在高層次上,PoseFormer只是從現(xiàn)成的2D姿態(tài)估計(jì)器中提取一系列檢測(cè)到的2D姿態(tài),并輸出中心幀的3D姿態(tài)。
- 更具體地說(shuō),我們建立了一個(gè)空間Transformer模塊來(lái)編碼每個(gè)幀中二維關(guān)節(jié)之間的局部關(guān)系。 空間self-attention層考慮二維關(guān)節(jié)的位置信息,并返回該幀的潛在特征表示。接下來(lái),我們的時(shí)間Transformer模塊分析每個(gè)空間特征表示之間的全局依賴關(guān)系,并生成準(zhǔn)確的3D姿態(tài)估計(jì)。
- 在兩種流行的3D HPE基準(zhǔn)(Human3.6M和MPI-INF-3DHP)上的實(shí)驗(yàn)評(píng)估表明,PoseFormer在這兩個(gè)數(shù)據(jù)集上都達(dá)到了最先進(jìn)的性能。我們將我們估計(jì)的3D姿態(tài)與SOAT方法進(jìn)行比較,并發(fā)現(xiàn)
PoseFormer產(chǎn)生更平滑、更可靠的結(jié)果。此外,消融研究中還提供了PoseFormer注意力圖的可視化和分析,以了解模型的內(nèi)部工作原理并證明其有效性。 -
我們的貢獻(xiàn)有三方面:
(1)我們提出了第一個(gè)純基于Transformer的模型PoseFormer,用于3D HPE的2d到3D lifting。
(2)我們?cè)O(shè)計(jì)了一個(gè)有效的時(shí)空Transformer模型,其中空間Transformer模塊編碼人體關(guān)節(jié)之間的局部關(guān)系,而時(shí)間Transformer模塊捕獲整個(gè)序列中跨幀的全局依賴關(guān)系。
(3)我們的PoseFormer模型在Human3.6M和MPI-INF-3DHP數(shù)據(jù)集上取得了SOAT效果。
2. Related Works
- 在這里,我們具體總結(jié)了3D單人單視圖HPE方法。
- 直接估計(jì)方法: 從二維圖像中推斷三維人體姿態(tài),而不需要中間估計(jì)二維姿態(tài)表示。
- 2D-to-3D lifting 方法: 利用2D姿態(tài)作為輸入來(lái)生成相應(yīng)的3D姿態(tài),這在該領(lǐng)域的最新方法中較為流行。任何現(xiàn)成的2D姿態(tài)估計(jì)器都可以有效地與這些方法兼容。
2.1 2D-to-3D Lifting HPE
- 2D到3d提升方法利用從輸入圖像或視頻幀估計(jì)的2D姿勢(shì)。
- OpenPose、CPN、AlphaPose和HRNet被廣泛用作2D姿態(tài)檢測(cè)器。
- 基于這種中間表示,可以使用多種方法生成3D姿態(tài)。
- 然而,以前最先進(jìn)的方法依賴于擴(kuò)展的時(shí)間卷積(dilated temporal convolutions)來(lái)捕獲全局依賴關(guān)系,這在時(shí)間連接上是有限的。
- 此外,這些工作中的大多數(shù)使用簡(jiǎn)單的操作將關(guān)節(jié)坐標(biāo)投影到潛在空間,而沒(méi)有考慮人體關(guān)節(jié)的運(yùn)動(dòng)學(xué)相關(guān)性。
2.2 GNNs in 3D HPE
- 自然地,人體姿勢(shì)可以表示為一個(gè)graph,其中關(guān)節(jié)是nodes ,骨骼是 edges。
- 圖神經(jīng)網(wǎng)絡(luò)(GNNs)也被應(yīng)用于 2D-to-3D pose lifting 問(wèn)題,并提供了很好的表現(xiàn)。
- 對(duì)于我們的PoseFormer,transformer可以被視為一種具有獨(dú)特且通常有利的圖操作的GNN。
- 具體來(lái)說(shuō),一個(gè)transformer編碼器模塊本質(zhì)上形成了一個(gè)全連接圖,其中邊緣權(quán)重是使用輸入條件,多頭self-attention計(jì)算的。
- 該操作還包括節(jié)點(diǎn)特征的規(guī)范化,跨注意頭輸出的前饋聚合器,以及使其能夠有效地?cái)U(kuò)展堆疊層的剩余連接。
- 與其他圖操作相比,這樣的操作是有利的。例如,節(jié)點(diǎn)之間連接的強(qiáng)度由transformer的self-attention機(jī)制決定,而不是像典型的那樣通過(guò)鄰接矩陣預(yù)定義。
- 本任務(wù)中使用的基于gcn的配方。 這使得模型能夠靈活地根據(jù)每個(gè)輸入姿勢(shì)調(diào)整關(guān)節(jié)的相對(duì)重要性。
- 此外,transformer的綜合縮放和歸一化組件可能有利于減輕當(dāng)多層堆疊在一起時(shí)困擾許多GNN操作變體的過(guò)度平滑效應(yīng)。
2.3 Vision Transformers
- 最近,有一個(gè)新興的興趣將 Transformer 應(yīng)用于視覺(jué)任務(wù)。
- DEtection TRansformer (DETR) 用于目標(biāo)檢測(cè)與全景分割。
- Vision Transformer (ViT) ,純Transformer 構(gòu)架,在圖像分類方面達(dá)到了SOAT的性能。
- Transpose,基于Transformer 構(gòu)架,從圖像中估計(jì)3D姿態(tài)。
- MEsh TRansfOrmer,將cnn與Transformer 網(wǎng)絡(luò)結(jié)合起來(lái),從單個(gè)圖像重建3D pose 和 mesh vertices。
- 本文方法的時(shí)空Transformer 架構(gòu)利用了每幀中的關(guān)鍵點(diǎn)相關(guān)性,并保留了視頻中的自然時(shí)間一致性。
3. Method
- Pipeline:通過(guò)現(xiàn)成的2D姿態(tài)檢測(cè)器獲得每幀的2D姿態(tài),使用連續(xù)幀的二維姿態(tài)序列作為輸入,估計(jì)中心幀的三維姿態(tài)。
3.1 Temporal Transformer Baseline
- 作為 2D-to-3D lifting 的基線應(yīng)用,我們將每個(gè)2D姿態(tài)視為輸入token,并使用Transformer 來(lái)捕獲輸入之間的全局依賴關(guān)系,如圖2(a)所示。
- 我們將把每個(gè)輸入token稱為一個(gè)patch,在術(shù)語(yǔ)上類似于ViT.
- 對(duì)于輸入序列X∈R^(f×(J·2)),f 為輸入序列的幀數(shù),J為每幀的關(guān)節(jié)數(shù)2D位姿,2表示關(guān)節(jié)在2D空間中的坐標(biāo)。
- patch embedding 是一個(gè)可訓(xùn)練的線性投影層,將每個(gè)patch 嵌入到高維特征中。
- Transformer 網(wǎng)絡(luò)利用位置嵌入來(lái)保留序列的位置信息。
- self-attention是Transformer 的核心功能,它將輸入序列的不同位置與嵌入特征聯(lián)系起來(lái)。
- 我們的Transformer 編碼器由多頭自注意塊和多層感知器(MLP)塊組成。LayerNorm在每個(gè)塊之前應(yīng)用,剩余連接在每個(gè)塊之后應(yīng)用。
- 為了預(yù)測(cè)中心幀的三維姿態(tài),編碼器輸出Y∈Rf×C通過(guò)在幀維中取平均值,收縮為向量y∈R1×C。最后,一個(gè)MLP塊將輸出回歸到 y∈R1×(J*3),即中心框架的3D姿態(tài)。
3.2 PoseFormer: Spatial-Temporal Transformer
- 我們觀察到,時(shí)間Transformer基線主要關(guān)注輸入序列中幀之間的全局依賴關(guān)系。利用線性變換patch embedding將關(guān)節(jié)坐標(biāo)投影到隱維上。
- 然而,由于簡(jiǎn)單的線性投影層無(wú)法學(xué)習(xí)到attention信息,局部關(guān)節(jié)坐標(biāo)之間的運(yùn)動(dòng)信息在時(shí)序Transformer基線中沒(méi)有得到強(qiáng)有力的表示。
- 一個(gè)潛在的解決方案是將每個(gè)關(guān)節(jié)坐標(biāo)視為一個(gè)單獨(dú)的patch,并將所有幀的關(guān)節(jié)作為輸入饋送到Transformer(見(jiàn)圖1(b))。
- 然而,patch的數(shù)量會(huì)迅速增加(幀數(shù) f 乘以關(guān)節(jié)數(shù) J),導(dǎo)致模型的計(jì)算復(fù)雜度為O((f·J)2)。
- 為了有效地學(xué)習(xí)局部聯(lián)合相關(guān)性,我們分別對(duì)空間和時(shí)間信息使用了兩個(gè)分離的Transformer。
- 如圖2(b)所示,PoseFormer由三個(gè)模塊組成: spatial transformer module, temporal transformer module, and regression head module。
Spatial Transformer Module
- Spatial Transformer Module是從單個(gè)幀中提取高維特征嵌入。給定一個(gè)具有 J 個(gè)關(guān)節(jié)的二維姿態(tài),我們將每個(gè)關(guān)節(jié)(即兩個(gè)坐標(biāo))視為一個(gè)patch,并按照通用視覺(jué)變換pipeline在所有patch之間進(jìn)行特征提取。
- 首先,我們用可訓(xùn)練的線性投影將每個(gè)關(guān)節(jié)的坐標(biāo)映射到高維空間,這被稱為spatial patch embedding。
Temporal Transformer Module
- 由于Spatial Transformer Module為每個(gè)單獨(dú)的幀編碼高維特征,因此Temporal Transformer Module的目標(biāo)是跨幀序列建模依賴關(guān)系。
- 在Temporal Transformer Module之前,我們加入了可學(xué)習(xí)的時(shí)序位置嵌入來(lái)保留幀的位置信息。
- 對(duì)于Temporal Transformer Module編碼器,我們采用與Spatial Transformer Module編碼器相同的架構(gòu),該架構(gòu)由多頭self-attention塊和MLP塊組成。
- 時(shí)序變壓器模塊的輸出為 Y∈Rf*(J*c)。
Regression Head
- 由于我們使用一組幀序列來(lái)預(yù)測(cè)中心幀的三維姿態(tài),因此Temporal Transformer Module Y∈Rf*(J·c)的輸出需要簡(jiǎn)化為 y∈R1*(J·c)。
- 我們?cè)趲S度上應(yīng)用加權(quán)平均操作(使用學(xué)習(xí)到的權(quán)重)來(lái)實(shí)現(xiàn)這一點(diǎn)。
- 最后,一個(gè)具有Layer范數(shù)和一個(gè)線性層的簡(jiǎn)單MLP塊返回輸出 y∈R1*(J·3),這是中心幀的預(yù)測(cè)三維姿態(tài)。
Loss Function
- 為了訓(xùn)練我們的時(shí)空轉(zhuǎn)換模型,我們使用了標(biāo)準(zhǔn)的MPJPE (Mean Per Joint Position Error)損失以最小化預(yù)測(cè)值與ground truth姿態(tài)之間的誤差為
4. 數(shù)據(jù)集
4.1 Human3.6M
- Human3.6M是3D單人HPE使用最廣泛的室內(nèi)數(shù)據(jù)集。
- 由11名專業(yè)演員表演坐、走、打電話等17種動(dòng)作。
- 每個(gè)受試者在室內(nèi)環(huán)境中從4個(gè)不同的角度拍攝視頻。
- 該數(shù)據(jù)集包含360萬(wàn)視頻幀,其中包含基于精確標(biāo)記的動(dòng)作捕捉系統(tǒng)捕獲的3D地面真相注釋。
- 根據(jù)之前的工作,我們采用相同的實(shí)驗(yàn)設(shè)置: 所有15個(gè)動(dòng)作都用于訓(xùn)練和測(cè)試,模型訓(xùn)練在5個(gè)sections(S1, S5,S6, S7, S8)和測(cè)試在 2個(gè)sections(S9和S11)。
4.2 MPI-INF-3DHP
- MPI-INF-3DHP是一個(gè)更具挑戰(zhàn)性的三維姿態(tài)數(shù)據(jù)集。
- 它既包含受限的室內(nèi)場(chǎng)景,也包含復(fù)雜的室外場(chǎng)景。
- 有8個(gè)演員表演8個(gè)動(dòng)作,從14個(gè)攝像機(jī)視圖,涵蓋了更大的多樣性的姿勢(shì)。
- MPI-INF-3DHP提供了6個(gè)不同場(chǎng)景的測(cè)試集。
5. 評(píng)測(cè)指標(biāo)
- MPJPE :Mean Per Joint Position Error,平均每個(gè)關(guān)節(jié)位置誤差,估計(jì)關(guān)節(jié)與地面真值之間的平均歐幾里得距離,單位為毫米。
- P-MPJPE: P-MPJPE是估計(jì)的三維姿態(tài)與ground truth經(jīng)過(guò)后處理后的剛性對(duì)準(zhǔn)后的MPJPE,對(duì)單個(gè)關(guān)節(jié)預(yù)測(cè)失敗具有更強(qiáng)的魯棒性。
- PCK:Percentage of Correct Keypoint,在150mm范圍內(nèi)的正確關(guān)節(jié)點(diǎn)的百分比。
- AUC:Area Under Curve,曲線下面積。
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-761587.html
到了這里,關(guān)于PoseFormer:基于視頻的2D-to-3D單人姿態(tài)估計(jì)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!