PoseFormer：基于視頻的2D-to-3D單人姿態(tài)估計(jì)

這篇具有很好參考價(jià)值的文章主要介紹了PoseFormer：基于視頻的2D-to-3D單人姿態(tài)估計(jì)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

論文鏈接：3D Human Pose Estimation with Spatial and Temporal Transformers
論文代碼：https://github.com/zczcwh/PoseFormer
論文出處：2021 ICCV
論文單位：University of Central Florida, USA文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-761587.html

摘要

Transformer架構(gòu)已經(jīng)成為自然語(yǔ)言處理中的首選模型，現(xiàn)在正被引入到計(jì)算機(jī)視覺(jué)任務(wù)中，例如圖像分類、對(duì)象檢測(cè)和語(yǔ)義分割。
然而，在人體姿態(tài)估計(jì)領(lǐng)域，卷積架構(gòu)仍然占主導(dǎo)地位。
在這項(xiàng)工作中，我們呈現(xiàn)PoseFormer，一種純粹基于Transformer的方法，用于視頻中的3D人體姿勢(shì)估計(jì)，不涉及卷積架構(gòu)。
受視覺(jué)Transformer最新發(fā)展的啟發(fā)，我們?cè)O(shè)計(jì)了一個(gè)時(shí)空Transformer結(jié)構(gòu)，以全面建模每幀內(nèi)的人體關(guān)節(jié)關(guān)系以及幀間的時(shí)間相關(guān)性，然后輸出中心幀的精確三維人體姿態(tài)。
我們?cè)趦蓚€(gè)流行的和標(biāo)準(zhǔn)的基準(zhǔn)數(shù)據(jù)集:Human3.6M和MPI-INF-3DHP上定量和定性地評(píng)估了我們的方法。大量的實(shí)驗(yàn)表明，PoseFormer在兩個(gè)數(shù)據(jù)集上都達(dá)到了最先進(jìn)的性能。

1. 簡(jiǎn)介

人體姿態(tài)估計(jì)(HPE) 旨在從圖像和視頻等輸入數(shù)據(jù)中定位關(guān)節(jié)并構(gòu)建身體表示(例如骨骼位置)。
HPE提供人體的幾何和運(yùn)動(dòng)信息，可以應(yīng)用于廣泛的應(yīng)用(如人機(jī)交互，運(yùn)動(dòng)分析，醫(yī)療保健)。
目前的工作大致可以分為兩類: (1)直接估算方法，(2)2D-to-3D提升方法。
直接估計(jì)方法從2D圖像或視頻幀中推斷出3D人體姿勢(shì)，而無(wú)需中間估計(jì)2D姿勢(shì)表示。
2D-to-3D提升方法從中間估計(jì)的2D姿勢(shì)推斷出3D人體姿勢(shì)。
得益于最先進(jìn)的2D姿態(tài)檢測(cè)器的優(yōu)異性能，2D-to-3D提升方法通常優(yōu)于直接估計(jì)方法。
然而，這些2D姿勢(shì)到3D的映射是non-trivial; 由于深度模糊和遮擋，相同的2D姿態(tài)可以生成各種潛在的3D姿態(tài)。
為了緩解這些問(wèn)題并保持自然的連貫性，許多最近的作品將來(lái)自視頻的時(shí)間信息整合到他們的方法中。然而，基于cnn的方法通常依賴于固有的有限時(shí)間連通性的擴(kuò)張技術(shù)，而循環(huán)網(wǎng)絡(luò)主要受限于簡(jiǎn)單的順序相關(guān)性。
最近，Transformer 由于其效率、可擴(kuò)展性和強(qiáng)大的建模能力，已經(jīng)成為自然語(yǔ)言處理(NLP)事實(shí)上的模型。由于Transformer 的self-attention 機(jī)制，可以清楚地捕獲跨長(zhǎng)輸入序列的全局相關(guān)性。這使得它特別適合序列數(shù)據(jù)問(wèn)題的架構(gòu)，因此可以自然地?cái)U(kuò)展到3D HPE。
憑借其全面的連通性和表達(dá)，Transformer 提供了一個(gè)跨幀學(xué)習(xí)更強(qiáng)的時(shí)間表示的機(jī)會(huì)。
然而，最近的研究表明，Transformer 需要特定的設(shè)計(jì)才能在視覺(jué)任務(wù)中達(dá)到與CNN同類產(chǎn)品相當(dāng)?shù)男阅?。具體來(lái)說(shuō)，它們通常需要非常大規(guī)模的訓(xùn)練數(shù)據(jù)集，或者如果應(yīng)用于較小的數(shù)據(jù)集，則增強(qiáng)數(shù)據(jù)增強(qiáng)和正則化。
此外，現(xiàn)有的視覺(jué)變壓器主要局限于圖像分類、目標(biāo)檢測(cè)和分割，但如何利用變壓器的力量進(jìn)行3D HPE仍然不清楚。
為了回答這個(gè)問(wèn)題，我們首先將變壓器直接應(yīng)用于2D-to-3D lifting HPE。在這種情況下，我們將給定序列中每幀的整個(gè)2D姿態(tài)視為一個(gè)標(biāo)記（ token）(圖1(a))。雖然這種基線方法在一定程度上是有效的，但它忽略了空間關(guān)系(關(guān)節(jié)對(duì)關(guān)節(jié))的自然區(qū)別。
對(duì)該基線的自然擴(kuò)展是將每個(gè)2D關(guān)節(jié)坐標(biāo)視為一個(gè)token，提供由序列所有幀中的這些關(guān)節(jié)組成的輸入(圖1(b))。然而，在這種情況下，當(dāng)使用長(zhǎng)幀序列時(shí)，token的數(shù)量變得越來(lái)越大(在3D HPE中，每幀最多243幀，17個(gè)關(guān)節(jié)是常見(jiàn)的，token的數(shù)量將為243×17=4131)。由于Transformer計(jì)算每個(gè)token對(duì)另一個(gè)token的直接關(guān)注，因此模型的內(nèi)存需求接近不合理的水平。
因此，作為應(yīng)對(duì)這些挑戰(zhàn)的有效解決方案，我們提出了PoseFormer，這是第一個(gè)用于視頻中2d到3d提升HPE的純Transformer網(wǎng)絡(luò)。
PoseFormer使用兩個(gè)維度的不同Transformer模塊直接對(duì)空間和時(shí)間方面進(jìn)行建模。
PoseFormer不僅在空間和時(shí)間元素之間產(chǎn)生強(qiáng)大的表示，而且不會(huì)對(duì)長(zhǎng)輸入序列產(chǎn)生大量的token計(jì)數(shù)。
在高層次上，PoseFormer只是從現(xiàn)成的2D姿態(tài)估計(jì)器中提取一系列檢測(cè)到的2D姿態(tài)，并輸出中心幀的3D姿態(tài)。
更具體地說(shuō)，我們建立了一個(gè)空間Transformer模塊來(lái)編碼每個(gè)幀中二維關(guān)節(jié)之間的局部關(guān)系。 空間self-attention層考慮二維關(guān)節(jié)的位置信息，并返回該幀的潛在特征表示。接下來(lái)，我們的時(shí)間Transformer模塊分析每個(gè)空間特征表示之間的全局依賴關(guān)系，并生成準(zhǔn)確的3D姿態(tài)估計(jì)。
在兩種流行的3D HPE基準(zhǔn)(Human3.6M和MPI-INF-3DHP)上的實(shí)驗(yàn)評(píng)估表明，PoseFormer在這兩個(gè)數(shù)據(jù)集上都達(dá)到了最先進(jìn)的性能。我們將我們估計(jì)的3D姿態(tài)與SOAT方法進(jìn)行比較，并發(fā)現(xiàn)
PoseFormer產(chǎn)生更平滑、更可靠的結(jié)果。此外，消融研究中還提供了PoseFormer注意力圖的可視化和分析，以了解模型的內(nèi)部工作原理并證明其有效性。
我們的貢獻(xiàn)有三方面：
（1）我們提出了第一個(gè)純基于Transformer的模型PoseFormer，用于3D HPE的2d到3D lifting。
（2）我們?cè)O(shè)計(jì)了一個(gè)有效的時(shí)空Transformer模型，其中空間Transformer模塊編碼人體關(guān)節(jié)之間的局部關(guān)系，而時(shí)間Transformer模塊捕獲整個(gè)序列中跨幀的全局依賴關(guān)系。
（3）我們的PoseFormer模型在Human3.6M和MPI-INF-3DHP數(shù)據(jù)集上取得了SOAT效果。

2. Related Works

在這里，我們具體總結(jié)了3D單人單視圖HPE方法。
直接估計(jì)方法: 從二維圖像中推斷三維人體姿態(tài)，而不需要中間估計(jì)二維姿態(tài)表示。
2D-to-3D lifting 方法: 利用2D姿態(tài)作為輸入來(lái)生成相應(yīng)的3D姿態(tài)，這在該領(lǐng)域的最新方法中較為流行。任何現(xiàn)成的2D姿態(tài)估計(jì)器都可以有效地與這些方法兼容。

2.1 2D-to-3D Lifting HPE

2D到3d提升方法利用從輸入圖像或視頻幀估計(jì)的2D姿勢(shì)。
OpenPose、CPN、AlphaPose和HRNet被廣泛用作2D姿態(tài)檢測(cè)器。
基于這種中間表示，可以使用多種方法生成3D姿態(tài)。
然而，以前最先進(jìn)的方法依賴于擴(kuò)展的時(shí)間卷積（dilated temporal convolutions）來(lái)捕獲全局依賴關(guān)系，這在時(shí)間連接上是有限的。
此外，這些工作中的大多數(shù)使用簡(jiǎn)單的操作將關(guān)節(jié)坐標(biāo)投影到潛在空間，而沒(méi)有考慮人體關(guān)節(jié)的運(yùn)動(dòng)學(xué)相關(guān)性。

2.2 GNNs in 3D HPE

自然地，人體姿勢(shì)可以表示為一個(gè)graph，其中關(guān)節(jié)是nodes ，骨骼是 edges。
圖神經(jīng)網(wǎng)絡(luò)(GNNs)也被應(yīng)用于 2D-to-3D pose lifting 問(wèn)題，并提供了很好的表現(xiàn)。
對(duì)于我們的PoseFormer，transformer可以被視為一種具有獨(dú)特且通常有利的圖操作的GNN。
具體來(lái)說(shuō)，一個(gè)transformer編碼器模塊本質(zhì)上形成了一個(gè)全連接圖，其中邊緣權(quán)重是使用輸入條件，多頭self-attention計(jì)算的。
該操作還包括節(jié)點(diǎn)特征的規(guī)范化，跨注意頭輸出的前饋聚合器，以及使其能夠有效地?cái)U(kuò)展堆疊層的剩余連接。
與其他圖操作相比，這樣的操作是有利的。例如，節(jié)點(diǎn)之間連接的強(qiáng)度由transformer的self-attention機(jī)制決定，而不是像典型的那樣通過(guò)鄰接矩陣預(yù)定義。
本任務(wù)中使用的基于gcn的配方。 這使得模型能夠靈活地根據(jù)每個(gè)輸入姿勢(shì)調(diào)整關(guān)節(jié)的相對(duì)重要性。
此外，transformer的綜合縮放和歸一化組件可能有利于減輕當(dāng)多層堆疊在一起時(shí)困擾許多GNN操作變體的過(guò)度平滑效應(yīng)。

2.3 Vision Transformers

最近，有一個(gè)新興的興趣將 Transformer 應(yīng)用于視覺(jué)任務(wù)。
DEtection TRansformer (DETR) 用于目標(biāo)檢測(cè)與全景分割。
Vision Transformer (ViT) ，純Transformer 構(gòu)架，在圖像分類方面達(dá)到了SOAT的性能。
Transpose，基于Transformer 構(gòu)架，從圖像中估計(jì)3D姿態(tài)。
MEsh TRansfOrmer，將cnn與Transformer 網(wǎng)絡(luò)結(jié)合起來(lái)，從單個(gè)圖像重建3D pose 和 mesh vertices。
本文方法的時(shí)空Transformer 架構(gòu)利用了每幀中的關(guān)鍵點(diǎn)相關(guān)性，并保留了視頻中的自然時(shí)間一致性。

3. Method

Pipeline：通過(guò)現(xiàn)成的2D姿態(tài)檢測(cè)器獲得每幀的2D姿態(tài)，使用連續(xù)幀的二維姿態(tài)序列作為輸入，估計(jì)中心幀的三維姿態(tài)。

3.1 Temporal Transformer Baseline

作為 2D-to-3D lifting 的基線應(yīng)用，我們將每個(gè)2D姿態(tài)視為輸入token，并使用Transformer 來(lái)捕獲輸入之間的全局依賴關(guān)系，如圖2(a)所示。
我們將把每個(gè)輸入token稱為一個(gè)patch，在術(shù)語(yǔ)上類似于ViT.
對(duì)于輸入序列X∈R^(f×(J·2))，f 為輸入序列的幀數(shù)，J為每幀的關(guān)節(jié)數(shù)2D位姿，2表示關(guān)節(jié)在2D空間中的坐標(biāo)。
patch embedding 是一個(gè)可訓(xùn)練的線性投影層，將每個(gè)patch 嵌入到高維特征中。
Transformer 網(wǎng)絡(luò)利用位置嵌入來(lái)保留序列的位置信息。
self-attention是Transformer 的核心功能，它將輸入序列的不同位置與嵌入特征聯(lián)系起來(lái)。
我們的Transformer 編碼器由多頭自注意塊和多層感知器(MLP)塊組成。LayerNorm在每個(gè)塊之前應(yīng)用，剩余連接在每個(gè)塊之后應(yīng)用。
為了預(yù)測(cè)中心幀的三維姿態(tài)，編碼器輸出Y∈R^f×C通過(guò)在幀維中取平均值，收縮為向量y∈R^1×C。最后，一個(gè)MLP塊將輸出回歸到 y∈R^1×(J*3)，即中心框架的3D姿態(tài)。

3.2 PoseFormer: Spatial-Temporal Transformer

我們觀察到，時(shí)間Transformer基線主要關(guān)注輸入序列中幀之間的全局依賴關(guān)系。利用線性變換patch embedding將關(guān)節(jié)坐標(biāo)投影到隱維上。
然而，由于簡(jiǎn)單的線性投影層無(wú)法學(xué)習(xí)到attention信息，局部關(guān)節(jié)坐標(biāo)之間的運(yùn)動(dòng)信息在時(shí)序Transformer基線中沒(méi)有得到強(qiáng)有力的表示。
一個(gè)潛在的解決方案是將每個(gè)關(guān)節(jié)坐標(biāo)視為一個(gè)單獨(dú)的patch，并將所有幀的關(guān)節(jié)作為輸入饋送到Transformer(見(jiàn)圖1(b))。
然而，patch的數(shù)量會(huì)迅速增加(幀數(shù) f 乘以關(guān)節(jié)數(shù) J)，導(dǎo)致模型的計(jì)算復(fù)雜度為O((f·J)2)。
為了有效地學(xué)習(xí)局部聯(lián)合相關(guān)性，我們分別對(duì)空間和時(shí)間信息使用了兩個(gè)分離的Transformer。
如圖2(b)所示，PoseFormer由三個(gè)模塊組成: spatial transformer module, temporal transformer module, and regression head module。

Spatial Transformer Module

Spatial Transformer Module是從單個(gè)幀中提取高維特征嵌入。給定一個(gè)具有 J 個(gè)關(guān)節(jié)的二維姿態(tài)，我們將每個(gè)關(guān)節(jié)(即兩個(gè)坐標(biāo))視為一個(gè)patch，并按照通用視覺(jué)變換pipeline在所有patch之間進(jìn)行特征提取。
首先，我們用可訓(xùn)練的線性投影將每個(gè)關(guān)節(jié)的坐標(biāo)映射到高維空間，這被稱為spatial patch embedding。

Temporal Transformer Module

由于Spatial Transformer Module為每個(gè)單獨(dú)的幀編碼高維特征，因此Temporal Transformer Module的目標(biāo)是跨幀序列建模依賴關(guān)系。
在Temporal Transformer Module之前，我們加入了可學(xué)習(xí)的時(shí)序位置嵌入來(lái)保留幀的位置信息。
對(duì)于Temporal Transformer Module編碼器，我們采用與Spatial Transformer Module編碼器相同的架構(gòu)，該架構(gòu)由多頭self-attention塊和MLP塊組成。
時(shí)序變壓器模塊的輸出為 Y∈R^f*(J*c)。

Regression Head

由于我們使用一組幀序列來(lái)預(yù)測(cè)中心幀的三維姿態(tài)，因此Temporal Transformer Module Y∈R^f*(J·c)的輸出需要簡(jiǎn)化為 y∈R^1*(J·c)。
我們?cè)趲S度上應(yīng)用加權(quán)平均操作(使用學(xué)習(xí)到的權(quán)重)來(lái)實(shí)現(xiàn)這一點(diǎn)。
最后，一個(gè)具有Layer范數(shù)和一個(gè)線性層的簡(jiǎn)單MLP塊返回輸出 y∈R^1*(J·3)，這是中心幀的預(yù)測(cè)三維姿態(tài)。

Loss Function

為了訓(xùn)練我們的時(shí)空轉(zhuǎn)換模型，我們使用了標(biāo)準(zhǔn)的MPJPE (Mean Per Joint Position Error)損失以最小化預(yù)測(cè)值與ground truth姿態(tài)之間的誤差為

4. 數(shù)據(jù)集

4.1 Human3.6M

Human3.6M是3D單人HPE使用最廣泛的室內(nèi)數(shù)據(jù)集。
由11名專業(yè)演員表演坐、走、打電話等17種動(dòng)作。
每個(gè)受試者在室內(nèi)環(huán)境中從4個(gè)不同的角度拍攝視頻。
該數(shù)據(jù)集包含360萬(wàn)視頻幀，其中包含基于精確標(biāo)記的動(dòng)作捕捉系統(tǒng)捕獲的3D地面真相注釋。
根據(jù)之前的工作，我們采用相同的實(shí)驗(yàn)設(shè)置: 所有15個(gè)動(dòng)作都用于訓(xùn)練和測(cè)試，模型訓(xùn)練在5個(gè)sections(S1, S5，S6, S7, S8)和測(cè)試在 2個(gè)sections(S9和S11)。

4.2 MPI-INF-3DHP

MPI-INF-3DHP是一個(gè)更具挑戰(zhàn)性的三維姿態(tài)數(shù)據(jù)集。
它既包含受限的室內(nèi)場(chǎng)景，也包含復(fù)雜的室外場(chǎng)景。
有8個(gè)演員表演8個(gè)動(dòng)作，從14個(gè)攝像機(jī)視圖，涵蓋了更大的多樣性的姿勢(shì)。
MPI-INF-3DHP提供了6個(gè)不同場(chǎng)景的測(cè)試集。

5. 評(píng)測(cè)指標(biāo)

MPJPE ：Mean Per Joint Position Error，平均每個(gè)關(guān)節(jié)位置誤差，估計(jì)關(guān)節(jié)與地面真值之間的平均歐幾里得距離，單位為毫米。
P-MPJPE： P-MPJPE是估計(jì)的三維姿態(tài)與ground truth經(jīng)過(guò)后處理后的剛性對(duì)準(zhǔn)后的MPJPE，對(duì)單個(gè)關(guān)節(jié)預(yù)測(cè)失敗具有更強(qiáng)的魯棒性。
PCK：Percentage of Correct Keypoint，在150mm范圍內(nèi)的正確關(guān)節(jié)點(diǎn)的百分比。
AUC：Area Under Curve，曲線下面積。

到了這里，關(guān)于PoseFormer：基于視頻的2D-to-3D單人姿態(tài)估計(jì)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！