1.簡(jiǎn)介
在3D人體姿態(tài)估計(jì)中存在遮擋和模糊問(wèn)題,使用多相機(jī)可能會(huì)緩解這些困難,因?yàn)椴煌囊暯强梢匝a(bǔ)償這些遮擋并用于相互一致性。目前的3D人體姿態(tài)估計(jì)中大多數(shù)都是單視角的,有一部分是多視角的,但是他們的方法依賴于相機(jī)之間的相對(duì)位置,這要用到相機(jī)的外參。對(duì)于相機(jī)內(nèi)參的缺乏,一些方法可以嘗試去估計(jì)內(nèi)參,但是估計(jì)的值肯定會(huì)不準(zhǔn)確。
????????作者的工作引入了一個(gè)不需要外部參數(shù)的多視角運(yùn)動(dòng)重建,此工作建立在一個(gè)新的概念之上,使用眾所周知的關(guān)節(jié)旋轉(zhuǎn)和骨長(zhǎng)。此工作依賴于一個(gè)關(guān)鍵的見(jiàn)解,即對(duì)于所有視角而言,關(guān)節(jié)旋轉(zhuǎn)和骨長(zhǎng)是確定的,也就是說(shuō),骨架部分的3D角度與相機(jī)位置是沒(méi)有關(guān)系的,此時(shí)預(yù)測(cè)的是運(yùn)動(dòng)信息,而不是3D關(guān)節(jié)的位置,這就避免了對(duì)相機(jī)外參的依賴。如下圖:
????????作者的模型名叫FLEX,是一個(gè)端到端的深度卷積網(wǎng)絡(luò)。輸入是多視角的2D關(guān)節(jié),可以由2D關(guān)節(jié)檢測(cè)器檢測(cè)而來(lái),也可以是真實(shí)的2D關(guān)節(jié)坐標(biāo)。
????????目前3D姿態(tài)估計(jì)可以分為倆組,一組是直接從圖像中回歸出3D坐標(biāo),第二組是先對(duì)圖像進(jìn)行2D姿態(tài)估計(jì),然后將得到的2D姿態(tài)信息lifting到3D空間。第一種方法受益于直接使用圖像,與2D關(guān)節(jié)位置相比,圖像的信息更多,第二組通過(guò)使用中間監(jiān)督獲益。在3D姿態(tài)估計(jì)中,通常是對(duì)一段視頻進(jìn)行運(yùn)動(dòng)重建,但現(xiàn)在很多工作都是使用一幀信息來(lái)預(yù)測(cè)此幀的3D姿態(tài)信息,沒(méi)有考慮到前后幀之間的聯(lián)系,而作者的工作使用了時(shí)間信息來(lái)重建運(yùn)動(dòng)。
2.模型
????????作者工作的baseline是一篇2020年發(fā)表在CVPR的論文(MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency),這是一個(gè)使用單視角的3D姿態(tài)估計(jì)的工作,這篇論文為了讓預(yù)測(cè)的運(yùn)動(dòng)更加絲滑,首次在3D姿態(tài)估計(jì)中引入FK(forward kinematics,前向運(yùn)動(dòng)學(xué)),下面先介紹這篇MotioNet的網(wǎng)絡(luò)架構(gòu):
2D poses:T幀經(jīng)過(guò)2D姿態(tài)估計(jì)處理過(guò)的2D姿態(tài)位置;
Confidence values:用于數(shù)據(jù)增強(qiáng),對(duì)每個(gè)關(guān)節(jié)的2D位置進(jìn)行0~360°的偏移,位移距離由置信度值來(lái)決定,置信度值的來(lái)源是關(guān)節(jié)的經(jīng)驗(yàn)分布;
輸入:將2D poses經(jīng)過(guò)confidence values數(shù)據(jù)增強(qiáng)后輸入網(wǎng)絡(luò)之中
EQ:編碼器,對(duì)輸入的2D姿態(tài)信息進(jìn)行處理,預(yù)測(cè)出T組根位置+關(guān)節(jié)旋轉(zhuǎn)+腳接觸標(biāo)簽,定義兩個(gè)胯骨之間的關(guān)節(jié)點(diǎn)為根位置,因?yàn)檫@個(gè)關(guān)節(jié)點(diǎn)被遮擋的概率比較低,而且較易預(yù)測(cè)出來(lái),由于預(yù)測(cè)的關(guān)節(jié)旋轉(zhuǎn)是相對(duì)于根位置的旋轉(zhuǎn),因此需要預(yù)測(cè)出世界坐標(biāo)系下根的位置,從而能夠重建出世界坐標(biāo)系下的運(yùn)動(dòng),腳接觸標(biāo)簽是為了處理腳步滑動(dòng)偽影,設(shè)定地面位置為T幀圖像中腳部位置距離圖片底部最低的20%的均值,因?yàn)橐话愣技俣ㄈ颂幱趫D像的中間;
ES:編碼器,對(duì)輸入的2D姿態(tài)信息進(jìn)行處理,只需要預(yù)測(cè)出一組骨長(zhǎng);
D:鑒別器,判斷EQ預(yù)測(cè)的旋轉(zhuǎn)是否是真實(shí)的,由于逆運(yùn)動(dòng)學(xué)中存在的固有的模糊性,因此產(chǎn)生的旋轉(zhuǎn)和速度可能是不自然的,這可能導(dǎo)致將此旋轉(zhuǎn)信息用到骨架上會(huì)導(dǎo)致扭曲。求導(dǎo)操作是因?yàn)橹苯討?yīng)用于旋轉(zhuǎn)的損失可能不會(huì)收斂,而且數(shù)據(jù)集中不同樣本的T-poses未對(duì)齊,兩個(gè)相似的姿勢(shì)可能由不同的旋轉(zhuǎn)表示(初始位置不同,最終位置相同);
FK:根據(jù)旋轉(zhuǎn)信息對(duì)T-pose進(jìn)行旋轉(zhuǎn)操作,下圖可以解釋FK的過(guò)程,其中q表示四元數(shù)。
下面講解FLEX的網(wǎng)絡(luò)架構(gòu)
下面只對(duì)FLEX對(duì)MotioNet有改變的地方做一些介紹,主要是加了FQ和FS兩個(gè)融合層。
輸入有所改變,使用K個(gè)視角的視頻經(jīng)過(guò)2D姿態(tài)估計(jì)而來(lái)的2D姿態(tài)序列;
FQ:多視角卷積層+多頭注意力機(jī)制,其中多視角卷積層是為了能夠感知來(lái)自多個(gè)視角和多個(gè)幀的特征,
FS:僅有多頭注意力機(jī)制
EQ:此時(shí)預(yù)測(cè)的根位置就要針對(duì)不同的視角分別預(yù)測(cè)出對(duì)應(yīng)視角的根位置及其旋轉(zhuǎn)信息。
3.實(shí)驗(yàn)
上圖是在數(shù)據(jù)集Human3.6M下的結(jié)果,評(píng)測(cè)標(biāo)準(zhǔn)為MPJPE(Mean Per Joint Position Error,平均關(guān)節(jié)位置),可以看出多視圖的方法普遍優(yōu)于單視圖的方法。
上圖是在數(shù)據(jù)集Ski-Pose PTZ-Camera數(shù)據(jù)集下的結(jié)果,相機(jī)參數(shù)均為給出,前兩種方法使用的相機(jī)參數(shù)通過(guò)參數(shù)估計(jì)而給出。
上圖是比較平滑度,根據(jù)平均加速度來(lái)評(píng)價(jià),越小越好
消融實(shí)驗(yàn),驗(yàn)證判斷注意力的影響, ??上圖為了驗(yàn)證視角數(shù)量的影響和使用
其中TE:Transformer Encoder, ??????2D姿態(tài)檢測(cè)與使用GT之間的區(qū)別
MHA:Multi-head Encoder,
L:堆疊層數(shù),文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-764059.html
h:注意力頭的數(shù)量文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-764059.html
到了這里,關(guān)于論文閱讀筆記《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!