標(biāo)題:基于三維可變形注意力的跨模態(tài)學(xué)習(xí)用于動作識別
發(fā)表:ICCV2023
摘要
在基于視覺的動作識別中,一個重要的挑戰(zhàn)是將具有兩個或多個異構(gòu)模態(tài)的時空特征嵌入到單個特征中。在這項研究中,我們提出了一種新的三維變形變壓器,用于動作識別,具有自適應(yīng)時空感受野和跨模態(tài)學(xué)習(xí)方案。三維可變形變壓器由三維可變形性、局部節(jié)點(diǎn)跨步和時間跨步注意力三個注意力模塊組成,將這兩個跨模態(tài)標(biāo)記輸入到三維可變形注意力模塊中,以創(chuàng)建具有反映時空相關(guān)性的交叉注意力標(biāo)記,局部聯(lián)合步幅注意力應(yīng)用于在空間上結(jié)合注意力與姿態(tài)符號,時間跨步注意力在時間上減少了注意力模塊中輸入標(biāo)記的數(shù)量,支持時間表達(dá)學(xué)習(xí),而無需同時使用所有標(biāo)記,可變形轉(zhuǎn)換器迭代L次,并結(jié)合最后一個跨模態(tài)標(biāo)記進(jìn)行分類。提出的3D可變形變壓器在NTU60, NTU120, FineGYM和PennAction數(shù)據(jù)集上進(jìn)行了測試,即使沒有預(yù)訓(xùn)練過程,其結(jié)果也優(yōu)于或類似于預(yù)訓(xùn)練的最先進(jìn)方法。此外,通過空間關(guān)節(jié)和時間步幅注意力可視化動作識別過程中的重要關(guān)節(jié)和相關(guān)性,提出了實現(xiàn)動作識別可解釋電位的可能性。
1.介紹
時空特征學(xué)習(xí)是動作識別的重要組成部分,它不僅要融合每一幀的空間特征,而且要融合輸入序列之間的時間相關(guān)性。先前在動作識別方面的研究[19,6,5,42,9,48]研究了三維卷積核在二維空間特征空間之外的額外時間空間的應(yīng)用,從那時起,3D卷積神經(jīng)網(wǎng)絡(luò)(CNN)取得了很好的表現(xiàn),并最終成為使用序列數(shù)據(jù)的各種動作識別任務(wù)的事實上的標(biāo)準(zhǔn)。用于動作識別的視覺變形器(ViTs)已經(jīng)達(dá)到了普及的頂峰,最近被用于探索3D令牌嵌入,以融合單個令牌內(nèi)的時間空間。然而,基于ViTs的動作識別方法[1,34]的局限性在于它們只能在有限的感受野中進(jìn)行時空特征學(xué)習(xí)。
為了避免這個問題,已經(jīng)進(jìn)行了一些研究[15,57,47],為深度學(xué)習(xí)模型提供了更靈活的感受野,可變形的CNN利用動態(tài)卷積核來捕獲強(qiáng)烈的對象區(qū)域。首先,它們利用嵌入的特征確定可變形坐標(biāo),然后將卷積核應(yīng)用于從可變形坐標(biāo)中提取的特征,可變形的vit[47,57]鼓勵使用現(xiàn)有的注意力模塊來學(xué)習(xí)可變形的特征,將查詢標(biāo)記投影到坐標(biāo)上,以從鍵和值標(biāo)記獲得可變形的區(qū)域,然后將變形值標(biāo)記應(yīng)用于注意力圖,注意力圖是通過輸入查詢和變形鍵標(biāo)記的縮放點(diǎn)積生成的。這些方法提出了一種新的方法,可以克服現(xiàn)有的標(biāo)準(zhǔn)化特征學(xué)習(xí)的局限性。然而,盡管這些研究取得了一些令人印象深刻的成果,但它們?nèi)匀痪窒抻趦H與空間維度兼容。因此,作為主要挑戰(zhàn),需要開發(fā)能夠從圖像序列中學(xué)習(xí)時空特征的新型可變形vit。
另一個挑戰(zhàn)是多模態(tài)輸入特征在動作識別模型中的有效應(yīng)用。根據(jù)特征類型將動作識別分為三類,第一種是基于視頻的方法[56,4,46,29,20,43,33],傳統(tǒng)上用于動作識別,這種方法受到噪聲導(dǎo)致的性能下降的限制,例如不同的物體大小、遮擋或不同的相機(jī)角度。第二種是基于骨架的方法[51,25,12,13,11],主要是通過圖神經(jīng)網(wǎng)絡(luò)(graph neural network, GNN)將姿勢轉(zhuǎn)換成圖來識別動作,盡管該方法對噪聲具有魯棒性,但其性能高度依賴于姿態(tài)提取方法。為了克服前兩種方法的缺點(diǎn),第三種方法旨在使用多模態(tài)或跨模態(tài)學(xué)習(xí)同時融合異構(gòu)領(lǐng)域特征,該方法可以同時訓(xùn)練視頻和骨架特征,然而,由于大多數(shù)相關(guān)研究使用的是由每個模態(tài)的GNN + CNN或CNN + CNN組成的單獨(dú)模型,因此構(gòu)建有效的單一模型存在局限性。
為了緩解上述缺點(diǎn),我們提出使用具有3D可變形注意力的變壓器來動態(tài)地利用時空特征進(jìn)行動作識別。通過這種方式,提出的模型應(yīng)用靈活的跨模式學(xué)習(xí),【模型特點(diǎn):它在單個變壓器模型中處理骨架和視頻幀,骨架被投影到連續(xù)的關(guān)節(jié)標(biāo)記上,每個關(guān)節(jié)標(biāo)記包含每個關(guān)節(jié)坐標(biāo)的激活,為了在每個模態(tài)之間提供有效的跨模態(tài)學(xué)習(xí),該方法采用跨模態(tài)令牌來相互交換上下文信息,因此,所提出的模型能夠在沒有輔助子模型的情況下實現(xiàn)跨模態(tài)的性能提升,】圖1顯示了之前的完全注意和所提出的3D可變形注意力之間的比較,在圖1 (a)所示的完全關(guān)注的情況下,一個時空區(qū)域中的所有標(biāo)記都針對一個特定的查詢標(biāo)記進(jìn)行覆蓋,相比之下,我們提出的3D可變形注意力方案(如圖1 (b)所示)只考慮整個時空區(qū)域中具有高相關(guān)性的標(biāo)記。本研究的主要貢獻(xiàn)如下:
?我們提出了第一個3D可變形注意力,它自適應(yīng)地考慮了變壓器內(nèi)的時空相關(guān)性,如圖1 (b)所示,打破了以前的研究,即在一個完整的序列中考慮針對特定查詢的所有標(biāo)記。
?我們提出了一種基于互補(bǔ)跨模態(tài)令牌的跨模態(tài)學(xué)習(xí)方案,每個跨模態(tài)令牌在不同模態(tài)之間傳遞上下文信息。這種方法可以在單個變壓器模型結(jié)構(gòu)中支持簡單而有效的跨模態(tài)學(xué)習(xí)。
?我們通過視覺解釋提供了3D可變形注意力的定性證據(jù),并證明所提出的模型優(yōu)于以前的幾種最先進(jìn)的(SoTA)方法。
2. 相關(guān)工作
動作識別的時空學(xué)習(xí)。該領(lǐng)域的早期研究主要集中在使用3D CNN,這是2D CNN的擴(kuò)展,近年來,這已成為基于視覺的動作識別的核心措施。PoseC3D[19]結(jié)合了來自骨架和輸入視頻幀的3D熱力圖,SlowFast[21]通過提供不同幀率之間的幀融合方案,對該領(lǐng)域做出了重大貢獻(xiàn),也有相關(guān)的方法[22,42,43,44,9,48,4,20,24]探索使用3D CNN架構(gòu)進(jìn)行動作識別,STDA[24]應(yīng)用3D可變形CNN,捕獲大量密集區(qū)域進(jìn)行時空學(xué)習(xí),在過去的幾年里,隨著GNN的出現(xiàn),焦點(diǎn)已經(jīng)轉(zhuǎn)移到基于骨架的動作識別上,ST-GCN[51]已成為采用獨(dú)立時空表示模塊進(jìn)行時空建模的基線,此外,vit由于其在順序任務(wù)中的優(yōu)越性能而引起了相當(dāng)大的關(guān)注,STAR[1]應(yīng)用交叉注意力來融合空間表征之間的時間相關(guān)性,ViViT[2]嵌入了一個帶有3D標(biāo)記器的輸入視頻,以在單個標(biāo)記中組合時空特征,其他研究[7,1,31]采用時間步長來捕捉不同時間步長的多樣性,然而,盡管三維變形的概念具有優(yōu)異的性能,但由于各種結(jié)構(gòu)限制,它不能應(yīng)用于vit的注意力。
動作識別的跨模態(tài)學(xué)習(xí)。目前大多數(shù)動作識別方法都使用各種視頻幀和骨架模式,幾種方法[17,6,5,16]使用圖形卷積網(wǎng)絡(luò)(GCN)來處理原始骨架輸入,并使用CNN來處理視頻幀。VPN[17]應(yīng)用GCN子網(wǎng)輔助CNN,將GCN網(wǎng)絡(luò)的影像與CNN的特征圖進(jìn)行線性組合。MMNet[6]引入了一個由兩個GCN子網(wǎng)和CNN組成的多模式網(wǎng)絡(luò),每個子網(wǎng)分別嵌入這些特征,然后在網(wǎng)絡(luò)的末端對這些特征進(jìn)行求和。其他研究[14,49,3,1,19,39]將圖形骨架轉(zhuǎn)換為熱力圖,PoseC3D[19]使用雙3D CNN分支視頻幀和3D熱力圖,它沒有明確地考慮骨骼中關(guān)節(jié)之間的空間關(guān)系,這可能會限制它捕捉復(fù)雜和微妙動作的能力,或者降低區(qū)分涉及不同關(guān)節(jié)結(jié)構(gòu)的類似動作的能力。STAR[1]提出將CNN特征圖與2D聯(lián)合熱圖相結(jié)合生成聯(lián)合令牌,為了融合這兩種模式,他們通過組合不同的模式令牌來連接多類令牌,盡管改進(jìn)了跨模態(tài)學(xué)習(xí)的性能,但視頻幀和骨架模態(tài)只是集成在一起,從而忽略了細(xì)節(jié)的設(shè)計。我們提出了一種有效的特征融合方法,稱為跨模態(tài)令牌,為了交換上下文信息,每個令牌被分派到另一個模態(tài)中。
變形注意力變壓器。二維可變形CNN學(xué)習(xí)可變形特征的思想已經(jīng)被應(yīng)用到ViT的注意力模塊中,在包括圖像分類在內(nèi)的各種應(yīng)用中都取得了優(yōu)異的表現(xiàn),將可變形的DETR[57]應(yīng)用于物體檢測,證明了其能夠準(zhǔn)確檢測各種大小的物體,提出了一種具有較好數(shù)值穩(wěn)定性和魯棒性的可變形注意力轉(zhuǎn)換器(DAT)[47]。在動作識別方面,用于時空學(xué)習(xí)的3D可變形CNN[24,26]表現(xiàn)出比2D可變形CNN更好的性能,但由于針對空間特征嵌入優(yōu)化的注意力的結(jié)構(gòu)約束,無法應(yīng)用于變壓器。因此,在本研究中,我們提出了一種新的3D可變形變壓器,能夠使用跨模態(tài)標(biāo)記融合跨模態(tài)特征。該方法實現(xiàn)了基于局部關(guān)節(jié)步幅和時間步幅關(guān)注的三維可變形特征嵌入。本文的其余部分組織如下。第3節(jié)詳細(xì)解釋了所建議的方法。第4節(jié)提供了幾個基準(zhǔn)測試的實驗分析以及可視化描述。最后,第5節(jié)對本研究進(jìn)行了總結(jié)。
3. 方法
我們提出了一個具有自適應(yīng)時空感受野和跨模態(tài)學(xué)習(xí)方案的動作識別的3D可變形變壓器,所提出模型的整體架構(gòu)如圖2所示,并在以下章節(jié)中進(jìn)行詳細(xì)描述。
圖2:我們的3D可變形變壓器概述。(a)我們的模型由主干和一系列變壓器塊組成,每個變壓器塊使用不同的模態(tài)令牌來處理來自不同領(lǐng)域的內(nèi)在屬性,并將模態(tài)與跨模態(tài)令牌融合,該模型包括關(guān)節(jié)跨步和時間跨步注意,以減少計算成本。(b)提出的三維可變形注意力包括三維令牌搜索(3DTS)和注意力模塊,輸入RGB令牌Z在與模態(tài)令牌連接后作為查詢令牌嵌入,來自3DTS的可變形標(biāo)記也與模態(tài)標(biāo)記連接,然后將其與鍵(Wk)和值(Wv)權(quán)重相乘。然后將它們提供給多頭自注意(MSA),以便與查詢令牌交互。
3.1. 跨模態(tài)學(xué)習(xí)
在動作識別中,跨模態(tài)學(xué)習(xí)已經(jīng)成為主流,它利用了各種模式,如視頻幀和骨架。一些成功的研究[19,6,5,17,23,16]采用了處理不同域特征的子網(wǎng),然而,這些設(shè)計最終由于特定于域的子網(wǎng)而增加了冗余和復(fù)雜性。我們提出簡單而有效的跨模態(tài)學(xué)習(xí),用于相互交換上下文信息,我們的跨模態(tài)學(xué)習(xí)方法由主干[45]組成,主干[45]提供中間特征映射和順序任務(wù),當(dāng)圖像的高度為H,寬度為W,時間維數(shù)為T,特征維數(shù)為C時,骨干網(wǎng)絡(luò)提供從中間層提取的視覺特征映射和。在Fb的情況下,我們將其視為視覺表征學(xué)習(xí)的RGB模態(tài)輸入,而將局部級特征映射Fa作為結(jié)合骨架的姿態(tài)模態(tài)輸入,為了融合兩種模式,我們應(yīng)用以下概念:
姿勢模式。為了設(shè)計具有減輕冗余的跨模態(tài)學(xué)習(xí)方案,我們提出了面向視覺特征的姿勢標(biāo)記與聯(lián)合熱圖相結(jié)合,如[19,1]。首先,【姿勢模態(tài)設(shè)計:將連續(xù)的骨架序列分解為單關(guān)節(jié)單元,然后通過將關(guān)節(jié)投影到相應(yīng)坐標(biāo)的空白的三維像素上,將每個關(guān)節(jié)重新組合成一個關(guān)節(jié)熱圖,其中,R為節(jié)點(diǎn)數(shù),空間維度(H/2,W/2)與Fa的特征圖的大小相同,】最后,【姿勢令牌的生成:使用關(guān)節(jié)標(biāo)記生成姿勢標(biāo)記P,使用公式(1)進(jìn)行計算。這個公式的意思是,在每個時間t下,對所有關(guān)節(jié)進(jìn)行加權(quán)求和,其中權(quán)重由特征圖Fa和高斯模糊輸出(公式(2))相乘得到,這個過程將在每個時間步長生成一組姿勢標(biāo)記P,其中P包含了每個骨架序列的R個姿勢令牌,每個令牌具有C個特征維度,】公式如下所示:
其中由每個C維特征的骨架序列的R個姿勢令牌組成,||表示級聯(lián),為了滿足RGB模態(tài)的特征維度Fb,對姿勢令牌進(jìn)行線性投影,得到。
RGB模式。采用RGB模式,將提取的視覺特征圖Fb作為RGB標(biāo)記,記作,對提取的RGB令牌Z進(jìn)行位置嵌入(position embedding)融合。
3.2. 3D可變形Transformer
跨模式標(biāo)記。一種直觀的方法是連接來自兩種模式的所有令牌,考慮每個令牌的特征,然后通過變壓器堆棧組合信息,然而,要在單個變壓器中組合不同的模態(tài),需要經(jīng)過深思熟慮的設(shè)計,并且模態(tài)必須是協(xié)作和互補(bǔ)的,類似地,在STAR[1]中,作者使用多類令牌進(jìn)行跨模式學(xué)習(xí),盡管這是一種簡單而有效的方法,但與其他轉(zhuǎn)換器一樣,它只針對所有令牌的信息融合,而不考慮各種模式的內(nèi)在特性和互補(bǔ)性,因此,我們提出了一種跨模態(tài)令牌,可以有效地組合變壓器內(nèi)的不同模態(tài),跨模態(tài)令牌是由三個可訓(xùn)練令牌組成的集合:CLS、RGB和姿勢模態(tài)令牌。在以往的研究[18,41]中,CLS令牌被用作最終嵌入,通過與其他令牌交互來融合信息,我們將CLS令牌視為編譯其余兩個模態(tài)令牌的“模態(tài)混合器”,這些令牌被分派到相互模態(tài)以交換其領(lǐng)域信息,第一個和令牌被饋送到3D可變形注意力模塊,然后,輸出的RGB和CLS模態(tài)令牌,即三維可變形注意力的和,通過分離的變壓器塊與調(diào)度的CLS令牌配合,反映來自各自領(lǐng)域的信息。接下來,我們介紹如圖2 (b)所示的三維可變形注意力,這是所提出的變壓器的核心。
3D可變形注意力。雖然變壓器最近成為視覺任務(wù)的新標(biāo)準(zhǔn),但對動作識別任務(wù)的研究相對較少。由于變壓器的性質(zhì)考慮了輸入令牌之間的長期關(guān)系,因此隨著時間步長,它可能導(dǎo)致計算復(fù)雜性呈指數(shù)級增長,此外,為了解決靜態(tài)變壓器的問題,提出了在自關(guān)注中靈活選擇鍵值位置的DAT[47];然而,它并不適用于需要處理跨模態(tài)和時空特征的動作識別。為了減輕復(fù)雜性,同時保持變壓器的本質(zhì),受[47]的啟發(fā),我們提出使用3D可變形注意力進(jìn)行動作識別,如圖2 (b)所示,3D可變形注意可以自適應(yīng)地捕捉RGB模態(tài)上的時空特征。
3D可變形注意力模塊由3D令牌搜索(3DTS)和帶有前饋網(wǎng)絡(luò)(FFN)的多頭自注意(MSA)組成,如圖2 (b)所示。首先,模塊的輸入RGB令牌Z被饋送到包含k個卷積核的兩層Conv3D的3DTS中,采用層歸一化(LN)和GELU非線性,最后一個Conv3D生成偏移量(?p),其中包含相對于參考點(diǎn)(p)的流場,參考點(diǎn)被定義為在3D空間中有的離散的點(diǎn),偏移量引導(dǎo)參考點(diǎn)在時空標(biāo)記Z中尋找具有判別性的標(biāo)記坐標(biāo),如圖3所示,通過選擇從偏移量中獲取的調(diào)整坐標(biāo),從時空標(biāo)記Z中選擇標(biāo)記,生成3D可變形標(biāo)記?Z,
其中和分別是輸入和選擇的RGB令牌。,和的大小是根據(jù)卷積核大小k來確定的,在我們的例子中,我們將k設(shè)置為7且不填充,以稀疏地提取可變形的標(biāo)記并提高效率。另外,和ω分別是3DTS中MSA和3D conv塊的可訓(xùn)練權(quán)值和模型參數(shù),應(yīng)該注意的是,雖然查詢令牌是以與轉(zhuǎn)換器相同的方式組成的,但鍵和值令牌是由來自3DTS的選定令牌組成的。我們實施的更多細(xì)節(jié)見附錄B。
然后分別使用和將這些令牌嵌入到鍵和值令牌中,在此,我們的目標(biāo)是使令牌學(xué)習(xí)RGB模態(tài)特征,在RGB和姿態(tài)模態(tài)之間交換領(lǐng)域信息,為了將跨模態(tài)標(biāo)記與RGB模態(tài)融合,將、和時空特征標(biāo)記Z這三個標(biāo)記連接到標(biāo)記X。
其中和分別代表從RGB模態(tài)和模態(tài)頭部的部分提出的跨模態(tài)令牌中獲得。
類似地,選擇的可變形標(biāo)記與兩個跨模態(tài)符號耦合以產(chǎn)生。
然后,將X乘以查詢權(quán)值,將X分別乘以鍵權(quán)值和,這些重新組合的令牌作為查詢、鍵和值提供給多頭自注意力。
最后通過LN和FFN的結(jié)合得到3D可變形注意力的輸出X。
我們將從提出的3D可變形注意力中選擇的令牌的注意力分?jǐn)?shù)可視化,如圖5所示,我們提出的3DTS識別具有自適應(yīng)感受野的基本強(qiáng)烈區(qū)域。
局部關(guān)節(jié)跨步注意力。在動作識別中,一個場景中經(jīng)常會出現(xiàn)多個人物;因此,關(guān)節(jié)標(biāo)記的數(shù)量隨著人數(shù)的增加而增加,為了降低計算復(fù)雜度,我們將多人的關(guān)節(jié)連接成一系列的關(guān)節(jié)令牌,雖然這種方法是一種有效的方法,可以同時處理同一場景中的多人,而不會顯著增加復(fù)雜性,但它仍然會導(dǎo)致一個問題,即隨著人數(shù)的增加,聯(lián)合令牌的大小呈指數(shù)級增長,為了避免這個問題,我們使用聯(lián)合令牌上的滑動窗口來配置查詢、鍵和值令牌,如圖4 (a)所示,每個滑動窗口中的所有令牌都被平面化,然后與從3D可變形注意力調(diào)度的和連接,以應(yīng)用縮放點(diǎn)積,這比一次計算所有令牌并維護(hù)彼此之間的關(guān)系更有效。關(guān)節(jié)步幅注意的輸出是位姿令牌P和模態(tài)令牌和。
計算得到的RGB標(biāo)記Z和姿態(tài)標(biāo)記P被輸入到時間步幅注意模塊,在此步驟之前,為了融合來自每個模態(tài)的上下文信息,從3D可變形注意力中記憶的和從關(guān)節(jié)跨步注意中計算的一起投影到一個新的單一中,如圖2 (a)所示,時間跨步注意模塊,學(xué)習(xí)與跨模態(tài)標(biāo)記連接的標(biāo)記? ?的時間變化之間的相關(guān)性。
時間跨步注意。當(dāng)轉(zhuǎn)換器處理輸入令牌時,注意模塊存在一些限制。一般來說,注意力模塊涵蓋了所有帶有縮放點(diǎn)積的輸入標(biāo)記,因此,注意力模塊的復(fù)雜性高度依賴于輸入令牌的數(shù)量,在順序數(shù)據(jù)的情況下,這個問題更為嚴(yán)重,因為輸入令牌隨著時間維度的大小而增長,Ahn et al.[1]將時間維度分為兩組,其中包含有規(guī)則交錯的標(biāo)記,盡管時間維數(shù)減半,但復(fù)雜性僅略有降低,并且鄰域的時間相關(guān)性解耦,與Ahn等人不同的是,我們提出了一種降低復(fù)雜性和增強(qiáng)交叉注意時間相關(guān)性的時間步幅,在構(gòu)建輸入查詢、鍵和值令牌時,時間維度被分割成定期增加的步,以降低復(fù)雜性來耦合各種順序關(guān)系。如圖4 (b)所示,我們首先為給定步幅設(shè)置一個本地時間窗口。此窗口遍歷所有令牌并指定查詢、鍵和值令牌。它不僅減少了注意力模塊的輸入標(biāo)記的數(shù)量,而且支持時間表征學(xué)習(xí),而不需要一次使用所有的標(biāo)記。
如上所述的所有可變形變壓器都重復(fù)l次,如圖2 (a)所示。為了得到最終的邏輯,我們只將跨模態(tài)標(biāo)記與通道尺寸連接起來,然后將它們輸入分類頭。文章來源:http://www.zghlxwxcb.cn/news/detail-843038.html
4.實驗
5.總結(jié)
vit已成為各種視覺任務(wù)的主流,取得了壓倒性的成績;然而,它在動作識別任務(wù)中使用相對較少。因此,我們首先提出了一種由跨窗交叉注意力組成的三維可變形注意力,以更好地學(xué)習(xí)時空特征,并提出了一種跨模態(tài)的動作識別框架。該方法在具有代表性的動作識別數(shù)據(jù)集上取得了新的SoTA性能。定性實驗結(jié)果表明,該方法具有較強(qiáng)的時空特征學(xué)習(xí)能力。文章來源地址http://www.zghlxwxcb.cn/news/detail-843038.html
到了這里,關(guān)于Cross-Modal Learning with 3D Deformable Attention for Action Recognition的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!