国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Cross-Modal Learning with 3D Deformable Attention for Action Recognition

這篇具有很好參考價值的文章主要介紹了Cross-Modal Learning with 3D Deformable Attention for Action Recognition。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能標(biāo)題:基于三維可變形注意力的跨模態(tài)學(xué)習(xí)用于動作識別

發(fā)表:ICCV2023

摘要

在基于視覺的動作識別中,一個重要的挑戰(zhàn)是將具有兩個或多個異構(gòu)模態(tài)的時空特征嵌入到單個特征中。在這項研究中,我們提出了一種新的三維變形變壓器,用于動作識別,具有自適應(yīng)時空感受野和跨模態(tài)學(xué)習(xí)方案。三維可變形變壓器由三維可變形性、局部節(jié)點(diǎn)跨步和時間跨步注意力三個注意力模塊組成,將這兩個跨模態(tài)標(biāo)記輸入到三維可變形注意力模塊中,以創(chuàng)建具有反映時空相關(guān)性的交叉注意力標(biāo)記,局部聯(lián)合步幅注意力應(yīng)用于在空間上結(jié)合注意力與姿態(tài)符號,時間跨步注意力在時間上減少了注意力模塊中輸入標(biāo)記的數(shù)量,支持時間表達(dá)學(xué)習(xí),而無需同時使用所有標(biāo)記,可變形轉(zhuǎn)換器迭代L次,并結(jié)合最后一個跨模態(tài)標(biāo)記進(jìn)行分類。提出的3D可變形變壓器在NTU60, NTU120, FineGYM和PennAction數(shù)據(jù)集上進(jìn)行了測試,即使沒有預(yù)訓(xùn)練過程,其結(jié)果也優(yōu)于或類似于預(yù)訓(xùn)練的最先進(jìn)方法。此外,通過空間關(guān)節(jié)和時間步幅注意力可視化動作識別過程中的重要關(guān)節(jié)和相關(guān)性,提出了實現(xiàn)動作識別可解釋電位的可能性。

1.介紹

時空特征學(xué)習(xí)是動作識別的重要組成部分,它不僅要融合每一幀的空間特征,而且要融合輸入序列之間的時間相關(guān)性。先前在動作識別方面的研究[19,6,5,42,9,48]研究了三維卷積核在二維空間特征空間之外的額外時間空間的應(yīng)用,從那時起,3D卷積神經(jīng)網(wǎng)絡(luò)(CNN)取得了很好的表現(xiàn),并最終成為使用序列數(shù)據(jù)的各種動作識別任務(wù)的事實上的標(biāo)準(zhǔn)。用于動作識別的視覺變形器(ViTs)已經(jīng)達(dá)到了普及的頂峰,最近被用于探索3D令牌嵌入,以融合單個令牌內(nèi)的時間空間。然而,基于ViTs的動作識別方法[1,34]的局限性在于它們只能在有限的感受野中進(jìn)行時空特征學(xué)習(xí)。

為了避免這個問題,已經(jīng)進(jìn)行了一些研究[15,57,47],為深度學(xué)習(xí)模型提供了更靈活的感受野,可變形的CNN利用動態(tài)卷積核來捕獲強(qiáng)烈的對象區(qū)域。首先,它們利用嵌入的特征確定可變形坐標(biāo),然后將卷積核應(yīng)用于從可變形坐標(biāo)中提取的特征,可變形的vit[47,57]鼓勵使用現(xiàn)有的注意力模塊來學(xué)習(xí)可變形的特征,將查詢標(biāo)記投影到坐標(biāo)上,以從鍵和值標(biāo)記獲得可變形的區(qū)域,然后將變形值標(biāo)記應(yīng)用于注意力圖,注意力圖是通過輸入查詢和變形鍵標(biāo)記的縮放點(diǎn)積生成的。這些方法提出了一種新的方法,可以克服現(xiàn)有的標(biāo)準(zhǔn)化特征學(xué)習(xí)的局限性。然而,盡管這些研究取得了一些令人印象深刻的成果,但它們?nèi)匀痪窒抻趦H與空間維度兼容。因此,作為主要挑戰(zhàn),需要開發(fā)能夠從圖像序列中學(xué)習(xí)時空特征的新型可變形vit。

另一個挑戰(zhàn)是多模態(tài)輸入特征在動作識別模型中的有效應(yīng)用。根據(jù)特征類型將動作識別分為三類,第一種是基于視頻的方法[56,4,46,29,20,43,33],傳統(tǒng)上用于動作識別,這種方法受到噪聲導(dǎo)致的性能下降的限制,例如不同的物體大小、遮擋或不同的相機(jī)角度。第二種是基于骨架的方法[51,25,12,13,11],主要是通過圖神經(jīng)網(wǎng)絡(luò)(graph neural network, GNN)將姿勢轉(zhuǎn)換成圖來識別動作,盡管該方法對噪聲具有魯棒性,但其性能高度依賴于姿態(tài)提取方法。為了克服前兩種方法的缺點(diǎn),第三種方法旨在使用多模態(tài)或跨模態(tài)學(xué)習(xí)同時融合異構(gòu)領(lǐng)域特征,該方法可以同時訓(xùn)練視頻和骨架特征,然而,由于大多數(shù)相關(guān)研究使用的是由每個模態(tài)的GNN + CNN或CNN + CNN組成的單獨(dú)模型,因此構(gòu)建有效的單一模型存在局限性

為了緩解上述缺點(diǎn),我們提出使用具有3D可變形注意力的變壓器來動態(tài)地利用時空特征進(jìn)行動作識別。通過這種方式,提出的模型應(yīng)用靈活的跨模式學(xué)習(xí),【模型特點(diǎn):它在單個變壓器模型中處理骨架和視頻幀,骨架被投影到連續(xù)的關(guān)節(jié)標(biāo)記上,每個關(guān)節(jié)標(biāo)記包含每個關(guān)節(jié)坐標(biāo)的激活,為了在每個模態(tài)之間提供有效的跨模態(tài)學(xué)習(xí),該方法采用跨模態(tài)令牌來相互交換上下文信息,因此,所提出的模型能夠在沒有輔助子模型的情況下實現(xiàn)跨模態(tài)的性能提升,圖1顯示了之前的完全注意和所提出的3D可變形注意力之間的比較,在圖1 (a)所示的完全關(guān)注的情況下,一個時空區(qū)域中的所有標(biāo)記都針對一個特定的查詢標(biāo)記進(jìn)行覆蓋,相比之下,我們提出的3D可變形注意力方案(如圖1 (b)所示)只考慮整個時空區(qū)域中具有高相關(guān)性的標(biāo)記。本研究的主要貢獻(xiàn)如下:

?我們提出了第一個3D可變形注意力,它自適應(yīng)地考慮了變壓器內(nèi)的時空相關(guān)性,如圖1 (b)所示,打破了以前的研究,即在一個完整的序列中考慮針對特定查詢的所有標(biāo)記。

?我們提出了一種基于互補(bǔ)跨模態(tài)令牌的跨模態(tài)學(xué)習(xí)方案,每個跨模態(tài)令牌在不同模態(tài)之間傳遞上下文信息。這種方法可以在單個變壓器模型結(jié)構(gòu)中支持簡單而有效的跨模態(tài)學(xué)習(xí)。

?我們通過視覺解釋提供了3D可變形注意力的定性證據(jù),并證明所提出的模型優(yōu)于以前的幾種最先進(jìn)的(SoTA)方法。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

2. 相關(guān)工作

動作識別的時空學(xué)習(xí)。該領(lǐng)域的早期研究主要集中在使用3D CNN,這是2D CNN的擴(kuò)展,近年來,這已成為基于視覺的動作識別的核心措施。PoseC3D[19]結(jié)合了來自骨架和輸入視頻幀的3D熱力圖,SlowFast[21]通過提供不同幀率之間的幀融合方案,對該領(lǐng)域做出了重大貢獻(xiàn),也有相關(guān)的方法[22,42,43,44,9,48,4,20,24]探索使用3D CNN架構(gòu)進(jìn)行動作識別,STDA[24]應(yīng)用3D可變形CNN,捕獲大量密集區(qū)域進(jìn)行時空學(xué)習(xí),在過去的幾年里,隨著GNN的出現(xiàn),焦點(diǎn)已經(jīng)轉(zhuǎn)移到基于骨架的動作識別上,ST-GCN[51]已成為采用獨(dú)立時空表示模塊進(jìn)行時空建模的基線,此外,vit由于其在順序任務(wù)中的優(yōu)越性能而引起了相當(dāng)大的關(guān)注,STAR[1]應(yīng)用交叉注意力來融合空間表征之間的時間相關(guān)性,ViViT[2]嵌入了一個帶有3D標(biāo)記器的輸入視頻,以在單個標(biāo)記中組合時空特征,其他研究[7,1,31]采用時間步長來捕捉不同時間步長的多樣性,然而,盡管三維變形的概念具有優(yōu)異的性能,但由于各種結(jié)構(gòu)限制,它不能應(yīng)用于vit的注意力。

動作識別的跨模態(tài)學(xué)習(xí)。目前大多數(shù)動作識別方法都使用各種視頻幀和骨架模式,幾種方法[17,6,5,16]使用圖形卷積網(wǎng)絡(luò)(GCN)來處理原始骨架輸入,并使用CNN來處理視頻幀。VPN[17]應(yīng)用GCN子網(wǎng)輔助CNN,將GCN網(wǎng)絡(luò)的影像與CNN的特征圖進(jìn)行線性組合。MMNet[6]引入了一個由兩個GCN子網(wǎng)和CNN組成的多模式網(wǎng)絡(luò),每個子網(wǎng)分別嵌入這些特征,然后在網(wǎng)絡(luò)的末端對這些特征進(jìn)行求和。其他研究[14,49,3,1,19,39]將圖形骨架轉(zhuǎn)換為熱力圖,PoseC3D[19]使用雙3D CNN分支視頻幀和3D熱力圖,它沒有明確地考慮骨骼中關(guān)節(jié)之間的空間關(guān)系,這可能會限制它捕捉復(fù)雜和微妙動作的能力,或者降低區(qū)分涉及不同關(guān)節(jié)結(jié)構(gòu)的類似動作的能力。STAR[1]提出將CNN特征圖與2D聯(lián)合熱圖相結(jié)合生成聯(lián)合令牌,為了融合這兩種模式,他們通過組合不同的模式令牌來連接多類令牌,盡管改進(jìn)了跨模態(tài)學(xué)習(xí)的性能,但視頻幀和骨架模態(tài)只是集成在一起,從而忽略了細(xì)節(jié)的設(shè)計。我們提出了一種有效的特征融合方法,稱為跨模態(tài)令牌,為了交換上下文信息,每個令牌被分派到另一個模態(tài)中。

變形注意力變壓器。二維可變形CNN學(xué)習(xí)可變形特征的思想已經(jīng)被應(yīng)用到ViT的注意力模塊中,在包括圖像分類在內(nèi)的各種應(yīng)用中都取得了優(yōu)異的表現(xiàn),將可變形的DETR[57]應(yīng)用于物體檢測,證明了其能夠準(zhǔn)確檢測各種大小的物體,提出了一種具有較好數(shù)值穩(wěn)定性和魯棒性的可變形注意力轉(zhuǎn)換器(DAT)[47]。在動作識別方面,用于時空學(xué)習(xí)的3D可變形CNN[24,26]表現(xiàn)出比2D可變形CNN更好的性能,但由于針對空間特征嵌入優(yōu)化的注意力的結(jié)構(gòu)約束,無法應(yīng)用于變壓器。因此,在本研究中,我們提出了一種新的3D可變形變壓器,能夠使用跨模態(tài)標(biāo)記融合跨模態(tài)特征。該方法實現(xiàn)了基于局部關(guān)節(jié)步幅和時間步幅關(guān)注的三維可變形特征嵌入。本文的其余部分組織如下。第3節(jié)詳細(xì)解釋了所建議的方法。第4節(jié)提供了幾個基準(zhǔn)測試的實驗分析以及可視化描述。最后,第5節(jié)對本研究進(jìn)行了總結(jié)。

3. 方法

我們提出了一個具有自適應(yīng)時空感受野和跨模態(tài)學(xué)習(xí)方案的動作識別的3D可變形變壓器,所提出模型的整體架構(gòu)如圖2所示,并在以下章節(jié)中進(jìn)行詳細(xì)描述。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

圖2:我們的3D可變形變壓器概述。(a)我們的模型由主干和一系列變壓器塊組成,每個變壓器塊使用不同的模態(tài)令牌來處理來自不同領(lǐng)域的內(nèi)在屬性,并將模態(tài)與跨模態(tài)令牌融合,該模型包括關(guān)節(jié)跨步和時間跨步注意,以減少計算成本。(b)提出的三維可變形注意力包括三維令牌搜索(3DTS)和注意力模塊,輸入RGB令牌Z在與模態(tài)令牌連接后作為查詢令牌嵌入,來自3DTS的可變形標(biāo)記也與模態(tài)標(biāo)記連接,然后將其與鍵(Wk)和值(Wv)權(quán)重相乘。然后將它們提供給多頭自注意(MSA),以便與查詢令牌交互。

3.1. 跨模態(tài)學(xué)習(xí)

在動作識別中,跨模態(tài)學(xué)習(xí)已經(jīng)成為主流,它利用了各種模式,如視頻幀和骨架。一些成功的研究[19,6,5,17,23,16]采用了處理不同域特征的子網(wǎng),然而,這些設(shè)計最終由于特定于域的子網(wǎng)而增加了冗余和復(fù)雜性。我們提出簡單而有效的跨模態(tài)學(xué)習(xí),用于相互交換上下文信息,我們的跨模態(tài)學(xué)習(xí)方法由主干[45]組成,主干[45]提供中間特征映射和順序任務(wù),當(dāng)圖像的高度為H,寬度為W,時間維數(shù)為T,特征維數(shù)為C時,骨干網(wǎng)絡(luò)提供從中間層提取的視覺特征映射和。在Fb的情況下,我們將其視為視覺表征學(xué)習(xí)的RGB模態(tài)輸入,而將局部級特征映射Fa作為結(jié)合骨架的姿態(tài)模態(tài)輸入,為了融合兩種模式,我們應(yīng)用以下概念:

姿勢模式。為了設(shè)計具有減輕冗余的跨模態(tài)學(xué)習(xí)方案,我們提出了面向視覺特征的姿勢標(biāo)記與聯(lián)合熱圖相結(jié)合,如[19,1]。首先,【姿勢模態(tài)設(shè)計:將連續(xù)的骨架序列分解為單關(guān)節(jié)單元,然后通過將關(guān)節(jié)投影到相應(yīng)坐標(biāo)的空白的三維像素上,將每個關(guān)節(jié)重新組合成一個關(guān)節(jié)熱圖,其中,R為節(jié)點(diǎn)數(shù),空間維度(H/2,W/2)與Fa的特征圖的大小相同,最后,【姿勢令牌的生成:使用關(guān)節(jié)標(biāo)記生成姿勢標(biāo)記P,使用公式(1)進(jìn)行計算。這個公式的意思是,在每個時間t下,對所有關(guān)節(jié)進(jìn)行加權(quán)求和,其中權(quán)重由特征圖Fa和高斯模糊輸出(公式(2))相乘得到,這個過程將在每個時間步長生成一組姿勢標(biāo)記P,其中P包含了每個骨架序列的R個姿勢令牌,每個令牌具有C個特征維度,公式如下所示:

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

其中由每個C維特征的骨架序列的R個姿勢令牌組成,||表示級聯(lián),為了滿足RGB模態(tài)的特征維度Fb,對姿勢令牌進(jìn)行線性投影,得到。

RGB模式。采用RGB模式,將提取的視覺特征圖Fb作為RGB標(biāo)記,記作,對提取的RGB令牌Z進(jìn)行位置嵌入(position embedding)融合。

3.2. 3D可變形Transformer

跨模式標(biāo)記。一種直觀的方法是連接來自兩種模式的所有令牌,考慮每個令牌的特征,然后通過變壓器堆棧組合信息,然而,要在單個變壓器中組合不同的模態(tài),需要經(jīng)過深思熟慮的設(shè)計,并且模態(tài)必須是協(xié)作和互補(bǔ)的,類似地,在STAR[1]中,作者使用多類令牌進(jìn)行跨模式學(xué)習(xí),盡管這是一種簡單而有效的方法,但與其他轉(zhuǎn)換器一樣,它只針對所有令牌的信息融合,而不考慮各種模式的內(nèi)在特性和互補(bǔ)性,因此,我們提出了一種跨模態(tài)令牌,可以有效地組合變壓器內(nèi)的不同模態(tài),跨模態(tài)令牌是由三個可訓(xùn)練令牌組成的集合:CLS、RGB和姿勢模態(tài)令牌。在以往的研究[18,41]中,CLS令牌被用作最終嵌入,通過與其他令牌交互來融合信息,我們將CLS令牌視為編譯其余兩個模態(tài)令牌的“模態(tài)混合器”,這些令牌被分派到相互模態(tài)以交換其領(lǐng)域信息,第一個和令牌被饋送到3D可變形注意力模塊,然后,輸出的RGB和CLS模態(tài)令牌,即三維可變形注意力的和,通過分離的變壓器塊與調(diào)度的CLS令牌配合,反映來自各自領(lǐng)域的信息。接下來,我們介紹如圖2 (b)所示的三維可變形注意力,這是所提出的變壓器的核心。

3D可變形注意力。雖然變壓器最近成為視覺任務(wù)的新標(biāo)準(zhǔn),但對動作識別任務(wù)的研究相對較少。由于變壓器的性質(zhì)考慮了輸入令牌之間的長期關(guān)系,因此隨著時間步長,它可能導(dǎo)致計算復(fù)雜性呈指數(shù)級增長,此外,為了解決靜態(tài)變壓器的問題,提出了在自關(guān)注中靈活選擇鍵值位置的DAT[47];然而,它并不適用于需要處理跨模態(tài)和時空特征的動作識別。為了減輕復(fù)雜性,同時保持變壓器的本質(zhì),受[47]的啟發(fā),我們提出使用3D可變形注意力進(jìn)行動作識別,如圖2 (b)所示,3D可變形注意可以自適應(yīng)地捕捉RGB模態(tài)上的時空特征。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

3D可變形注意力模塊由3D令牌搜索(3DTS)和帶有前饋網(wǎng)絡(luò)(FFN)的多頭自注意(MSA)組成,如圖2 (b)所示。首先,模塊的輸入RGB令牌Z被饋送到包含k個卷積核的兩層Conv3D的3DTS中,采用層歸一化(LN)和GELU非線性,最后一個Conv3D生成偏移量(?p),其中包含相對于參考點(diǎn)(p)的流場,參考點(diǎn)被定義為在3D空間中有的離散的點(diǎn),偏移量引導(dǎo)參考點(diǎn)在時空標(biāo)記Z中尋找具有判別性的標(biāo)記坐標(biāo),如圖3所示,通過選擇從偏移量中獲取的調(diào)整坐標(biāo),從時空標(biāo)記Z中選擇標(biāo)記,生成3D可變形標(biāo)記?Z,

其中和分別是輸入和選擇的RGB令牌。,和的大小是根據(jù)卷積核大小k來確定的,在我們的例子中,我們將k設(shè)置為7且不填充,以稀疏地提取可變形的標(biāo)記并提高效率。另外,和ω分別是3DTS中MSA和3D conv塊的可訓(xùn)練權(quán)值和模型參數(shù),應(yīng)該注意的是,雖然查詢令牌是以與轉(zhuǎn)換器相同的方式組成的,但鍵和值令牌是由來自3DTS的選定令牌組成的。我們實施的更多細(xì)節(jié)見附錄B。

然后分別使用和將這些令牌嵌入到鍵和值令牌中,在此,我們的目標(biāo)是使令牌學(xué)習(xí)RGB模態(tài)特征,在RGB和姿態(tài)模態(tài)之間交換領(lǐng)域信息,為了將跨模態(tài)標(biāo)記與RGB模態(tài)融合,將、和時空特征標(biāo)記Z這三個標(biāo)記連接到標(biāo)記X。

其中和分別代表從RGB模態(tài)和模態(tài)頭部的部分提出的跨模態(tài)令牌中獲得。

類似地,選擇的可變形標(biāo)記與兩個跨模態(tài)符號耦合以產(chǎn)生。

然后,將X乘以查詢權(quán)值,將X分別乘以鍵權(quán)值和,這些重新組合的令牌作為查詢、鍵和值提供給多頭自注意力。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

最后通過LN和FFN的結(jié)合得到3D可變形注意力的輸出X。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

我們將從提出的3D可變形注意力中選擇的令牌的注意力分?jǐn)?shù)可視化,如圖5所示,我們提出的3DTS識別具有自適應(yīng)感受野的基本強(qiáng)烈區(qū)域。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

局部關(guān)節(jié)跨步注意力。在動作識別中,一個場景中經(jīng)常會出現(xiàn)多個人物;因此,關(guān)節(jié)標(biāo)記的數(shù)量隨著人數(shù)的增加而增加,為了降低計算復(fù)雜度,我們將多人的關(guān)節(jié)連接成一系列的關(guān)節(jié)令牌,雖然這種方法是一種有效的方法,可以同時處理同一場景中的多人,而不會顯著增加復(fù)雜性,但它仍然會導(dǎo)致一個問題,即隨著人數(shù)的增加,聯(lián)合令牌的大小呈指數(shù)級增長,為了避免這個問題,我們使用聯(lián)合令牌上的滑動窗口來配置查詢、鍵和值令牌,如圖4 (a)所示,每個滑動窗口中的所有令牌都被平面化,然后與從3D可變形注意力調(diào)度的和連接,以應(yīng)用縮放點(diǎn)積,這比一次計算所有令牌并維護(hù)彼此之間的關(guān)系更有效。關(guān)節(jié)步幅注意的輸出是位姿令牌P和模態(tài)令牌和。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

計算得到的RGB標(biāo)記Z和姿態(tài)標(biāo)記P被輸入到時間步幅注意模塊,在此步驟之前,為了融合來自每個模態(tài)的上下文信息,從3D可變形注意力中記憶的和從關(guān)節(jié)跨步注意中計算的一起投影到一個新的單一中,如圖2 (a)所示,時間跨步注意模塊,學(xué)習(xí)與跨模態(tài)標(biāo)記連接的標(biāo)記? ?的時間變化之間的相關(guān)性。

時間跨步注意。當(dāng)轉(zhuǎn)換器處理輸入令牌時,注意模塊存在一些限制。一般來說,注意力模塊涵蓋了所有帶有縮放點(diǎn)積的輸入標(biāo)記,因此,注意力模塊的復(fù)雜性高度依賴于輸入令牌的數(shù)量,在順序數(shù)據(jù)的情況下,這個問題更為嚴(yán)重,因為輸入令牌隨著時間維度的大小而增長,Ahn et al.[1]將時間維度分為兩組,其中包含有規(guī)則交錯的標(biāo)記,盡管時間維數(shù)減半,但復(fù)雜性僅略有降低,并且鄰域的時間相關(guān)性解耦,與Ahn等人不同的是,我們提出了一種降低復(fù)雜性和增強(qiáng)交叉注意時間相關(guān)性的時間步幅,在構(gòu)建輸入查詢、鍵和值令牌時,時間維度被分割成定期增加的步,以降低復(fù)雜性來耦合各種順序關(guān)系。如圖4 (b)所示,我們首先為給定步幅設(shè)置一個本地時間窗口。此窗口遍歷所有令牌并指定查詢、鍵和值令牌。它不僅減少了注意力模塊的輸入標(biāo)記的數(shù)量,而且支持時間表征學(xué)習(xí),而不需要一次使用所有的標(biāo)記。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

如上所述的所有可變形變壓器都重復(fù)l次,如圖2 (a)所示。為了得到最終的邏輯,我們只將跨模態(tài)標(biāo)記與通道尺寸連接起來,然后將它們輸入分類頭。

4.實驗

5.總結(jié)

vit已成為各種視覺任務(wù)的主流,取得了壓倒性的成績;然而,它在動作識別任務(wù)中使用相對較少。因此,我們首先提出了一種由跨窗交叉注意力組成的三維可變形注意力,以更好地學(xué)習(xí)時空特征,并提出了一種跨模態(tài)的動作識別框架。該方法在具有代表性的動作識別數(shù)據(jù)集上取得了新的SoTA性能。定性實驗結(jié)果表明,該方法具有較強(qiáng)的時空特征學(xué)習(xí)能力。文章來源地址http://www.zghlxwxcb.cn/news/detail-843038.html

到了這里,關(guān)于Cross-Modal Learning with 3D Deformable Attention for Action Recognition的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文閱讀筆記】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling

    【論文閱讀筆記】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling

    Wang H, Chen Y, Ma C, et al. Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 15878-15887. 【論文概述】 本文的核心思想是提出一種名為“共享-特定特征建模(ShaSpec)”的方法,用于處理多模態(tài)學(xué)習(xí)中

    2024年01月19日
    瀏覽(28)
  • Multi-Task Learning based Video Anomaly Detection with Attention 論文閱讀

    Multi-Task Learning based Video Anomaly Detection with Attention 論文閱讀

    文章信息: 原文鏈接:https://ieeexplore.ieee.org/document/10208994/ 源代碼:無 發(fā)表于:CVPR 2023 基于多任務(wù)學(xué)習(xí)的視頻異常檢測方法將多個代理任務(wù)結(jié)合在不同的分支中,以便在不同情境中檢測視頻異常。然而,大多數(shù)現(xiàn)有方法存在以下一些缺點(diǎn): I) 它們的代理任務(wù)組合方式不是以

    2024年01月20日
    瀏覽(33)
  • 詳解可變形注意力模塊(Deformable Attention Module)

    詳解可變形注意力模塊(Deformable Attention Module)

    Deformable Attention(可變形注意力)首先在2020年10月初商湯研究院的《Deformable DETR: Deformable Transformers for End-to-End Object Detection》論文中提出,在2022CVPR中《Vision Transformer with Deformable Attention》提出應(yīng)用了Deformable Attention(可變形自注意力)機(jī)制的通用視覺Transformer骨干網(wǎng)絡(luò)DAT( D

    2024年02月03日
    瀏覽(20)
  • Self-Attention && Cross-Attention

    Self-Attention && Cross-Attention

    transformer的細(xì)節(jié)到底是怎么樣的?Transformer 連環(huán)18問! 4.1 ?從功能角度,Transformer Encoder的核心作用是提取特征,也有使用Transformer Decoder來提取特征。例如,一個人學(xué)習(xí)跳舞,Encoder是看別人是如何跳舞的,Decoder是將學(xué)習(xí)到的經(jīng)驗和記憶,展現(xiàn)出來 4.2 ?從結(jié)構(gòu)角度,如圖5所示

    2024年02月16日
    瀏覽(36)
  • 圖解cross attention

    圖解cross attention

    ?英文參考鏈接: https://vaclavkosar.com/ml/cross-attention-in-transformer-architecture 除了輸入,cross-attention 計算與self-attention相同。交叉注意力不對稱地組合了兩個相同維度的獨(dú)立嵌入序列,相比之下,自注意力輸入是一個單一的嵌入序列。其中一個序列用作查詢輸入,而另一個用作鍵

    2024年01月16日
    瀏覽(21)
  • 【科研】淺學(xué)Cross-attention?

    【科研】淺學(xué)Cross-attention?

    Cross-Attention in Transformer Architecture? 最近,CrossViT讓我所有思考,這種能過夠跨膜態(tài)的模型構(gòu)建?淺學(xué)一下吧! 目錄 1.Cross attention概念 2.Cross-attention vs Self-attention? 3.Cross-attention算法? 4.Cross-Attention 案例-感知器IO Transformer架構(gòu)中混合兩種不同嵌入序列的注意機(jī)制 兩個序列 必須具

    2024年02月04日
    瀏覽(61)
  • cross attention輸入不同維度的矩陣

    在學(xué)習(xí)使用cross attention的時候我查閱了很多資料,發(fā)現(xiàn)里面說的都是cross attention的輸入需要是相同維度的矩陣,但是我所需要的是可以處理不同維度數(shù)據(jù)的cross attention。 cross attention 看了關(guān)于cross attention的一些介紹和代碼,發(fā)現(xiàn)大多都是這樣 這里的x和y所輸入的維度需要一致

    2024年02月04日
    瀏覽(21)
  • MaPLe: Multi-modal Prompt Learning

    本文也是LLM系統(tǒng)的文章,主要是面向多模態(tài)的大語言模型,針對《MaPLe: Multi-modal Prompt Learning》的翻譯。 CLIP等預(yù)先訓(xùn)練的視覺語言(V-L)模型對下游任務(wù)表現(xiàn)出了出色的泛化能力。但是,它們對輸入文本提示的選擇很敏感,需要仔細(xì)選擇提示模板才能執(zhí)行良好的操作。受自然

    2024年02月09日
    瀏覽(27)
  • 論文閱讀 | Cross-Attention Transformer for Video Interpolation

    論文閱讀 | Cross-Attention Transformer for Video Interpolation

    前言:ACCV2022wrokshop用transformer做插幀的文章,q,kv,來自不同的圖像 代碼:【here】 傳統(tǒng)的插幀方法多用光流,但是光流的局限性在于 第一:它中間會算至少兩個 cost volumes,它是四維的,計算量非常大 第二:光流不太好處理遮擋(光流空洞)以及運(yùn)動的邊緣(光流不連續(xù))

    2024年02月09日
    瀏覽(28)
  • 【提示學(xué)習(xí)論文六】MaPLe: Multi-modal Prompt Learning論文原理

    【提示學(xué)習(xí)論文六】MaPLe: Multi-modal Prompt Learning論文原理

    這篇文章于2023年發(fā)表在CVPR(Conference on Computer Vision and Pattern Recognition),作者是Muhammad Uzair Khattak,Hanoona Rasheed,Muhammad Maaz,Salman Khan,F(xiàn)ahad Shahbaz Khan。 研究發(fā)現(xiàn)Clip的問題:在單個分支(語言或視覺)中使用prompt來調(diào)整表示是次優(yōu)的,它不能在下游任務(wù)上靈活地動態(tài)調(diào)整兩個

    2024年01月22日
    瀏覽(45)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包