国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Cross-Modal Learning with 3D Deformable Attention for Action Recognition

2年前作者：七77.分類：Toy博客閱讀(33)違法舉報

這篇具有很好參考價值的文章主要介紹了Cross-Modal Learning with 3D Deformable Attention for Action Recognition。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能標(biāo)題：基于三維可變形注意力的跨模態(tài)學(xué)習(xí)用于動作識別

發(fā)表：ICCV2023

摘要

在基于視覺的動作識別中，一個重要的挑戰(zhàn)是將具有兩個或多個異構(gòu)模態(tài)的時空特征嵌入到單個特征中。在這項研究中，我們提出了一種新的三維變形變壓器，用于動作識別，具有自適應(yīng)時空感受野和跨模態(tài)學(xué)習(xí)方案。三維可變形變壓器由三維可變形性、局部節(jié)點(diǎn)跨步和時間跨步注意力三個注意力模塊組成，將這兩個跨模態(tài)標(biāo)記輸入到三維可變形注意力模塊中，以創(chuàng)建具有反映時空相關(guān)性的交叉注意力標(biāo)記，局部聯(lián)合步幅注意力應(yīng)用于在空間上結(jié)合注意力與姿態(tài)符號，時間跨步注意力在時間上減少了注意力模塊中輸入標(biāo)記的數(shù)量，支持時間表達(dá)學(xué)習(xí)，而無需同時使用所有標(biāo)記，可變形轉(zhuǎn)換器迭代L次，并結(jié)合最后一個跨模態(tài)標(biāo)記進(jìn)行分類。提出的3D可變形變壓器在NTU60, NTU120, FineGYM和PennAction數(shù)據(jù)集上進(jìn)行了測試，即使沒有預(yù)訓(xùn)練過程，其結(jié)果也優(yōu)于或類似于預(yù)訓(xùn)練的最先進(jìn)方法。此外，通過空間關(guān)節(jié)和時間步幅注意力可視化動作識別過程中的重要關(guān)節(jié)和相關(guān)性，提出了實現(xiàn)動作識別可解釋電位的可能性。

1.介紹

時空特征學(xué)習(xí)是動作識別的重要組成部分，它不僅要融合每一幀的空間特征，而且要融合輸入序列之間的時間相關(guān)性。先前在動作識別方面的研究[19,6,5,42,9,48]研究了三維卷積核在二維空間特征空間之外的額外時間空間的應(yīng)用，從那時起，3D卷積神經(jīng)網(wǎng)絡(luò)(CNN)取得了很好的表現(xiàn)，并最終成為使用序列數(shù)據(jù)的各種動作識別任務(wù)的事實上的標(biāo)準(zhǔn)。用于動作識別的視覺變形器(ViTs)已經(jīng)達(dá)到了普及的頂峰，最近被用于探索3D令牌嵌入，以融合單個令牌內(nèi)的時間空間。然而，基于ViTs的動作識別方法[1,34]的局限性在于它們只能在有限的感受野中進(jìn)行時空特征學(xué)習(xí)。

為了避免這個問題，已經(jīng)進(jìn)行了一些研究[15,57,47]，為深度學(xué)習(xí)模型提供了更靈活的感受野，可變形的CNN利用動態(tài)卷積核來捕獲強(qiáng)烈的對象區(qū)域。首先，它們利用嵌入的特征確定可變形坐標(biāo)，然后將卷積核應(yīng)用于從可變形坐標(biāo)中提取的特征，可變形的vit[47,57]鼓勵使用現(xiàn)有的注意力模塊來學(xué)習(xí)可變形的特征，將查詢標(biāo)記投影到坐標(biāo)上，以從鍵和值標(biāo)記獲得可變形的區(qū)域，然后將變形值標(biāo)記應(yīng)用于注意力圖，注意力圖是通過輸入查詢和變形鍵標(biāo)記的縮放點(diǎn)積生成的。這些方法提出了一種新的方法，可以克服現(xiàn)有的標(biāo)準(zhǔn)化特征學(xué)習(xí)的局限性。然而，盡管這些研究取得了一些令人印象深刻的成果，但它們?nèi)匀痪窒抻趦H與空間維度兼容。因此，作為主要挑戰(zhàn)，需要開發(fā)能夠從圖像序列中學(xué)習(xí)時空特征的新型可變形vit。

另一個挑戰(zhàn)是多模態(tài)輸入特征在動作識別模型中的有效應(yīng)用。根據(jù)特征類型將動作識別分為三類，第一種是基于視頻的方法[56,4,46,29,20,43,33]，傳統(tǒng)上用于動作識別，這種方法受到噪聲導(dǎo)致的性能下降的限制，例如不同的物體大小、遮擋或不同的相機(jī)角度。第二種是基于骨架的方法[51,25,12,13,11]，主要是通過圖神經(jīng)網(wǎng)絡(luò)(graph neural network, GNN)將姿勢轉(zhuǎn)換成圖來識別動作，盡管該方法對噪聲具有魯棒性，但其性能高度依賴于姿態(tài)提取方法。為了克服前兩種方法的缺點(diǎn)，第三種方法旨在使用多模態(tài)或跨模態(tài)學(xué)習(xí)同時融合異構(gòu)領(lǐng)域特征，該方法可以同時訓(xùn)練視頻和骨架特征，然而，由于大多數(shù)相關(guān)研究使用的是由每個模態(tài)的GNN + CNN或CNN + CNN組成的單獨(dú)模型，因此構(gòu)建有效的單一模型存在局限性。

為了緩解上述缺點(diǎn)，我們提出使用具有3D可變形注意力的變壓器來動態(tài)地利用時空特征進(jìn)行動作識別。通過這種方式，提出的模型應(yīng)用靈活的跨模式學(xué)習(xí)，【模型特點(diǎn)：它在單個變壓器模型中處理骨架和視頻幀，骨架被投影到連續(xù)的關(guān)節(jié)標(biāo)記上，每個關(guān)節(jié)標(biāo)記包含每個關(guān)節(jié)坐標(biāo)的激活，為了在每個模態(tài)之間提供有效的跨模態(tài)學(xué)習(xí)，該方法采用跨模態(tài)令牌來相互交換上下文信息，因此，所提出的模型能夠在沒有輔助子模型的情況下實現(xiàn)跨模態(tài)的性能提升，】圖1顯示了之前的完全注意和所提出的3D可變形注意力之間的比較，在圖1 (a)所示的完全關(guān)注的情況下，一個時空區(qū)域中的所有標(biāo)記都針對一個特定的查詢標(biāo)記進(jìn)行覆蓋，相比之下，我們提出的3D可變形注意力方案(如圖1 (b)所示)只考慮整個時空區(qū)域中具有高相關(guān)性的標(biāo)記。本研究的主要貢獻(xiàn)如下:

?我們提出了第一個3D可變形注意力，它自適應(yīng)地考慮了變壓器內(nèi)的時空相關(guān)性，如圖1 (b)所示，打破了以前的研究，即在一個完整的序列中考慮針對特定查詢的所有標(biāo)記。

?我們提出了一種基于互補(bǔ)跨模態(tài)令牌的跨模態(tài)學(xué)習(xí)方案，每個跨模態(tài)令牌在不同模態(tài)之間傳遞上下文信息。這種方法可以在單個變壓器模型結(jié)構(gòu)中支持簡單而有效的跨模態(tài)學(xué)習(xí)。

?我們通過視覺解釋提供了3D可變形注意力的定性證據(jù)，并證明所提出的模型優(yōu)于以前的幾種最先進(jìn)的(SoTA)方法。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

2. 相關(guān)工作

動作識別的時空學(xué)習(xí)。該領(lǐng)域的早期研究主要集中在使用3D CNN，這是2D CNN的擴(kuò)展，近年來，這已成為基于視覺的動作識別的核心措施。PoseC3D[19]結(jié)合了來自骨架和輸入視頻幀的3D熱力圖，SlowFast[21]通過提供不同幀率之間的幀融合方案，對該領(lǐng)域做出了重大貢獻(xiàn)，也有相關(guān)的方法[22,42,43,44,9,48,4,20,24]探索使用3D CNN架構(gòu)進(jìn)行動作識別，STDA[24]應(yīng)用3D可變形CNN，捕獲大量密集區(qū)域進(jìn)行時空學(xué)習(xí)，在過去的幾年里，隨著GNN的出現(xiàn)，焦點(diǎn)已經(jīng)轉(zhuǎn)移到基于骨架的動作識別上，ST-GCN[51]已成為采用獨(dú)立時空表示模塊進(jìn)行時空建模的基線，此外，vit由于其在順序任務(wù)中的優(yōu)越性能而引起了相當(dāng)大的關(guān)注，STAR[1]應(yīng)用交叉注意力來融合空間表征之間的時間相關(guān)性，ViViT[2]嵌入了一個帶有3D標(biāo)記器的輸入視頻，以在單個標(biāo)記中組合時空特征，其他研究[7,1,31]采用時間步長來捕捉不同時間步長的多樣性，然而，盡管三維變形的概念具有優(yōu)異的性能，但由于各種結(jié)構(gòu)限制，它不能應(yīng)用于vit的注意力。

動作識別的跨模態(tài)學(xué)習(xí)。目前大多數(shù)動作識別方法都使用各種視頻幀和骨架模式，幾種方法[17,6,5,16]使用圖形卷積網(wǎng)絡(luò)(GCN)來處理原始骨架輸入，并使用CNN來處理視頻幀。VPN[17]應(yīng)用GCN子網(wǎng)輔助CNN，將GCN網(wǎng)絡(luò)的影像與CNN的特征圖進(jìn)行線性組合。MMNet[6]引入了一個由兩個GCN子網(wǎng)和CNN組成的多模式網(wǎng)絡(luò)，每個子網(wǎng)分別嵌入這些特征，然后在網(wǎng)絡(luò)的末端對這些特征進(jìn)行求和。其他研究[14,49,3,1,19,39]將圖形骨架轉(zhuǎn)換為熱力圖，PoseC3D[19]使用雙3D CNN分支視頻幀和3D熱力圖，它沒有明確地考慮骨骼中關(guān)節(jié)之間的空間關(guān)系，這可能會限制它捕捉復(fù)雜和微妙動作的能力，或者降低區(qū)分涉及不同關(guān)節(jié)結(jié)構(gòu)的類似動作的能力。STAR[1]提出將CNN特征圖與2D聯(lián)合熱圖相結(jié)合生成聯(lián)合令牌，為了融合這兩種模式，他們通過組合不同的模式令牌來連接多類令牌，盡管改進(jìn)了跨模態(tài)學(xué)習(xí)的性能，但視頻幀和骨架模態(tài)只是集成在一起，從而忽略了細(xì)節(jié)的設(shè)計。我們提出了一種有效的特征融合方法，稱為跨模態(tài)令牌，為了交換上下文信息，每個令牌被分派到另一個模態(tài)中。

變形注意力變壓器。二維可變形CNN學(xué)習(xí)可變形特征的思想已經(jīng)被應(yīng)用到ViT的注意力模塊中，在包括圖像分類在內(nèi)的各種應(yīng)用中都取得了優(yōu)異的表現(xiàn)，將可變形的DETR[57]應(yīng)用于物體檢測，證明了其能夠準(zhǔn)確檢測各種大小的物體，提出了一種具有較好數(shù)值穩(wěn)定性和魯棒性的可變形注意力轉(zhuǎn)換器(DAT)[47]。在動作識別方面，用于時空學(xué)習(xí)的3D可變形CNN[24,26]表現(xiàn)出比2D可變形CNN更好的性能，但由于針對空間特征嵌入優(yōu)化的注意力的結(jié)構(gòu)約束，無法應(yīng)用于變壓器。因此，在本研究中，我們提出了一種新的3D可變形變壓器，能夠使用跨模態(tài)標(biāo)記融合跨模態(tài)特征。該方法實現(xiàn)了基于局部關(guān)節(jié)步幅和時間步幅關(guān)注的三維可變形特征嵌入。本文的其余部分組織如下。第3節(jié)詳細(xì)解釋了所建議的方法。第4節(jié)提供了幾個基準(zhǔn)測試的實驗分析以及可視化描述。最后，第5節(jié)對本研究進(jìn)行了總結(jié)。

3. 方法

我們提出了一個具有自適應(yīng)時空感受野和跨模態(tài)學(xué)習(xí)方案的動作識別的3D可變形變壓器，所提出模型的整體架構(gòu)如圖2所示，并在以下章節(jié)中進(jìn)行詳細(xì)描述。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

圖2:我們的3D可變形變壓器概述。(a)我們的模型由主干和一系列變壓器塊組成，每個變壓器塊使用不同的模態(tài)令牌來處理來自不同領(lǐng)域的內(nèi)在屬性，并將模態(tài)與跨模態(tài)令牌融合，該模型包括關(guān)節(jié)跨步和時間跨步注意，以減少計算成本。(b)提出的三維可變形注意力包括三維令牌搜索(3DTS)和注意力模塊，輸入RGB令牌Z在與模態(tài)令牌連接后作為查詢令牌嵌入，來自3DTS的可變形標(biāo)記也與模態(tài)標(biāo)記連接，然后將其與鍵(Wk)和值(Wv)權(quán)重相乘。然后將它們提供給多頭自注意(MSA)，以便與查詢令牌交互。

3.1. 跨模態(tài)學(xué)習(xí)

在動作識別中，跨模態(tài)學(xué)習(xí)已經(jīng)成為主流，它利用了各種模式，如視頻幀和骨架。一些成功的研究[19,6,5,17,23,16]采用了處理不同域特征的子網(wǎng)，然而，這些設(shè)計最終由于特定于域的子網(wǎng)而增加了冗余和復(fù)雜性。我們提出簡單而有效的跨模態(tài)學(xué)習(xí)，用于相互交換上下文信息，我們的跨模態(tài)學(xué)習(xí)方法由主干[45]組成，主干[45]提供中間特征映射和順序任務(wù)，當(dāng)圖像的高度為H，寬度為W，時間維數(shù)為T，特征維數(shù)為C時，骨干網(wǎng)絡(luò)提供從中間層提取的視覺特征映射和。在Fb的情況下，我們將其視為視覺表征學(xué)習(xí)的RGB模態(tài)輸入，而將局部級特征映射Fa作為結(jié)合骨架的姿態(tài)模態(tài)輸入，為了融合兩種模式，我們應(yīng)用以下概念:

姿勢模式。為了設(shè)計具有減輕冗余的跨模態(tài)學(xué)習(xí)方案，我們提出了面向視覺特征的姿勢標(biāo)記與聯(lián)合熱圖相結(jié)合，如[19,1]。首先，【姿勢模態(tài)設(shè)計：將連續(xù)的骨架序列分解為單關(guān)節(jié)單元，然后通過將關(guān)節(jié)投影到相應(yīng)坐標(biāo)的空白的三維像素上，將每個關(guān)節(jié)重新組合成一個關(guān)節(jié)熱圖,其中，R為節(jié)點(diǎn)數(shù)，空間維度（H/2,W/2）與Fa的特征圖的大小相同，】最后，【姿勢令牌的生成：使用關(guān)節(jié)標(biāo)記生成姿勢標(biāo)記P，使用公式（1）進(jìn)行計算。這個公式的意思是，在每個時間t下，對所有關(guān)節(jié)進(jìn)行加權(quán)求和，其中權(quán)重由特征圖Fa和高斯模糊輸出（公式（2））相乘得到，這個過程將在每個時間步長生成一組姿勢標(biāo)記P，其中P包含了每個骨架序列的R個姿勢令牌，每個令牌具有C個特征維度，】公式如下所示:

$Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能$

其中由每個C維特征的骨架序列的R個姿勢令牌組成，||表示級聯(lián)，為了滿足RGB模態(tài)的特征維度Fb，對姿勢令牌進(jìn)行線性投影，得到。

RGB模式。采用RGB模式，將提取的視覺特征圖Fb作為RGB標(biāo)記，記作，對提取的RGB令牌Z進(jìn)行位置嵌入（position embedding）融合。

3.2. 3D可變形Transformer

跨模式標(biāo)記。一種直觀的方法是連接來自兩種模式的所有令牌，考慮每個令牌的特征，然后通過變壓器堆棧組合信息，然而，要在單個變壓器中組合不同的模態(tài)，需要經(jīng)過深思熟慮的設(shè)計，并且模態(tài)必須是協(xié)作和互補(bǔ)的，類似地，在STAR[1]中，作者使用多類令牌進(jìn)行跨模式學(xué)習(xí)，盡管這是一種簡單而有效的方法，但與其他轉(zhuǎn)換器一樣，它只針對所有令牌的信息融合，而不考慮各種模式的內(nèi)在特性和互補(bǔ)性，因此，我們提出了一種跨模態(tài)令牌，可以有效地組合變壓器內(nèi)的不同模態(tài)，跨模態(tài)令牌是由三個可訓(xùn)練令牌組成的集合:CLS、RGB和姿勢模態(tài)令牌。在以往的研究[18,41]中，CLS令牌被用作最終嵌入，通過與其他令牌交互來融合信息，我們將CLS令牌視為編譯其余兩個模態(tài)令牌的“模態(tài)混合器”，這些令牌被分派到相互模態(tài)以交換其領(lǐng)域信息，第一個和令牌被饋送到3D可變形注意力模塊，然后，輸出的RGB和CLS模態(tài)令牌，即三維可變形注意力的和，通過分離的變壓器塊與調(diào)度的CLS令牌配合，反映來自各自領(lǐng)域的信息。接下來，我們介紹如圖2 (b)所示的三維可變形注意力，這是所提出的變壓器的核心。

3D可變形注意力。雖然變壓器最近成為視覺任務(wù)的新標(biāo)準(zhǔn)，但對動作識別任務(wù)的研究相對較少。由于變壓器的性質(zhì)考慮了輸入令牌之間的長期關(guān)系，因此隨著時間步長，它可能導(dǎo)致計算復(fù)雜性呈指數(shù)級增長，此外，為了解決靜態(tài)變壓器的問題，提出了在自關(guān)注中靈活選擇鍵值位置的DAT[47];然而，它并不適用于需要處理跨模態(tài)和時空特征的動作識別。為了減輕復(fù)雜性，同時保持變壓器的本質(zhì)，受[47]的啟發(fā)，我們提出使用3D可變形注意力進(jìn)行動作識別，如圖2 (b)所示，3D可變形注意可以自適應(yīng)地捕捉RGB模態(tài)上的時空特征。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

3D可變形注意力模塊由3D令牌搜索(3DTS)和帶有前饋網(wǎng)絡(luò)(FFN)的多頭自注意(MSA)組成，如圖2 (b)所示。首先，模塊的輸入RGB令牌Z被饋送到包含k個卷積核的兩層Conv3D的3DTS中，采用層歸一化(LN)和GELU非線性，最后一個Conv3D生成偏移量(?p)，其中包含相對于參考點(diǎn)(p)的流場，參考點(diǎn)被定義為在3D空間中有的離散的點(diǎn)，偏移量引導(dǎo)參考點(diǎn)在時空標(biāo)記Z中尋找具有判別性的標(biāo)記坐標(biāo)，如圖3所示，通過選擇從偏移量中獲取的調(diào)整坐標(biāo)，從時空標(biāo)記Z中選擇標(biāo)記，生成3D可變形標(biāo)記?Z，

其中和分別是輸入和選擇的RGB令牌。,和的大小是根據(jù)卷積核大小k來確定的，在我們的例子中，我們將k設(shè)置為7且不填充，以稀疏地提取可變形的標(biāo)記并提高效率。另外，和ω分別是3DTS中MSA和3D conv塊的可訓(xùn)練權(quán)值和模型參數(shù)，應(yīng)該注意的是，雖然查詢令牌是以與轉(zhuǎn)換器相同的方式組成的，但鍵和值令牌是由來自3DTS的選定令牌組成的。我們實施的更多細(xì)節(jié)見附錄B。

然后分別使用和將這些令牌嵌入到鍵和值令牌中，在此，我們的目標(biāo)是使令牌學(xué)習(xí)RGB模態(tài)特征，在RGB和姿態(tài)模態(tài)之間交換領(lǐng)域信息，為了將跨模態(tài)標(biāo)記與RGB模態(tài)融合，將、和時空特征標(biāo)記Z這三個標(biāo)記連接到標(biāo)記X。

其中和分別代表從RGB模態(tài)和模態(tài)頭部的部分提出的跨模態(tài)令牌中獲得。

類似地，選擇的可變形標(biāo)記與兩個跨模態(tài)符號耦合以產(chǎn)生。

然后，將X乘以查詢權(quán)值，將X分別乘以鍵權(quán)值和，這些重新組合的令牌作為查詢、鍵和值提供給多頭自注意力。

$Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能$

最后通過LN和FFN的結(jié)合得到3D可變形注意力的輸出X。

$Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能$

我們將從提出的3D可變形注意力中選擇的令牌的注意力分?jǐn)?shù)可視化，如圖5所示，我們提出的3DTS識別具有自適應(yīng)感受野的基本強(qiáng)烈區(qū)域。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

局部關(guān)節(jié)跨步注意力。在動作識別中，一個場景中經(jīng)常會出現(xiàn)多個人物;因此，關(guān)節(jié)標(biāo)記的數(shù)量隨著人數(shù)的增加而增加，為了降低計算復(fù)雜度，我們將多人的關(guān)節(jié)連接成一系列的關(guān)節(jié)令牌，雖然這種方法是一種有效的方法，可以同時處理同一場景中的多人，而不會顯著增加復(fù)雜性，但它仍然會導(dǎo)致一個問題，即隨著人數(shù)的增加，聯(lián)合令牌的大小呈指數(shù)級增長，為了避免這個問題，我們使用聯(lián)合令牌上的滑動窗口來配置查詢、鍵和值令牌，如圖4 (a)所示,每個滑動窗口中的所有令牌都被平面化，然后與從3D可變形注意力調(diào)度的和連接，以應(yīng)用縮放點(diǎn)積,這比一次計算所有令牌并維護(hù)彼此之間的關(guān)系更有效。關(guān)節(jié)步幅注意的輸出是位姿令牌P和模態(tài)令牌和。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

計算得到的RGB標(biāo)記Z和姿態(tài)標(biāo)記P被輸入到時間步幅注意模塊,在此步驟之前，為了融合來自每個模態(tài)的上下文信息，從3D可變形注意力中記憶的和從關(guān)節(jié)跨步注意中計算的一起投影到一個新的單一中，如圖2 (a)所示，時間跨步注意模塊，學(xué)習(xí)與跨模態(tài)標(biāo)記連接的標(biāo)記? ?的時間變化之間的相關(guān)性。

時間跨步注意。當(dāng)轉(zhuǎn)換器處理輸入令牌時，注意模塊存在一些限制。一般來說，注意力模塊涵蓋了所有帶有縮放點(diǎn)積的輸入標(biāo)記，因此，注意力模塊的復(fù)雜性高度依賴于輸入令牌的數(shù)量，在順序數(shù)據(jù)的情況下，這個問題更為嚴(yán)重，因為輸入令牌隨著時間維度的大小而增長，Ahn et al.[1]將時間維度分為兩組，其中包含有規(guī)則交錯的標(biāo)記，盡管時間維數(shù)減半，但復(fù)雜性僅略有降低，并且鄰域的時間相關(guān)性解耦，與Ahn等人不同的是，我們提出了一種降低復(fù)雜性和增強(qiáng)交叉注意時間相關(guān)性的時間步幅，在構(gòu)建輸入查詢、鍵和值令牌時，時間維度被分割成定期增加的步，以降低復(fù)雜性來耦合各種順序關(guān)系。如圖4 (b)所示，我們首先為給定步幅設(shè)置一個本地時間窗口。此窗口遍歷所有令牌并指定查詢、鍵和值令牌。它不僅減少了注意力模塊的輸入標(biāo)記的數(shù)量，而且支持時間表征學(xué)習(xí)，而不需要一次使用所有的標(biāo)記。

Cross-Modal Learning with 3D Deformable Attention for Action Recognition,深度學(xué)習(xí),人工智能

如上所述的所有可變形變壓器都重復(fù)l次，如圖2 (a)所示。為了得到最終的邏輯，我們只將跨模態(tài)標(biāo)記與通道尺寸連接起來，然后將它們輸入分類頭。

4.實驗

5.總結(jié)

vit已成為各種視覺任務(wù)的主流，取得了壓倒性的成績;然而，它在動作識別任務(wù)中使用相對較少。因此，我們首先提出了一種由跨窗交叉注意力組成的三維可變形注意力，以更好地學(xué)習(xí)時空特征，并提出了一種跨模態(tài)的動作識別框架。該方法在具有代表性的動作識別數(shù)據(jù)集上取得了新的SoTA性能。定性實驗結(jié)果表明，該方法具有較強(qiáng)的時空特征學(xué)習(xí)能力。文章來源地址http://www.zghlxwxcb.cn/news/detail-843038.html

到了這里，關(guān)于Cross-Modal Learning with 3D Deformable Attention for Action Recognition的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【論文閱讀筆記】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling
Wang H, Chen Y, Ma C, et al. Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 15878-15887. 【論文概述】本文的核心思想是提出一種名為“共享-特定特征建模（ShaSpec）”的方法，用于處理多模態(tài)學(xué)習(xí)中
2024年01月19日
瀏覽(28)
Multi-Task Learning based Video Anomaly Detection with Attention 論文閱讀
文章信息：原文鏈接：https://ieeexplore.ieee.org/document/10208994/ 源代碼：無發(fā)表于：CVPR 2023 基于多任務(wù)學(xué)習(xí)的視頻異常檢測方法將多個代理任務(wù)結(jié)合在不同的分支中，以便在不同情境中檢測視頻異常。然而，大多數(shù)現(xiàn)有方法存在以下一些缺點(diǎn)： I) 它們的代理任務(wù)組合方式不是以
2024年01月20日
瀏覽(33)
詳解可變形注意力模塊（Deformable Attention Module）
Deformable Attention（可變形注意力）首先在2020年10月初商湯研究院的《Deformable DETR: Deformable Transformers for End-to-End Object Detection》論文中提出，在2022CVPR中《Vision Transformer with Deformable Attention》提出應(yīng)用了Deformable Attention（可變形自注意力）機(jī)制的通用視覺Transformer骨干網(wǎng)絡(luò)DAT（ D
2024年02月03日
瀏覽(20)
Self-Attention && Cross-Attention
transformer的細(xì)節(jié)到底是怎么樣的？Transformer 連環(huán)18問！ 4.1 ?從功能角度，Transformer Encoder的核心作用是提取特征，也有使用Transformer Decoder來提取特征。例如，一個人學(xué)習(xí)跳舞，Encoder是看別人是如何跳舞的，Decoder是將學(xué)習(xí)到的經(jīng)驗和記憶，展現(xiàn)出來 4.2 ?從結(jié)構(gòu)角度，如圖5所示
2024年02月16日
瀏覽(36)
圖解cross attention
?英文參考鏈接： https://vaclavkosar.com/ml/cross-attention-in-transformer-architecture 除了輸入，cross-attention 計算與self-attention相同。交叉注意力不對稱地組合了兩個相同維度的獨(dú)立嵌入序列，相比之下，自注意力輸入是一個單一的嵌入序列。其中一個序列用作查詢輸入，而另一個用作鍵
2024年01月16日
瀏覽(21)
【科研】淺學(xué)Cross-attention？
Cross-Attention in Transformer Architecture? 最近，CrossViT讓我所有思考，這種能過夠跨膜態(tài)的模型構(gòu)建？淺學(xué)一下吧! 目錄 1.Cross attention概念 2.Cross-attention vs Self-attention? 3.Cross-attention算法? 4.Cross-Attention 案例-感知器IO Transformer架構(gòu)中混合兩種不同嵌入序列的注意機(jī)制兩個序列必須具
2024年02月04日
瀏覽(61)
cross attention輸入不同維度的矩陣
在學(xué)習(xí)使用cross attention的時候我查閱了很多資料，發(fā)現(xiàn)里面說的都是cross attention的輸入需要是相同維度的矩陣，但是我所需要的是可以處理不同維度數(shù)據(jù)的cross attention。 cross attention 看了關(guān)于cross attention的一些介紹和代碼，發(fā)現(xiàn)大多都是這樣這里的x和y所輸入的維度需要一致
2024年02月04日
瀏覽(21)
MaPLe: Multi-modal Prompt Learning
本文也是LLM系統(tǒng)的文章，主要是面向多模態(tài)的大語言模型，針對《MaPLe: Multi-modal Prompt Learning》的翻譯。 CLIP等預(yù)先訓(xùn)練的視覺語言（V-L）模型對下游任務(wù)表現(xiàn)出了出色的泛化能力。但是，它們對輸入文本提示的選擇很敏感，需要仔細(xì)選擇提示模板才能執(zhí)行良好的操作。受自然
2024年02月09日
瀏覽(27)
論文閱讀 | Cross-Attention Transformer for Video Interpolation
前言：ACCV2022wrokshop用transformer做插幀的文章，q，kv，來自不同的圖像代碼：【here】傳統(tǒng)的插幀方法多用光流，但是光流的局限性在于第一：它中間會算至少兩個 cost volumes，它是四維的，計算量非常大第二：光流不太好處理遮擋（光流空洞）以及運(yùn)動的邊緣（光流不連續(xù)）
2024年02月09日
瀏覽(28)
【提示學(xué)習(xí)論文六】MaPLe: Multi-modal Prompt Learning論文原理
這篇文章于2023年發(fā)表在CVPR（Conference on Computer Vision and Pattern Recognition），作者是Muhammad Uzair Khattak，Hanoona Rasheed，Muhammad Maaz，Salman Khan，F(xiàn)ahad Shahbaz Khan。研究發(fā)現(xiàn)Clip的問題：在單個分支（語言或視覺）中使用prompt來調(diào)整表示是次優(yōu)的，它不能在下游任務(wù)上靈活地動態(tài)調(diào)整兩個
2024年01月22日
瀏覽(45)