国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

2年前作者：汀、人工智能分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制
【深度學(xué)習(xí)入門到進(jìn)階】必看系列，含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調(diào)優(yōu)、歸一化算法、卷積模型、序列模型、預(yù)訓(xùn)練模型、對(duì)抗神經(jīng)網(wǎng)絡(luò)等

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制
專欄詳細(xì)介紹：【深度學(xué)習(xí)入門到進(jìn)階】必看系列，含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調(diào)優(yōu)、歸一化算法、卷積模型、序列模型、預(yù)訓(xùn)練模型、對(duì)抗神經(jīng)網(wǎng)絡(luò)等

本專欄主要方便入門同學(xué)快速掌握相關(guān)知識(shí)。后續(xù)會(huì)持續(xù)把深度學(xué)習(xí)涉及知識(shí)原理分析給大家，讓大家在項(xiàng)目實(shí)操的同時(shí)也能知識(shí)儲(chǔ)備，知其然、知其所以然、知何由以知其所以然。

聲明：部分項(xiàng)目為網(wǎng)絡(luò)經(jīng)典項(xiàng)目方便大家快速學(xué)習(xí)，后續(xù)會(huì)不斷增添實(shí)戰(zhàn)環(huán)節(jié)（比賽、論文、現(xiàn)實(shí)應(yīng)用等）

專欄訂閱：

深度學(xué)習(xí)入門到進(jìn)階專欄
深度學(xué)習(xí)應(yīng)用項(xiàng)目實(shí)戰(zhàn)篇

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

1.時(shí)間偏移模塊（TSM）

視頻流的爆炸性增長(zhǎng)為以高精度和低成本執(zhí)行視頻理解任務(wù)帶來了挑戰(zhàn)。傳統(tǒng)的2D CNN計(jì)算成本低，但無法捕捉視頻特有的時(shí)間信息；3D CNN可以得到良好的性能，但計(jì)算量龐大，部署成本高。作者提出了一種通用且有效的時(shí)間偏移模塊（TSM），它通過沿時(shí)間維度移動(dòng)部分通道來促進(jìn)相鄰幀間的信息交換，同時(shí)它可以插入到2D CNN中實(shí)現(xiàn)零計(jì)算和零參數(shù)的時(shí)間建模，以此兼具2D卷積的高效與3D卷積的高性能。

1.2. TSM模型介紹

1.2.1 Intuition

首先考慮一個(gè)正常的卷積操作，以核大小為3的一維卷積為例。假設(shè)卷積的權(quán)重為 $W = (w_1, w_2, w_3)$ ，輸入 $X$ 是一個(gè)1D無限長(zhǎng)的向量，則卷積操作 $Y = C o n v (W, X)$ 可被表示為：

$Y_i = w_1X_{i-1} + w_2X_i + w_3X_{i+1}$
將卷積操作解耦為兩步，位移和乘法累加。對(duì)輸入 $X$ 進(jìn)行 $? 1, 0, + 1$ 的位移，具體表示為：

$X^{-1}_{i} = X_{i - 1}, \quad X^{0}_{i} = X_i, \quad X^{+1}_{i} = X_{i+1}$
乘法累加可表示為：

$Y = w_1X^{-1} + w_2X^0 + w_3X^{+1}$
第一步位移是不需要時(shí)間成本的，第二步乘法累加需要更大的計(jì)算消耗，但是TSM將乘法累加部分合并在了2D卷積中，因此它和基本的2D CNN網(wǎng)絡(luò)相比不存在額外開銷。

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

圖1 Temporal Shift module

Temporal Shift Module(TSM) 如圖1 所示，在 圖1 a 中，作者描述了一個(gè)具有C通道和T幀的張量，圖片中每一行不同顏色代表在不同時(shí)間點(diǎn)的特征，沿時(shí)間維度，我們將一部分通道移動(dòng)-1，另一部分通道移動(dòng)+1，其余部分不動(dòng)（如 圖1 b 所示）。對(duì)于在線視頻識(shí)別，作者也提供了在線版本的TSM（如 圖1c 所示），由于在在線識(shí)別模式中，我們不能獲得未來幀，因此只進(jìn)行單一方向的移動(dòng)。

1.2.2 簡(jiǎn)易的空間移動(dòng)會(huì)帶來什么問題

雖然時(shí)間位移的原理很簡(jiǎn)單，但作者發(fā)現(xiàn)直接將空間位移策略應(yīng)用于時(shí)間維度并不能提供高性能和效率。具體來說，如果簡(jiǎn)單的轉(zhuǎn)移所有通道，則會(huì)帶來兩個(gè)問題：（1）由于大量數(shù)據(jù)移動(dòng)而導(dǎo)致的效率下降問題。位移操作不需要計(jì)算但是會(huì)涉及數(shù)據(jù)移動(dòng)，數(shù)據(jù)移動(dòng)增加了硬件上的內(nèi)存占用和推理延遲，作者觀察到在視頻理解網(wǎng)絡(luò)中，當(dāng)使用naive shift策略時(shí)，CPU延遲增加13.7%，GPU延遲增加12.4%，使整體推理變慢。（2）空間建模能力變差導(dǎo)致性能下降，由于部分通道被轉(zhuǎn)移到相鄰幀，當(dāng)前幀不能再訪問通道中包含的信息，這可能會(huì)損失2D CNN主干的空間建模能力。與TSN基線相比，使用naive shift會(huì)降低2.6%的準(zhǔn)確率。

1.2.3 TSM模塊

為了解決naive shift的兩個(gè)問題，TSM給出了相應(yīng)的解決方法。

減少數(shù)據(jù)移動(dòng)。 為了研究數(shù)據(jù)移動(dòng)的影響，作者測(cè)量了TSM模型在不同硬件設(shè)備上的推理延遲，作者移動(dòng)了不同比例的通道數(shù)并測(cè)量了延遲，位移方式分為無位移、部分位移（位移1/8、1/4、1/2的通道）和全部位移，使用ResNet-50主干和8幀輸入測(cè)量模型。作者觀察到，如果移動(dòng)所有的通道，那么延遲開銷將占CPU推理時(shí)間的13.7%（如 圖2 a 所示），如果只移動(dòng)一小部分通道，如1/8，則可將開銷限制在3%左右。

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

圖2 不同比例的通道位移下延遲與準(zhǔn)確率對(duì)比

保持空間特征學(xué)習(xí)能力。 一種簡(jiǎn)單的TSM使用方法是將其直接插入到每個(gè)卷基層或殘差模塊前，如 圖3 a 所示，這種方法被稱為 in-place shift，但是它會(huì)損失主干模型的空間特征學(xué)習(xí)能力，尤其當(dāng)我們移動(dòng)大量通道時(shí)，存儲(chǔ)在通道中的當(dāng)前幀信息會(huì)隨著通道移動(dòng)而丟失。為解決這個(gè)問題，作者提出了另一種方法，即將TSM放在殘差模塊的殘差分支中，這種方法被稱為 residual TSM，如 圖3 b 所示，它可以解決退化的空間特征學(xué)習(xí)問題，因?yàn)樵嫉募せ钚畔⒃跁r(shí)間轉(zhuǎn)移后仍可通過identity映射訪問。

圖3 In-place TSM 和 Residual TSM
為檢驗(yàn)上述假設(shè)，作者在 Kinetics 數(shù)據(jù)集上比較了 In-place TSM 和 Residual TSM 的性能。在 圖2 b 中我們可以看到，對(duì)于所有比例的位移，Residual TSM 都具有更好的性能。同時(shí)，作者發(fā)現(xiàn)，性能與位移通道的比例有關(guān)：如果比例太小，則時(shí)間推理的能力可能不足以處理復(fù)雜的時(shí)間關(guān)系；如果太大，則會(huì)損害空間特征學(xué)習(xí)能力，選擇1/4的通道偏移時(shí)，性能會(huì)達(dá)到峰值。

1.2.4 TSM 視頻網(wǎng)絡(luò)

Offline Models with Bi-directional TSM

作者使用雙向TSM來構(gòu)建離線視頻識(shí)別模型。給定視頻 V，首先從視頻中采樣T幀 $F_1, ..., F_T$ 。幀采樣后，2D CNN單獨(dú)處理每個(gè)幀，并對(duì)輸出logits求平均值以給出最終預(yù)測(cè)。我們?yōu)槊總€(gè)殘差模塊插入了TSM，無需計(jì)算即可實(shí)現(xiàn)時(shí)間信息融合。在論文中，作者使用ResNet50作為網(wǎng)絡(luò)主干。

Online Models with Uni-directional TSM

在線視頻理解是現(xiàn)實(shí)生活中很重要的任務(wù)，單向TSM將特征從前一幀轉(zhuǎn)移到當(dāng)前幀。用于在線識(shí)別的單向TSM 推理圖如圖4 所示，在推理過程中，對(duì)于每一幀，我們保存每個(gè)殘差塊的前 1/8 特征圖并將其緩存在內(nèi)存中，對(duì)于下一幀，我們用緩存的特征圖來替換當(dāng)前特征圖的前 1/8。我們使用 7/8 當(dāng)前特征圖和 1/8 前一幀的特征圖組合來生成下一層，并重復(fù)。

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

圖4 單向TSM

1.3 實(shí)驗(yàn)結(jié)果

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

表1 與TSN在不同數(shù)據(jù)集上的精度對(duì)比

如表1 所示，作者在不同的數(shù)據(jù)集上分別測(cè)試了TSN的精度和TSM的精度。該表格可分為兩部分，上部分涉及的數(shù)據(jù)集在時(shí)間關(guān)系上沒有那么重要，TSM的計(jì)算結(jié)果小幅度優(yōu)于2D TSN基線。下部分?jǐn)?shù)據(jù)集，Something-Something V1和V2 以及 Jester，它們很大程度上取決于時(shí)間關(guān)系，TSM在這些數(shù)據(jù)集上性能有大幅度的明顯提升。

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

表2 與SOTA模型對(duì)比

作者在Something-Something V1數(shù)據(jù)集上將TSM模型的性能與最先進(jìn)的方法進(jìn)行了對(duì)比。首先，由于TSN缺少時(shí)間建模，因此無法獲得良好的性能。對(duì)于 TRN，雖然在特征提取后添加了后期時(shí)間融合，但其性能仍顯著低于最先進(jìn)的方法，跨所有層的時(shí)間融合的重要性。

在第二部分中，TSM與高效視頻理解框架ECO進(jìn)行對(duì)比。ECO使用早期2D + 晚期3D的結(jié)構(gòu)，可實(shí)現(xiàn)中級(jí)時(shí)間融合。與ECO相比，TSM在較小的FLOP上獲得了更好的性能。

第三部分包含當(dāng)前的最新方法： Non-local I3D + GCN，可實(shí)現(xiàn)所有級(jí)別的時(shí)間融合。但由于GCN需要使用一個(gè)在MSCOCO對(duì)象檢測(cè)數(shù)據(jù)集上訓(xùn)練的地區(qū)提議網(wǎng)絡(luò)來生成邊界框，這引入了額外的數(shù)據(jù)和訓(xùn)練成本，因此不能公平的進(jìn)行比較。只將TSM與它的CNN部分（Non-local I3D）比較的話，TSM在驗(yàn)證集上的FLOP減小了10倍，精度提升1.2%。

2.TimeSformer

2.1. TimeSformer 簡(jiǎn)介

論文地址：Is Space-Time Attention All You Need for Video Understanding?

TimeSformer是Facebook AI于2021年提出的無卷積視頻分類方法，該方法使用ViT網(wǎng)絡(luò)結(jié)構(gòu)作為backbone，提出時(shí)空自注意力機(jī)制，以此代替了傳統(tǒng)的卷積網(wǎng)絡(luò)。與圖像只具有空間信息不同，視頻還包含時(shí)間信息，因此TimeSformer對(duì)一系列的幀級(jí)圖像塊進(jìn)行時(shí)空特征提取，從而適配視頻任務(wù)。TimeSformer在多個(gè)行為識(shí)別基準(zhǔn)測(cè)試中達(dá)到了SOTA效果，其中包括TimeSformer-L在Kinetics-400上達(dá)到了80.7的準(zhǔn)確率，超過了經(jīng)典的基于CNN的視頻分類模型TSN、TSM及Slowfast，而且有更短的訓(xùn)練用時(shí)（Kinetics-400數(shù)據(jù)集訓(xùn)練用時(shí)39小時(shí)）。同時(shí)，與3D卷積網(wǎng)絡(luò)相比，TimeSformer的模型訓(xùn)練速度更快，擁有更高的測(cè)試效率，并且可以處理超過一分鐘的視頻片段。

2.2 模型介紹

輸入視頻片段

TimeSformer的輸入 $\in \mathbb{R}^{H \times W \times 3 \times F}$ 為一段視頻片段，由 $F$ 個(gè)從視頻中采樣的大小為 $\times W$ ? 的 RGB 圖片幀組成。

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

圖1：輸入視頻片段由一系列的圖片幀構(gòu)成

圖像塊拆分

與 ViT 結(jié)構(gòu)相同，TimeSformer將每一幀的圖像分割成 $N$ 個(gè)不重疊的圖像塊，每個(gè)圖像塊的大小為 $\times P$ 。因?yàn)橐_保每一幀被劃分為 $N$ 個(gè)不重疊的圖像塊，因此 $N$ 的計(jì)算方式為： $N = HW / P^2$ 。我們將劃分好的圖像塊展平為 $x_{(p,t)} \in \mathbb{R}^{3P^2}$ 的向量，其中 $p = 1, ..., N$ 代表圖像塊的位置， $t = 1, ..., F$ 代表幀的索引。

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

圖2：將圖像幀切割成圖像塊

線性嵌入

我們將每一個(gè)圖像塊 $x_{(p,t)}$ 通過一個(gè)線性嵌入層轉(zhuǎn)化為向量 $z_{(p,t)}^{(0)} \in \mathbb{R}^D$ ? :

$z_{(p,t)}^{(0)} = Ex_{(p,t)} + e_{(p,t)}^{pos}$

其中， $\in \mathbb{R}^{D \times 3P^2}$ 是一個(gè)可學(xué)習(xí)的矩陣， $e_{(p,t)}^{pos} \in \mathbb{R}^D$ 代表一個(gè)可學(xué)習(xí)的位置embedding, 可以對(duì)每個(gè)圖像塊的位置信息進(jìn)行編碼。因?yàn)閠ransformer的序列式處理方式減弱了空間位置關(guān)系，因此需要給每個(gè)圖像塊加上一個(gè)位置信息。 $z_{{(p,t)}}^{(0)}$ 代表 transformer 結(jié)構(gòu)的輸入，同時(shí)，額外增加一個(gè) $z_{(0,0)}^{(0)} \in \mathbb{R}^D$ ? 來表示分類token的embedding，作為分類器的輸入。

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

圖3：線性嵌入層

QKV計(jì)算

TimeSformer采用的 transformer 結(jié)構(gòu)中包含 $L$ 個(gè)編碼模塊。對(duì)于每一個(gè)模塊 $l$ ?，一個(gè)query/key/value的向量都會(huì)由下述公式進(jìn)行計(jì)算：

$q_{(p,t)}^{(l,a)} = W_Q^{(l,a)}LN(z_{(p,t)}^{(l-1)}) \in \mathbb{R}^{D_h} \\ k_{(p,t)}^{(l,a)} = W_K^{(l,a)}LN(z_{(p,t)}^{(l-1)}) \in \mathbb{R}^{D_h} \\ v_{(p,t)}^{(l,a)} = W_V^{(l,a)}LN(z_{(p,t)}^{(l-1)}) \in \mathbb{R}^{D_h} \\$

其中，LN() 代表層歸一化， $a = 1, ..., A$ 代表多個(gè)注意力頭的索引， $A$ 表示注意力頭的總數(shù)。每個(gè)注意力頭的潛在維度為 $D_h = D/A$ ?。

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

圖4：QKV計(jì)算

自注意力計(jì)算

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

圖5：自注意力模塊

作者在實(shí)驗(yàn)過程中對(duì)不同的視頻自注意力模塊進(jìn)行了調(diào)研。實(shí)驗(yàn)發(fā)現(xiàn)，單一維度的自注意力（只有時(shí)間維度或空間維度的自注意力）（S）相比于時(shí)空注意力模塊（ST）極大的減小了計(jì)算量，但只采取單一的時(shí)間或空間維度進(jìn)行自注意力計(jì)算，對(duì)于視頻分類任務(wù)來說，勢(shì)必會(huì)極大的影響模型的分類精度，因此，作者提出了一種 “Divided Space-Time Attention”(T+S)，在先進(jìn)行時(shí)間注意力后再進(jìn)行空間注意力，不同的注意力模塊結(jié)構(gòu) 如圖5 所示。對(duì)于分離的注意力，我們先將每一個(gè)圖片塊 $(p, t)$ 與其他在相同空間位置但是不同時(shí)間幀的圖像塊進(jìn)行對(duì)比（自注意力工作機(jī)制可視化 如圖6 所示），得到權(quán)重矩陣 $\alpha_{(p,t)}^{(l,a)time}$ :

$\alpha_{(p,t)}^{(l,a)time} = SM(\frac{{q_{(p,t)}^{(l,a)}}^T}{\sqrt{D_h}} \cdot [k_{(0,0)}^{(l,a)} \{k_{(p, t^{'})}^{(l,a)} \}_{t^{'} = 1, ..., F}])$

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

圖6：自注意力模塊工作機(jī)制可視化。每個(gè)視頻片段都視為由一系列的幀級(jí)圖像塊組成，圖像塊大小為16*16 pixels。在本圖中，藍(lán)色代表查詢圖像塊，非藍(lán)色但有顏色的圖像塊為不同方案下的自注意力時(shí)空鄰域，無顏色圖像塊則不用于藍(lán)色圖像塊的自注意力計(jì)算。不同attention結(jié)構(gòu)中不同的圖像塊顏色代表用于不同維度，比如：（T+S）的情況中，綠色圖像塊代表時(shí)間維度的自注意力鄰域，紅色圖像塊則代表空間維度的自注意力鄰域。

實(shí)驗(yàn)證明，相比于每個(gè)圖像塊都需要進(jìn)行 $(NF + 1)$ 次對(duì)比的時(shí)空聯(lián)合注意力模塊（ST），空間-時(shí)間分離的注意力模塊（T+S）對(duì)于每個(gè)圖像塊只需要進(jìn)行 $(N + F + 2)$ 次對(duì)比，極大的提高了計(jì)算效率的同時(shí)，同時(shí)也獲得了更好的分類準(zhǔn)確率。

作者還試驗(yàn)了“稀疏局部全局”（L+G）和 “軸向” (T+W+H) 注意力模型。其結(jié)構(gòu)如圖5 所示，圖6 顯示attention過程中涉及到的圖像塊。對(duì)每個(gè)圖像塊 $(p, t)$ ，（L+G）首先考慮相鄰的 $\times H/2 \times W/2$ 圖像塊來計(jì)算局部注意力，然后以兩個(gè)圖像塊的步長(zhǎng)對(duì)整個(gè)視頻片段沿時(shí)間維度和空間維度計(jì)算稀疏全局注意力?！拜S向”注意力將注意力計(jì)算分解為三個(gè)不同的步驟：時(shí)間、寬度和高度。Ho et al., 2019^[1]; Huang et al., 2019^[2]; Wang et al., 2020b^[3] 中提出了對(duì)圖像兩個(gè)空間軸的分解注意力，作者針對(duì)視頻的情況添加了時(shí)間維度。

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

圖7：divided space-time attention

針對(duì)分離的時(shí)空自注意力模塊，具體的計(jì)算流程如圖7 所示，在通過time attention獲得 $alpha_{(p,t)}^{(l,a)time}$ , 根據(jù)權(quán)重矩陣計(jì)算得到encoding ${z^{'}}_{(p,t)}^{(l)time}$ 并由此計(jì)算出新的key/query/value向量。使用新得到的key/query/value來進(jìn)行空間維度的計(jì)算，通過space attention得到 ${z^{'}}_{(p,t)}^{(l)space}$ ??，最終經(jīng)過MLP層得到：

$z_{(p,t)}^{(l)} = MLP(LN({z^{'}}_{(p,t)}^{(l)})) + {z^{'}}_{(p,t)}^{(l)}$

Classification

最后，通過一個(gè)MLP對(duì)class token進(jìn)行處理，得到最終的預(yù)測(cè)結(jié)果。

$y = MLP(z_{(0,0)}^{(L)})$

2.3. 實(shí)驗(yàn)結(jié)果

作者對(duì)不同的attention模塊分別在Kinetics-400（K400）和Something-Something-V2（SSv2）數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表1 所示?？梢钥吹?，分離的時(shí)空自注意力在兩個(gè)數(shù)據(jù)集上都達(dá)到了很好的效果。

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

表1：不同attention結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果對(duì)比

作者也對(duì)TimeSformer和SlowFast以及I3D在K400數(shù)據(jù)集上進(jìn)行了比較，可以看到盡管TimeSformer的參數(shù)量較大但是其推理成本較低。同時(shí)，在ImageNet-21K上進(jìn)行預(yù)訓(xùn)練，則可達(dá)到78%的分類準(zhǔn)確率。

深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制

表2：TimeSformer與I3D、SlowFast對(duì)比

References

[1] Ho, J., Kalchbrenner, N., Weissenborn, D., and Salimans, T. Axial attention in multidimensional transformers. CoRR, 2019. https://arxiv.org/pdf/1912.12180.pdf

[2] Huang, Z., Wang, X., Huang, L., Huang, C., Wei, Y., and Liu, W. Ccnet: Criss-cross attention for semantic seg- mentation. 2019. https://openaccess.thecvf.com/content_ICCV_2019/papers/Huang_CCNet_Criss-Cross_Attention_for_Semantic_Segmentation_ICCV_2019_paper.pdf

[3] Wang, H., Zhu, Y., Green, B., Adam, H., Yuille, A. L., and Chen, L. Axial-deeplab: Stand-alone axial-attention for panoptic segmentation. In Computer Vision - ECCV 2020 - 16th European Conference, 2020b. https://link.springer.com/chapter/10.1007/978-3-030-58548-8_7文章來源地址http://www.zghlxwxcb.cn/news/detail-479844.html

到了這里，關(guān)于深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]：時(shí)間偏移模塊（TSM）、TimeSformer無卷積視頻分類方法、注意力機(jī)制的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

深度學(xué)習(xí)｜10.1 深度學(xué)習(xí)在計(jì)算機(jī)視覺的應(yīng)用
圖像中的每一個(gè)像素點(diǎn)都是輸入層的一部分。而最終最后只有一個(gè)輸出點(diǎn)，也就是說需要通過乘上中間層/隱藏層內(nèi)部的矩陣，從而實(shí)現(xiàn)降維。直觀上，信息越多，分析的效果應(yīng)該越好，但也意味著分析的量會(huì)越來越大，考慮到分析所需要的時(shí)間和空間，往往采用卷積的方式
2024年02月03日
瀏覽(32)
深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-圖像分類[3]：ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型結(jié)構(gòu)、實(shí)現(xiàn)、模型特點(diǎn)詳細(xì)介紹
【深度學(xué)習(xí)入門到進(jìn)階】必看系列，含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調(diào)優(yōu)、歸一化算法、卷積模型、序列模型、預(yù)訓(xùn)練模型、對(duì)抗神經(jīng)網(wǎng)絡(luò)等專欄詳細(xì)介紹：【深度學(xué)習(xí)入門到進(jìn)階】必看系列，含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調(diào)優(yōu)、歸一化算法、卷積模型、
2024年02月14日
瀏覽(20)
計(jì)算機(jī)視覺+深度學(xué)習(xí)+機(jī)器學(xué)習(xí)+opencv+目標(biāo)檢測(cè)跟蹤（代碼+視頻）
計(jì)算機(jī)視覺、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)是當(dāng)今最熱門的技術(shù)，它們被廣泛應(yīng)用于各種領(lǐng)域，如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、安防監(jiān)控等。而目標(biāo)檢測(cè)跟蹤技術(shù)則是計(jì)算機(jī)視覺中的一個(gè)重要分支，它可以幫助我們?cè)趫D像或視頻中自動(dòng)識(shí)別和跟蹤特定的目標(biāo)。下面我們來一一介紹這些技
2024年02月01日
瀏覽(58)
【探索AI】三十一-計(jì)算機(jī)視覺（六）深度學(xué)習(xí)在計(jì)算機(jī)視覺中的應(yīng)用
深度學(xué)習(xí)在計(jì)算機(jī)視覺中的應(yīng)用已經(jīng)取得了顯著的成果，并且正在逐步改變我們對(duì)圖像和視頻信息的處理和理解方式。下面將詳細(xì)講解深度學(xué)習(xí)在計(jì)算機(jī)視覺中的幾個(gè)關(guān)鍵應(yīng)用。首先，我們來看圖像分類。圖像分類是計(jì)算機(jī)視覺的基本任務(wù)之一，它涉及到將輸入的圖像自動(dòng)歸
2024年04月09日
瀏覽(36)
深度學(xué)習(xí)在計(jì)算機(jī)視覺中的應(yīng)用
深度學(xué)習(xí)在計(jì)算機(jī)視覺中的應(yīng)用摘要：本文介紹了深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用，包括目標(biāo)檢測(cè)、圖像分類、人臉識(shí)別等。通過分析深度學(xué)習(xí)在計(jì)算機(jī)視覺中的實(shí)際應(yīng)用案例，闡述了深度學(xué)習(xí)在計(jì)算機(jī)視覺中的優(yōu)勢(shì)和未來發(fā)展趨勢(shì)。一、引言計(jì)算機(jī)視覺是一門研究如何
2024年02月04日
瀏覽(39)
Keras-4-深度學(xué)習(xí)用于計(jì)算機(jī)視覺-卷積神經(jīng)網(wǎng)絡(luò)對(duì) MNIST 數(shù)字進(jìn)行分類:
本篇學(xué)習(xí)記錄主要包括：《Python深度學(xué)習(xí)》的第5章（深度學(xué)習(xí)用于計(jì)算機(jī)視覺）的第1節(jié)（卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介）內(nèi)容。相關(guān)知識(shí)點(diǎn)：密集層 (Dense層、全連接層) 和卷積層的區(qū)別在于： Dense層從輸入特征空間中學(xué)到的是全局模式；而卷積層學(xué)到的是局部模式 (學(xué)到的是卷積核大
2024年02月11日
瀏覽(29)
自動(dòng)駕駛：深度學(xué)習(xí)在計(jì)算機(jī)視覺和定位領(lǐng)域的應(yīng)用
自動(dòng)駕駛技術(shù)是未來交通運(yùn)輸?shù)年P(guān)鍵技術(shù)之一，它旨在通過將計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、傳感器技術(shù)等多種技術(shù)整合，使汽車在特定條件下自主決策、自主行駛，實(shí)現(xiàn)無人駕駛。自動(dòng)駕駛技術(shù)的發(fā)展將有助于減少交通事故、提高交通效率、減少氣候變化等。自動(dòng)駕駛技術(shù)的主要
2024年02月02日
瀏覽(26)
Spark MLlib與深度學(xué)習(xí)：構(gòu)建新型計(jì)算機(jī)視覺應(yīng)用
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 隨著大數(shù)據(jù)、云計(jì)算和移動(dòng)互聯(lián)網(wǎng)的普及，人工智能（AI）正在成為繼“機(jī)器學(xué)習(xí)”之后又一個(gè)重要方向。作為一個(gè)專門研究人類智能的科學(xué)領(lǐng)域，人工智能主要包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、模式識(shí)別等多個(gè)分支領(lǐng)域。而近年來隨著數(shù)據(jù)處理和存
2024年02月12日
瀏覽(23)
基于半監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)在計(jì)算機(jī)視覺中的應(yīng)用
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 在人工智能領(lǐng)域，深度學(xué)習(xí)技術(shù)逐漸成為解決復(fù)雜任務(wù)的重要手段。但如何將深度學(xué)習(xí)技術(shù)應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域仍存在很多困難。特別是在實(shí)際應(yīng)用場(chǎng)景中，計(jì)算機(jī)視覺的目標(biāo)往往是識(shí)別圖像中的特定對(duì)象或場(chǎng)景?，F(xiàn)有的很多深度學(xué)習(xí)模型，
2024年02月09日
瀏覽(25)
計(jì)算機(jī)視覺+深度學(xué)習(xí)+機(jī)器學(xué)習(xí)+opencv+目標(biāo)檢測(cè)跟蹤+一站式學(xué)習(xí)（代碼+視頻+PPT)
第1章：視覺項(xiàng)目資料介紹與學(xué)習(xí)指南相關(guān)知識(shí)：介紹計(jì)算機(jī)視覺、OpenCV庫(kù)，以及課程的整體結(jié)構(gòu)。學(xué)習(xí)概要：了解課程的目標(biāo)和學(xué)習(xí)路徑，為后續(xù)章節(jié)做好準(zhǔn)備。重要性：提供學(xué)生對(duì)整個(gè)課程的整體認(rèn)識(shí)，為學(xué)習(xí)提供框架和背景。包括了計(jì)算機(jī)視覺/opencv視頻視頻對(duì)應(yīng)
2024年02月05日
瀏覽(58)