【深度學(xué)習(xí)入門到進(jìn)階】必看系列,含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調(diào)優(yōu)、歸一化算法、卷積模型、序列模型、預(yù)訓(xùn)練模型、對(duì)抗神經(jīng)網(wǎng)絡(luò)等
專欄詳細(xì)介紹:【深度學(xué)習(xí)入門到進(jìn)階】必看系列,含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調(diào)優(yōu)、歸一化算法、卷積模型、序列模型、預(yù)訓(xùn)練模型、對(duì)抗神經(jīng)網(wǎng)絡(luò)等
本專欄主要方便入門同學(xué)快速掌握相關(guān)知識(shí)。后續(xù)會(huì)持續(xù)把深度學(xué)習(xí)涉及知識(shí)原理分析給大家,讓大家在項(xiàng)目實(shí)操的同時(shí)也能知識(shí)儲(chǔ)備,知其然、知其所以然、知何由以知其所以然。
聲明:部分項(xiàng)目為網(wǎng)絡(luò)經(jīng)典項(xiàng)目方便大家快速學(xué)習(xí),后續(xù)會(huì)不斷增添實(shí)戰(zhàn)環(huán)節(jié)(比賽、論文、現(xiàn)實(shí)應(yīng)用等)
專欄訂閱:
- 深度學(xué)習(xí)入門到進(jìn)階專欄
- 深度學(xué)習(xí)應(yīng)用項(xiàng)目實(shí)戰(zhàn)篇
深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]:時(shí)間偏移模塊(TSM)、TimeSformer無卷積視頻分類方法、注意力機(jī)制
1.時(shí)間偏移模塊(TSM)
視頻流的爆炸性增長(zhǎng)為以高精度和低成本執(zhí)行視頻理解任務(wù)帶來了挑戰(zhàn)。傳統(tǒng)的2D CNN計(jì)算成本低,但無法捕捉視頻特有的時(shí)間信息;3D CNN可以得到良好的性能,但計(jì)算量龐大,部署成本高。作者提出了一種通用且有效的時(shí)間偏移模塊(TSM),它通過沿時(shí)間維度移動(dòng)部分通道來促進(jìn)相鄰幀間的信息交換,同時(shí)它可以插入到2D CNN中實(shí)現(xiàn)零計(jì)算和零參數(shù)的時(shí)間建模,以此兼具2D卷積的高效與3D卷積的高性能。
1.2. TSM模型介紹
1.2.1 Intuition
首先考慮一個(gè)正常的卷積操作,以核大小為3的一維卷積為例。假設(shè)卷積的權(quán)重為 W = ( w 1 , w 2 , w 3 ) W = (w_1, w_2, w_3) W=(w1?,w2?,w3?),輸入 X X X 是一個(gè)1D無限長(zhǎng)的向量,則卷積操作 Y = C o n v ( W , X ) Y = Conv(W,X) Y=Conv(W,X) 可被表示為:
Y
i
=
w
1
X
i
?
1
+
w
2
X
i
+
w
3
X
i
+
1
Y_i = w_1X_{i-1} + w_2X_i + w_3X_{i+1}
Yi?=w1?Xi?1?+w2?Xi?+w3?Xi+1?
將卷積操作解耦為兩步,位移和乘法累加。對(duì)輸入
X
X
X 進(jìn)行
?
1
,
0
,
+
1
-1, 0, +1
?1,0,+1 的位移,具體表示為:
X
i
?
1
=
X
i
?
1
,
X
i
0
=
X
i
,
X
i
+
1
=
X
i
+
1
X^{-1}_{i} = X_{i - 1}, \quad X^{0}_{i} = X_i, \quad X^{+1}_{i} = X_{i+1}
Xi?1?=Xi?1?,Xi0?=Xi?,Xi+1?=Xi+1?
乘法累加可表示為:
Y
=
w
1
X
?
1
+
w
2
X
0
+
w
3
X
+
1
Y = w_1X^{-1} + w_2X^0 + w_3X^{+1}
Y=w1?X?1+w2?X0+w3?X+1
第一步位移是不需要時(shí)間成本的,第二步乘法累加需要更大的計(jì)算消耗,但是TSM將乘法累加部分合并在了2D卷積中,因此它和基本的2D CNN網(wǎng)絡(luò)相比不存在額外開銷。
Temporal Shift Module(TSM) 如 圖1 所示,在 圖1 a 中,作者描述了一個(gè)具有C通道和T幀的張量,圖片中每一行不同顏色代表在不同時(shí)間點(diǎn)的特征,沿時(shí)間維度,我們將一部分通道移動(dòng)-1,另一部分通道移動(dòng)+1,其余部分不動(dòng)(如 圖1 b 所示)。對(duì)于在線視頻識(shí)別,作者也提供了在線版本的TSM(如 圖1c 所示),由于在在線識(shí)別模式中,我們不能獲得未來幀,因此只進(jìn)行單一方向的移動(dòng)。
1.2.2 簡(jiǎn)易的空間移動(dòng)會(huì)帶來什么問題
雖然時(shí)間位移的原理很簡(jiǎn)單,但作者發(fā)現(xiàn)直接將空間位移策略應(yīng)用于時(shí)間維度并不能提供高性能和效率。具體來說,如果簡(jiǎn)單的轉(zhuǎn)移所有通道,則會(huì)帶來兩個(gè)問題:(1)由于大量數(shù)據(jù)移動(dòng)而導(dǎo)致的效率下降問題。位移操作不需要計(jì)算但是會(huì)涉及數(shù)據(jù)移動(dòng),數(shù)據(jù)移動(dòng)增加了硬件上的內(nèi)存占用和推理延遲,作者觀察到在視頻理解網(wǎng)絡(luò)中,當(dāng)使用naive shift策略時(shí),CPU延遲增加13.7%,GPU延遲增加12.4%,使整體推理變慢。(2)空間建模能力變差導(dǎo)致性能下降,由于部分通道被轉(zhuǎn)移到相鄰幀,當(dāng)前幀不能再訪問通道中包含的信息,這可能會(huì)損失2D CNN主干的空間建模能力。與TSN基線相比,使用naive shift會(huì)降低2.6%的準(zhǔn)確率。
1.2.3 TSM模塊
為了解決naive shift的兩個(gè)問題,TSM給出了相應(yīng)的解決方法。
- 減少數(shù)據(jù)移動(dòng)。 為了研究數(shù)據(jù)移動(dòng)的影響,作者測(cè)量了TSM模型在不同硬件設(shè)備上的推理延遲,作者移動(dòng)了不同比例的通道數(shù)并測(cè)量了延遲,位移方式分為無位移、部分位移(位移1/8、1/4、1/2的通道)和全部位移,使用ResNet-50主干和8幀輸入測(cè)量模型。作者觀察到,如果移動(dòng)所有的通道,那么延遲開銷將占CPU推理時(shí)間的13.7%(如 圖2 a 所示),如果只移動(dòng)一小部分通道,如1/8,則可將開銷限制在3%左右。
-
保持空間特征學(xué)習(xí)能力。 一種簡(jiǎn)單的TSM使用方法是將其直接插入到每個(gè)卷基層或殘差模塊前,如 圖3 a 所示,這種方法被稱為 in-place shift,但是它會(huì)損失主干模型的空間特征學(xué)習(xí)能力,尤其當(dāng)我們移動(dòng)大量通道時(shí),存儲(chǔ)在通道中的當(dāng)前幀信息會(huì)隨著通道移動(dòng)而丟失。為解決這個(gè)問題,作者提出了另一種方法,即將TSM放在殘差模塊的殘差分支中,這種方法被稱為 residual TSM,如 圖3 b 所示,它可以解決退化的空間特征學(xué)習(xí)問題,因?yàn)樵嫉募せ钚畔⒃跁r(shí)間轉(zhuǎn)移后仍可通過identity映射訪問。
圖3 In-place TSM 和 Residual TSM 為檢驗(yàn)上述假設(shè),作者在 Kinetics 數(shù)據(jù)集上比較了 In-place TSM 和 Residual TSM 的性能。在 圖2 b 中我們可以看到,對(duì)于所有比例的位移,Residual TSM 都具有更好的性能。同時(shí),作者發(fā)現(xiàn),性能與位移通道的比例有關(guān):如果比例太小,則時(shí)間推理的能力可能不足以處理復(fù)雜的時(shí)間關(guān)系;如果太大,則會(huì)損害空間特征學(xué)習(xí)能力,選擇1/4的通道偏移時(shí),性能會(huì)達(dá)到峰值。
1.2.4 TSM 視頻網(wǎng)絡(luò)
Offline Models with Bi-directional TSM
作者使用雙向TSM來構(gòu)建離線視頻識(shí)別模型。給定視頻 V,首先從視頻中采樣T幀 F 1 , . . . , F T F_1, ..., F_T F1?,...,FT?。幀采樣后,2D CNN單獨(dú)處理每個(gè)幀,并對(duì)輸出logits求平均值以給出最終預(yù)測(cè)。我們?yōu)槊總€(gè)殘差模塊插入了TSM,無需計(jì)算即可實(shí)現(xiàn)時(shí)間信息融合。在論文中,作者使用ResNet50作為網(wǎng)絡(luò)主干。
Online Models with Uni-directional TSM
在線視頻理解是現(xiàn)實(shí)生活中很重要的任務(wù),單向TSM將特征從前一幀轉(zhuǎn)移到當(dāng)前幀。用于在線識(shí)別的單向TSM 推理圖如 圖4 所示,在推理過程中,對(duì)于每一幀,我們保存每個(gè)殘差塊的前 1/8 特征圖并將其緩存在內(nèi)存中,對(duì)于下一幀,我們用緩存的特征圖來替換當(dāng)前特征圖的前 1/8。我們使用 7/8 當(dāng)前特征圖和 1/8 前一幀的特征圖組合來生成下一層,并重復(fù)。
1.3 實(shí)驗(yàn)結(jié)果
如 表1 所示,作者在不同的數(shù)據(jù)集上分別測(cè)試了TSN的精度和TSM的精度。該表格可分為兩部分,上部分涉及的數(shù)據(jù)集在時(shí)間關(guān)系上沒有那么重要,TSM的計(jì)算結(jié)果小幅度優(yōu)于2D TSN基線。下部分?jǐn)?shù)據(jù)集,Something-Something V1和V2 以及 Jester,它們很大程度上取決于時(shí)間關(guān)系,TSM在這些數(shù)據(jù)集上性能有大幅度的明顯提升。
作者在Something-Something V1數(shù)據(jù)集上將TSM模型的性能與最先進(jìn)的方法進(jìn)行了對(duì)比。首先,由于TSN缺少時(shí)間建模,因此無法獲得良好的性能。對(duì)于 TRN,雖然在特征提取后添加了后期時(shí)間融合,但其性能仍顯著低于最先進(jìn)的方法,跨所有層的時(shí)間融合的重要性。
在第二部分中,TSM與高效視頻理解框架ECO進(jìn)行對(duì)比。ECO使用早期2D + 晚期3D的結(jié)構(gòu),可實(shí)現(xiàn)中級(jí)時(shí)間融合。與ECO相比,TSM在較小的FLOP上獲得了更好的性能。
第三部分包含當(dāng)前的最新方法: Non-local I3D + GCN,可實(shí)現(xiàn)所有級(jí)別的時(shí)間融合。但由于GCN需要使用一個(gè)在MSCOCO對(duì)象檢測(cè)數(shù)據(jù)集上訓(xùn)練的地區(qū)提議網(wǎng)絡(luò)來生成邊界框,這引入了額外的數(shù)據(jù)和訓(xùn)練成本,因此不能公平的進(jìn)行比較。只將TSM與它的CNN部分(Non-local I3D)比較的話,TSM在驗(yàn)證集上的FLOP減小了10倍,精度提升1.2%。
2.TimeSformer
2.1. TimeSformer 簡(jiǎn)介
論文地址:Is Space-Time Attention All You Need for Video Understanding?
TimeSformer是Facebook AI于2021年提出的無卷積視頻分類方法,該方法使用ViT網(wǎng)絡(luò)結(jié)構(gòu)作為backbone,提出時(shí)空自注意力機(jī)制,以此代替了傳統(tǒng)的卷積網(wǎng)絡(luò)。與圖像只具有空間信息不同,視頻還包含時(shí)間信息,因此TimeSformer對(duì)一系列的幀級(jí)圖像塊進(jìn)行時(shí)空特征提取,從而適配視頻任務(wù)。TimeSformer在多個(gè)行為識(shí)別基準(zhǔn)測(cè)試中達(dá)到了SOTA效果,其中包括TimeSformer-L在Kinetics-400上達(dá)到了80.7的準(zhǔn)確率,超過了經(jīng)典的基于CNN的視頻分類模型TSN、TSM及Slowfast,而且有更短的訓(xùn)練用時(shí)(Kinetics-400數(shù)據(jù)集訓(xùn)練用時(shí)39小時(shí))。同時(shí),與3D卷積網(wǎng)絡(luò)相比,TimeSformer的模型訓(xùn)練速度更快,擁有更高的測(cè)試效率,并且可以處理超過一分鐘的視頻片段。
2.2 模型介紹
輸入視頻片段
TimeSformer的輸入 X ∈ R H × W × 3 × F X \in \mathbb{R}^{H \times W \times 3 \times F} X∈RH×W×3×F 為一段視頻片段,由 F F F 個(gè)從視頻中采樣的大小為 H × W H \times W H×W? 的 RGB 圖片幀組成。
圖像塊拆分
與 ViT 結(jié)構(gòu)相同,TimeSformer將每一幀的圖像分割成 N N N 個(gè)不重疊的圖像塊,每個(gè)圖像塊的大小為 P × P P \times P P×P。因?yàn)橐_保每一幀被劃分為 N N N 個(gè)不重疊的圖像塊,因此 N N N 的計(jì)算方式為: N = H W / P 2 N = HW / P^2 N=HW/P2。我們將劃分好的圖像塊展平為 x ( p , t ) ∈ R 3 P 2 x_{(p,t)} \in \mathbb{R}^{3P^2} x(p,t)?∈R3P2 的向量,其中 p = 1 , . . . , N p = 1, ..., N p=1,...,N 代表圖像塊的位置, t = 1 , . . . , F t = 1, ..., F t=1,...,F 代表幀的索引。
圖2:將圖像幀切割成圖像塊
線性嵌入
我們將每一個(gè)圖像塊 x ( p , t ) x_{(p,t)} x(p,t)? 通過一個(gè)線性嵌入層轉(zhuǎn)化為向量 z ( p , t ) ( 0 ) ∈ R D z_{(p,t)}^{(0)} \in \mathbb{R}^D z(p,t)(0)?∈RD? :
z ( p , t ) ( 0 ) = E x ( p , t ) + e ( p , t ) p o s z_{(p,t)}^{(0)} = Ex_{(p,t)} + e_{(p,t)}^{pos} z(p,t)(0)?=Ex(p,t)?+e(p,t)pos?
其中, E ∈ R D × 3 P 2 E \in \mathbb{R}^{D \times 3P^2} E∈RD×3P2 是一個(gè)可學(xué)習(xí)的矩陣, e ( p , t ) p o s ∈ R D e_{(p,t)}^{pos} \in \mathbb{R}^D e(p,t)pos?∈RD 代表一個(gè)可學(xué)習(xí)的位置embedding, 可以對(duì)每個(gè)圖像塊的位置信息進(jìn)行編碼。因?yàn)閠ransformer的序列式處理方式減弱了空間位置關(guān)系,因此需要給每個(gè)圖像塊加上一個(gè)位置信息。 z ( p , t ) ( 0 ) z_{{(p,t)}}^{(0)} z(p,t)(0)? 代表 transformer 結(jié)構(gòu)的輸入,同時(shí),額外增加一個(gè) z ( 0 , 0 ) ( 0 ) ∈ R D z_{(0,0)}^{(0)} \in \mathbb{R}^D z(0,0)(0)?∈RD? 來表示分類token的embedding,作為分類器的輸入。
圖3:線性嵌入層
QKV計(jì)算
TimeSformer采用的 transformer 結(jié)構(gòu)中包含 L L L 個(gè)編碼模塊。對(duì)于每一個(gè)模塊 l l l?,一個(gè)query/key/value的向量都會(huì)由下述公式進(jìn)行計(jì)算:
q ( p , t ) ( l , a ) = W Q ( l , a ) L N ( z ( p , t ) ( l ? 1 ) ) ∈ R D h k ( p , t ) ( l , a ) = W K ( l , a ) L N ( z ( p , t ) ( l ? 1 ) ) ∈ R D h v ( p , t ) ( l , a ) = W V ( l , a ) L N ( z ( p , t ) ( l ? 1 ) ) ∈ R D h q_{(p,t)}^{(l,a)} = W_Q^{(l,a)}LN(z_{(p,t)}^{(l-1)}) \in \mathbb{R}^{D_h} \\ k_{(p,t)}^{(l,a)} = W_K^{(l,a)}LN(z_{(p,t)}^{(l-1)}) \in \mathbb{R}^{D_h} \\ v_{(p,t)}^{(l,a)} = W_V^{(l,a)}LN(z_{(p,t)}^{(l-1)}) \in \mathbb{R}^{D_h} \\ q(p,t)(l,a)?=WQ(l,a)?LN(z(p,t)(l?1)?)∈RDh?k(p,t)(l,a)?=WK(l,a)?LN(z(p,t)(l?1)?)∈RDh?v(p,t)(l,a)?=WV(l,a)?LN(z(p,t)(l?1)?)∈RDh?
其中,LN() 代表層歸一化, a = 1 , . . . , A a = 1, ..., A a=1,...,A 代表多個(gè)注意力頭的索引, A A A 表示注意力頭的總數(shù)。每個(gè)注意力頭的潛在維度為 D h = D / A D_h = D/A Dh?=D/A?。
自注意力計(jì)算
作者在實(shí)驗(yàn)過程中對(duì)不同的視頻自注意力模塊進(jìn)行了調(diào)研。實(shí)驗(yàn)發(fā)現(xiàn),單一維度的自注意力(只有時(shí)間維度或空間維度的自注意力)(S)相比于時(shí)空注意力模塊(ST)極大的減小了計(jì)算量,但只采取單一的時(shí)間或空間維度進(jìn)行自注意力計(jì)算,對(duì)于視頻分類任務(wù)來說,勢(shì)必會(huì)極大的影響模型的分類精度,因此,作者提出了一種 “Divided Space-Time Attention”(T+S),在先進(jìn)行時(shí)間注意力后再進(jìn)行空間注意力,不同的注意力模塊結(jié)構(gòu) 如圖5 所示。對(duì)于分離的注意力,我們先將每一個(gè)圖片塊 ( p , t ) (p,t) (p,t) 與其他在相同空間位置但是不同時(shí)間幀的圖像塊進(jìn)行對(duì)比(自注意力工作機(jī)制可視化 如圖6 所示),得到權(quán)重矩陣 α ( p , t ) ( l , a ) t i m e \alpha_{(p,t)}^{(l,a)time} α(p,t)(l,a)time?:
α ( p , t ) ( l , a ) t i m e = S M ( q ( p , t ) ( l , a ) T D h ? [ k ( 0 , 0 ) ( l , a ) { k ( p , t ′ ) ( l , a ) } t ′ = 1 , . . . , F ] ) \alpha_{(p,t)}^{(l,a)time} = SM(\frac{{q_{(p,t)}^{(l,a)}}^T}{\sqrt{D_h}} \cdot [k_{(0,0)}^{(l,a)} \{k_{(p, t^{'})}^{(l,a)} \}_{t^{'} = 1, ..., F}]) α(p,t)(l,a)time?=SM(Dh??q(p,t)(l,a)?T??[k(0,0)(l,a)?{k(p,t′)(l,a)?}t′=1,...,F?])
實(shí)驗(yàn)證明,相比于每個(gè)圖像塊都需要進(jìn)行 ( N F + 1 ) (NF+1) (NF+1) 次對(duì)比的時(shí)空聯(lián)合注意力模塊(ST),空間-時(shí)間分離的注意力模塊(T+S)對(duì)于每個(gè)圖像塊只需要進(jìn)行 ( N + F + 2 ) (N+F+2) (N+F+2) 次對(duì)比,極大的提高了計(jì)算效率的同時(shí),同時(shí)也獲得了更好的分類準(zhǔn)確率。
作者還試驗(yàn)了“稀疏局部全局”(L+G)和 “軸向” (T+W+H) 注意力模型。其結(jié)構(gòu)如 圖5 所示,圖6 顯示attention過程中涉及到的圖像塊。對(duì)每個(gè)圖像塊 ( p , t ) (p,t) (p,t),(L+G)首先考慮相鄰的 F × H / 2 × W / 2 F \times H/2 \times W/2 F×H/2×W/2 圖像塊來計(jì)算局部注意力,然后以兩個(gè)圖像塊的步長(zhǎng)對(duì)整個(gè)視頻片段沿時(shí)間維度和空間維度計(jì)算稀疏全局注意力?!拜S向”注意力將注意力計(jì)算分解為三個(gè)不同的步驟:時(shí)間、寬度和高度。Ho et al., 2019[1]; Huang et al., 2019[2]; Wang et al., 2020b[3] 中提出了對(duì)圖像兩個(gè)空間軸的分解注意力,作者針對(duì)視頻的情況添加了時(shí)間維度。
針對(duì)分離的時(shí)空自注意力模塊,具體的計(jì)算流程如 圖7 所示,在通過time attention獲得 a l p h a ( p , t ) ( l , a ) t i m e alpha_{(p,t)}^{(l,a)time} alpha(p,t)(l,a)time?, 根據(jù)權(quán)重矩陣計(jì)算得到encoding z ′ ( p , t ) ( l ) t i m e {z^{'}}_{(p,t)}^{(l)time} z′(p,t)(l)time?并由此計(jì)算出新的key/query/value向量。使用新得到的key/query/value來進(jìn)行空間維度的計(jì)算,通過space attention得到 z ′ ( p , t ) ( l ) s p a c e {z^{'}}_{(p,t)}^{(l)space} z′(p,t)(l)space???,最終經(jīng)過MLP層得到:
z ( p , t ) ( l ) = M L P ( L N ( z ′ ( p , t ) ( l ) ) ) + z ′ ( p , t ) ( l ) z_{(p,t)}^{(l)} = MLP(LN({z^{'}}_{(p,t)}^{(l)})) + {z^{'}}_{(p,t)}^{(l)} z(p,t)(l)?=MLP(LN(z′(p,t)(l)?))+z′(p,t)(l)?
Classification
最后,通過一個(gè)MLP對(duì)class token進(jìn)行處理,得到最終的預(yù)測(cè)結(jié)果。
y = M L P ( z ( 0 , 0 ) ( L ) ) y = MLP(z_{(0,0)}^{(L)}) y=MLP(z(0,0)(L)?)
2.3. 實(shí)驗(yàn)結(jié)果
作者對(duì)不同的attention模塊分別在Kinetics-400(K400)和Something-Something-V2(SSv2)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如 表1 所示??梢钥吹?,分離的時(shí)空自注意力在兩個(gè)數(shù)據(jù)集上都達(dá)到了很好的效果。
作者也對(duì)TimeSformer和SlowFast以及I3D在K400數(shù)據(jù)集上進(jìn)行了比較,可以看到盡管TimeSformer的參數(shù)量較大但是其推理成本較低。同時(shí),在ImageNet-21K上進(jìn)行預(yù)訓(xùn)練,則可達(dá)到78%的分類準(zhǔn)確率。
- References
[1] Ho, J., Kalchbrenner, N., Weissenborn, D., and Salimans, T. Axial attention in multidimensional transformers. CoRR, 2019. https://arxiv.org/pdf/1912.12180.pdf
[2] Huang, Z., Wang, X., Huang, L., Huang, C., Wei, Y., and Liu, W. Ccnet: Criss-cross attention for semantic seg- mentation. 2019. https://openaccess.thecvf.com/content_ICCV_2019/papers/Huang_CCNet_Criss-Cross_Attention_for_Semantic_Segmentation_ICCV_2019_paper.pdf文章來源:http://www.zghlxwxcb.cn/news/detail-479844.html
[3] Wang, H., Zhu, Y., Green, B., Adam, H., Yuille, A. L., and Chen, L. Axial-deeplab: Stand-alone axial-attention for panoptic segmentation. In Computer Vision - ECCV 2020 - 16th European Conference, 2020b. https://link.springer.com/chapter/10.1007/978-3-030-58548-8_7文章來源地址http://www.zghlxwxcb.cn/news/detail-479844.html
到了這里,關(guān)于深度學(xué)習(xí)應(yīng)用篇-計(jì)算機(jī)視覺-視頻分類[8]:時(shí)間偏移模塊(TSM)、TimeSformer無卷積視頻分類方法、注意力機(jī)制的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!