Scale-Aware Modulation Meet Transformer, ICCV2023
論文:https://arxiv.org/abs/2307.08579
代碼:https://github.com/AFeng-x/SMT
解讀:ICCV2023 | 當尺度感知調(diào)制遇上Transformer,會碰撞出怎樣的火花? - 知乎 (zhihu.com)
摘要
本文提出了一種新的視覺變換器——尺度感知調(diào)制變換器(Scale-Aware Modulation Transformer, SMT),通過將CNN和ViT相結(jié)合,可以有效地處理各種下游任務(wù)。SMT中提出的尺度感知調(diào)制(SAM)包括兩個主要的新穎設(shè)計:
- 多頭混合卷積(MHMC)模塊,該模塊可以捕捉多尺度特征并擴展感受野。
- 規(guī)模感知聚合(SAA)模塊,該模塊重量輕但有效,能夠?qū)崿F(xiàn)不同頭部的信息融合。通過利用這兩個模塊,卷積調(diào)制得到了進一步增強。
此外,本文提出一種進化混合網(wǎng)絡(luò)(Evolutionary Hybrid Network,EHN),它可以有效地模擬隨著網(wǎng)絡(luò)變得更深而從捕獲局部依賴性到全局依賴性的轉(zhuǎn)變,從而獲得更優(yōu)的性能。在ImagNet、COCO以及ADE20k等任務(wù)上都驗證了該模型的有效性。SMT在ImageNet-22k上預(yù)訓(xùn)練后以僅僅80.5M的參數(shù)量在ImageNet-1k上達到了88.1%的精度。
簡介
對于多層級的網(wǎng)絡(luò)架構(gòu)來說,由于淺層特征圖分辨率大的原因,使用ViT的自注意力的二次復(fù)雜性會帶來嚴重的計算負擔。因此,如何為淺層stage設(shè)計高效的attention計算機制是十分重要的。
- 以往的大部分Hierarchical(Multi-scale)的模型,以Swin為代表,以及CvT,PvT,Shunted Transformer等等,其貢獻點都是設(shè)計一種更高效的attention計算單元。
- 另外一些方法并不直接改善attention,而是將CNN與Transformer結(jié)構(gòu)混合,降低計算成本,并融合兩種結(jié)構(gòu)的優(yōu)勢。
ViT論文中提出,Transformer模型的注意力捕捉依賴關(guān)系為,淺層捕捉local信息,深層捕捉global信息,而這種特性在多層級網(wǎng)絡(luò)架構(gòu)上也會出現(xiàn)。在淺層使用CNN替代Transformer可以有效地降低attention計算成本,還能更好地建模局部信息。
但,簡單地把卷積直接作用于特征圖并不能有效獲取所需信息。卷積調(diào)制網(wǎng)絡(luò),利用卷積調(diào)制可以聚合周圍的上下文并自適應(yīng)地調(diào)制,使得其建模能力更強。
因此,本文提出一種新的卷積調(diào)制,尺度感知調(diào)制(Scale-Aware Modulation,SAM),包括兩個模塊:多頭混合卷積(Multi-Head Mixed Convolution,MHMC) 和 尺度感知聚合(Scale-Aware Aggregation,SAA)。
- MHMC模塊旨在增強感受野并同時捕捉多尺度特征。
- SAA模塊旨在有效地聚合不同頭部的功能,同時保持輕量級架構(gòu)。
盡管有這些改進,但SAM在捕捉長期依賴方面沒有達到自我關(guān)注機制。為此,提出了一種新的混合調(diào)制變壓器架構(gòu),稱為進化混合網(wǎng)絡(luò)(Evolutionary Hybrid Network,EHN)。
- 具體而言,在前兩個階段引入SAM區(qū)塊,在后兩個階段納入Transformer區(qū)塊,同時在倒數(shù)第二階段引入新的堆疊策略。該體系結(jié)構(gòu)不僅模擬了從淺層到深層的長程依賴關(guān)系的變化,而且使每個階段的每個塊都能匹配其計算特性,從而提高了各種下游任務(wù)的性能。
總體而言,提出的架構(gòu)稱為尺度感知調(diào)制轉(zhuǎn)換器(SMT)。
SMT方法
SMT網(wǎng)絡(luò)包括四個階段,每個階段的下采樣率為{4, 8, 16, 32}。
- 首先在前兩個階段采用尺度感知調(diào)制(SAM),
- 然后在倒數(shù)第二個階段中依次堆疊一個SAM Block和一個多頭自注意力(MSA) Block,以建模從捕捉局部到全局依賴關(guān)系的轉(zhuǎn)變。
- 對于最后一個階段,僅使用MSA塊來有效地捕捉長距離依賴關(guān)系。
Scale-Aware Modulation
SAM模塊包括兩個關(guān)鍵部分:MHMC 和 SAA 。?
?Multi-Head Mixed Convolution(MHMC)
引入了具有不同卷積核大小的多個卷積層,使其能夠捕捉多個尺度上的空間特征。當N head設(shè)置得較大時,能夠引入大卷積核來擴大感受野,增強其建模長距離依賴關(guān)系的能力。如圖2(b)所示,MHMC將輸入通道分為N個頭,對每個頭應(yīng)用獨立的深度可分離卷積。將卷積核大小初始化為3x3,并逐頭遞增。通過調(diào)整頭的數(shù)量來調(diào)節(jié)感受野的范圍和多粒度信息。
????
如圖4(a)所示,每個不同的卷積特征圖都學(xué)習(xí)以自適應(yīng)的方式關(guān)注不同的粒度特征,正如預(yù)期的那樣。值得注意的是,當通過可視化圖中的調(diào)制圖來比較單頭和多頭時。4(b),發(fā)現(xiàn)多頭下的可視化在第一階段準確地描繪了前景和目標對象,同時有效地過濾了背景信息。此外,隨著網(wǎng)絡(luò)的深入,它仍然可以呈現(xiàn)目標對象的整體形狀,而與細節(jié)相關(guān)的信息在單頭卷積下丟失。這表明,MHMC在淺層階段比單個頭部更好地捕捉局部細節(jié),同時隨著網(wǎng)絡(luò)的深入,保持目標對象的詳細和語義信息。
Scale-Aware Aggregation
為了增強MHMC中多個頭之間的信息交互,引入了一種新的輕量化聚合模塊,稱為多尺度感知聚合(SAA),如圖2(c)所示。SAA首先對MHMC生成的不同粒度的特征進行重組和分組。具體而言,從每個頭中選擇一個通道來構(gòu)建一個組,然后在每個組內(nèi)進行up-down的特征融合,從而增強多尺度特征的多樣性。Num_group = C / N_head,C為輸入通道數(shù),這意味著組的數(shù)量與MHMC中頭的數(shù)量成反比,每個組里只包含N個特征通道。隨后,使用1x1卷積進行組內(nèi)-組間模式的跨組信息融合,從而實現(xiàn)輕量且高效的聚合效果。
圖5顯示,SAA模塊明確地增強了語義相關(guān)的低頻信號,并精確地關(guān)注了目標對象的最重要部分。例如,在第2階段,眼睛、頭部和身體被清楚地突出顯示為目標對象的基本特征,從而顯著提高了分類性能。與卷積映射預(yù)聚合相比,SAA模塊展示了更好的能力來捕捉和表示視覺識別任務(wù)的基本特征。
Scale-Aware Modulation Transformer
在使用MHMC捕捉多尺度空間特征并通過SAA進行聚合后,獲得一個輸出特征圖,稱為調(diào)制器Modulator。然后,使用標量乘積采用這個調(diào)制器來調(diào)制?V。
?
Evolutionary Hybrid Network?
提出根據(jù)網(wǎng)絡(luò)的捕捉范圍依賴關(guān)系的變化模式重新分配適當?shù)挠嬎隳K,以實現(xiàn)更好的計算性能。提出兩種混合堆疊策略用于倒數(shù)第二個階段,(i) 依次堆疊一個SAM塊和一個MSA塊。(ii) 在stage的前半部分使用SAM塊,在后半部分使用MSA塊。(i)混合堆疊策略更加有效。
計算了倒數(shù)第二個階段中MSA塊的相對感受野。淺層layer的相對感受野開始階段有一個輕微的下降趨勢。這種下降可以歸因于SAM對早期MSA Block的影響,將這種現(xiàn)象稱為計算單元磨合適應(yīng)期。而隨著網(wǎng)絡(luò)的加深,可以看到感受野呈平穩(wěn)上升的趨勢,這表明提出的進化混合網(wǎng)絡(luò)有效地模擬了從局部到全局依賴捕捉的過渡。
實驗
對比實驗
分類任務(wù):?
?
目標檢測任務(wù):?
?
分割任務(wù):?
?
?消融實驗
?
?
?文章來源:http://www.zghlxwxcb.cn/news/detail-608177.html
?文章來源地址http://www.zghlxwxcb.cn/news/detail-608177.html
到了這里,關(guān)于【ICCV2023】Scale-Aware Modulation Meet Transformer的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!