在深度卷積神經(jīng)網(wǎng)絡(luò)中,通過構(gòu)建一系列的卷積層、非線性層和下采樣層使得網(wǎng)絡(luò)能夠從全局感受野上提取圖像特征來描述圖像,但歸根結(jié)底只是建模了圖像的空間特征信息而沒有建模通道之間的特征信息,整個(gè)特征圖的各區(qū)域均被平等對待。
在一些復(fù)雜度較高的背景中,容易造成模型的性能不佳,因此可以引入注意力機(jī)制,而注意力機(jī)制的原理是通過參考人的視覺感知能力,即人在處理視覺信息初期會集中專注于當(dāng)前情景下重點(diǎn)區(qū)域,而其他區(qū)域?qū)⑾鄳?yīng)降低,這為更高層級的視覺感知和邏輯推理以及更加復(fù)雜的計(jì)算機(jī)視覺處理任務(wù)提供更易于處理且更相關(guān)的信息。這樣利用注意力機(jī)制提高模型對目標(biāo)區(qū)域的關(guān)注度,降低其他區(qū)域?qū)δ繕?biāo)區(qū)域的干擾,進(jìn)而提高模型的性能。
通過研究近幾年論文中的出現(xiàn)的注意力機(jī)制和用法,這里介紹幾種頻次比較高的且在不同語義分割和目標(biāo)檢測領(lǐng)域上均提高了模型性能的注意力機(jī)制,希望對大家有幫助。
1.坐標(biāo)注意力(Coordinate Attention, CA)
CA通過精確的位置信息對通道關(guān)系和長程依賴進(jìn)行編碼,使網(wǎng)絡(luò)能夠以較小的計(jì)算成本關(guān)注大的重要區(qū)域,主要包括坐標(biāo)信息嵌入和坐標(biāo)注意力生成兩個(gè)步驟,其結(jié)構(gòu)如圖1所示。

圖1 坐標(biāo)注意力模塊
1.1 Coordinate信息嵌入
為了獲取圖像寬度和高度上的注意力并對精確位置信息進(jìn)行編碼,先將輸入特征圖分別按照寬度和高度兩個(gè)方向分別進(jìn)行全局平局池化,分別獲得在寬度和高度兩個(gè)方向上的特征圖。具體而言,給定對于輸入的特征張量X,沿水平坐標(biāo)使用尺寸為(H,1)的池化核對每個(gè)通道的特征進(jìn)行編碼,因此,第c通道的高度為h的輸出可以表示為:

(1)
其中

表示第c通道的高度為h;

表示第c通道的高度為h的寬度坐標(biāo)為j的特征圖的數(shù)值;W表示特征圖的寬度。同理,第c通道的寬度為w的輸出可以寫成:

(2)
其中

表示第c通道的輸出高度為w;

表示第c通道的寬度為w的高度坐標(biāo)為i的特征圖的數(shù)值;H表示特征圖的高度。
這兩種變換分別從兩個(gè)空間方向?qū)μ卣鬟M(jìn)行聚合,得到一對方向感知特征圖。且這兩種變換允許注意力模塊捕捉沿著一個(gè)空間方向的長期依賴關(guān)系,并保存沿著另一個(gè)空間方向的精確位置信息,有助于模型更好地定位感興趣目標(biāo)。
1.2 Coordinate信息生成
通過公式(1)和(2)可以很好的獲得全局感受野對于精確位置信息的編碼。為了利用產(chǎn)生的特征,通過信息嵌入中的變換后,將式(1)和(2)產(chǎn)生的聚合特征圖進(jìn)行拼接操作,然后使用1x1卷積變換函數(shù)F_{1}對其進(jìn)行變換操作,得到水平方向和垂直方向編碼空間信息的中間特征圖f:

(3)
其中,[]是沿空間維度進(jìn)行的拼接操作,\delta為非線性激活函數(shù),

是在水平方向和垂直方向?qū)臻g信息進(jìn)行編碼的中間特征圖,r是用來控制SE block大小的縮減率。沿著空間維度將f分解為2個(gè)獨(dú)立的張量

和

,再利用另外兩個(gè)1x1卷積變換F_{h}和F_{w}分別將f_{h}和f_{w}變換為具有相同通道數(shù)的張量到輸入X,得到:

(4)

(5)
其中,\delta是Sigmoid激活函數(shù)。為了降低模型復(fù)雜性和計(jì)算開銷,通常使用適當(dāng)?shù)目s減比來縮小f的通道數(shù),然后對輸出g_{h}和g_{w}進(jìn)行擴(kuò)展,分別作為注意力權(quán)重。最后CA模塊的輸出

可以寫成:

(6)
2.卷積注意力模塊(convolutional block attention module, CBAM)
CBAM是一個(gè)前饋卷積神經(jīng)網(wǎng)絡(luò)注意力模塊,沿著通道和空間的維度順序推斷注意力圖,然后將注意力圖乘以輸入特征圖以進(jìn)行自適應(yīng)特征細(xì)化。其計(jì)算開銷可忽略不計(jì),且可以無縫集成到任何CNN架構(gòu)中。

圖2 卷積注意力模塊
2.1 通道注意力
通道注意力結(jié)構(gòu)如圖2所示,首先通過平均池化和最大池化操作來聚合特征圖的空間信息,生成兩個(gè)不同的空間上下文描述符:

和

,它們分別表示平均池特征和最大池特征。然后將這兩個(gè)特征描述符送到共享網(wǎng)絡(luò)(由具有一個(gè)隱藏層的多層感知器組成)來生成通道注意力圖 ,隨后再將共享網(wǎng)絡(luò)應(yīng)用于每個(gè)描述符之后,進(jìn)行逐元素求和合并輸出特征向量。通道注意力計(jì)算如下:

(7)
其中\(zhòng)sigma表示Sigmoid函數(shù),

和

分別為兩個(gè)輸入共享MLP的權(quán)重。

圖2 通道注意力
2.2 空間注意力模塊
空間注意力模塊如圖3所示。之前沿著通道方向應(yīng)用平均池化和最大池化操作來聚合特征圖信息,得到兩個(gè)2D圖:

和

,然后通過標(biāo)準(zhǔn)卷積層將它們連接起來并卷積,生成我們的2D空間注意力圖,空間注意力計(jì)算如下

(8)
其中\(zhòng)sigma表示Sigmoid函數(shù),f^{7x7}表示卷積核大小為7×7的卷積運(yùn)算。

圖3 空間注意力
3.擠壓和激勵(lì)注意力(Squeeze-and-Excitation attention, SE)
SE結(jié)構(gòu)通過顯式地建模信道之間的相互依賴性,自適應(yīng)地重新校準(zhǔn)信道特征響應(yīng),在略微增加計(jì)算成本的情況下顯著提高了現(xiàn)有最先進(jìn)的CNN的性能。其結(jié)構(gòu)主要分為擠壓和激勵(lì)兩部分,如圖4所示。

圖4 擠壓和激勵(lì)注意力結(jié)構(gòu)
3.1 擠壓:全局信息嵌入
為了緩解變換輸出U的每個(gè)單元不能利用該區(qū)域之外上下文信息的問題,通過使用全局平均池來生成通道統(tǒng)計(jì)信息來實(shí)現(xiàn)將全局空間信息壓縮到信道描述符中。通過U的空間維度H×W收縮U來生成統(tǒng)計(jì)量z∈RC,從而z的第c個(gè)元素計(jì)算為:

(9)
注:這里作者使用最簡單的全局平均池化,可以試試更復(fù)雜的方法進(jìn)行改進(jìn),以提高更多的性能。
3.2 激勵(lì):自適應(yīng)調(diào)整
為了利用在擠壓操作中聚集的信息,但為了完全捕獲通道相關(guān)性就必須滿足兩個(gè)標(biāo)準(zhǔn):①必須靈活,即能夠?qū)W習(xí)通道之間的非線性相互作用;②必須學(xué)習(xí)非互斥關(guān)系,因?yàn)橄M_保允許增強(qiáng)多個(gè)通道。這里選擇滿足這些標(biāo)準(zhǔn)S形激活門控機(jī)制:

(10)
其中,\delta表示ReLU激活函數(shù),

,

。為了限制模型的復(fù)雜性,在非線性周圍形成兩個(gè)全連接(FC)層的瓶頸,即具有縮減比率r的維度縮減層,經(jīng)ReLU后維度增加層到變換輸出U的通道維度。通過用激活s重新縮放U來獲得塊的最終輸出:

(11)
其中

和

是標(biāo)量s_{c}和特征映射

之間的通道乘法操作。
參考文獻(xiàn)
[1] Hou Q, Zhou D, Feng J. Coordinate attention for efficient mobile network design[C]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2021:13713-13722
[2] Woo S, Park J, Lee JY, et al. CBAM Convolutional block attention module. Proceedings of the 15th European Conference on Computer Vision.2018,3-19.文章來源:http://www.zghlxwxcb.cn/news/detail-574939.html
[3] Jie H, Li S, Gang S, et al. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.文章來源地址http://www.zghlxwxcb.cn/news/detail-574939.html
到了這里,關(guān)于論文中常用的注意力模塊合集(上)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!