(ELA)Efficient Local Attention for Deep Convolutional Neural Networks
論文鏈接:ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org)
作者:Wei Xu, Yi Wan
單位:蘭州大學(xué)信息科學(xué)與工程學(xué)院,青海省物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室,青海師范大學(xué)
引用:Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123, 2024.
摘要
眾所周知,圖像的空間維度包含關(guān)鍵的位置信息,而現(xiàn)有的注意力機(jī)制要么無法有效利用這種空間信息,要么以降低通道維數(shù)為代價(jià)。為了解決這些局限性,本文提出了一種高效局部注意力(Efficient Local Attention,ELA)方法,通過分析Coordinate Attention(CA) method的局限性,確定了Batch Normalization中泛化能力的缺乏、降維對通道注意力的不利影響以及注意力生成過程的復(fù)雜性。為了克服這些挑戰(zhàn),提出了結(jié)合一維卷積和Group Normalization特征增強(qiáng)技術(shù)。這種方法通過有效地編碼兩個(gè)一維位置特征圖,無需降維即可精確定位感興趣區(qū)域,同時(shí)允許輕量級實(shí)現(xiàn)。與2D卷積相比,1D卷積更適合處理序列信號,并且更輕量、更快。GN與BN相比,展現(xiàn)出可比較的性能和更好的泛化能力。
與 CA 類似,ELA 采用strip pooling在空間維度上獲取水平和垂直方向的特征向量,保持窄核形狀以捕獲長程依賴關(guān)系,防止不相關(guān)區(qū)域影響標(biāo)簽預(yù)測,從而在各自方向上產(chǎn)生豐富的目標(biāo)位置特征。ELA 針對每個(gè)方向獨(dú)立處理上述特征向量以獲得注意力預(yù)測,然后使用點(diǎn)乘操作將其組合在一起,從而確保感興趣區(qū)域的準(zhǔn)確位置信息。
Method
Coordinate Attention
CA包括兩個(gè)主要步驟:坐標(biāo)信息嵌入和坐標(biāo)注意力生成。在第一步中,通過使用strip pooling而不是spatial global pooling來捕捉長距離的空間依賴性。
考慮一個(gè)卷積塊的輸出為 R H × W × C R ^{H \times W \times C} RH×W×C ,分別H,W,C代表高度、寬度和通道維度(即卷積核的數(shù)量)。第一步中,為了應(yīng)用strip pooling,分別在兩個(gè)空間范圍內(nèi)對每個(gè)通道執(zhí)行平均池化: ( H , 1 ) (H,1) (H,1) 在水平方向上和 ( 1 , W ) (1,W) (1,W) 在垂直方向上,數(shù)學(xué)表示如下:
z c h ( h ) = 1 H ∑ 0 ≤ i < H x c ( h , i ) z _ { c } ^ { h } ( h ) = \frac { 1 } { H } \sum _ { 0 \leq i < H } x _ { c } ( h , i ) zch?(h)=H1?0≤i<H∑?xc?(h,i)
z c w ( w ) = 1 W ∑ 0 ≤ j < W x c ( j , w ) z _ { c } ^ { w } \left( w \right) = \frac { 1 } { W } \sum _ { 0 \leq j < W } x _ { c } ( j , w ) zcw?(w)=W1?0≤j<W∑?xc?(j,w)
第二步中,由上述兩個(gè)方程生成的特征圖被聚合成為新的特征圖,然后被送入共享轉(zhuǎn)換函數(shù) F 1 F_1 F1?(一個(gè)2D卷積)以及批量歸一化(BN),可以表示如下。
f = δ ( B N ( F 1 ( [ z h , z w ] ) ) ) f = \delta ( B N ( F _ { 1 } ( \left[ z ^ { h } , z ^ { w } \right] ) ) ) f=δ(BN(F1?([zh,zw])))
其中,級聯(lián)操作 [ . , . ] [.,.] [.,.] 沿空間維, δ \delta δ 表示非線性激活函數(shù)。中間特征圖 R C / r × ( H + W ) R^{C / r \times ( H + W )} RC/r×(H+W),是水平和垂直編碼后得到的。隨后, f h ∈ R C / r × H f ^ { h } \in R ^ { C / r \times H } fh∈RC/r×H, f h ∈ R C / r × H , f w ∈ R C / r × W f ^ { h } \in R ^ { C / r \times H } , f ^ { w } \in R ^ { C / r \times W } fh∈RC/r×H,fw∈RC/r×W,沿著空間維度。此外,另外兩個(gè) 1 × 1 1×1 1×1卷積變換 F h F_h Fh? 和 F w F_w Fw?用于生成與輸入通道數(shù)相同的張量。
g c h = σ ( F h ( f h ) ) g _ { c } ^ { h } = \sigma ( F _ { h } ( f ^ { h } ) ) gch?=σ(Fh?(fh))
g c w = σ ( F w ( f w ) ) g _ { c } ^ { w } = \sigma ( F _ { w } ( f ^ { w } ) ) gcw?=σ(Fw?(fw))
其中, δ \delta δ 表示sigmoid函數(shù)。為了降低計(jì)算開銷,通常適當(dāng)?shù)臏p少 f f f的通道數(shù),比如32。最后得到輸出 g c h g _ { c } ^ { h } gch? 和 g c w g _ { c } ^ { w } gcw? ,被擴(kuò)展并用作注意力權(quán)重,分別對應(yīng)于水平和垂直方向。最終,CA 模塊的輸出可以表示為 Y Y Y:
y c ( i , j ) = x c ( i , j ) × g c h ( i ) × g c w ( j ) y _ { c } ( i , j ) = x _ { c } ( i , j ) \times g _ { c } ^ { h } ( i ) \times g _ { c } ^ { w } ( j ) yc?(i,j)=xc?(i,j)×gch?(i)×gcw?(j)
通道維度的降低旨在減少模型的復(fù)雜性,但會(huì)影響通道與它們對應(yīng)權(quán)重之間的關(guān)聯(lián),這可能會(huì)對整體的注意力預(yù)測產(chǎn)生不利影響。
Shortcomings of Coordinate Attention
BN極大地依賴于小批量的大小,當(dāng)小批量過小時(shí),BN計(jì)算出的均值和方差可能無法充分代表整個(gè)數(shù)據(jù)集,這可能會(huì)損害模型的總體性能。最開始CA中獲得的坐標(biāo)信息嵌入表示了每個(gè)通道維度內(nèi)的序列信息,將BN放置在處理序列數(shù)據(jù)的網(wǎng)絡(luò)中并不是最佳選擇,特別是對于CA。
因此,CA可能會(huì)對較小的網(wǎng)絡(luò)架構(gòu)產(chǎn)生負(fù)面影響。相反,當(dāng)GN被用作CA中BN的替代品,并融入到較小的網(wǎng)絡(luò)架構(gòu)中時(shí),性能立即出現(xiàn)顯著提升。此外,對CA結(jié)構(gòu)的深入分析可以揭示額外的挑戰(zhàn)。在第二步的開始,兩個(gè)方向的特征圖和被拼接成一個(gè)新的特征圖,隨后進(jìn)行編碼。然而,兩個(gè)方向的特征圖和具有獨(dú)特的特性。因此,一旦合并并捕捉到它們的特點(diǎn),它們各自連接處的相互影響可能會(huì)削弱每個(gè)方向上注意力預(yù)測的準(zhǔn)確性。
Efficient Local Attention
CA方法通過利用strip pooling來捕獲空間維度中的長距離依賴,顯著提高了準(zhǔn)確度,尤其是在更深層的網(wǎng)絡(luò)中?;谥暗姆治?,可以看出BN阻礙了CA的泛化能力,而GN(組歸一化)則解決了這些不足。
因?yàn)榈谝徊街械贸龅奈恢眯畔⑶度胧峭ǖ纼?nèi)的序列信號。因此,通常更合適的是使用1D卷積而不是2D卷積來處理這些序列信號。1D卷積不僅擅長處理序列信號,而且與2D卷積相比,它更加輕量化。在CA的情況下,盡管兩次使用了2D卷積,但它使用的是 1 × 1 1×1 1×1 的卷積核,這限制了特征提取能力。因此,ELA采用5或7大小的1D卷積核,這有效地增強(qiáng)了位置信息嵌入的交互能力,使得整個(gè)ELA能夠準(zhǔn)確找到感興趣的區(qū)域。
z h z_h zh? 和 z w z_w zw? 不僅捕捉了全局感知場,還捕捉了精確的位置信息。為了有效地利用這些特征,作者設(shè)計(jì)了一些簡單的處理方法。對兩個(gè)方向(水平和垂直)上的位置信息應(yīng)用一維卷積以增強(qiáng)其信息。隨后,使用組歸一化 G n G_n Gn? 來處理增強(qiáng)的位置信息,可以得到在水平和垂直方向上的位置注意力的表示:
y h = σ ( G n ( F h ( z h ) ) ) y w = σ ( G n ( F w ( z w ) ) ) \begin{matrix} y ^ { h } = \sigma ( G _ { n } ( F _ { h } ( z _ { h } ) ) ) \\ y ^ { w } = \sigma ( G _ { n } ( F _ { w } ( z _ { w } ) ) ) \end{matrix} yh=σ(Gn?(Fh?(zh?)))yw=σ(Gn?(Fw?(zw?)))?
其中, σ \sigma σ 為非線性激活函數(shù), F h F _ { h } Fh? 和 F w F _ { w } Fw? 表示一維卷積,卷積核設(shè)置為5或7。盡管參數(shù)數(shù)量略有增加,但大小為 7 7 7 的卷積核表現(xiàn)更好。
Multiple ELA version settings
為了在考慮參數(shù)數(shù)量的同時(shí)優(yōu)化ELA的性能,引入了四種方案:ELA-Tiny(ELA-T),ELA-Base(ELA-B),ELA-Small(ELA-S)和ELA-Large(ELA-L)。
- ELA-T的參數(shù)配置為 kernel size = 5, groups = in channels, num group = 32;
- ELA-B的參數(shù)配置為 kernel size = 7, groups = in channels, num group = 16;
- ELA-S的參數(shù)配置為 kernel size = 5, groups = in channels/8, num group = 16;
- ELA-L的參數(shù)配置為 kernel size = 7, groups = in channels/8, num group = 16;
Visualization
為了評估ELA方法的有效性,作者在ImageNet上進(jìn)行了兩組實(shí)驗(yàn):ResNet(不包含注意力模塊)和ELA-ResNet(包含ELA)。為了評估性能,作者使用了五張圖像進(jìn)行測試。通過使用GradCAM生成視覺 Heatmap ,作者在第四層(最后一個(gè)階段的最后瓶頸)展示了兩組模型的成果。下圖說明了作者提出的ELA模塊成功指導(dǎo)整個(gè)網(wǎng)絡(luò)更精確地聚焦于目標(biāo)細(xì)節(jié)的相關(guān)區(qū)域。這一演示突顯了ELA模塊在提高分類準(zhǔn)確度方面的有效性。
Implementation
文章來源:http://www.zghlxwxcb.cn/news/detail-852622.html
實(shí)驗(yàn)
文章來源地址http://www.zghlxwxcb.cn/news/detail-852622.html
到了這里,關(guān)于【論文閱讀】ELA: Efficient Local Attention for Deep Convolutional Neural Networks的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!