国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

這篇具有很好參考價(jià)值的文章主要介紹了【論文閱讀】ELA: Efficient Local Attention for Deep Convolutional Neural Networks。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

(ELA)Efficient Local Attention for Deep Convolutional Neural Networks

論文鏈接:ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org)

作者:Wei Xu, Yi Wan

單位:蘭州大學(xué)信息科學(xué)與工程學(xué)院,青海省物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室,青海師范大學(xué)

引用:Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123, 2024.

摘要

efficient local attention,論文,論文閱讀,深度學(xué)習(xí),人工智能,算法,卷積神經(jīng)網(wǎng)絡(luò)

眾所周知,圖像的空間維度包含關(guān)鍵的位置信息,而現(xiàn)有的注意力機(jī)制要么無法有效利用這種空間信息,要么以降低通道維數(shù)為代價(jià)。為了解決這些局限性,本文提出了一種高效局部注意力(Efficient Local Attention,ELA)方法,通過分析Coordinate Attention(CA) method的局限性,確定了Batch Normalization中泛化能力的缺乏、降維對通道注意力的不利影響以及注意力生成過程的復(fù)雜性。為了克服這些挑戰(zhàn),提出了結(jié)合一維卷積和Group Normalization特征增強(qiáng)技術(shù)。這種方法通過有效地編碼兩個(gè)一維位置特征圖,無需降維即可精確定位感興趣區(qū)域,同時(shí)允許輕量級實(shí)現(xiàn)。與2D卷積相比,1D卷積更適合處理序列信號,并且更輕量、更快。GN與BN相比,展現(xiàn)出可比較的性能和更好的泛化能力。
efficient local attention,論文,論文閱讀,深度學(xué)習(xí),人工智能,算法,卷積神經(jīng)網(wǎng)絡(luò)

與 CA 類似,ELA 采用strip pooling在空間維度上獲取水平和垂直方向的特征向量,保持窄核形狀以捕獲長程依賴關(guān)系,防止不相關(guān)區(qū)域影響標(biāo)簽預(yù)測,從而在各自方向上產(chǎn)生豐富的目標(biāo)位置特征。ELA 針對每個(gè)方向獨(dú)立處理上述特征向量以獲得注意力預(yù)測,然后使用點(diǎn)乘操作將其組合在一起,從而確保感興趣區(qū)域的準(zhǔn)確位置信息。

Method

Coordinate Attention

CA包括兩個(gè)主要步驟:坐標(biāo)信息嵌入和坐標(biāo)注意力生成。在第一步中,通過使用strip pooling而不是spatial global pooling來捕捉長距離的空間依賴性。

考慮一個(gè)卷積塊的輸出為 R H × W × C R ^{H \times W \times C} RH×W×C ,分別H,W,C代表高度、寬度和通道維度(即卷積核的數(shù)量)。第一步中,為了應(yīng)用strip pooling,分別在兩個(gè)空間范圍內(nèi)對每個(gè)通道執(zhí)行平均池化: ( H , 1 ) (H,1) (H,1) 在水平方向上和 ( 1 , W ) (1,W) (1,W) 在垂直方向上,數(shù)學(xué)表示如下:

z c h ( h ) = 1 H ∑ 0 ≤ i < H x c ( h , i ) z _ { c } ^ { h } ( h ) = \frac { 1 } { H } \sum _ { 0 \leq i < H } x _ { c } ( h , i ) zch?(h)=H1?0i<H?xc?(h,i)

z c w ( w ) = 1 W ∑ 0 ≤ j < W x c ( j , w ) z _ { c } ^ { w } \left( w \right) = \frac { 1 } { W } \sum _ { 0 \leq j < W } x _ { c } ( j , w ) zcw?(w)=W1?0j<W?xc?(j,w)

第二步中,由上述兩個(gè)方程生成的特征圖被聚合成為新的特征圖,然后被送入共享轉(zhuǎn)換函數(shù) F 1 F_1 F1?(一個(gè)2D卷積)以及批量歸一化(BN),可以表示如下。

f = δ ( B N ( F 1 ( [ z h , z w ] ) ) ) f = \delta ( B N ( F _ { 1 } ( \left[ z ^ { h } , z ^ { w } \right] ) ) ) f=δ(BN(F1?([zh,zw])))

其中,級聯(lián)操作 [ . , . ] [.,.] [.,.] 沿空間維, δ \delta δ 表示非線性激活函數(shù)。中間特征圖 R C / r × ( H + W ) R^{C / r \times ( H + W )} RC/r×(H+W),是水平和垂直編碼后得到的。隨后, f h ∈ R C / r × H f ^ { h } \in R ^ { C / r \times H } fhRC/r×H, f h ∈ R C / r × H , f w ∈ R C / r × W f ^ { h } \in R ^ { C / r \times H } , f ^ { w } \in R ^ { C / r \times W } fhRC/r×H,fwRC/r×W,沿著空間維度。此外,另外兩個(gè) 1 × 1 1×1 1×1卷積變換 F h F_h Fh? F w F_w Fw?用于生成與輸入通道數(shù)相同的張量。

g c h = σ ( F h ( f h ) ) g _ { c } ^ { h } = \sigma ( F _ { h } ( f ^ { h } ) ) gch?=σ(Fh?(fh))

g c w = σ ( F w ( f w ) ) g _ { c } ^ { w } = \sigma ( F _ { w } ( f ^ { w } ) ) gcw?=σ(Fw?(fw))

其中, δ \delta δ 表示sigmoid函數(shù)。為了降低計(jì)算開銷,通常適當(dāng)?shù)臏p少 f f f的通道數(shù),比如32。最后得到輸出 g c h g _ { c } ^ { h } gch? g c w g _ { c } ^ { w } gcw? ,被擴(kuò)展并用作注意力權(quán)重,分別對應(yīng)于水平和垂直方向。最終,CA 模塊的輸出可以表示為 Y Y Y

y c ( i , j ) = x c ( i , j ) × g c h ( i ) × g c w ( j ) y _ { c } ( i , j ) = x _ { c } ( i , j ) \times g _ { c } ^ { h } ( i ) \times g _ { c } ^ { w } ( j ) yc?(i,j)=xc?(i,j)×gch?(i)×gcw?(j)

通道維度的降低旨在減少模型的復(fù)雜性,但會(huì)影響通道與它們對應(yīng)權(quán)重之間的關(guān)聯(lián),這可能會(huì)對整體的注意力預(yù)測產(chǎn)生不利影響。

Shortcomings of Coordinate Attention

efficient local attention,論文,論文閱讀,深度學(xué)習(xí),人工智能,算法,卷積神經(jīng)網(wǎng)絡(luò)

BN極大地依賴于小批量的大小,當(dāng)小批量過小時(shí),BN計(jì)算出的均值和方差可能無法充分代表整個(gè)數(shù)據(jù)集,這可能會(huì)損害模型的總體性能。最開始CA中獲得的坐標(biāo)信息嵌入表示了每個(gè)通道維度內(nèi)的序列信息,將BN放置在處理序列數(shù)據(jù)的網(wǎng)絡(luò)中并不是最佳選擇,特別是對于CA。

因此,CA可能會(huì)對較小的網(wǎng)絡(luò)架構(gòu)產(chǎn)生負(fù)面影響。相反,當(dāng)GN被用作CA中BN的替代品,并融入到較小的網(wǎng)絡(luò)架構(gòu)中時(shí),性能立即出現(xiàn)顯著提升。此外,對CA結(jié)構(gòu)的深入分析可以揭示額外的挑戰(zhàn)。在第二步的開始,兩個(gè)方向的特征圖和被拼接成一個(gè)新的特征圖,隨后進(jìn)行編碼。然而,兩個(gè)方向的特征圖和具有獨(dú)特的特性。因此,一旦合并并捕捉到它們的特點(diǎn),它們各自連接處的相互影響可能會(huì)削弱每個(gè)方向上注意力預(yù)測的準(zhǔn)確性。

Efficient Local Attention

CA方法通過利用strip pooling來捕獲空間維度中的長距離依賴,顯著提高了準(zhǔn)確度,尤其是在更深層的網(wǎng)絡(luò)中?;谥暗姆治?,可以看出BN阻礙了CA的泛化能力,而GN(組歸一化)則解決了這些不足。

因?yàn)榈谝徊街械贸龅奈恢眯畔⑶度胧峭ǖ纼?nèi)的序列信號。因此,通常更合適的是使用1D卷積而不是2D卷積來處理這些序列信號。1D卷積不僅擅長處理序列信號,而且與2D卷積相比,它更加輕量化。在CA的情況下,盡管兩次使用了2D卷積,但它使用的是 1 × 1 1×1 1×1 的卷積核,這限制了特征提取能力。因此,ELA采用5或7大小的1D卷積核,這有效地增強(qiáng)了位置信息嵌入的交互能力,使得整個(gè)ELA能夠準(zhǔn)確找到感興趣的區(qū)域

z h z_h zh? z w z_w zw? 不僅捕捉了全局感知場,還捕捉了精確的位置信息。為了有效地利用這些特征,作者設(shè)計(jì)了一些簡單的處理方法。對兩個(gè)方向(水平和垂直)上的位置信息應(yīng)用一維卷積以增強(qiáng)其信息。隨后,使用組歸一化 G n G_n Gn? 來處理增強(qiáng)的位置信息,可以得到在水平和垂直方向上的位置注意力的表示:

y h = σ ( G n ( F h ( z h ) ) ) y w = σ ( G n ( F w ( z w ) ) ) \begin{matrix} y ^ { h } = \sigma ( G _ { n } ( F _ { h } ( z _ { h } ) ) ) \\ y ^ { w } = \sigma ( G _ { n } ( F _ { w } ( z _ { w } ) ) ) \end{matrix} yh=σ(Gn?(Fh?(zh?)))yw=σ(Gn?(Fw?(zw?)))?

其中, σ \sigma σ 為非線性激活函數(shù), F h F _ { h } Fh? F w F _ { w } Fw? 表示一維卷積,卷積核設(shè)置為5或7。盡管參數(shù)數(shù)量略有增加,但大小為 7 7 7 的卷積核表現(xiàn)更好。

Multiple ELA version settings

為了在考慮參數(shù)數(shù)量的同時(shí)優(yōu)化ELA的性能,引入了四種方案:ELA-Tiny(ELA-T),ELA-Base(ELA-B),ELA-Small(ELA-S)和ELA-Large(ELA-L)。

  1. ELA-T的參數(shù)配置為 kernel size = 5, groups = in channels, num group = 32;
  2. ELA-B的參數(shù)配置為 kernel size = 7, groups = in channels, num group = 16;
  3. ELA-S的參數(shù)配置為 kernel size = 5, groups = in channels/8, num group = 16;
  4. ELA-L的參數(shù)配置為 kernel size = 7, groups = in channels/8, num group = 16;

Visualization

為了評估ELA方法的有效性,作者在ImageNet上進(jìn)行了兩組實(shí)驗(yàn):ResNet(不包含注意力模塊)和ELA-ResNet(包含ELA)。為了評估性能,作者使用了五張圖像進(jìn)行測試。通過使用GradCAM生成視覺 Heatmap ,作者在第四層(最后一個(gè)階段的最后瓶頸)展示了兩組模型的成果。下圖說明了作者提出的ELA模塊成功指導(dǎo)整個(gè)網(wǎng)絡(luò)更精確地聚焦于目標(biāo)細(xì)節(jié)的相關(guān)區(qū)域。這一演示突顯了ELA模塊在提高分類準(zhǔn)確度方面的有效性。

efficient local attention,論文,論文閱讀,深度學(xué)習(xí),人工智能,算法,卷積神經(jīng)網(wǎng)絡(luò)

Implementation

efficient local attention,論文,論文閱讀,深度學(xué)習(xí),人工智能,算法,卷積神經(jīng)網(wǎng)絡(luò)

實(shí)驗(yàn)

efficient local attention,論文,論文閱讀,深度學(xué)習(xí),人工智能,算法,卷積神經(jīng)網(wǎng)絡(luò)文章來源地址http://www.zghlxwxcb.cn/news/detail-852622.html

到了這里,關(guān)于【論文閱讀】ELA: Efficient Local Attention for Deep Convolutional Neural Networks的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文閱讀:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:創(chuàng)新空間注意力和標(biāo)準(zhǔn)卷積操作

    論文閱讀:RFAConv: Innovating Spatial Attention andStandard Convolutional Operatio|RFAConv:創(chuàng)新空間注意力和標(biāo)準(zhǔn)卷積操作

    ? 摘要 一、簡介 3研究方法 3.1標(biāo)準(zhǔn)卷積操作回顧 3.2空間注意力回顧 3.3 空間注意與標(biāo)準(zhǔn)卷積運(yùn)算 3.4創(chuàng)新空間注意力和標(biāo)準(zhǔn)卷積操作 入數(shù)據(jù) 總結(jié) 空間注意力被廣泛用于提高卷積神經(jīng)網(wǎng)絡(luò)的性能。但是,它也有一定的局 限性。 本文提出了空間注意有效性的新視角,即空間注意

    2024年02月04日
    瀏覽(29)
  • 【論文閱讀】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    【論文閱讀】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    相較于傳統(tǒng)的視覺里程計(jì),端到端的方法可以認(rèn)為是把特征提取、匹配、位姿估計(jì)等模塊用深度學(xué)習(xí)模型進(jìn)行了替代。不同于那種用深度學(xué)習(xí)模型取代里程計(jì)框架一部分的算法,端到端的視覺里程計(jì)是直接將整個(gè)任務(wù)替換為深度學(xué)習(xí),輸入依然是圖像流,結(jié)果也依然是位姿,

    2024年03月18日
    瀏覽(30)
  • 深度學(xué)習(xí)論文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch實(shí)現(xiàn)

    深度學(xué)習(xí)論文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch實(shí)現(xiàn)

    深度學(xué)習(xí)論文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch實(shí)現(xiàn) Rethinking Mobile Block for Efficient Attention-based Models PDF: https://arxiv.org/pdf/2301.01146.pdf PyTorch代碼: https://github.com/shanglianlm0525/CvPytorch PyTorch代碼: https://github.com/shanglianlm0525/PyTorch-Networks EMO是高效、輕量級的模型

    2024年02月09日
    瀏覽(30)
  • 論文閱讀《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

    論文閱讀《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

    就上一篇博客如何寫論文、讀(分享匯報(bào))論文,在《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》進(jìn)行實(shí)踐。 《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》是一篇由Mingxing Tan和Quoc V. Le等人于2019年提出的論文,主要關(guān)注卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型縮

    2024年02月03日
    瀏覽(24)
  • 論文閱讀:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章內(nèi)容閱讀

    論文閱讀:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章內(nèi)容閱讀

    論文標(biāo)題: TinySAM: 極致高效的分割一切模型 論文地址:https://arxiv.org/pdf/2312.13789.pdf 代碼地址(pytorch):https://github.com/xinghaochen/TinySAM 詳細(xì)論文解讀:TinySAM:極致高效壓縮,手機(jī)就能實(shí)時(shí)跑的分割一切模型 - 知乎 (zhihu.com)? 目錄 文章內(nèi)容解析 ?概括 文章的觀點(diǎn) 技術(shù)創(chuàng)新解

    2024年01月17日
    瀏覽(24)
  • Deep Frequency Filtering for Domain Generalization論文閱讀筆記

    Deep Frequency Filtering for Domain Generalization論文閱讀筆記

    這是CVPR2023的一篇論文,講的是在頻域做domain generalization,找到頻域中g(shù)eneralizable的分量enhance它,suppress那些影響generalization的分量 DG是一個(gè)研究模型泛化性的領(lǐng)域,嘗試通過各自方法使得模型在未見過的測試集上有良好的泛化性。 intro部分指出,低頻分量更好泛化,而高頻分

    2024年02月07日
    瀏覽(26)
  • 論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer應(yīng)用到low-level任務(wù) low-level task 如deblurringdenoisingdehazing等任務(wù)多是基于CNN做的,這樣的局限性有二: 第一是卷積操作的感受野受限,很難建立起全局依賴, 第二就是卷積操作的卷積核初始化是固定的,而attention的設(shè)計(jì)可以通過像素之間的關(guān)系自適

    2024年02月05日
    瀏覽(33)
  • 【論文閱讀筆記】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    【論文閱讀筆記】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【開源】 【核心思想】 本文的核心思想是提出了一種用于醫(yī)學(xué)圖像分割的參數(shù)高效的提示調(diào)整(Prompt Tuning)方法。這種方法基于預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),通過插入可學(xué)習(xí)的

    2024年01月17日
    瀏覽(45)
  • [論文閱讀筆記23]Adaptive Sparse Convolutional Networks with Global Context Enhancement for ... on drone

    [論文閱讀筆記23]Adaptive Sparse Convolutional Networks with Global Context Enhancement for ... on drone

    最近正在痛苦改論文中…還沒投出去, 心情糟糕 所以不如再做一點(diǎn)筆記… 論文題目: Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images 論文地址: 論文 代碼地址: 代碼 這是一篇CVPR2023的文章, 是無人機(jī)數(shù)據(jù)集的小目標(biāo)檢測. 文章針對小尺寸目

    2024年02月04日
    瀏覽(23)
  • 材料論文閱讀/中文記錄:Scaling deep learning for materials discovery

    材料論文閱讀/中文記錄:Scaling deep learning for materials discovery

    Merchant A, Batzner S, Schoenholz S S, et al. Scaling deep learning for materials discovery[J]. Nature, 2023: 1-6. 全文速覽 這篇文章主要講了一種名為 GNoME 的 材料發(fā)現(xiàn)框架 。該框架利用機(jī)器學(xué)習(xí)和高通量計(jì)算方法,通過預(yù)測材料的穩(wěn)定性和性質(zhì),加速新材料的發(fā)現(xiàn)。文章介紹了GNoME的 工作原理和方

    2024年02月02日
    瀏覽(47)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包