注意力機(jī)制可以增加少量參數(shù)的情況下來(lái)提升計(jì)算精度和模型性能,在論文中常用的注意力模塊合集(上)中介紹了三種注意力機(jī)制,它們分別是CA、CBAM和SE,均在目標(biāo)檢測(cè)和語(yǔ)義分割領(lǐng)域內(nèi)能夠提升模型的性能,廢話不多說(shuō),直接開(kāi)始講解剩下的論文中常用的注意力模型。
1、有效通道注意力(Efficient Channel Attention Module, ECA)
深度學(xué)習(xí)中,降維不利于學(xué)習(xí)通道注意力,但是適當(dāng)?shù)目缤ǖ澜换タ梢栽陲@著降低模型復(fù)雜性的同時(shí)保持性能。因此,這里的有效通道注意力(Efficient Channel Attention Module, ECA)模塊是一種通過(guò)1D卷積實(shí)現(xiàn)無(wú)降維的局部跨信道交互策略,且可以自適應(yīng)地選擇1D卷積的核大小,以確定本地跨信道交互的覆蓋范圍,可以帶來(lái)比較明顯的性能增益,結(jié)構(gòu)如圖1所示。

圖1 ECA結(jié)構(gòu)圖
ECA模塊需要確定交互的覆蓋范圍來(lái)捕獲本地跨信道交互,但手動(dòng)調(diào)整交互的優(yōu)化覆蓋范圍會(huì)導(dǎo)致耗費(fèi)大量計(jì)算資源。由于組卷積改進(jìn)CNN架構(gòu)中的高維(低維)信道會(huì)共享給定固定數(shù)量組的長(zhǎng)距離(短距離)卷積,因此,相互作用的覆蓋范圍(即1D卷積核的大小k)與通道維度C成比例,即k和C之間存在映射φ:

最簡(jiǎn)單的映射是線性函數(shù),即φ(k)=γ*k?b,但是線性函數(shù)所表征的關(guān)系過(guò)于有限。另一方面,通道維度C常常是2的指數(shù)冪。故可將線性函數(shù)擴(kuò)展為非線性函數(shù):

因此,當(dāng)給定通道維度C時(shí),卷積核大小k可以通過(guò)下述公式進(jìn)行自適應(yīng)確定:

其中,

表示離t最近的奇數(shù),這里將將γ和b分別設(shè)置為2和1。因此,通過(guò)使用非線性映射,高維通道具有更長(zhǎng)距離的相互作用,而低維通道具有更短距離的相互作用。
2、雙重注意力(Dual attention network,DANet)
雙重注意網(wǎng)絡(luò)以自適應(yīng)地將局部特征與其全局依賴性集成,如圖2所示,具體是分別在空間維度和通道維度上對(duì)語(yǔ)義相關(guān)性進(jìn)行建模,空間維度上通過(guò)所有位置的特征加權(quán)和來(lái)選擇性地聚集每個(gè)位置的特征,通道維度上通過(guò)整合所有通道特征圖中的相關(guān)特征來(lái)選擇性地強(qiáng)調(diào)相互依賴的通道特征。然后,將兩個(gè)注意力模塊的輸出相加,以進(jìn)一步改進(jìn)特征表示,有利于獲得更精確的分割結(jié)果。

圖2 DANet模塊
2.1 空間注意力模塊
空間注意力模塊能夠在局部特征上建立豐富的上下文關(guān)系模型,同時(shí)可以將更廣泛的上下文信息編碼為局部特征,從而增強(qiáng)其表示能力。
如圖3所示,給定局部特征

,將其輸入卷積層以分別生成兩個(gè)新的特征映射B和C,其中

,然后令它們重塑為

,其中N=H×W表示為像素?cái)?shù)。之后,在C和B的轉(zhuǎn)置之間執(zhí)行矩陣乘法,并應(yīng)用softmax層來(lái)計(jì)算空間注意力圖

:

其中

是計(jì)算第i個(gè)位置對(duì)第j個(gè)位置的影響。兩個(gè)位置的更相似的特征表示有助于它們之間的更大相關(guān)性。
同時(shí),也將特征A輸入到卷積層中,以生成新的特征映射

并依舊對(duì)其進(jìn)行重塑為

。然后在D和S的轉(zhuǎn)置之間執(zhí)行矩陣乘法,并將結(jié)果重塑為

。最后,將其乘以比例系數(shù)α,并對(duì)特征A執(zhí)行逐元素求和運(yùn)算,以獲得最終輸出

,如下所示

其中α初始化為0,并逐漸分配更多權(quán)重,且由此式可以推斷出,每個(gè)位置處的結(jié)果特征E是所有位置上的特征和原始特征的加權(quán)和。因此,通過(guò)全局上下文視圖,并根據(jù)空間注意力圖選擇性地聚合上下文,使得相似的語(yǔ)義特征得到了增強(qiáng),從而提高了類(lèi)內(nèi)緊湊性和語(yǔ)義一致性。

圖3 空間注意力模塊
2.2 通道注意力模塊
高級(jí)特征的每個(gè)通道圖都可以被視為一個(gè)特定類(lèi)的響應(yīng),不同的語(yǔ)義響應(yīng)彼此關(guān)聯(lián)。通過(guò)利用通道圖之間的相互依賴性,可以強(qiáng)調(diào)相互依賴的特征圖,并改進(jìn)特定語(yǔ)義的特征表示。
通道注意力模塊如圖3所示。與空間注意力模塊不同,直接從原始特征

計(jì)算通道注意力圖

,即先將A重塑為

,然后讓A和A的轉(zhuǎn)置之間進(jìn)行矩陣相乘。最后,應(yīng)用softmax層來(lái)獲得通道注意力映射

:

其中

是計(jì)算第i個(gè)通道對(duì)第j個(gè)通道的影響。此外,在X和a的轉(zhuǎn)置之間進(jìn)行矩陣乘法,并將其結(jié)果重塑為

。然后,將結(jié)果乘以比例參數(shù)β,并與a執(zhí)行逐元素求和運(yùn)算,以獲得最終輸出

:

其中Β是從0逐漸開(kāi)始學(xué)習(xí)權(quán)重。該式表明每個(gè)通道的最終特征是所有通道的特征和原始特征的加權(quán)和,也就是能夠?qū)μ卣鲌D之間的長(zhǎng)距離語(yǔ)義依賴性進(jìn)行了建模,有利于提高特征的可分辨性。

圖4 通道注意力模塊
為了充分利用長(zhǎng)程上下文信息,通過(guò)卷積層變換兩個(gè)注意力模塊的輸出,并執(zhí)行元素和以實(shí)現(xiàn)特征融合。最后,跟隨卷積層以生成最終預(yù)測(cè)圖。該注意力模塊簡(jiǎn)單,可以直接插入現(xiàn)有的FCN等框架中來(lái)有效增強(qiáng)特征表示,且不會(huì)增加太多參數(shù)。
3、柔性注意力
柔性注意力通過(guò)捕獲不同通道特征圖之間的特征依賴關(guān)系,計(jì)算所有通道特征圖的加權(quán)值,進(jìn)行顯式地建模特征通道之間地相關(guān)性。
結(jié)構(gòu)如圖5所示,對(duì)于輸入任意的HxWxC的特征層F,然后分別進(jìn)行空間的全局平均池化和最大池化,池化大小為HxW,得到兩個(gè)1x1xC的通道描述行向量Favg和Fmax。共享兩個(gè)全連接層(Total Fully Connected,TFC),采用Relu激活函數(shù),擬合通道之間的復(fù)雜相關(guān)性。再將得到的兩個(gè)通道描述行向量相加,經(jīng)過(guò)Sigmoid激活函數(shù)得到1x1xC的特征權(quán)重向量w,將原始的特征層和特征權(quán)重向量w進(jìn)行全乘操作,得到不同通道重要性不一樣的特征層。在重新生成的特征圖上通過(guò)滑動(dòng)窗口找到感興趣的區(qū)域,完成圖像分割。

圖4 柔性注意力模塊文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-780037.html
4、其他
以上是在圖像中常用的注意力模塊的方法,此外還有依據(jù)任務(wù)的多樣性和復(fù)雜度來(lái)進(jìn)行修改注意力模塊,達(dá)到更輕便的架構(gòu),比如說(shuō)論文里面會(huì)采用多尺度拼接、殘差連接、擴(kuò)張卷積、自監(jiān)督機(jī)制、多頭自注意力、與多樣性正則化以及軟、硬注意力結(jié)合等等一些方法來(lái)提高模型性能。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-780037.html
到了這里,關(guān)于深度學(xué)習(xí)|論文中常用的注意力模塊合集(下)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!