前言
注意力機(jī)制是一個(gè)非常有效的trick,注意力機(jī)制的實(shí)現(xiàn)方式有許多??梢栽谥W(wǎng)上搜索一下yolov下的目標(biāo)監(jiān)測(cè)的碩士論文,沒有一篇不提到注意力機(jī)制的迭代修改的,所以很有必要學(xué)一下.
最后給出了一個(gè)例子。
注意力機(jī)制的本質(zhì):就是尋址過程!
幾種典型的注意力機(jī)制:
hard/soft/local attention
左側(cè)是hard-attention,很極端只覺得某一步時(shí)最重要的。要么時(shí)0,要么是1, 太專一
右側(cè)是soft-attention,對(duì)整個(gè)encode的結(jié)果都覺分配了權(quán)重。太泛濫,有些地方并不合理
比如:
local attention:是把兩種attention做了一個(gè)折中,
自注意力機(jī)制:
attention機(jī)制要把postional encoding環(huán)節(jié),是要把位置信息注入進(jìn)來(lái),因?yàn)樗遣⑿胁僮鞯?,不像RNN,只能處理完前一步,才能處理后一步,是自帶位置信息的,但這樣也注定了RNN很慢。
注意力機(jī)制
注意力機(jī)制是深度學(xué)習(xí)常用的一個(gè)小技巧,它有多種多樣的實(shí)現(xiàn)形式,每一種注意力機(jī)制的實(shí)現(xiàn)的核心都是類似的,核心重點(diǎn)就是讓網(wǎng)絡(luò)關(guān)注到它更需要關(guān)注的地方。
當(dāng)使用卷積神經(jīng)網(wǎng)絡(luò)去處理圖片的時(shí)候,我們會(huì)更希望卷積神經(jīng)網(wǎng)絡(luò)去注意應(yīng)該注意的地方,而不是什么都關(guān)注,因此,如何讓卷積神經(jīng)網(wǎng)絡(luò)去自適應(yīng)的注意重要的物體變得極為重要。
因此一句話總結(jié):注意力機(jī)制就是實(shí)現(xiàn)網(wǎng)絡(luò)自適應(yīng)注意的一個(gè)方式。
注意力機(jī)制分為三類:通道注意力機(jī)制,空間注意力機(jī)制,以及二者的結(jié)合。
注意力機(jī)制的實(shí)現(xiàn)方式
在深度學(xué)習(xí)中,常見的注意力機(jī)制的實(shí)現(xiàn)方式有SENet,CBAM,ECA等等。
SENet的實(shí)現(xiàn)
SENet是通道注意力機(jī)制,它是最后一屆ImageNet競(jìng)賽的冠軍。對(duì)于SENet而言,其重點(diǎn)是獲得輸入進(jìn)來(lái)的特征層,每一個(gè)通道的權(quán)值。利用SENet,我們可以讓網(wǎng)絡(luò)關(guān)注它最需要關(guān)注的通道。
實(shí)現(xiàn)步驟:
1、對(duì)輸入進(jìn)來(lái)的特征層進(jìn)行全局平均池化。
2、然后進(jìn)行兩次全連接,第一次全連接神經(jīng)元個(gè)數(shù)較少,第二次全連接神經(jīng)元個(gè)數(shù)和輸入特征層相同。
3、在完成兩次全連接后,我們?cè)偃∫淮蜸igmoid將值固定到0-1之間,此時(shí)我們獲得了輸入特征層每一個(gè)通道的權(quán)值(0-1之間)。
4、在獲得這個(gè)權(quán)值后,我們將這個(gè)權(quán)值乘上原輸入特征層即可。
實(shí)現(xiàn)代碼:
import torch
import torch.nn as nn
import math
class se_block(nn.Module):
def __init__(self, channel, ratio=16):
super(se_block, self).__init__()
self.avg_pool = nn.AdaptiveAvgPool2d(1)
self.fc = nn.Sequential(
nn.Linear(channel, channel // ratio, bias=False),
nn.ReLU(inplace=True),
nn.Linear(channel // ratio, channel, bias=False),
nn.Sigmoid()
)
def forward(self, x):
b, c, _, _ = x.size()
y = self.avg_pool(x).view(b, c)
y = self.fc(y).view(b, c, 1, 1)
return x * y
追加一個(gè)使用案例
if __name__ == '__main__':
#inut: 構(gòu)建數(shù)據(jù) bz = 8 c= 64 w =227 h=227
data = np.random.randn(8,64,227,227)
data = torch.from_numpy(data)
data = data.to(torch.float32)
seblock = se_block(64,2)
res = seblock(data)
print(res)
# output 輸出:torch.Size([8, 64, 227, 227])
輸入還是等于輸出,可是卻是已經(jīng)獲取和注意力的特征.正是因?yàn)檫@個(gè)特點(diǎn),所以注意力機(jī)制可以任意插拔。 輸入等于輸出,可以侵入搭建block的任意模塊!
CBAM的實(shí)現(xiàn)
CBAM將通道注意力機(jī)制和空間注意力機(jī)制進(jìn)行一個(gè)結(jié)合,相比于SENet只關(guān)注通道的注意力機(jī)制可以取得更好的效果。其實(shí)現(xiàn)示意圖如下所示,CBAM會(huì)對(duì)輸入進(jìn)來(lái)的特征層,分別進(jìn)行通道注意力機(jī)制的處理和空間注意力機(jī)制的處理。
通道注意力機(jī)制和空間注意力機(jī)制的具體實(shí)現(xiàn)方式如下圖:
圖像的上半部分為通道注意力機(jī)制,通道注意力機(jī)制的實(shí)現(xiàn)可以分為兩個(gè)部分,我們會(huì)對(duì)輸入進(jìn)來(lái)的單個(gè)特征層,分別進(jìn)行全局平均池化和全局最大池化。之后對(duì)平均池化和最大池化的結(jié)果,利用共享的全連接層進(jìn)行處理,我們會(huì)對(duì)處理后的兩個(gè)結(jié)果進(jìn)行相加,然后取一個(gè)sigmoid,此時(shí)我們獲得了輸入特征層每一個(gè)通道的權(quán)值(0-1之間)。在獲得這個(gè)權(quán)值后,我們將這個(gè)權(quán)值乘上原輸入特征層即可。
圖像的下半部分為空間注意力機(jī)制,我們會(huì)對(duì)輸入進(jìn)來(lái)的特征層,在每一個(gè)特征點(diǎn)的通道上取最大值和平均值。之后將這兩個(gè)結(jié)果進(jìn)行一個(gè)堆疊,利用一次通道數(shù)為1的卷積調(diào)整通道數(shù),然后取一個(gè)sigmoid,此時(shí)我們獲得了輸入特征層每一個(gè)特征點(diǎn)的權(quán)值(0-1之間)。在獲得這個(gè)權(quán)值后,我們將這個(gè)權(quán)值乘上原輸入特征層即可。
class ChannelAttention(nn.Module):
def __init__(self, in_planes, ratio=8):
super(ChannelAttention, self).__init__()
self.avg_pool = nn.AdaptiveAvgPool2d(1)
self.max_pool = nn.AdaptiveMaxPool2d(1)
# 利用1x1卷積代替全連接
self.fc1 = nn.Conv2d(in_planes, in_planes // ratio, 1, bias=False)
self.relu1 = nn.ReLU()
self.fc2 = nn.Conv2d(in_planes // ratio, in_planes, 1, bias=False)
self.sigmoid = nn.Sigmoid()
def forward(self, x):
avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x))))
max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x))))
out = avg_out + max_out
return self.sigmoid(out)
class SpatialAttention(nn.Module):
def __init__(self, kernel_size=7):
super(SpatialAttention, self).__init__()
assert kernel_size in (3, 7), 'kernel size must be 3 or 7'
padding = 3 if kernel_size == 7 else 1
self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False)
self.sigmoid = nn.Sigmoid()
def forward(self, x):
avg_out = torch.mean(x, dim=1, keepdim=True)
max_out, _ = torch.max(x, dim=1, keepdim=True)
x = torch.cat([avg_out, max_out], dim=1)
x = self.conv1(x)
return self.sigmoid(x)
class cbam_block(nn.Module):
def __init__(self, channel, ratio=8, kernel_size=7):
super(cbam_block, self).__init__()
self.channelattention = ChannelAttention(channel, ratio=ratio)
self.spatialattention = SpatialAttention(kernel_size=kernel_size)
def forward(self, x):
x = x * self.channelattention(x)
x = x * self.spatialattention(x)
return x
ECA的實(shí)現(xiàn)
ECANet是也是通道注意力機(jī)制的一種實(shí)現(xiàn)形式。ECANet可以看作是SENet的改進(jìn)版。
ECANet的作者認(rèn)為SENet對(duì)通道注意力機(jī)制的預(yù)測(cè)帶來(lái)了副作用,捕獲所有通道的依賴關(guān)系是低效并且是不必要的,并且認(rèn)為卷積具有良好的跨通道信息獲取能力。
ECA模塊的思想是非常簡(jiǎn)單的,它去除了原來(lái)SE模塊中的全連接層,直接在全局平均池化之后的特征上通過一個(gè)1D卷積進(jìn)行學(xué)習(xí)。
既然使用到了1D卷積,那么1D卷積的卷積核大小的選擇就變得非常重要了,了解過卷積原理的同學(xué)很快就可以明白,1D卷積的卷積核大小會(huì)影響注意力機(jī)制每個(gè)權(quán)重的計(jì)算要考慮的通道數(shù)量。用更專業(yè)的名詞就是跨通道交互的覆蓋率。
如下圖所示,左圖是常規(guī)的SE模塊,右圖是ECA模塊。ECA模塊用1D卷積替換兩次全連接。
class eca_block(nn.Module):
def __init__(self, channel, b=1, gamma=2):
super(eca_block, self).__init__()
kernel_size = int(abs((math.log(channel, 2) + b) / gamma))
kernel_size = kernel_size if kernel_size % 2 else kernel_size + 1
self.avg_pool = nn.AdaptiveAvgPool2d(1)
self.conv = nn.Conv1d(1, 1, kernel_size=kernel_size, padding=(kernel_size - 1) // 2, bias=False)
self.sigmoid = nn.Sigmoid()
def forward(self, x):
y = self.avg_pool(x)
y = self.conv(y.squeeze(-1).transpose(-1, -2)).transpose(-1, -2).unsqueeze(-1)
y = self.sigmoid(y)
return x * y.expand_as(x)
if __name__ == '__main__':
data = np.random.randn(8,64,227,227)
data = torch.from_numpy(data)
data = data.to(torch.float32)
seblock = eca_block(64,2)
res = seblock(data)
print(res.shape)
即插即用真是好使
注意力機(jī)制的應(yīng)用
注意力機(jī)制是一個(gè)即插即用的模塊,理論上可以放在任何一個(gè)特征層后面,可以放在主干網(wǎng)絡(luò),也可以放在加強(qiáng)特征提取網(wǎng)絡(luò)。
由于放置在主干會(huì)導(dǎo)致網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重?zé)o法使用,本文以YoloV4-tiny為例,將注意力機(jī)制應(yīng)用加強(qiáng)特征提取網(wǎng)絡(luò)上。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-780267.html
如下圖所示,我們?cè)谥鞲删W(wǎng)絡(luò)提取出來(lái)的兩個(gè)有效特征層上增加了注意力機(jī)制,同時(shí)對(duì)上采樣后的結(jié)果增加了注意力機(jī)制。
實(shí)現(xiàn)代碼如下:文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-780267.html
attention_block = [se_block, cbam_block, eca_block]
#---------------------------------------------------#
# 特征層->最后的輸出
#---------------------------------------------------#
class YoloBody(nn.Module):
def __init__(self, anchors_mask, num_classes, phi=0):
super(YoloBody, self).__init__()
self.phi = phi
self.backbone = darknet53_tiny(None)
self.conv_for_P5 = BasicConv(512,256,1)
self.yolo_headP5 = yolo_head([512, len(anchors_mask[0]) * (5 + num_classes)],256)
self.upsample = Upsample(256,128)
self.yolo_headP4 = yolo_head([256, len(anchors_mask[1]) * (5 + num_classes)],384)
if 1 <= self.phi and self.phi <= 3:
self.feat1_att = attention_block[self.phi - 1](256)
self.feat2_att = attention_block[self.phi - 1](512)
self.upsample_att = attention_block[self.phi - 1](128)
def forward(self, x):
#---------------------------------------------------#
# 生成CSPdarknet53_tiny的主干模型
# feat1的shape為26,26,256
# feat2的shape為13,13,512
#---------------------------------------------------#
feat1, feat2 = self.backbone(x)
if 1 <= self.phi and self.phi <= 3:
feat1 = self.feat1_att(feat1)
feat2 = self.feat2_att(feat2)
# 13,13,512 -> 13,13,256
P5 = self.conv_for_P5(feat2)
# 13,13,256 -> 13,13,512 -> 13,13,255
out0 = self.yolo_headP5(P5)
# 13,13,256 -> 13,13,128 -> 26,26,128
P5_Upsample = self.upsample(P5)
# 26,26,256 + 26,26,128 -> 26,26,384
if 1 <= self.phi and self.phi <= 3:
P5_Upsample = self.upsample_att(P5_Upsample)
P4 = torch.cat([P5_Upsample,feat1],axis=1)
# 26,26,384 -> 26,26,256 -> 26,26,255
out1 = self.yolo_headP4(P4)
return out0, out1
到了這里,關(guān)于【深度學(xué)習(xí)】--圖像處理中的注意力機(jī)制的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!