1. 論文介紹
PraNet: Parallel Reverse Attention Network for Polyp Segmentation
PraNet:用于息肉分割的并行反向注意力網(wǎng)絡(luò)
2020年發(fā)表在MICCAI
Paper Code
2. 摘要
結(jié)腸鏡檢查是檢測結(jié)直腸息肉的有效技術(shù),結(jié)直腸息肉與結(jié)直腸癌高度相關(guān)。在臨床實踐中,從結(jié)腸鏡圖像中分割息肉是非常重要的,因為它為診斷和手術(shù)提供了有價值的信息。然而,由于兩個主要原因,準確的息肉分割是一項具有挑戰(zhàn)性的任務(wù):(i)相同類型的息肉具有不同的大小、顏色和紋理;以及(ii)息肉與其周圍粘膜之間的邊界不清晰。為了解決這些挑戰(zhàn),我們提出了一種并行反向注意力網(wǎng)絡(luò)(PraNet),用于結(jié)腸鏡圖像中的準確息肉分割。具體來說,我們首先使用并行部分解碼器(PPD)聚合高級層中的特征?;诮M合特征,我們?nèi)缓笊扇值貓D作為以下組件的初始引導(dǎo)區(qū)域。此外,我們使用反向注意(RA)模塊,它能夠建立區(qū)域和邊界線索之間的關(guān)系,挖掘邊界線索。由于區(qū)域和邊界之間的循環(huán)合作機制,我們的PraNet能夠校準一些未對齊的預(yù)測,提高分割精度。針對五個具有挑戰(zhàn)性的數(shù)據(jù)集進行的六項指標的定量和定性評估顯示,我們的PraNet顯著提高了分割準確性,并在可推廣性和實時分割效率(每秒50幀)方面呈現(xiàn)出多項優(yōu)勢。
Keywords:反向注意力 部分解碼器 息肉分割 實時分割 邊界線索
3. Introduction
準確的息肉分割是一項具有挑戰(zhàn)性的任務(wù)。因為1)息肉通常在外觀上變化,例如,尺寸、顏色和質(zhì)地,即使它們是同一類型。2)在結(jié)腸鏡檢查圖像中,息肉及其周圍粘膜之間的邊界通常是模糊的,并且缺乏分割方法所需的強烈對比度。
在各種息肉分割方法中,基于早期學習的方法依賴于提取的手工特征,例如顏色,紋理,形狀,外觀或這些特征的組合。這些方法通常是訓(xùn)練分類器來區(qū)分息肉及其周圍環(huán)境。然而,這些模型通常遭受高的誤檢率。主要原因是,當涉及到處理息肉的高類內(nèi)變化和息肉與硬模仿物之間的低類間變化時,手工特征的表示能力非常有限。
定位息肉邊界的一些工作:1.帶有預(yù)訓(xùn)練模型的FCN來識別和分割息肉;2.用FCN的修改版本來提高息肉分割的準確性;3. U-Net,U-Net++ 和ResUNet++被用于息肉分割。
這些方法都集中在分割整個區(qū)域的息肉,但他們忽略了區(qū)域邊界約束,這是非常關(guān)鍵的提高分割性能。1. Psi-Net 在息肉分割中同時利用面積和邊界信息,但面積和邊界之間的關(guān)系沒有完全捕獲。2. 一種具有區(qū)域和邊界約束的三步選擇性特征聚合網(wǎng)絡(luò)用于息肉分割。該方法顯式地考慮了區(qū)域和邊界之間的依賴關(guān)系,并通過附加邊緣監(jiān)督獲得了良好的結(jié)果;但是該方法耗時(>20小時),并且容易受到過擬合的破壞。
本文提出的一種新的深度神經(jīng)網(wǎng)絡(luò),稱為并行反向注意力網(wǎng)絡(luò)(PraNet),用于實時準確的息肉分割任務(wù)。動機源于息肉注釋,臨床醫(yī)生首先粗略定位息肉,然后準確地提取其輪廓掩模根據(jù)當?shù)氐奶攸c?;诿娣e和邊界是區(qū)分正常組織和息肉的兩個關(guān)鍵特征。首先預(yù)測粗糙區(qū)域,然后通過反向注意隱式地對邊界進行建模。該策略有三個優(yōu)點,包括更好的學習能力,提高泛化能力和更高的訓(xùn)練效率。
通過使用并行部分解碼器(PPD)聚合高級層中的特征,組合特征獲取上下文信息并生成全局地圖作為后續(xù)步驟的初始引導(dǎo)區(qū)域。為了進一步挖掘邊界線索,利用一組經(jīng)常性的反向注意(RA)模塊,建立區(qū)域和邊界線索之間的關(guān)系。由于區(qū)域和邊界之間的這種經(jīng)常性合作機制,該模型能夠校準一些不一致的預(yù)測。
4.模型結(jié)構(gòu)詳解
首先輸入大小為
h
?
w
h*w
h?w的息肉圖像I,經(jīng)過基于Res2Net的骨干網(wǎng)絡(luò)提取得到五層特征
f
i
,
i
=
1
,
2
,
3
,
4
,
5
;
[
h
/
2
k
?
1
,
w
/
2
k
?
1
]
f_i,i=1,2,3,4,5;[h/2^k-1,w/2^k-1]
fi?,i=1,2,3,4,5;[h/2k?1,w/2k?1] ,其中1、2層為低層特征,3、4、5層為高層特征。高層特征通過部分解碼器聚合,得到粗略的特征圖
S
g
S_g
Sg?。
S
g
S_g
Sg?下采樣與最高層特征
f
5
f_5
f5?輸入最高層特征的反向注意力模塊,消除前景得到反向注意力特征
R
5
R_5
R5?,即區(qū)域信息,
R
5
R_5
R5?再與
S
g
S_g
Sg?進行加運算得到
S
5
S_5
S5?。
S
5
S_5
S5?下采樣與下一級特征反向注意力得到對應(yīng)反向注意力特征,再與
S
5
S_5
S5?下采樣后的特征相加得到
S
4
S_4
S4?,依次再得到
S
3
S_3
S3?。取
S
3
S_3
S3?特征進行Sigmoid激活函數(shù)激活得到預(yù)測結(jié)果。
PD部分解碼器
部分解碼器PD,以聚合(3,4,5)高級特征,最后得到全局映射
S
g
S_g
Sg?。
S
g
S_g
Sg?來自最深的CNN層,它只能捕獲息肉組織的相對粗略的位置,而沒有結(jié)構(gòu)細節(jié)。參考Cascaded partial decoder for fast and accurate salient object detection 只整合三層高級特征。
這是參考文獻的普通多級特征聚合網(wǎng)絡(luò)如(a)所示,結(jié)構(gòu)圖如上(b),它整合高級特征(3、4、5)。
RA 反向注意力模塊
高層特征不包含具體的邊界信息,所以通過從高級側(cè)輸出特征中擦除現(xiàn)有的估計息肉區(qū)域來順序地挖掘互補區(qū)域和細節(jié),其中現(xiàn)有的估計是從更深層上采樣的。
RA接收高層特征和更深層上采樣的結(jié)果,將高級側(cè)輸出特征
f
i
,
i
=
3
,
4
,
5
{fi,i = 3,4,5}
fi,i=3,4,5 乘以逐元素的反向注意力權(quán)重Ai來獲得輸出反向注意力特征Ri:
其中,反向注意力權(quán)重Ai:
其中,P(·) 表示上采樣操作,σ(·) 是Sigmoid函數(shù),而(·)是從矩陣E中減去輸入的逆操作,其中所有元素都是1。最終得到準確、完整的預(yù)測圖。
損失函數(shù)
定義損失函數(shù) L = L I o U w + L B C E w L = L^w_{IoU} +L^w_{BCE} L=LIoUw?+LBCEw? ,其中 L I o U w L^w_{IoU} LIoUw?和 L B C E w L^w_{BCE} LBCEw?表示全局限制和局部(像素級)限制的加權(quán)IoU損失和二進制交叉熵(BCE)損失。在這里,對三個側(cè)輸出(即,S3、S4和S4)和全局地圖Sg 每個映射被上采樣與地面實況圖G的大小相同。因此,所提出的PraNet的總損失可以用公式表示為: L t o t a l = L ( G , S g u p ) + ∑ i = 3 i = 5 L ( G , S i u p ) L_{total} = L(G,S^{up}_g ) +\sum^{i=5}_{i=3} L(G,S^{up}_i ) Ltotal?=L(G,Sgup?)+∑i=3i=5?L(G,Siup?)。文章來源:http://www.zghlxwxcb.cn/news/detail-808582.html
5. 實驗與結(jié)果
實驗基于PyTorch,使用NVIDIA TITAN RTX GPU加速。所有輸入都統(tǒng)一調(diào)整為352×352,并采用多尺度訓(xùn)練策略{0.75,1,1.25}而不是數(shù)據(jù)增強。我們采用Adam優(yōu)化算法來優(yōu)化整體參數(shù),學習率為
1
e
?
4
1e?4
1e?4。整個網(wǎng)絡(luò)以端到端的方式進行訓(xùn)練,需要32分鐘才能收斂20個epoch,批量大小為16。我們的最終預(yù)測圖
S
p
S_p
Sp?由
S
3
S_3
S3?在S形運算之后生成。文章來源地址http://www.zghlxwxcb.cn/news/detail-808582.html
到了這里,關(guān)于【論文閱讀筆記】PraNet: Parallel Reverse Attention Network for Polyp Segmentation的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!