0 簡介
論文:基于并行注意力 UNet的裂縫檢測方法(Parallel Attention Based UNet for Crack Detection);
發(fā)表:2021年發(fā)表在《計算機研究與發(fā)展》上。
1 問題分析
問題:裂縫圖像中存在噪聲、光線、陰影等因素干擾;
解決方法:比較流行的解決方案是嵌入注意力機制以抑制各種干擾;
缺點:現(xiàn)有的注意力機制大都采用串行結構,能有效抑制大部分干擾,但仍受到明亮噪聲的影響,導致效果降低;
本文的方法:設計一種并行注意力機制,從空間和通道2個維度抑制干擾,通過并行結構融合兩者特征以獲取更具互補性的裂縫特征,有效抑制了各種干擾。
2 具體方案
三個部分組成:
- 網絡的編碼層,由卷積和池化組成;
- 網絡的解碼層,由卷 積、反卷積和sigmoid函數(shù)組成;
- 注意力模塊。
并行注意力機制分為三條線來說明。
第一條線:
- 輸入:特征圖 F ∈ R H × W × C F \in \mathbb{R}^{H \times W \times C} F∈RH×W×C;
- 輸出:特征圖 Q ∈ R H × W × C Q \in \mathbb{R}^{H \times W \times C} Q∈RH×W×C;
- 處理:
– 利用最大池化提取全局特征 M ∈ R 1 × 1 × C M \in \mathbb{R}^{1 \times 1 \times C} M∈R1×1×C
– 利用下面的公式計算得到權重圖 N ∈ R 1 × 1 × C N \in \mathbb{R}^{1 \times 1 \times C} N∈R1×1×C,第 i i i通道的權重值 e i e_i ei?為:
e i = σ ( ∑ j = 1 k w i j z i j ) , z i j ∈ Ω i k e_{i}=\sigma\left(\sum_{j=1}^{k} w_{i}^{j} z_{i}^{j}\right), z_{i}^{j} \in \Omega_{i}^{k} ei?=σ(j=1∑k?wij?zij?),zij?∈Ωik?
其中 w i j w_{i}^{j} wij?表示第 i i i個通道的第 j ∈ [ 1 , k ] j \in [1, k] j∈[1,k]個權重參數(shù), Ω i k \Omega_{i}^{k} Ωik?表示第 i i i個通道的 k k k個相鄰通道全局特征的集合;【這個公式有兩個問題:(1) w i j w_{i}^{j} wij?是通過學習得到的嗎?(2) z i j ∈ Ω i k z_{i}^{j} \in \Omega_{i}^{k} zij?∈Ωik?是從 Ω i k \Omega_{i}^{k} Ωik?中任取一個,還是遍歷所有特征點,由于作者沒有提供源代碼,我們只能猜,如果是遍歷,我覺得這個公式還應該有一層循環(huán)才對。】
第二條線:
- 輸入:特征圖 F ∈ R H × W × C F \in \mathbb{R}^{H \times W \times C} F∈RH×W×C;
- 輸出:特征圖 P ∈ R H × W × C P \in \mathbb{R}^{H \times W \times C} P∈RH×W×C;
- 處理:
– 利用最大池化得到 F m a x s ∈ R H × W × 1 F_{\mathrm{max}}^s \in \mathbb{R}^{H \times W \times 1} Fmaxs?∈RH×W×1;
– 利用平均池化得到 F a v g s ∈ R H × W × 1 F_{\mathrm{avg}}^s \in \mathbb{R}^{H \times W \times 1} Favgs?∈RH×W×1;
– 權重圖 H H H:將這2個單通道的特征圖結合,生成一個權重圖【具體怎么做的沒說?】
第三條線:
- 輸入:特征圖 P ∈ R H × W × C P \in \mathbb{R}^{H \times W \times C} P∈RH×W×C和特征圖 Q ∈ R H × W × C Q \in \mathbb{R}^{H \times W \times C} Q∈RH×W×C;
- 輸出:特征圖 G ∈ R H × W × C G \in \mathbb{R}^{H \times W \times C} G∈RH×W×C;
- 處理:融合。
3 訓練過程(我的理解)
-
通過軟件對原圖進行標注,得到帶裂縫標注的數(shù)據作為訓練集【這個過程實際上比較難理解,這個標注過程是手動還是自動,如果是手動就很好理解,如果是自動就比較難理解了】;
文章來源:http://www.zghlxwxcb.cn/news/detail-422899.html
-
訓練網絡,像素級二分類問題,利用二值交叉熵損失函數(shù)
loss ? = ? ∑ i = 1 n ( y i log ? y ^ i + ( 1 ? y ) log ? ( 1 ? y ^ i ) ) \operatorname{loss}=-\sum_{i=1}^{n}\left(y_{i} \log \hat{y}_{i}+(1-y) \log \left(1-\hat{y}_{i}\right)\right) loss=?i=1∑n?(yi?logy^?i?+(1?y)log(1?y^?i?))
其中, y i y_i yi? 是像素點 i i i 在標注數(shù)據中的像素值, y ^ i \hat{y}_i y^?i? 是像素點 i i i在預測結果 Y ^ \hat{Y} Y^ 中的像素值,預測結果 Y ^ \hat{Y} Y^是通過原始圖像 X X X經過先編碼后解碼得到的。文章來源地址http://www.zghlxwxcb.cn/news/detail-422899.html
到了這里,關于論文筆記:基于并行注意力 UNet的裂縫檢測方法的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!