@article{wang2022swinfuse,
title={SwinFuse: A residual swin transformer fusion network for infrared and visible images},
author={Wang, Zhishe and Chen, Yanlin and Shao, Wenyu and Li, Hui and Zhang, Lei},
journal={IEEE Transactions on Instrumentation and Measurement},
volume={71},
pages={1–12},
year={2022},
publisher={IEEE}
}
論文級別:SCI A2/Q1
影響因子:5.6
??[論文下載地址]
??[代碼下載地址]
??論文解讀
卷積運算是圖像與卷積核之間內(nèi)容無關(guān)的交互,可能會丟失上下文信息
因此作者提出了SwinFuse(Residual Swin Transformer Fusion Network),該模型包括三個部分:全局特征提取,融合層和特征重構(gòu)。
- 使用純Transformer構(gòu)建了一個完全注意力編碼骨干網(wǎng)絡(luò)來建模遠程依賴
- 設(shè)計了基于序列矩陣L1范數(shù)的特征融合策略
??關(guān)鍵詞
image fusion, Swin Transformer, self-attention mechanism, feature normalization, deep learning
圖像融合,Swin Transformer, 自注意力機制,特征歸一化,深度學習
??核心思想
使用Swin Transformer提取全局特征,并設(shè)計了基于行向量和列向量維度的融合策略
參考鏈接
[什么是圖像融合?(一看就通,通俗易懂)]
??網(wǎng)絡(luò)結(jié)構(gòu)
作者提出的網(wǎng)絡(luò)結(jié)構(gòu)如下所示。SwinFuse主要由三部分組成:全局特征提取、融合層和特征重構(gòu)。
??overview
給定輸入
I
l
∈
R
H
×
W
×
C
i
n
{I^l} \in {R^{H \times W \times {C_{in}}}}
Il∈RH×W×Cin?,HWC即高寬通道,
l
=
v
i
s
l = vis
l=vis和
l
=
i
r
l = ir
l=ir分別代表可見光圖像和紅外圖像。
首先,使用1×1卷積核的卷積層進行位置編碼,并將輸入通道
C
i
n
C_{in}
Cin?轉(zhuǎn)換為
C
C
C。初始特征
Φ
l
{\Phi ^l}
Φl為:
Φ
l
=
H
p
o
s
(
I
l
)
{\Phi ^l} = {H_{pos}}({I^l})
Φl=Hpos?(Il)中,
H
p
o
s
H_{pos}
Hpos?代表位置編碼,輸出通道數(shù)C被設(shè)置為96.
然后,將初始特征
Φ
l
{\Phi ^l}
Φl轉(zhuǎn)化為序列向量
Φ
S
V
l
∈
R
M
N
×
C
\Phi _{SV}^l \in {R^{MN{\rm{ \times C}}}}
ΦSVl?∈RMN×C,并使用殘差Swin Transformer塊(residual Swin Transformer blocks,RSTBs)提取全局特征
Φ
G
F
l
∈
R
M
N
×
C
\Phi _{GF}^l \in {R^{MN{\rm{ \times C}}}}
ΦGFl?∈RMN×C:
H
R
S
T
B
m
H_{RSTB_m}
HRSTBm??代表第m個RSTB。
接下來,使用基于L1范式的融合層,從行、列向量維度獲得融合全局特征
Φ
F
l
∈
R
M
N
×
C
\Phi _{F}^l \in {R^{MN{\rm{ \times C}}}}
ΦFl?∈RMN×C:
H
N
o
r
m
H_{Norm}
HNorm?代表融合操作。
最后,將融合全局特征的維度從
R
M
N
×
C
R^{MN×C}
RMN×C轉(zhuǎn)換為
R
M
×
N
×
C
R^{M×N×C}
RM×N×C,并使用卷積層重構(gòu)融合圖像
I
F
I_F
IF?:
H
C
o
n
v
H_{Conv}
HConv?代表特征重構(gòu),該層使用了1×1卷積核,padding為0,還有一個tanh激活函數(shù)。
??RSTB
給定一個輸入序列向量
Φ
m
,
0
l
{\Phi ^l_{m,0}}
Φm,0l?,使用n個Swin Transformer提取中間全局特征
Φ
m
,
n
?
l
{\Phi ^l_{m,n-}}
Φm,n?l?,RSTB最終的輸出為:
H
S
T
L
m
,
n
H_{STL_{m,n}}
HSTLm,n??代表第n個Swin Transformer層。
在STL中,首先使用N×N的滑動窗口,將輸入劃分為不重疊的
H
W
N
2
\frac{HW}{N^2}
N2HW?局部窗口并計算其局部注意力。
對于局部窗口
Φ
z
\Phi_z
Φz?,QKV計算如下:
W
Q
、
W
K
、
W
V
W_Q、W_K、W_V
WQ?、WK?、WV?均為可學習參數(shù),d使(Q, K)的維度。序列矩陣自注意力機制計算如下:
p是位置編碼的可學習參數(shù)。
隨后,Swin Transformer再次計算移動窗口的標準多頭注意力(multi-head self-attention, MSA)。STL由W-MSA和SW-MSA構(gòu)成,LayerNorm在每個MSA和MLP前面,并且使用了殘差連接。
??融合策略
作者設(shè)計了一種基于L1范數(shù)的紅外-可見光圖像序列矩陣融合策略,從行和列向量維度測量活動水平。如下圖所示。
對于兩種源圖像各自的全局特征
Φ
G
F
i
r
(
i
,
j
)
\Phi _{GF}^{ir}\left( {i,j} \right)
ΦGFir?(i,j)和
Φ
G
F
v
i
s
(
i
,
j
)
\Phi _{GF}^{vis}\left( {i,j} \right)
ΦGFvis?(i,j),首先使用L1范數(shù)測量其行向量權(quán)重,然后使用softmax獲得活動水平
φ
r
o
w
i
r
(
i
)
\varphi _{row}^{ir}\left( i \right)
φrowir?(i)和
φ
r
o
w
v
i
s
(
i
)
\varphi _{row}^{vis}\left( i \right)
φrowvis?(i):
然后直接將活動水平與對應(yīng)的全局特征相乘,從行向量維度得到融合全局特征
Φ
r
o
w
F
(
i
,
j
)
\Phi _{row}^{F}\left( i,j \right)
ΦrowF?(i,j):
同理,計算列向量:
最后,使用逐元素相加得到最終的融合全局特征:
注意,融合層只在測試時被保留,在訓(xùn)練階段被移除。
??損失函數(shù)
??數(shù)據(jù)集
- 訓(xùn)練MS-COCO
- 測試 TNO Roadscene OTCBVS
圖像融合數(shù)據(jù)集鏈接
[圖像融合常用數(shù)據(jù)集整理]
??訓(xùn)練設(shè)置
??實驗
??評價指標
- SF, SD, MI, MS_SSIM, FMI_W and SCD
參考資料
???強烈推薦必看博客 [圖像融合定量指標分析]
??Baseline
- MDLatLRR、IFCNN、DenseFuse、RFN-Nest、fusongan、GANMcC、PMGI、SEDRFuse、Res2Fusion
參考資料
[圖像融合論文baseline及其網(wǎng)絡(luò)模型]
??實驗結(jié)果
更多實驗結(jié)果及分析可以查看原文:
??[論文下載地址]
??[代碼下載地址]
??傳送門
??圖像融合相關(guān)論文閱讀筆記
??[SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer]
??[(MFEIF)Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion]
??[DenseFuse: A fusion approach to infrared and visible images]
??[DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pair]
??[GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF]
??[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
??[IFCNN: A general image fusion framework based on convolutional neural network]
??[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
??[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
??[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
??[FusionGAN: A generative adversarial network for infrared and visible image fusion]
??[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
??[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
??[U2Fusion: A Unified Unsupervised Image Fusion Network]
??綜述[Visible and Infrared Image Fusion Using Deep Learning]
??圖像融合論文baseline總結(jié)
??[圖像融合論文baseline及其網(wǎng)絡(luò)模型]
??其他論文
??[3D目標檢測綜述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]
??其他總結(jié)
??[CVPR2023、ICCV2023論文題目匯總及詞頻統(tǒng)計]
?精品文章總結(jié)
?[圖像融合論文及代碼整理最全大合集]
?[圖像融合常用數(shù)據(jù)集整理]文章來源:http://www.zghlxwxcb.cn/news/detail-855849.html
如有疑問可聯(lián)系:420269520@qq.com;
碼字不易,【關(guān)注,收藏,點贊】一鍵三連是我持續(xù)更新的動力,祝各位早發(fā)paper,順利畢業(yè)~文章來源地址http://www.zghlxwxcb.cn/news/detail-855849.html
到了這里,關(guān)于圖像融合論文閱讀:SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!