@ARTICLE{9151265,
author={Xu, Han and Ma, Jiayi and Jiang, Junjun and Guo, Xiaojie and Ling, Haibin},
journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
title={U2Fusion: A Unified Unsupervised Image Fusion Network},
year={2022},
volume={44},
number={1},
pages={502-518},
doi={10.1109/TPAMI.2020.3012548}}
SCI A1;IF 23.6
論文地址
代碼github
RoadScene數(shù)據(jù)集
??論文解讀
??核心思想
訓(xùn)練階段使用DenseNet提取源圖像特征(包括了淺層特征和深層特征),然后對這些特征圖求信息度量(特征梯度),由信息度量求處信息保留度(一個(gè)概率權(quán)重),將信息保留度與源信息(源圖像)結(jié)合求損失函數(shù)。
損失函數(shù)=相似性損失(結(jié)構(gòu)相似性+強(qiáng)度分布)+持續(xù)學(xué)習(xí)損失
??網(wǎng)絡(luò)結(jié)構(gòu)
①U2Fusion的pipeline如上圖所示。
I
1
I_1
I1?和
I
2
I_2
I2?分別表示源圖像,訓(xùn)練DenseNet以生成融合圖像
I
f
I_f
If?。特征提取的輸出是特征圖
?
C
n
(
I
m
)
\phi_{C_n}(I_m)
?Cn??(Im?)。
②對這些特征圖進(jìn)行信息度量得到兩個(gè)度量值
g
I
1
g_{I_1}
gI1??和
g
I
2
g_{I_2}
gI2??
③經(jīng)過處理后,得到兩個(gè)信息保留度
ω
1
\omega_1
ω1?和
ω
2
\omega_2
ω2?
④損失函數(shù)由
I
1
I_1
I1?、
I
2
I_2
I2?、
ω
1
\omega_1
ω1?和
ω
2
\omega_2
ω2?組成,并不需要ground truth
⑤訓(xùn)練階段,估計(jì)
ω
1
\omega_1
ω1?和
ω
2
\omega_2
ω2?,并用于損失函數(shù)
⑥測試階段,
ω
1
\omega_1
ω1?和
ω
2
\omega_2
ω2?固定
摘要
①提出了一種新穎的【統(tǒng)一】【無監(jiān)督】【端到端】圖像融合網(wǎng)絡(luò)U2Fusion,可以解決多模態(tài)、多曝光、多聚焦等不同的融合問題。
②通過【特征提取】和【信息度量】,U2Fusion可以【自動(dòng)估計(jì)】對應(yīng)源圖像的【重要程度】,并給出【自適應(yīng)信息保持度】?;谧赃m應(yīng)度,訓(xùn)練好的網(wǎng)絡(luò)可以保留融合圖像和源圖像的自適應(yīng)相似性。因此解決了基于DL的圖像融合中需要【ground truth】和【特定的設(shè)計(jì)規(guī)則】的問題。
③通過避免順序地訓(xùn)練不同任務(wù)單模型時(shí)損失之前的融合能力,不同的融合任務(wù)可以在統(tǒng)一的網(wǎng)絡(luò)框架下完成。
④發(fā)布了RoadScene數(shù)據(jù)集
關(guān)鍵詞
- Image fusion 圖像融合
- unified model 統(tǒng)一模型
- unsupervised learning 無監(jiān)督學(xué)習(xí)
- continual learning 連續(xù)學(xué)習(xí)
1.引言
-
背景介紹
①背景:圖像融合從安全到工業(yè)和民用領(lǐng)域有著重要的應(yīng)用意義。
②挑戰(zhàn):因?yàn)橛布O(shè)備或光學(xué)成像的限制,使用單一傳感器(拍攝)只能捕獲單一信息。
③ 定義:圖像融合的目標(biāo)是通過融合由多個(gè)傳感器采集到的多個(gè)源圖像的互補(bǔ)信息來生成融合圖像。如圖1所示。
④ 意義:具有更好場景表達(dá)和視覺感知的融合圖像,更適合下游視覺任務(wù)如視頻監(jiān)控、場景理解和目標(biāo)重識(shí)別。 -
引出挑戰(zhàn)1
①圖像融合分類:多模態(tài)、多曝光、多聚焦。
② 算法分類:基于傳統(tǒng)融合框架、基于端到端的模型。
③ 承上啟下:盡管這些算法在各自領(lǐng)域結(jié)果不錯(cuò),但是仍然存在一些問題。
④ 傳統(tǒng)缺陷:融合規(guī)則選擇的有限性、人工設(shè)計(jì)的復(fù)雜度太高
⑤ 端到端缺陷:監(jiān)督學(xué)習(xí)時(shí)過于依賴ground truth、無監(jiān)督學(xué)習(xí)時(shí)過于依賴特定設(shè)計(jì)指標(biāo)(specifically designed metrics)。
⑥挑戰(zhàn):缺乏多任務(wù)的通用ground truth和參考評價(jià)指標(biāo),阻礙了統(tǒng)一模型和有/無監(jiān)督學(xué)習(xí)的發(fā)展 -
引出挑戰(zhàn)2
① 相同:不同融合任務(wù)融合目標(biāo)相同,即綜合多張?jiān)磮D像的重要信息和互補(bǔ)信息合成融合圖像
② 不同:不同融合任務(wù)源圖像類型不同,需要融合的信息差異很大
③ 挑戰(zhàn):因?yàn)樯窠?jīng)網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力可以統(tǒng)一表示各種信息,可以提出一個(gè)統(tǒng)一的融合框架 -
統(tǒng)一模型優(yōu)點(diǎn)
①原因:不同融合問題可以相互促進(jìn),例如的訓(xùn)練好的用于多曝光融合的網(wǎng)絡(luò),可以有效改善多模態(tài)或多聚焦任務(wù)中曝光不足或曝光過度的問題
②總結(jié):通過整合多任務(wù)的優(yōu)勢,統(tǒng)一模型可以為每個(gè)單融合任務(wù)實(shí)現(xiàn)更好的結(jié)果,并具有更強(qiáng)的泛化能力 -
貢獻(xiàn)
① 方案:為了解決以上我呢提,提出了一個(gè)統(tǒng)一的無監(jiān)督圖像融合網(wǎng)絡(luò)U2Fusion
②流程:- 為了保留信息,首先采用特征提取器來提取豐富而全面的特征;
- 為了定義這些特征的重要性,度量特征中的信息豐富程度。從而反應(yīng)了源圖像和融合結(jié)果的相似性關(guān)系,相似度越高,信息保留程度越高
③方法:使用DenseNet模塊來訓(xùn)練不需要ground truth的網(wǎng)絡(luò)
④具體貢獻(xiàn):- 用統(tǒng)一框架和參數(shù)解決了多圖像融合任務(wù)問題。解決了【不同任務(wù)不同解決方案的問題】、【訓(xùn)練的存儲(chǔ)和計(jì)算問題】以及【連續(xù)學(xué)習(xí)的遺忘問題】;
- 提出了U2Fusion。通過約束源圖像和融合圖像相似性解決了圖像融合任務(wù)中缺乏統(tǒng)一ground truth和參考評估指標(biāo)的問題。
⑤發(fā)布了RoadScene數(shù)據(jù)集。為圖像融合基準(zhǔn)評估提供了新的選擇。
⑥在多個(gè)數(shù)據(jù)集下進(jìn)行了多任務(wù)實(shí)驗(yàn)。驗(yàn)證了U2Fusion的有效性和通用性。
2. 相關(guān)工作
2.1 圖像融合方法
2.1.1 傳統(tǒng)融合框架方法
-
傳統(tǒng)方法介紹:此類算法主要由【特征提取】和【特征融合】兩個(gè)重要因素組成(【特征重建】往往是特征提取的逆過程),通過改進(jìn)這兩個(gè)因素可以使其應(yīng)用于多模態(tài)、多曝光、多聚焦等任務(wù)。如圖2所示。
-
傳統(tǒng)融合方法分類
①多尺度變換:- Laplacian pyramid (LP),
- ratio of low-pass pyramid (RP)
- gradient pyramid (GP)
- discrete wavelet (DWT)
- discrete cosine (DCT) [13],
- curvelet transform (CVT)
- shearlet, etc.;
②稀疏表達(dá)
③子空間分析- independent component analysis (ICA)
- principal component analysis (PCA)
- nonnegative matrix factorization (NMF), etc.
④混合方式
⑤缺點(diǎn):人工設(shè)計(jì)的特征提取方法過于復(fù)雜,增加了特征融合規(guī)則設(shè)計(jì)的難度;針對不同的任務(wù),方法也要相應(yīng)進(jìn)行修改。還需要確保特征提取方法的恰當(dāng)性以確保特征的完整性。(總之就是很麻煩)
⑥應(yīng)對方法:為了克服缺點(diǎn),一些方法引入了CNN(作為整體或者作為一個(gè)子模塊) -
融合規(guī)則的設(shè)定
①融合規(guī)則的設(shè)定基于特征提取規(guī)則
②常用方法:- 最大值
- 最小值
- 相加
- L1范數(shù)等
③挑戰(zhàn):手動(dòng)設(shè)計(jì)的融合規(guī)則性能會(huì)被限制
-
其他方法
①其他方法:- 基于梯度轉(zhuǎn)移和總變差最小的VIF方法
- 優(yōu)化結(jié)構(gòu)相似性指數(shù)的多曝光融合方法
- 密集SIFT的多聚焦融合方法
②挑戰(zhàn):專用于特定的融合任務(wù),泛化性不好
2.1.2 端到端方法
-
提出原因:為了避免設(shè)計(jì)融合規(guī)則
-
多模態(tài)圖像融合
① FusionGAN,通過使用GAN,保留了IR圖像的像素強(qiáng)度分布和VIS圖像細(xì)節(jié)
② DDcGAN,通過引入雙鑒別器結(jié)構(gòu),提升了熱目標(biāo)的突出性
③挑戰(zhàn):- VIF關(guān)注的問題在于像素強(qiáng)度分布和細(xì)節(jié),在其他融合任務(wù)中并不適用。
- 此類任務(wù)缺乏ground truth
-
多曝光圖像融合
① Deepfuse,采用了無參考度量的MEF-SSIM作為損失函數(shù)(丟棄了亮度分量,因?yàn)榱炼确至吭贛EF任務(wù)中不重要),但是只適用于MEF
②缺點(diǎn):沒有g(shù)round truth -
多聚焦圖像融合
① FuseGAN,生成器直接產(chǎn)生二元聚焦掩膜(binary focus mask),鑒別器區(qū)分mask和ground truth(使用歸一化的原盤點(diǎn)擴(kuò)展函數(shù)分離前景和背景)
②挑戰(zhàn):- 聚焦圖/掩膜只使用MFIF,在其他任務(wù)不重要甚至不適用
- 此類方法基本都是基于監(jiān)督學(xué)習(xí)
-
本文方法
① 引出:針對上述局限性,提出了U2Fusion
②模型特點(diǎn):- 不受人工設(shè)計(jì)限制的端到端模型
- 可以解決多融合任務(wù)的統(tǒng)一模型
- 無監(jiān)督模型,不需要ground truth
- 使用持續(xù)學(xué)習(xí)解決新任務(wù)的同時(shí)不會(huì)忘記舊任務(wù)(使用統(tǒng)一參數(shù)解決不同任務(wù))
2.2 連續(xù)學(xué)習(xí)
①在持續(xù)學(xué)習(xí)中,學(xué)習(xí)被認(rèn)為使一系列任務(wù)
②訓(xùn)練階段,權(quán)重會(huì)在不忘記之前內(nèi)容的前提下調(diào)整更新
③為了避免從之前任務(wù)中存儲(chǔ)訓(xùn)練數(shù)據(jù),許多彈性權(quán)重整合(elastic weight consolidation,EWC)方法被提出,使用一個(gè)正則化項(xiàng)約束參數(shù)與訓(xùn)練之前任務(wù)時(shí)保持相似。
④這項(xiàng)技術(shù)廣泛應(yīng)用于實(shí)際問題,如人員重識(shí)別、實(shí)時(shí)車輛檢測、情感識(shí)別等。我們使用這項(xiàng)技術(shù)來解決多任務(wù)圖像融合問題
3. 方法
①本方法允許使用不同傳感器(拍攝設(shè)置)從相同機(jī)位采集圖像。
②結(jié)構(gòu):本節(jié)介紹了問題公式化、損失函數(shù)設(shè)計(jì)、EWC和網(wǎng)絡(luò)結(jié)構(gòu)
3.1 問題公式化
-
目的介紹
①問題及方法:針對圖像融合主要目標(biāo)(保存源圖像中重要信息),我們模型基于度量來確定信息豐富程度。
②原因:如果源圖像包含了豐富的信息,融合結(jié)果應(yīng)該于源圖像高度相似
③核心問題:探索一個(gè)統(tǒng)一的度量方式來確定源圖像的信息保存度。并不是使融合圖像和ground truth相似性最大化,而是利用信息保存度使結(jié)果【自適應(yīng)相似】(理解:即不是單純的讓相似性最大化,而是根據(jù)“信息保存度”,自適應(yīng)決定相似性,以前是max{similarity},現(xiàn)在是 f 信息保存度 \mathcal f_{信息保存度} f信息保存度?{similarity})
④意義:作為一種無監(jiān)督模型,適用于ground truth難以獲得的多融合問題 -
難點(diǎn)介紹
①難點(diǎn):得到理想度量的難度在于,不同類型源圖像【主要信息】差距大。- IR和PET圖像:主要信息為熱輻射信息和功能相應(yīng),以【像素強(qiáng)度】分布反應(yīng)出來
- VIS和MRI圖像:反射光和由【圖像梯度】表示的結(jié)構(gòu)內(nèi)容
- 多聚焦:景深(depth-of-field , DoF)
- 多曝光:可以提高的場景內(nèi)容
②解決方法:綜合考慮源圖像的多方面性質(zhì),提取淺層特征(紋理、局部結(jié)構(gòu))和深度特征(內(nèi)容、空間結(jié)構(gòu))來估計(jì)信息度量。
-
U2Fusion的pipeline
①U2Fusion的pipeline如圖3所示。 I 1 I_1 I1?和 I 2 I_2 I2?分別表示源圖像,訓(xùn)練DenseNet以生成融合圖像 I f I_f If?。特征提取的輸出是特征圖 ? C n ( I m ) \phi_{C_n}(I_m) ?Cn??(Im?)。
②對這些特征圖進(jìn)行信息度量得到兩個(gè)度量值 g I 1 g_{I_1} gI1??和 g I 2 g_{I_2} gI2??
③經(jīng)過處理后,得到兩個(gè)信息保留度 ω 1 \omega_1 ω1?和 ω 2 \omega_2 ω2?
④損失函數(shù)由 I 1 I_1 I1?、 I 2 I_2 I2?、 ω 1 \omega_1 ω1?和 ω 2 \omega_2 ω2?組成,并不需要ground truth
⑤訓(xùn)練階段,估計(jì) ω 1 \omega_1 ω1?和 ω 2 \omega_2 ω2?,并用于損失函數(shù)
⑥測試階段, ω 1 \omega_1 ω1?和 ω 2 \omega_2 ω2?固定
3.1.1 特征提取
- 特征提取網(wǎng)絡(luò)
①原因:其他計(jì)算機(jī)視覺任務(wù)訓(xùn)練使用的數(shù)據(jù)集更大更多樣化,特征提取能力更強(qiáng)(與融合任務(wù)模型相比)
②方法:采用VGG16提取特征,如圖4所示。模型輸入I修改為單通道,復(fù)制成3份,變成3通道輸入VGG16。
① 為了直觀分析,多曝光圖像對的特征圖如圖5所示。
②因?yàn)榍菲毓鈭D像亮度低,所以過曝光圖像包含更多的紋理細(xì)節(jié)或者更大的梯度。
③圖5中
?
C
1
\phi_{C_1}
?C1??和
?
C
2
\phi_{C_2}
?C2??是淺層特征(紋理和形狀細(xì)節(jié)),在淺層特征中,過曝光特征圖比欠曝光特征圖信息更多
④
?
C
4
\phi_{C_4}
?C4??和
?
C
5
\phi_{C_5}
?C5??為深層特征(內(nèi)容和空間結(jié)構(gòu)),對比信息和額外信息出現(xiàn)在前曝光特征圖里。
⑤淺層特征和深層特征結(jié)合,形成了人類視覺感知系統(tǒng)難以感知的綜合表征。
3.1.2 信息度量
①方法:使用梯度進(jìn)行特征圖中的信息度量
②介紹:圖像梯度是一種感受野小、基于局部空間結(jié)構(gòu)的度量
③原因:在DL中,梯度計(jì)算和存儲(chǔ)都更高效,更適合用于CNN的信息度量。其公式為:
其中,
?
C
j
(
I
)
\phi_{C_j}(I)
?Cj??(I)為第j個(gè)最大池化層前卷積層的特征圖。k是
D
j
D_j
Dj?通道的第k個(gè)通道,
∣
∣
?
∣
∣
F
||·||_F
∣∣?∣∣F?代表弗羅本尼烏斯范數(shù)(Frobenius norm),
?
{\nabla}
?是拉普拉斯算子。
3.1.3 信息保留度
①目的:為了保留源圖像信息,求兩個(gè)自適應(yīng)權(quán)重作為信息保存度。信息保存度定義了融合圖像和源圖像相似度的權(quán)重。權(quán)重越高,期望的相似度越高,對應(yīng)源圖像的信息保存度越高。
②原因及公式:因?yàn)?span id="n5n3t3z" class="katex--inline">
g
I
1
g_{I_1}
gI1??和
g
I
2
g_{I_2}
gI2??的差是絕對值而不是相對值,與其本身相比差值可能太小。因此增強(qiáng)和體現(xiàn)權(quán)重差異,使用一個(gè)正值超參數(shù)C來縮放
g
I
1
g_{I_1}
gI1??和
g
I
2
g_{I_2}
gI2??,從而得到更好的權(quán)重分配。故
ω
1
\omega_1
ω1?和
ω
2
\omega_2
ω2?計(jì)算公式為:
使用softmax函數(shù)使值為0至1的實(shí)數(shù),并保證
ω
1
\omega_1
ω1?和
ω
2
\omega_2
ω2?和為1。
3.2 損失函數(shù)
- 損失函數(shù)定義
θ \theta θ代表DenseNet的參數(shù),D是訓(xùn)練數(shù)據(jù)集。上式第一項(xiàng)為融合結(jié)果和源圖像的相似性損失,第二項(xiàng)用于持續(xù)學(xué)習(xí),下節(jié)介紹。 λ \lambda λ是控制權(quán)衡的超參數(shù)。 -
L
s
i
m
(
θ
,
D
)
\mathcal L_{sim}(\theta,D)
Lsim?(θ,D)的組成
①相似性約束有兩個(gè)方面:結(jié)構(gòu)相似性和強(qiáng)度分布。
②結(jié)構(gòu)相似性指標(biāo)測度(structural similarity index measure ,SSIM)由光線、對比度和結(jié)構(gòu)等信息的相似度計(jì)算得出。本文使用SSIM約束 I 1 I_1 I1?、 I 2 I_2 I2?、 I f I_f If?之間的結(jié)構(gòu)相似度。使用 ω 1 \omega_1 ω1?和 ω 2 \omega_2 ω2?控制信息度。
? S x , y \ S_{x, y} ?Sx,y?代表兩張圖像的SSIM值。
③SSIM關(guān)注對比度和結(jié)構(gòu)的變換,對強(qiáng)度分布的差異約束較弱。因此使用均方誤差MSE作為補(bǔ)充:
3.3基于彈性權(quán)重合并(Elastic Weight Consolidation, EWC)的多融合任務(wù)單模型
-
可行性
①不同融合任務(wù)通常會(huì)導(dǎo)致特征提取或融合的差異,這一點(diǎn)可以從相同DenseNet網(wǎng)絡(luò)結(jié)構(gòu)但是不同的參數(shù)可以看出
②一些參數(shù)是冗余的,所以模型的利用率可以大大提升。
③所以使用統(tǒng)一的參數(shù)訓(xùn)練單個(gè)模型應(yīng)對多個(gè)任務(wù)是可行的。 -
實(shí)現(xiàn)方法
①有兩種實(shí)現(xiàn)方法:【聯(lián)合訓(xùn)練】、【順序訓(xùn)練】。如圖6所示。
②聯(lián)合訓(xùn)練:在整個(gè)訓(xùn)練過程中保存所有訓(xùn)練數(shù)據(jù)。在每個(gè)batch中,不同任務(wù)的數(shù)據(jù)隨機(jī)被選取用于訓(xùn)練,但是隨著任務(wù)數(shù)增多會(huì)產(chǎn)生兩個(gè)問題:- 總是保留之前任務(wù)的訓(xùn)練數(shù)據(jù)導(dǎo)致的【存儲(chǔ)問題】
- 使用所有數(shù)據(jù)訓(xùn)練導(dǎo)致的【計(jì)算問題】
③順序訓(xùn)練:對于不同的任務(wù)使用相應(yīng)的數(shù)據(jù)。解決了存儲(chǔ)問題和計(jì)算問題。但是出現(xiàn)了一個(gè)新問題:【災(zāi)難性遺忘】,即網(wǎng)絡(luò)參數(shù)會(huì)被優(yōu)化以解決新任務(wù),而忘記之前的舊任務(wù)。
④為了解決這個(gè)問題,提出了【彈性權(quán)重聯(lián)合(elastic weight consolidation, EWC)】算法 -
EWC損失函數(shù)
①在EWC中,當(dāng)前任務(wù) θ \theta θ的權(quán)值和之前任務(wù) θ ? \theta^* θ?的權(quán)值的平方距離根據(jù)其相應(yīng)的重要性加權(quán)。
②重要的參數(shù)給予更高的權(quán)重用來阻止從舊任務(wù)學(xué)習(xí)到的內(nèi)容被遺忘,不重要的參數(shù)可以在更大程度上被修改用來學(xué)習(xí)新任務(wù)。通過這個(gè)方法,模型可以根據(jù)EWC持續(xù)學(xué)習(xí)。其損失函數(shù)為:
i代表了網(wǎng)絡(luò)的第i個(gè)參數(shù), μ i \mu_i μi?表示相應(yīng)平方距離的權(quán)重
①為了評估重要性,
μ
i
\mu_i
μi?被賦值為Fisher信息矩陣的對角項(xiàng),并根據(jù)計(jì)算梯度平方來逼近之前任務(wù)的數(shù)據(jù)。
D
?
D^*
D?代表先前任務(wù)的數(shù)據(jù),
l
o
g
p
(
D
?
∣
θ
?
)
log \mathcal p(D^*|\theta^*)
logp(D?∣θ?)可以由
?
L
(
θ
?
,
D
?
)
-\mathcal L(\theta^*, D^*)
?L(θ?,D?)近似代替。因此上式可以寫為:
②因?yàn)榭梢栽趤G棄舊數(shù)據(jù)
D
?
D^*
D?之前計(jì)算Fisher信息矩陣,因此訓(xùn)練當(dāng)前任務(wù)時(shí)模型不需要
D
?
D^*
D?
③如果有多個(gè)先前任務(wù)存在,那么
L
e
w
c
(
θ
,
D
)
\mathcal L_{ewc}(\theta,D)
Lewc?(θ,D)根據(jù)具體任務(wù)和相應(yīng)數(shù)據(jù)自適應(yīng)調(diào)整。然后對這些梯度的平方求均值得到最終的
μ
i
\mu_i
μi?。如圖7所示。
5.
①在多任務(wù)圖像融合中,
θ
\theta
θ為DenseNet的參數(shù)。
②首先,通過最小化公式6中的損失函數(shù)來訓(xùn)練DenseNet以解決任務(wù)1,即多模態(tài)圖像融合問題。再增加求解任務(wù)2,即多曝光圖像融合問題時(shí),首先計(jì)算重要相關(guān)權(quán)重
μ
i
\mu_i
μi?。
μ
i
\mu_i
μi?表示DenseNet中各參數(shù)對多模態(tài)圖像融合的重要性。
③然后,通過最小化公式3中的
L
e
w
c
\mathcal L_{ewc}
Lewc?來使重要參數(shù)被固化,從而避免災(zāi)難性遺忘。
④通過最小化相似性損失
L
s
i
m
\mathcal L_{sim}
Lsim?,更新不重要的權(quán)重,來解決多曝光圖像融合任務(wù)。
⑤最后,訓(xùn)練多聚焦圖像融合時(shí),根據(jù)前兩個(gè)任務(wù)計(jì)算
μ
i
\mu_i
μi?,ewc策略與之前一樣。
⑥通過這個(gè)方法,EWC可以根據(jù)多任務(wù)自適應(yīng)圖像融合的場景來改變。
3.4 網(wǎng)絡(luò)結(jié)構(gòu)
- 網(wǎng)絡(luò)結(jié)構(gòu)
①使用 I 1 I_1 I1?和 I 2 I_2 I2?拼接(concat)輸入DenseNet生成融合圖像 I f I_f If?。因此是一個(gè)不需要設(shè)計(jì)融合規(guī)則的端到端模型。如圖8所示。
②在卷積前使用反射填充減少邊界偽影,為避免信息損失沒有池化層。 - 密集連接CNN
①實(shí)驗(yàn)證明,如果在接近輸入和輸出層的地方加入跳接,CNN可以被訓(xùn)練的更好。因此在前7層使用了密集連接CNN。
②意義:- 減少梯度消失
- 減少參數(shù)的同時(shí),增強(qiáng)特征傳播
3.5 處理RGB輸入
①RGB被轉(zhuǎn)換為YCrCb。使用Y(亮度)通道進(jìn)行融合,因?yàn)榻Y(jié)構(gòu)細(xì)節(jié)和亮度變換在此通道更明顯。
②Cb和Cr中的數(shù)據(jù)使用傳統(tǒng)方法融合,如下式:
C
1
C_1
C1?和
C
2
C_2
C2?分別代表圖像1和圖像2的
C
b
Cb
Cb或
C
r
Cr
Cr通道值。
C
f
C_f
Cf?為融合結(jié)果對應(yīng)的通道。
(這塊沒太看明白,原文:Data in the Cb and Cr (chrominance) channels are fused traditionally as 上式,where C1 and C2 are the Cb/Cr channel values of the first and second source image, respectively. Cf is the corresponding channel of the fusion result.)
(應(yīng)該是在Cb通道時(shí),C1為圖像1的Cb,C2為圖像2的Cb,然后融合結(jié)果Cf就是融合圖像的Cb。在Cr通道時(shí),C1為圖像1的Cr,C2為圖像2的Cr,融合結(jié)果為融合圖像的Cr。??不知道理解對不對,評論區(qū)可以討論一下)
τ
\tau
τ被設(shè)置為128。
③通過逆變換,融合圖像可以被轉(zhuǎn)換到RGB空間。因此,所有的任務(wù)統(tǒng)一為單通道圖像融合任務(wù)。
RGB2YCbCr參考連接
3.6 處理多輸入
對源圖像順序融合,然后將中間結(jié)果與下一張?jiān)磮D像融合。如此操作理論上可以處理任意多的輸入源圖像。如圖9和圖10所示。
4 實(shí)驗(yàn)結(jié)果與解釋
本節(jié)通過定性定量分析,與其他最先進(jìn)的算法分別在多任務(wù)和多數(shù)據(jù)集上做了對比試驗(yàn)。
4.1 訓(xùn)練設(shè)置細(xì)節(jié)
1.數(shù)據(jù)集
①U2Fusion三個(gè)任務(wù):多模態(tài)圖像融合(可見光-紅外,醫(yī)學(xué)(PET-MRI))、多曝光、多聚焦
②訓(xùn)練數(shù)據(jù)集:
- 任務(wù)1:RoadScene(紅外-可見光)、Harvard(PET-MRI)
- 任務(wù)2:SICE(多曝光)
- 任務(wù)3:Lytro(多聚焦)
③測試數(shù)據(jù)集:
TNO(紅外-可見光)
EMPA HDR(多曝光)
- RoadScene
在FLIR Video的基礎(chǔ)上,發(fā)布了對齊的紅外與可見光數(shù)據(jù)集RoadScene,共有221對對齊的圖像對。 - 其他細(xì)節(jié)
訓(xùn)練圖像被裁剪為64*64,多聚焦圖像不足,所以采用了放大、翻轉(zhuǎn)來進(jìn)行數(shù)據(jù)增強(qiáng)。
α = 20 \alpha=20 α=20, λ = 8 e 4 f \lambda=8e4f λ=8e4f, c = 3 e 3 , 3.5 e 3 , 1 e 2 c=3e3,3.5e3,1e2 c=3e3,3.5e3,1e2
4.2 多模態(tài)圖像融合
4.2.1 可見光與紅外圖像融合
4.2.2 醫(yī)學(xué)圖像融合
4.3 多曝光圖像融合
4.4 多聚焦圖像融合
5 消融實(shí)驗(yàn)
5.1 EWC消融實(shí)驗(yàn)
5.2 不同任務(wù)之間相互促進(jìn)的統(tǒng)一模型
5.3 自適應(yīng)信息保持度的消融研究
5.4 Effect of Training Order
5.5 U2Fusion與FusionDN
6 結(jié)論
①提出了統(tǒng)一無監(jiān)督端到端的圖像融合網(wǎng)絡(luò)U2Fusion,該模型使用自適應(yīng)信息保存度作為源圖像中所包含信息的度量,并以此保持融合結(jié)果和源圖像之間自適應(yīng)的相似性。(即不再是最大化相似度,而是自適應(yīng)相似度)
②使用EWC解決了持續(xù)學(xué)習(xí)中災(zāi)難性遺忘的問題,使統(tǒng)一參數(shù)的模型可以應(yīng)對多任務(wù)
③發(fā)布了RoadScene
??傳送門
??圖像融合相關(guān)論文閱讀筆記
??[FusionGAN: A generative adversarial network for infrared and visible image fusion]
??[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
??[Visible and Infrared Image Fusion Using Deep Learning]
??[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
??[U2Fusion: A Unified Unsupervised Image Fusion Network]
??圖像融合論文baseline總結(jié)
??[圖像融合論文baseline及其網(wǎng)絡(luò)模型]
??其他論文
[3D目標(biāo)檢測綜述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]
??其他總結(jié)
??[CVPR2023、ICCV2023論文題目匯總及詞頻統(tǒng)計(jì)]
?精品文章總結(jié)
?[圖像融合論文及代碼整理最全大合集]
?[圖像融合常用數(shù)據(jù)集整理]文章來源:http://www.zghlxwxcb.cn/news/detail-799158.html
如有疑問可聯(lián)系:420269520@qq.com;
碼字不易,【關(guān)注,收藏,點(diǎn)贊】一鍵三連是我持續(xù)更新的動(dòng)力,祝各位早發(fā)paper,順利畢業(yè)~文章來源地址http://www.zghlxwxcb.cn/news/detail-799158.html
到了這里,關(guān)于圖像融合論文閱讀:U2Fusion: A Unified Unsupervised Image Fusion Network的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!