發(fā)布時(shí)間:2022.4.4 (2021發(fā)布,進(jìn)過(guò)多次修訂)
論文地址:https://arxiv.org/pdf/2112.08088.pdf
項(xiàng)目地址:https://github.com/wenyyu/Image-Adaptive-YOLO
雖然基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法在傳統(tǒng)數(shù)據(jù)集上取得了很好的結(jié)果,但從在惡劣天氣條件下捕獲的低質(zhì)量圖像中定位目標(biāo)仍然具有挑戰(zhàn)性。現(xiàn)有的方法要么在平衡圖像增強(qiáng)和目標(biāo)檢測(cè)任務(wù)方面存在困難,要么往往忽略了有利于檢測(cè)的潛在信息。為了緩解這一問(wèn)題,我們提出了一種新的圖像自適應(yīng)YOLO(IA-YOLO)框架,在該框架中,每個(gè)圖像都可以自適應(yīng)地增強(qiáng),以獲得更好的檢測(cè)性能。具體來(lái)說(shuō),提出了一個(gè)可微圖像處理(DIP)模塊,以考慮YOLO探測(cè)器的惡劣天氣條件,其參數(shù)由一個(gè)小卷積神經(jīng)網(wǎng)絡(luò)(CNN-PP)預(yù)測(cè)。。我們以端到端方式聯(lián)合學(xué)習(xí)CNN-PP和YOLOv3,這確保了CNN-PP可以學(xué)習(xí)適當(dāng)?shù)腄IP,以弱監(jiān)督的方式增強(qiáng)圖像檢測(cè)。我們提出的IA-YOLO方法可以自適應(yīng)地處理正常和不利天氣條件下的圖像。實(shí)驗(yàn)結(jié)果非常令人鼓舞,證明了我們提出的IAYOLO方法在霧光和弱光情況下的有效性。
有意使用或者復(fù)現(xiàn)IA-YOLO的朋友可以先閱讀一下: IA-YOLO項(xiàng)目中DIP模塊的初級(jí)解讀
基本解讀
任務(wù)背景
1、在惡劣天氣條件下捕獲的低質(zhì)量圖像中定位目標(biāo)仍然具有挑戰(zhàn)性
2、在惡劣天氣下拍攝的圖像可以分解為干凈的圖像 及其 相應(yīng)的特定天氣的信息
3、在惡劣天氣下的圖像質(zhì)量下降,主要是由于特定天氣信息與物體之間的相互作用,導(dǎo)致檢測(cè)性能較差
相關(guān)研究
1、Huang、Le和Jaw(2020)采用了兩個(gè)子網(wǎng)聯(lián)合學(xué)習(xí)可見(jiàn)性增強(qiáng)和目標(biāo)檢測(cè),通過(guò)共享特征提取層,降低了圖像退化的影響。然而,在訓(xùn)練過(guò)程中,很難調(diào)整參數(shù)來(lái)平衡檢測(cè)和恢復(fù)之間的權(quán)重;
2、通過(guò)現(xiàn)有方法對(duì)圖像進(jìn)行預(yù)處理,如圖像去霧(Hang等2020;Liu等2019)和圖像增強(qiáng)(Guo等2020),來(lái)稀釋特定天氣信息的影響。這需要復(fù)雜的圖像生成網(wǎng)絡(luò)
3、該類任務(wù)可以視為無(wú)監(jiān)督的領(lǐng)域適應(yīng)任務(wù),假定惡劣天氣下的圖像與正常圖像存在域偏移,但僅解決域偏移可能會(huì)使?jié)撛诘哪繕?biāo)檢測(cè)特征被忽視。
論文核心
1、提出了一種端到端的圖像自適應(yīng)YOLO(IA-YOLO)框架,在該框架中,每個(gè)圖像都可以CNN-PP模塊預(yù)測(cè)出DIP的調(diào)節(jié)參數(shù)進(jìn)行自適應(yīng)地增強(qiáng),以獲得更好的檢測(cè)性能
2、其所提出的圖像自適應(yīng)增強(qiáng)DIP是一個(gè)白盒處理模塊,由CNN-PP模塊預(yù)測(cè)出調(diào)節(jié)參數(shù)(也僅是多了CNN-PP模塊的參數(shù),整體推理時(shí)間多了13ms)
3、在訓(xùn)練時(shí)使用正常圖片和加噪圖片(離線數(shù)據(jù)增強(qiáng))
3、作者消融實(shí)驗(yàn)中固定參數(shù)的DIP在各種場(chǎng)景下均有效,表明通用的圖像增強(qiáng)能提升模型的泛化能力。
雖然論文實(shí)驗(yàn)基于yolov3展開(kāi),其核心思想在其他目標(biāo)檢測(cè)框架中也可以采用,尤其是其DIP數(shù)據(jù)處理模塊,在極端緩解下,即使未經(jīng)過(guò)訓(xùn)練,任然能取得良好效果,但其在正常情況下導(dǎo)致了性能下降。 下圖中yolov3 I為正常訓(xùn)練模型, yolov3 II為混合數(shù)據(jù)訓(xùn)練模型,yolov3_deep II 為多了8個(gè)卷積層的模型。
IA-YOLO所展示的實(shí)驗(yàn)結(jié)果表明,在混合數(shù)據(jù)的訓(xùn)練條件下,各種針對(duì)極端天氣的域適應(yīng)算法效果都不行這里值得反思與注意,極端天氣的域適應(yīng)算法都不如正常訓(xùn)練的yolov3模型
Introduction
基于cnn的方法在目標(biāo)檢測(cè)中占了上風(fēng)(Ren et al. 2015;Redmon和Farhadi 2018)。他們不僅在基準(zhǔn)數(shù)據(jù)集上取得了良好的性能(Deng等,2009;埃弗林漢姆等,2010;Lin等,2014年),而且已經(jīng)部署在現(xiàn)實(shí)應(yīng)用中,如自動(dòng)駕駛(Wang等,2019年)。由于輸入圖像的域移(Sindagi et al. 2020),在惡劣天氣條件下(如霧、暗光)訓(xùn)練的一般目標(biāo)檢測(cè)模型往往無(wú)法獲得滿意的結(jié)果。Narasimhan和Nayar(2002)和You等人(2015)認(rèn)為,在惡劣天氣下拍攝的圖像可以分解為干凈的圖像 及其 相應(yīng)的特定天氣的信息,并指出在惡劣天氣下的圖像質(zhì)量下降,主要是由于特定天氣信息與物體之間的相互作用,導(dǎo)致檢測(cè)性能較差
。圖1為霧條件下目標(biāo)檢測(cè)的例子。我們可以看到,如果圖像能夠根據(jù)天氣條件進(jìn)行適當(dāng)?shù)脑鰪?qiáng),就可以恢復(fù)更多關(guān)于原始模糊物體和錯(cuò)誤識(shí)別物體的潛在信息。
為了解決這一具有挑戰(zhàn)性的問(wèn)題,Huang、Le和Jaw(2020)采用了兩個(gè)子網(wǎng)聯(lián)合學(xué)習(xí)可見(jiàn)性增強(qiáng)和目標(biāo)檢測(cè),通過(guò)共享特征提取層,降低了圖像退化的影響。然而,在訓(xùn)練過(guò)程中,很難調(diào)整參數(shù)來(lái)平衡檢測(cè)和恢復(fù)之間的權(quán)重。另一種方法是通過(guò)現(xiàn)有方法對(duì)圖像進(jìn)行預(yù)處理,如圖像去霧(Hang等2020;Liu等2019)和圖像增強(qiáng)(Guo等2020),來(lái)稀釋特定天氣信息的影響。然而,這些方法中必須包含復(fù)雜的圖像恢復(fù)網(wǎng)絡(luò),需要單獨(dú)進(jìn)行像素級(jí)監(jiān)督訓(xùn)練。這需要手動(dòng)標(biāo)記圖像以進(jìn)行恢復(fù)。
該問(wèn)題也可以被視為一個(gè)無(wú)監(jiān)督的領(lǐng)域適應(yīng)任務(wù)(Chen et al. 2018;Hnewa和Radha 2021)。與具有清晰圖像(源圖像)的訓(xùn)練檢測(cè)器相比,假設(shè)在惡劣天氣下捕獲的圖像(目標(biāo)圖像)存在分布偏移。這些方法大多采用領(lǐng)域自適應(yīng)原則,側(cè)重于對(duì)齊兩個(gè)分布的特征,在基于天氣的圖像恢復(fù)過(guò)程中可以獲得的潛在信息通常被忽略。
為了解決上述限制,我們提出了一種巧妙的圖像自適應(yīng)目標(biāo)檢測(cè)方法,稱為IA-YOLO。具體來(lái)說(shuō),我們提出了一個(gè)完全可微的圖像處理模塊(DIP),它的超參數(shù)可以由一個(gè)基于cnn的小參數(shù)預(yù)測(cè)器(CNNPP)自適應(yīng)地學(xué)習(xí)。CNN-PP根據(jù)輸入圖像的亮度、顏色、色調(diào)和特定于天氣變化的信息,自適應(yīng)地預(yù)測(cè)DIP的超參數(shù)
。經(jīng)過(guò)DIP模塊處理后,可以抑制圖像中特定天氣信息的干擾,而潛在信息可以恢復(fù)。我們提出了一種聯(lián)合優(yōu)化方案,以端到端的方式學(xué)習(xí)DIP、CNN-PP和YOLOv3骨干檢測(cè)網(wǎng)絡(luò)(Redmon和Farhadi 2018)。為了增強(qiáng)圖像的檢測(cè),CNN-PP進(jìn)行弱監(jiān)督,通過(guò)邊界框?qū)W習(xí)適當(dāng)?shù)腄IP
。此外,我們利用在正常和不利天氣條件下的圖像來(lái)訓(xùn)練模型
。通過(guò)利用CNN-PP網(wǎng)絡(luò),我們提出的IA-YOLO方法能夠自適應(yīng)地處理受不同程度天氣條件影響的圖像。圖1顯示了我們所提出的方法的檢測(cè)結(jié)果的一個(gè)例子。
本工作的重點(diǎn)是:
- 1)提出了一種圖像自適應(yīng)檢測(cè)框架,在正常和惡劣天氣條件下都取得了良好的性能;
- 2)提出了白盒可微圖像處理模塊,其超參數(shù)由弱監(jiān)督參數(shù)預(yù)測(cè)網(wǎng)絡(luò)預(yù)測(cè);
- 3)在合成測(cè)試臺(tái)(VOC_Foggy和VOC_Dark)和真實(shí)數(shù)據(jù)集(RTTS和ExDark)上,與ExDark相比,取得了令人鼓舞的實(shí)驗(yàn)結(jié)果。
Related Work
Object Detection
目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)的一項(xiàng)基本任務(wù),受到廣泛關(guān)注。目標(biāo)檢測(cè)方法大致可分為兩類(Zhao et al. 2019)。其中一類是基于區(qū)域提案的方法,該方法首先從圖像中生成感興趣的區(qū)域(RoIs),然后通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行分類。 另一類是基于單階段回歸的方法,如YOLO系列和SSD,其中對(duì)象標(biāo)簽和邊界框坐標(biāo)由單個(gè)CNN預(yù)測(cè)。在本文中,我們采用經(jīng)典的單級(jí)探測(cè)器YOLOv3(Redmon和Farhadi 2018)作為基線探測(cè)器,并提高其在不利條件下的性能。
Image Adaptation
圖像自適應(yīng)技術(shù)被廣泛地應(yīng)用于圖像增強(qiáng)技術(shù)中。為了適當(dāng)?shù)卦鰪?qiáng)圖像,一些傳統(tǒng)的方法根據(jù)相應(yīng)的圖像特征自適應(yīng)地計(jì)算圖像變換參數(shù)。例如,Wang等人(2021)提出了一種亮度調(diào)整函數(shù),它根據(jù)輸入圖像的光照分布特征自適應(yīng)地調(diào)整增強(qiáng)參數(shù)。
為了實(shí)現(xiàn)自適應(yīng)圖像增強(qiáng),采用小型CNN靈活學(xué)習(xí)圖像變換的超參數(shù)。Hu等人(2018)提出了一套帶有可微濾波器的后處理框架,利用深度強(qiáng)化學(xué)習(xí)(DRL)根據(jù)當(dāng)前修飾圖像的質(zhì)量生成圖像操作和濾波參數(shù)。Zeng等人(2020)利用一個(gè)小型CNN,根據(jù)亮度、顏色和色調(diào)等全球背景,學(xué)習(xí)圖像自適應(yīng)的3Dlut。
Object Detection in Adverse Conditions
與一般的目標(biāo)檢測(cè)相比,在惡劣天氣條件下進(jìn)行目標(biāo)檢測(cè)的研究很少。一種簡(jiǎn)單的方法是使用經(jīng)典的去霧或圖像增強(qiáng)方法對(duì)圖像進(jìn)行預(yù)處理,最初的設(shè)計(jì)目的是去除霧,提高圖像質(zhì)量。然而,對(duì)圖像質(zhì)量的提高可能并不肯定有利于檢測(cè)性能。一些基于原始的方法聯(lián)合進(jìn)行圖像增強(qiáng)和檢測(cè),以減弱不利天氣特定信息的干擾。Sindagi等人(2020)提出了一種基于無(wú)監(jiān)督先驗(yàn)的域?qū)剐詫?duì)象檢測(cè)框架,用于在朦朧和多雨條件下進(jìn)行檢測(cè)。一些方法(Chen等人2018;Zhang等人2021;Hnewa和Radha 2021)利用領(lǐng)域自適應(yīng)來(lái)解決這個(gè)問(wèn)題。Hnewa和Radha(2021)假設(shè)在正常和不利天氣條件下捕獲的圖像之間存在域偏移。他們?cè)O(shè)計(jì)了一個(gè)多尺度的領(lǐng)域自適應(yīng)YOLO,在特征提取階段支持不同層的領(lǐng)域自適應(yīng)。
Proposed Method
在惡劣天氣條件下拍攝的圖像,由于特定天氣信息的干擾,能見(jiàn)度較差,導(dǎo)致目標(biāo)檢測(cè)困難。為了解決這一挑戰(zhàn),我們提出了一個(gè)圖像自適應(yīng)檢測(cè)框架,通過(guò)去除特定天氣的信息和揭示更多的潛在信息。如圖2所示,整個(gè)pipeline由一個(gè)基于cnn的參數(shù)預(yù)測(cè)器(CNNPP)、一個(gè)可微圖像處理模塊(DIP)和一個(gè)檢測(cè)網(wǎng)絡(luò)組成。我們首先將輸入圖像的大小調(diào)整為256×256的大小,并將其輸入CNN-PP,以預(yù)測(cè)DIP的參數(shù)。然后,將經(jīng)DIP模塊濾波后的圖像作為YOLOv3檢測(cè)器的輸入
。我們提出了一種具有檢測(cè)損失的端到端混合數(shù)據(jù)訓(xùn)練方案,使CNN-PP能夠?qū)W習(xí)一個(gè)適當(dāng)?shù)腄IP,以弱監(jiān)督的方式增強(qiáng)圖像的目標(biāo)檢測(cè)。
DIP Module
如(Hu et al. 2018)所述,圖像濾波器的設(shè)計(jì)應(yīng)符合可微性和分辨率無(wú)關(guān)性
。對(duì)于基于梯度的CNNPP優(yōu)化,濾波器應(yīng)該是可微的,以允許通過(guò)反向傳播來(lái)訓(xùn)練網(wǎng)絡(luò)。由于CNN將消耗大量的計(jì)算資源來(lái)處理高分辨率圖像(例如,4000×3000),在本文中,我們從256×256的低分辨率圖像中學(xué)習(xí)濾波器參數(shù),然后將相同的濾波器參數(shù)應(yīng)用于原始分辨率的圖像
。因此,這些濾波器需要獨(dú)立于圖像分辨率。
這里的圖像域適流程應(yīng)用于forward流程
DIP模塊由6個(gè)具有可調(diào)超參數(shù)的可微濾波器組成,包括Defog、白平衡(WB)、伽瑪、對(duì)比度、Tone 和Sharpen。如(Hu et al. 2018)所述,標(biāo)準(zhǔn)的顏色和Tone操作符,如WB、伽瑪、對(duì)比度和Tone,可以表示為像素級(jí)濾波器。因此,我們?cè)O(shè)計(jì)的濾波器可以分為Defog、像素級(jí)濾波器和銳化。在這些濾波器中,Defog濾波器是專門為有霧的場(chǎng)景而設(shè)計(jì)的。詳情如下。
Pixel-wise Filters. 像素級(jí)濾波器將輸入像素值
P
i
=
(
r
i
、
g
i
、
b
i
)
P_i =(r_i、g_i、b_i)
Pi?=(ri?、gi?、bi?)映射到輸出像素值
P
o
=
(
r
o
、
g
o
、
b
o
)
P_o =(r_o、g_o、b_o)
Po?=(ro?、go?、bo?),其中(r、g、b)分別表示紅色、綠色和藍(lán)色三個(gè)顏色通道的值。表1列出了四個(gè)像素級(jí)過(guò)濾器的映射函數(shù),其中第二列列出了在我們的方法中需要優(yōu)化的參數(shù)。WB和伽瑪是簡(jiǎn)單的乘法和冪變換。顯然,它們的映射函數(shù)對(duì)于輸入圖像和參數(shù)都是可微的。
設(shè)計(jì)可微對(duì)比度濾波器,設(shè)置原始圖像和完全增強(qiáng)圖像之間的線性插值。如表1所示,其中映射函數(shù)中En(Pi)的定義如下:
如(Hu et al. 2018)所述,我們將Tone濾波器設(shè)計(jì)為一個(gè)單調(diào)的分段線性函數(shù)。我們學(xué)習(xí)具有L個(gè)參數(shù)的Tone濾波器,表示為
{
t
0
,
t
1
,
…
…
,
t
L
?
1
}
\{t_0,t_1,……,t_{L?1}\}
{t0?,t1?,……,tL?1?}。Tone曲線的點(diǎn)記為${(k/L,T_k/T_L)}
,其中
,其中
,其中T k=\sum{k-1}^{i=0}t_l
。此外,映射函數(shù)由可微參數(shù)表示,使該函數(shù)對(duì)輸入圖像和參數(shù)
。此外,映射函數(shù)由可微參數(shù)表示,使該函數(shù)對(duì)輸入圖像和參數(shù)
。此外,映射函數(shù)由可微參數(shù)表示,使該函數(shù)對(duì)輸入圖像和參數(shù){t_0,t_1,……,t_{L?1}}$都具有可微性,如下所示
P
o
=
1
T
L
∑
j
=
0
L
?
1
clip
?
(
L
?
P
i
?
j
,
0
,
1
)
t
k
(4)
P_{o}=\frac{1}{T_{L}} \sum_{j=0}^{L-1} \operatorname{clip}\left(L \cdot P_{i}-j, 0,1\right) t_{k} \tag{4}
Po?=TL?1?j=0∑L?1?clip(L?Pi??j,0,1)tk?(4)
Sharpen Filter. 圖像銳化可以突出顯示圖像的細(xì)節(jié)。像非銳化掩模技術(shù),銳化過(guò)程可以描述如下,其中I (x)是輸入圖像,Gau(I(x))表示高斯濾波器,λ是一個(gè)正的比例因子。這個(gè)銳化操作對(duì)于x和λ都是可區(qū)分的。請(qǐng)注意,可以通過(guò)優(yōu)化λ來(lái)調(diào)整銳化程度,以獲得更好的目標(biāo)檢測(cè)性能。
F
(
x
,
λ
)
=
I
(
x
)
+
λ
(
I
(
x
)
?
G
a
u
(
I
(
x
)
)
)
(5)
F(x, λ) = I(x) + λ(I(x) ? Gau(I(x))) \tag{5}
F(x,λ)=I(x)+λ(I(x)?Gau(I(x)))(5)
Defog Filter. 受暗通道先驗(yàn)方法(He,Sun,Tang2009)啟發(fā),我們?cè)O(shè)計(jì)了一個(gè)具有可學(xué)習(xí)參數(shù)的defog濾波器。根據(jù)大氣散射模型(麥卡特尼,1976年;納拉辛漢和納亞爾,2002年),模糊圖像的形成可以表述如下:
I
(
x
)
=
J
(
x
)
t
(
x
)
+
A
(
1
?
t
(
x
)
)
(6)
I(x) = J(x)t(x) + A(1 ? t(x)) \tag{6}
I(x)=J(x)t(x)+A(1?t(x))(6)
其中I (x)為有霧的圖像,J (x)表示場(chǎng)景亮度(干凈圖像)。A為全球大氣光.t (x)為介質(zhì)透射圖,定義如下。其中,β表示大氣的散射系數(shù),d(x)為場(chǎng)景深度。
t
(
x
)
=
e
?
β
d
(
x
)
(7)
t(x) = e^{?β}d(x) \tag{7}
t(x)=e?βd(x)(7)
為了恢復(fù)干凈的圖像J (x),關(guān)鍵是獲取大氣光A和透射圖t (x)。為此,我們首先計(jì)算霧霾圖像I (x)的暗通道圖,并選擇前1000個(gè)最亮的像素
。然后,通過(guò)將霧霾圖像I (x)對(duì)應(yīng)位置的1000個(gè)像素平均來(lái)估計(jì)A。
根據(jù)公式(6),我們可以推導(dǎo)出t (x)的一個(gè)近似解如下:
t
(
x
)
=
1
?
min
?
C
(
min
?
y
∈
Ω
(
x
)
I
C
(
y
)
A
C
)
(8)
t(x)=1-\min _{C}\left(\min _{y \in \Omega(x)} \frac{I^{C}(y)}{A^{C}}\right) \tag{8}
t(x)=1?Cmin?(y∈Ω(x)min?ACIC(y)?)(8)
我們進(jìn)一步引入了一個(gè)參數(shù)ω來(lái)控制脫霧的程度,如下所示:
t
(
x
)
=
1
?
ω
min
?
C
(
min
?
y
∈
Ω
(
x
)
I
C
(
y
)
A
C
)
(8)
t(x)=1-ω\min _{C}\left(\min _{y \in \Omega(x)} \frac{I^{C}(y)}{A^{C}}\right) \tag{8}
t(x)=1?ωCmin?(y∈Ω(x)min?ACIC(y)?)(8)
由于上述操作是可微的,我們可以通過(guò)反向傳播對(duì)ω進(jìn)行優(yōu)化,使消霧濾波器更有利于霧圖像檢測(cè)。
實(shí)際forward流程中的數(shù)據(jù)變化示意如下所示
CNN-PP Module
在攝像機(jī)圖像信號(hào)處理(ISP)管道中,通常采用一些可調(diào)濾波器進(jìn)行圖像增強(qiáng),其超參數(shù)由經(jīng)驗(yàn)豐富的工程師通過(guò)視覺(jué)檢查手動(dòng)調(diào)整(Mosleh et al. 2020)。一般來(lái)說(shuō),這種調(diào)優(yōu)過(guò)程對(duì)于為各種場(chǎng)景找到合適的參數(shù)是非常尷尬和昂貴的。為了解決這一限制,我們建議使用一個(gè)小的CNN作為參數(shù)預(yù)測(cè)器來(lái)估計(jì)超參數(shù),這是非常有效的。
以有霧的場(chǎng)景為例,CNN-PP的目的是通過(guò)了解圖像的全局內(nèi)容,如亮度、顏色、色調(diào),以及霧的程度,來(lái)預(yù)測(cè)DIP的參數(shù)。因此,降采樣圖像足以估計(jì)這些信息,從而大大節(jié)省了計(jì)算成本。給定任何分辨率的輸入圖像,我們簡(jiǎn)單地使用雙線性插值將其降采樣到256×256分辨率。如圖2所示,CNN-PP網(wǎng)絡(luò)由5個(gè)卷積塊和2個(gè)全連通層組成。每個(gè)卷積塊包括一個(gè)3×3的卷積層,步幅為2和一個(gè)Leaky Relu。最終的全連接層輸出DIP模塊的超參數(shù)。這五個(gè)卷積層的輸出通道分別為16、32、32、32和32。當(dāng)參數(shù)總數(shù)為15個(gè)時(shí),CNN-PP模型只包含165K個(gè)參數(shù)。
CNN-PP Module用于生成DIP模塊的調(diào)節(jié)參數(shù)【嵌入到y(tǒng)olov3模型中】
Detection Network Module
在本文中,我們選擇了單級(jí)檢測(cè)器YOLOv3作為檢測(cè)網(wǎng)絡(luò),它被廣泛應(yīng)用于實(shí)際應(yīng)用中,包括圖像編輯、安全監(jiān)控、人群檢測(cè)和自動(dòng)駕駛(Zhang et al. 2021)。與之前的版本相比,YOLOv3基于Resnet的想法設(shè)計(jì)了連續(xù)的3×3和1×1的卷積層(He et al. 2016)。通過(guò)對(duì)多尺度特征圖進(jìn)行預(yù)測(cè),實(shí)現(xiàn)了多尺度訓(xùn)練,從而進(jìn)一步提高了檢測(cè)精度,特別是對(duì)小目標(biāo)。我們采用與原始YOLOv3相同的網(wǎng)絡(luò)架構(gòu)和損失函數(shù)(Redman和Farhadi 2018)。
Hybrid Data Training
為了在正常和惡劣天氣條件下實(shí)現(xiàn)理想的檢測(cè)性能,IA-YOLO采用了混合數(shù)據(jù)訓(xùn)練方案
。算法1總結(jié)了我們所提方法的訓(xùn)練過(guò)程。每幅圖像在輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練之前,隨機(jī)添加某種霧或轉(zhuǎn)換為弱光圖像的概率為2/3。對(duì)于正常和合成的低質(zhì)量訓(xùn)練數(shù)據(jù),整個(gè)管道都采用YOLOv3檢測(cè)損失進(jìn)行端到端訓(xùn)練,確保了IA-YOLO中的所有模塊都能夠相互適應(yīng)。因此,CNN-PP模塊受到檢測(cè)損失的弱監(jiān)督,而沒(méi)有手動(dòng)標(biāo)記的GT
?;旌蠑?shù)據(jù)訓(xùn)練模式保證了IA-YOLO能夠根據(jù)每幅圖像的內(nèi)容對(duì)圖像進(jìn)行自適應(yīng)處理,從而獲得了較高的檢測(cè)性能。
Experiments
我們?cè)u(píng)估了我們的方法在霧和弱光場(chǎng)景下的有效性。濾波器組合為[Defog, White Balance(WB), Gamma, Contrast, Tone, Shapen],而Defog濾波器僅在霧霾條件下使用
Implementation Details
我們?cè)贗A-YOLO方法中采用了(Redmon和Farhadi 2018)的訓(xùn)練方法。所有實(shí)驗(yàn)的主干網(wǎng)絡(luò)都是darknet-53。在訓(xùn)練過(guò)程中,隨機(jī)調(diào)整圖像的大小到(32N×32N),其中N∈[9,19]。此外,還采用了圖像翻轉(zhuǎn)、裁剪、變換等數(shù)據(jù)增強(qiáng)方法對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行了擴(kuò)展。我們的IA-YOLO模型由Adam優(yōu)化器(Kingma和Ba 2014)進(jìn)行訓(xùn)練,共80個(gè)epoch。開(kāi)始學(xué)習(xí)速率為10?4,批量大小為6。IAYOLO預(yù)測(cè)了三個(gè)不同尺度上的邊界框,以及每個(gè)尺度上的三個(gè)錨點(diǎn)。我們使用TensorFlow進(jìn)行實(shí)驗(yàn),并在特斯拉V100 GPU上運(yùn)行它。
Experiments on Foggy Images
Datasets 在不利的天氣條件下,用于目標(biāo)檢測(cè)的公開(kāi)數(shù)據(jù)集很少,遠(yuǎn)不足訓(xùn)練一個(gè)穩(wěn)定的基于cnn的檢測(cè)器。為了便于公平比較,我們基于經(jīng)典的VOC數(shù)據(jù)集,根據(jù)大氣散射模型建立了一個(gè)VOC_Foggy數(shù)據(jù)集
。此外,RTTS(Li et al. 2018)是一個(gè)相對(duì)全面的真實(shí)世界數(shù)據(jù)集,它有4322張自然模糊圖像,有5個(gè)標(biāo)注的對(duì)象類,即人、自行車、汽車、公交車和摩托車。為了形成我們的訓(xùn)練數(shù)據(jù)集,我們選擇了包含這五個(gè)類別的數(shù)據(jù)來(lái)添加霧霾。
對(duì)于VOC2007_trainval和VOC2012_trainval,我們過(guò)濾包含上述五類對(duì)象的圖像來(lái)構(gòu)建VOC_norm_trainval。VOC_norm_test從VOC2007_test中選擇。我們也在RTTS上評(píng)估了我們的方法。數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)匯總為表2。
為了避免在訓(xùn)練過(guò)程中生成模糊圖像的計(jì)算成本,我們離線構(gòu)建了VOC_Foggy數(shù)據(jù)集
。根據(jù)公式。(6、7),霧化圖像I (x)生成過(guò)程如下。式中,ρ為從當(dāng)前像素到中心像素的歐氏距離,行和col分別為圖像的行數(shù)和列數(shù)。通過(guò)設(shè)置A = 0.5和β = 0.01?i + 0.05,其中i是一個(gè)從0到9的整數(shù),可以向每個(gè)圖像添加10個(gè)不同級(jí)別的霧?;赩OC_norm_trainval數(shù)據(jù)集,我們生成了一個(gè)10倍大的VOC_Foggy_trainval數(shù)據(jù)集。為了獲得VOC_Foggy_test數(shù)據(jù)集,對(duì)VOC_norm_test中的每幅圖像都進(jìn)行了霧的隨機(jī)處理。
I
(
x
)
=
J
(
x
)
e
?
β
d
(
x
)
+
A
(
1
?
e
?
β
d
(
x
)
)
d
(
x
)
=
?
0.04
?
ρ
+
m
a
x
(
r
o
w
,
c
o
l
)
(10-11)
I(x) = J(x)e^{?β}d(x) + A(1 ? e^{?β}d(x)) \tag{10-11} \\ d(x) = ?0.04 ? ρ +\sqrt{max(row, col)}
I(x)=J(x)e?βd(x)+A(1?e?βd(x))d(x)=?0.04?ρ+max(row,col)?(10-11)
Experimental Results 為了證明IA-YOLO的有效性,我們將我們的方法與三個(gè)測(cè)試數(shù)據(jù)集上的基線YOLOv3、Defog+Detect、域自適應(yīng)(Hnewa和Radha 2021)和多任務(wù)學(xué)習(xí)(Huang、Le和Jaw 2020)進(jìn)行了比較。對(duì)于Defog + Detect,我們采用脫霧方法作為預(yù)處理步驟,并使用經(jīng)過(guò)VOC_norm訓(xùn)練的YOLOv3進(jìn)行檢測(cè)。我們選擇MSBDN(Hang等人2020年)和GridDehaze(Liu等人2019年)作為過(guò)處理方法,這是流行的基于cnn的脫霧方法。對(duì)于域自適應(yīng)方法,我們采用了單階段多尺度域自適應(yīng)檢測(cè)器的DAYOLO(Hnewa和Radha 2021),以及YOLOv3不同尺度下相應(yīng)的域分類器。對(duì)于多任務(wù)學(xué)習(xí)算法,我們選擇DSNet(Huang,Le,和Jaw 2020),在惡劣天氣條件下聯(lián)合學(xué)習(xí)脫霧和檢測(cè)。通過(guò)共享Yolov3的前5個(gè)卷積層,我們?cè)佻F(xiàn)了其檢測(cè)子網(wǎng)絡(luò)和恢復(fù)模塊,并使用混合數(shù)據(jù)聯(lián)合訓(xùn)練兩個(gè)網(wǎng)絡(luò)。
表3比較了IA-YOLO和其他競(jìng)爭(zhēng)算法的平均平均精度(mAP)結(jié)果(Everingham et al. 2012)。第二列列出了每種方法的訓(xùn)練數(shù)據(jù),其中“混合數(shù)據(jù)”是指我們提出的IA-YOLO中使用的混合數(shù)據(jù)訓(xùn)練方案。與基線(YOLO I)相比,所有方法在合成和真實(shí)詞霧天氣測(cè)試數(shù)據(jù)集上都有改進(jìn),而在正常情況下,只有IA-YOLO在正常情況下沒(méi)有惡化。這是因?yàn)橹暗姆椒ㄖ饕菫榱颂幚盱F霾天氣條件下的目標(biāo)檢測(cè),同時(shí)犧牲了它們?cè)谡L鞖鈭D像上的性能
。對(duì)于我們提出的IA-YOLO方法,CNN-PP和DIP模塊能夠自適應(yīng)處理具有不同程度霧度的圖像,使目標(biāo)檢測(cè)效果提升。因此,我們提出的IA-YOLO方法在三個(gè)測(cè)試數(shù)據(jù)集上的性能大大優(yōu)于所有競(jìng)爭(zhēng)方法,證明了其在惡劣天氣條件下的目標(biāo)檢測(cè)的有效性。
圖3顯示了我們的IA-YOLO方法和基線YOLOv3 II的幾個(gè)可視化示例。雖然在某些情況下,我們的自適應(yīng)DIP模塊會(huì)對(duì)視覺(jué)感知產(chǎn)生一些不情愿的噪聲,但它極大地提高了基于圖像語(yǔ)義的局部圖像梯度,從而提高了更好的檢測(cè)性能。
Experiments on Low-light Images
Datasets PSCAL VOC和相對(duì)全面的低光檢測(cè)數(shù)據(jù)集ExDark都包含10類物體:自行車、船、瓶子、公共汽車、汽車、貓、椅子、狗、摩托車、人。從VOC2007_trainval和VOC2012_trainval中,我們過(guò)濾了包含上述十類對(duì)象的圖像來(lái)構(gòu)建VOC_norm_trainval。VOC_norm_test選自VOC2007_test也以同樣的方式進(jìn)行。VOC_norm_trainval、VOC2007_test和ExDark_test中的圖像總數(shù)分別為12334、3760和2563張。
我們通過(guò)變換 f ( x ) = x γ f(x) = x^γ f(x)=xγ合成基于VOC_norm的弱光VOC_dark數(shù)據(jù)集,其中γ的值從[1.5,5]范圍內(nèi)的均勻分布中隨機(jī)采樣,x表示輸入像素強(qiáng)度。
Experimental Results 我們將我們提出的IAYOLO方法與基線YOLOv3、Enhance+Detect、DAYOLO, DSNet在三個(gè)測(cè)試數(shù)據(jù)集上進(jìn)行了比較。對(duì)于Enhance+Detect,我們采用最近的圖像增強(qiáng)方法Zero-DCE(Guo et al. 2020)對(duì)弱光圖像進(jìn)行預(yù)處理,并使用在VOC_norm上訓(xùn)練的YOLOv3進(jìn)行檢測(cè)。其余的實(shí)驗(yàn)設(shè)置與有霧圖像相同。表4顯示了mAP的結(jié)果??梢钥闯?,我們的方法產(chǎn)生了最好的結(jié)果。IA-YOLO對(duì)VOC_norm_test、VOC_Dark_test和ExDark_test分別將YOLO I基線提高了0.89、13.48和3.95%,對(duì)YOLO II基線提高了4.69、7.12和3.34%。這表明,我們提出的IA-YOLO方法在低光條件下也是有效的。
圖4顯示了IAYOLO與基線YOLOv3 II之間的定性比較??梢钥闯觯覀兲岢龅腄IP模塊能夠自適應(yīng)地增加輸入圖像的對(duì)比度,揭示圖像的細(xì)節(jié),這對(duì)目標(biāo)檢測(cè)至關(guān)重要。
Ablation Study
為了檢驗(yàn)我們提出的框架中每個(gè)模塊的有效性,我們?cè)诓煌脑O(shè)置下進(jìn)行了消融實(shí)驗(yàn),包括混合數(shù)據(jù)訓(xùn)練方案、DIP和圖像自適應(yīng)。我們還評(píng)估了在三個(gè)測(cè)試數(shù)據(jù)集上所提出的可微濾波器的選擇。
實(shí)驗(yàn)實(shí)驗(yàn)結(jié)果如圖5所示。除了用VOC_norm訓(xùn)練的YOLO外,其余的實(shí)驗(yàn)都采用了相同的混合數(shù)據(jù)訓(xùn)練和實(shí)驗(yàn)設(shè)置??梢钥闯?,與YOLO I相比,混合數(shù)據(jù)訓(xùn)練、DIP濾波器預(yù)處理和圖像自適應(yīng)方法都能提高VOC_Foggy_test和RTTS的檢測(cè)性能。IA-YOLO通過(guò)同時(shí)使用這三個(gè)模塊,都取得了最好的效果。具有固定DIP的YOLOv3意味著過(guò)濾器的超參數(shù)是一組給定的固定值,所有這些值都在一個(gè)合理的范圍內(nèi)。YOLOv3_deep II是YOLO II的一個(gè)更深層次的版本,它添加了8個(gè)卷積層,學(xué)習(xí)參數(shù)超過(guò)411K。如圖5所示,我們提出的IA-YOLO方法在CNN-PP中只有165K個(gè)附加參數(shù)的情況下,其性能優(yōu)于YOLOv3_deep II。值得一提的是,在正常天氣條件下,只有自適應(yīng)學(xué)習(xí)模塊比YOLO I的VOC_norm_test的性能有所提高,而YOLOv3 II和固定DIP的YOLOv3的結(jié)果都較差。這說(shuō)明IA-YOLO可以自適應(yīng)地處理正常圖像和霧化圖像,有利于下行檢測(cè)任務(wù)。
如表5所示,我們使用這三個(gè)測(cè)試數(shù)據(jù)集對(duì)過(guò)濾器的選擇進(jìn)行了定量的mAP評(píng)估。模型D結(jié)合這三組濾波器,得到了最好的結(jié)果,證明了這些濾波器的有效性。圖6顯示了表5中幾種模型的可視化比較。與增強(qiáng)圖像的模型C和消除圖像的模型B相比,模型D處理的圖像不僅更亮更清晰,而且使有霧的物體更加可見(jiàn)。此外,我們還提供了一些關(guān)于CNN-PP如何預(yù)測(cè)DIP模塊參數(shù)的例子。詳情請(qǐng)參考補(bǔ)充文件。
Efficiency Analysis
在我們的IA-YOLO框架中,我們?cè)赮OLOv3中引入了一個(gè)帶有165K可訓(xùn)練參數(shù)的小型CNNPP學(xué)習(xí)模塊。IA-YOLO需要44 ms才能在單個(gè)特斯拉V100 GPU上檢測(cè)出544×544×3分辨率的圖像。它只比YOLOv3基線多花了13個(gè)ms
,而它分別比GridDehaze-YOLOv3和MSBDNYOLOv3快7個(gè)ms和50個(gè)ms??傊琁A-YOLO只添加了165K個(gè)可訓(xùn)練參數(shù),同時(shí)在運(yùn)行時(shí)間相當(dāng)?shù)乃袦y(cè)試數(shù)據(jù)集上獲得了更好的性能。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-669149.html
Conclusion
我們提出了一種新的IA-YOLO方法來(lái)改進(jìn)惡劣天氣條件下的目標(biāo)檢測(cè),并對(duì)每個(gè)輸入圖像進(jìn)行自適應(yīng)增強(qiáng),以獲得更好的檢測(cè)性能。開(kāi)發(fā)了一個(gè)全可微圖像處理模塊,通過(guò)去除YOLO探測(cè)器的特定天氣信息來(lái)恢復(fù)潛在內(nèi)容,其超參數(shù)由一個(gè)小的卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)。此外,整個(gè)框架以端到端方式進(jìn)行訓(xùn)練,其中對(duì)參數(shù)預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行弱監(jiān)督,通過(guò)檢測(cè)損失學(xué)習(xí)適當(dāng)?shù)腄IP模塊。利用混合訓(xùn)練和參數(shù)預(yù)測(cè)網(wǎng)絡(luò)的優(yōu)勢(shì),該方法能夠自適應(yīng)地處理正常和不利的天氣條件。實(shí)驗(yàn)結(jié)果表明,我們的方法在霧光和弱光情況下都優(yōu)于以往的方法。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-669149.html
到了這里,關(guān)于論文解讀:Image-Adaptive YOLO for Object Detection in Adverse Weather Conditions的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!