原始題目 | Enhancing Underwater Imagery using Generative Adversarial Networks |
---|---|
中文名稱 | 使用 GAN 增強(qiáng)水下圖像 |
發(fā)表時間 | 2018年1月11日 |
平臺 | ICRA 2018 |
來源 | University of Minnesota, Minneapolis MN |
文章鏈接 | https://arxiv.org/abs/1801.04011 |
開源代碼 | 官方:https://github.com/IRVLab/UGAN (tensorflow ) |
摘要
自動水下航行器(Autonomous underwater vehicles (AUVs))依靠各種傳感器——聲學(xué)、慣性和視覺(acoustic, inertial and visual)——進(jìn)行智能決策。由于其 非侵入性、被動性和高信息量,視覺(non-intrusive, passive nature, and high information content) 是一種有吸引力的傳感方式,特別是在較淺的深度。然而,光的 折射和吸收( refraction and absorption)、水中懸浮粒子(suspended particles)、顏色失真(color distortion)等因素會影響視覺數(shù)據(jù)的質(zhì)量,導(dǎo)致圖像噪聲和失真。因此,依賴視覺感知的 AUVs 面臨著困難的挑戰(zhàn),因此在視覺驅(qū)動的任務(wù)中表現(xiàn)不佳。
本文提出了一種使用 GANs 來提高水下視覺場景質(zhì)量的方法,其目標(biāo)是 在 自主流程(autonomy pipeline) 中進(jìn)一步改善視覺驅(qū)動行為的輸入。此外,我們展示了最近提出的方法如何能夠生成用于這種水下圖像恢復(fù)的數(shù)據(jù)集。對于任何視覺引導(dǎo)的水下機(jī)器人來說,這種改進(jìn)可以通過強(qiáng)大的視覺感知來提高安全性和可靠性。為此,我們提出了定量和定性的數(shù)據(jù),這些數(shù)據(jù)表明,通過所提出的方法 校正的圖像產(chǎn)生了更有視覺吸引力的圖像,也為 diver 跟蹤算法提供了更高的精度。
5. 結(jié)論
提出了一種利用生成對抗網(wǎng)絡(luò)增強(qiáng)水下彩色圖像的方法。展示了使用 CycleGAN 生成配對圖像數(shù)據(jù)集,為所提出的恢復(fù)模型提供 訓(xùn)練集。定量和定性的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性,使用 diver 跟蹤算法對校正后的潛水員圖像序列進(jìn)行跟蹤,結(jié)果表明,與未校正的圖像序列相比,校正后的 diver 圖像序列具有更高的準(zhǔn)確性。
未來的工作將專注于從水下物體中創(chuàng)建更大、更多樣化的數(shù)據(jù)集,從而使網(wǎng)絡(luò)更具泛化性。用粒子和燈光效果等噪聲來增強(qiáng) CycleGAN 生成的數(shù)據(jù),可以提高數(shù)據(jù)集的多樣性。還打算研究一些不同的定量性能指標(biāo)來評估我們的方法。
1. 引言
隨著新型平臺、傳感器和推進(jìn)機(jī)制的出現(xiàn),水下機(jī)器人已經(jīng)成為自主領(lǐng)域機(jī)器人的一個穩(wěn)步增長的子領(lǐng)域。自主水下航行器通常配備有各種傳感器,而視覺感知由于其非侵入、被動和節(jié)能的特性,是一個有吸引力的選擇。珊瑚礁監(jiān)測[28]、深海探測[32]和海底測繪[5]是 visually-guided AUVs 和 ROVs (Remotely Operated Vehicles) 廣泛使用的一些任務(wù)。這些機(jī)器人的使用確保了人類不會暴露在水下探索的危險中,因?yàn)樗麄儾辉傩枰半U到深度(這是過去進(jìn)行此類任務(wù)的方式)。盡管水下環(huán)境具有使用視覺的優(yōu)勢,但水下環(huán)境對視覺感知提出了獨(dú)特的挑戰(zhàn),因?yàn)閼腋×W拥恼凵洹⑽蘸蜕⑸鋾O大地影響光學(xué)。例如,由于紅色波長很快被水吸收,圖像往往具有綠色或藍(lán)色色調(diào)。當(dāng)越深,這種效果惡化,因?yàn)樵絹碓蕉嗟募t色色調(diào)被吸收。這種失真在本質(zhì)上是極其非線性的,并且受到許多因素的影響,例如光線的數(shù)量(陰天與陽光,操作深度),水中粒子的數(shù)量,一天中的時間和正在使用的相機(jī)。這可能會導(dǎo)致分割、跟蹤或分類等任務(wù)的困難,因?yàn)樗鼈冮g接或直接使用顏色。
由于顏色和光照開始隨著深度的變化而變化,基于視覺的算法需要具有通用性,以便在機(jī)器人可能操作的深度范圍內(nèi)工作。由于獲取各種水下數(shù)據(jù)以訓(xùn)練視覺系統(tǒng)的高成本和困難,以及引入的大量噪聲,算法可能(并且確實(shí))在這些不同的領(lǐng)域表現(xiàn)不佳。圖1 顯示了水下環(huán)境中可能出現(xiàn)的視覺場景的高變化性。解決這個問題的一個步驟是能夠恢復(fù)圖像,使它們看起來像是在水面上,即 校正顏色并從場景中去除懸浮顆粒。通過進(jìn)行 多對一(非水下的) 映射 ,即從 水下領(lǐng)域 到 非水下領(lǐng)域(圖像在水面上的樣子),難以跨多種形式噪聲執(zhí)行的算法 可能只能聚焦一個干凈的領(lǐng)域。

深度神經(jīng)網(wǎng)絡(luò)已經(jīng)被證明是強(qiáng)大的非線性函數(shù)逼近器,特別是在視覺[17]領(lǐng)域。通常,這些網(wǎng)絡(luò)需要大量的數(shù)據(jù),要么標(biāo)記為 ground truth.,要么與 ground truth. 配對。對于灰度圖像[33]的自動著色問題,由于任何彩色圖像都可以轉(zhuǎn)換為黑白圖像,因此現(xiàn)成的訓(xùn)練數(shù)據(jù)是成對的。然而,水下圖像受到顏色或其他現(xiàn)象的扭曲,缺乏 ground truth,這是采用類似方法進(jìn)行校正的主要障礙。本文提出一種基于 Generative Adversarial Networks, GANs 的水下視覺場景質(zhì)量提升技術(shù),旨在提升自主水下機(jī)器人視覺驅(qū)動行為的性能。
我們使用最近提出的 CycleGAN[35] 方法,該方法學(xué)習(xí)在沒有圖像對的情況下將圖像從任意域 X 轉(zhuǎn)換到另一個任意域 Y,作為生成配對數(shù)據(jù)集的一種方法。 通過讓 X 是一組 未失真的(undistorted) 水下圖像,Y 是一組 失真的(distorted) 水下圖像,我們可以生成一個看起來在水下的圖像,同時保留 ground truth 。
2. 相關(guān)工作
雖然最近已經(jīng)有許多成功的自動著色方法[33,11],但大多數(shù)都 專注于將灰度圖像轉(zhuǎn)換為彩色的任務(wù)。
相當(dāng)多的方法使用基于物理的技術(shù)直接模擬光的折射[15]。
針對水下圖像的顏色恢復(fù),[29]的工作采用 馬爾可夫隨機(jī)場的能量最小化公式。
與本文提出的工作最相似的是最近提出的 WaterGAN[20],它使用對抗性方法來生成逼真的水下圖像。他們的生成器模型可以分為三個階段:
- 1)衰減,這說明了光的范圍相關(guān)衰減。
- 2)散射,模擬由光子向圖像傳感器散射引起的霧霾效果;
- 3)漸暈,在圖像角點(diǎn)上產(chǎn)生陰影效果,這種效果可以由特定的相機(jī)鏡頭引起。
與我們的工作不同的是,他們使用 GAN 來生成水下圖像,并嚴(yán)格使用 Euclidean loss 來進(jìn)行顏色校正,
而我們兩者都使用 GAN。此外,它們在 WaterGAN 訓(xùn)練期間需要深度信息,這通常很難獲得,特別是在水下自主機(jī)器人應(yīng)用中。本文工作在整個過程中只需要兩個獨(dú)立域(例如 水下 和 陸地 )中的物體的圖像。
最近在生成模型,特別是 GANs 方面的工作,在 修復(fù)[24]、風(fēng)格遷移[8]和圖像到圖像轉(zhuǎn)換 等領(lǐng)域顯示了巨大的成功[14,35]。這主要是因?yàn)樗鼈兡軌蛱峁┍?歐氏距離 更有意義的損失,而 歐氏距離 已被證明會產(chǎn)生模糊的結(jié)果。本文將 估計(jì)水下圖像真實(shí)外觀的問題 構(gòu)建 為 成對圖像到圖像的轉(zhuǎn)換問題,使用生成對抗網(wǎng)絡(luò)(GANs)作為生成模型(詳細(xì)信息請參見第 3.2節(jié))。與[14]的工作非常類似,我們使用來自 兩個域的圖像對 作為輸入和 ground
truth。
3. 方法
受顏色或其他環(huán)境影響而失真的水下圖像缺乏 ground truth,這是以往彩色化方法所必需的。此外,水下圖像中的失真是高度非線性的; 簡單的方法,如向圖像添加色調(diào),不能捕獲所有的依賴關(guān)系。本文提出使用 CycleGAN 作為失真模型,以生成用于訓(xùn)練的成對圖像。給定一個 無失真的水下圖像域 和一個 有失真的水下圖像域,CycleGAN 能夠進(jìn)行風(fēng)格遷移。給定一個 未失真的圖像,CycleGAN 將其失真,使其看起來像是來自 失真圖像的域。然后 在我們的算法中使用這些對進(jìn)行圖像重建。
無失真的水下圖像域: 沒有水下那種顏色的圖像
失真的水下圖像域: CycleGAN 生成的圖像
3.1 數(shù)據(jù)生成
深度、光照條件、相機(jī)模型和水下環(huán)境中的物理位置都是影響 圖像失真量 的因素。在某些條件下,水下圖像可能有很小的失真,或者完全沒有失真。 設(shè) I C I^C IC 為無失真的水下圖像, I D I^D ID 為 有失真的水下圖像。我們的目標(biāo)是學(xué)習(xí)函數(shù) f : I D → I C f: I^{D} \rightarrow I^{C} f:ID→IC。 由于收集水下數(shù)據(jù)的困難,往往不僅 I D I^D ID 或 I C I^C IC 不存在,而且 二者都不存在。
為了避免圖像對不足的問題,我們使用 CycleGAN 從 I C I^{C} IC 生成 I D I^{D} ID,它給我們一個 成對的圖像數(shù)據(jù)集。給定兩個數(shù)據(jù)集 X 和 Y,其中 $I^C∈X $和 I D ∈ Y I^D∈Y ID∈Y, CycleGAN 學(xué)習(xí)一個映射 F : X → Y F: X→Y F:X→Y。圖2 顯示了從CycleGAN 生成的配對樣本。從這個配對的數(shù)據(jù)集中,我們訓(xùn)練一個生成器 G 來學(xué)習(xí)函數(shù) f : I D → I C f: I^D→I^C f:ID→IC。應(yīng)該注意的是,在 CycleGAN 的訓(xùn)練過程中,它同時學(xué)習(xí)映射 G : Y → X G: Y→X G:Y→X,這與 f f f 類似。在第 4 節(jié)中,我們將 CycleGAN 生成的圖像與通過我們的方法生成的圖像進(jìn)行比較。

3.2 對抗網(wǎng)絡(luò)
在機(jī)器學(xué)習(xí)文獻(xiàn)中,生成式對抗網(wǎng)絡(luò)(GANs)[9] 代表了一類基于博弈論的生成模型,其中 生成器網(wǎng)絡(luò)與對手競爭。從分類的角度來看,生成器網(wǎng)絡(luò) G 產(chǎn)生的實(shí)例會主動試圖 “欺騙” 鑒別器網(wǎng)絡(luò) d。目標(biāo)是讓鑒別器網(wǎng)絡(luò)能夠區(qū)分來自 數(shù)據(jù)集的“真”實(shí)例 和生成器網(wǎng)絡(luò)產(chǎn)生的 “假”實(shí)例。在我們的例子中,以圖像 I D I^D ID 為條件,生成器被訓(xùn)練生成一個圖像來試圖欺騙鑒別器,鑒別器被訓(xùn)練來區(qū)分 失真和非失真的水下圖像。在原始 GAN 公式中,我們的目標(biāo)是解決 minimax 問題:
min ? G max ? D E I C ~ p train? ( I C ) [ log ? D ( I C ) ] + E I D ~ p g e n ( I D ) [ log ? ( 1 ? D ( G ( I D ) ) ) ] (1) \begin{aligned} \min _{G} \max _{D} & \mathbb{E}_{I^{C} \sim p_{\text {train }}\left(I^{C}\right)}\left[\log D\left(I^{C}\right)\right]+ \\ & \mathbb{E}_{I^{D} \sim p_{g e n}\left(I^{D}\right)}\left[\log \left(1-D\left(G\left(I^{D}\right)\right)\right)\right] \end{aligned}\tag{1} Gmin?Dmax??EIC~ptrain??(IC)?[logD(IC)]+EID~pgen?(ID)?[log(1?D(G(ID)))]?(1)
注意為了表示法的簡單性,我們將進(jìn)一步省略(omit) I C ? ~ ? P t r a i n ( I C ) \begin{array}{l}{{I^{C}\:\sim\:{\mathcal{P}}_{t r a i n}\left(I^{C}\right)}}\end{array} IC~Ptrain?(IC)? 和 I D ?? ~ ???? P g e n ( I D ) I^{D}\;\sim\;\!P_{g e n}\big(I^{D}\big) ID~Pgen?(ID)。在這個公式中,discriminator 被假設(shè)為具有 sigmoid 交叉熵?fù)p失函數(shù)的分類器,這在實(shí)踐中可能會導(dǎo)致消失梯度和模式崩潰(collapse)等問題。
如[2]所示,隨著 判別器 的提升,生成器的梯度消失,使其難以或不可能進(jìn)行訓(xùn)練。當(dāng)生成器 “坍縮” 到單個點(diǎn)時,就會發(fā)生模式坍縮,僅用一個實(shí)例欺騙 判別器。為了說明模式崩潰的影響,假設(shè) GAN 被用于從 MNIST[18]數(shù)據(jù)集生成數(shù)字,但它只生成了相同的數(shù)字。實(shí)際上,我們期望的結(jié)果是生成所有數(shù)字的不同集合。為此,最近有許多方法為 判別器 假設(shè)了不同的損失函數(shù)[21,3,10,34]。本文關(guān)注 Wasserstein GAN (WGAN)[3]公式,提出通過使用 Kantorovich-Rubinstein 對偶(duality)[31]構(gòu)造一個值函數(shù) 來使用 Earth-Mover 或 Wasserstein-1 距離 W。在這個公式中,W 被近似給定一組 k-Lipschitz 函數(shù) f 建模為神經(jīng)網(wǎng)絡(luò)。為了確保 f 是 k-Lipschitz,判別器 的權(quán)重被剪切到某個范圍[?c, c]。不像[3]那樣裁剪網(wǎng)絡(luò)權(quán)重,本文采用帶梯度懲罰的 Wasserstein GAN with gradient penalty (WGAN-GP)[10],通過對 判別器 輸出相對于輸入的梯度范數(shù)實(shí)施軟約束來確保 Lipschitz 約束。
L W G A N ( G , D ) = E [ D ( I C ) ] ? E [ D ( G ( I D ) ) ] + λ G P E x ^ ~ P x ^ [ ( ∣ ∣ ? x ^ D ( x ^ ) ∣ ∣ 2 ? 1 ) 2 ] (2) \begin{aligned}\mathcal{L}_{WGAN}(G,D)=\mathbb{E}[D(I^C)]-\mathbb{E}[D(G(I^D))]+\\ \lambda_{GP}\mathbb{E}_{\hat{x}\sim\mathbb{P}_{\hat{x}}}\left[(||\nabla_{\hat{x}}D(\hat{x})||_2-1)^2\right]\end{aligned}\tag{2} LWGAN?(G,D)=E[D(IC)]?E[D(G(ID))]+λGP?Ex^~Px^??[(∣∣?x^?D(x^)∣∣2??1)2]?(2)
[2] Martin Arjovsky and L′eon Bottou. Towards principled methods for training generative adversarial networks. arXiv preprint arXiv:1701.04862, 2017.
其中 P x ^ \mathbb{P}_{\hat{x}} Px^? 被定義為來自 真實(shí)數(shù)據(jù)分布 和 生成器分布 的 點(diǎn)對 之間的直線上的樣本,而 λGP 是一個加權(quán)因子。為了給 G 一些 ground truth 的感覺,以及捕獲圖像中的 low level frequencies ,我們還考慮了 L1 損失:
L L 1 = E [ ∣ ∣ I C ? G ( I D ) ∣ ∣ 1 ] (3) \mathcal{L}_{L1}=\mathbb{E}[||I^C-G(I^D)||_1]\tag{3} LL1?=E[∣∣IC?G(ID)∣∣1?](3)
結(jié)合這些,我們得到了我們網(wǎng)絡(luò)的最終目標(biāo)函數(shù),我們稱之為 Underwater GAN (UGAN):
L U G A N ? = min ? G max ? D L W G A N ( G , D ) + λ 1 L L 1 ( G ) (4) \mathcal{L}_{U G A N}^{*}=\operatorname*{min}_{G}\operatorname*{max}_{D}\mathcal{L}_{W G A N}(G,D)+\lambda_{1}\mathcal{L}_{L1}(G)\tag{4} LUGAN??=Gmin?Dmax?LWGAN?(G,D)+λ1?LL1?(G)(4)
3.3 圖像梯度差損失 Image Gradient Difference Loss
通常情況下,生成模型會產(chǎn)生模糊的圖像。本文探索了一種策略,通過直接懲罰 生成器 中圖像梯度預(yù)測的differences 來銳化這些預(yù)測,如[22]提出的。給定一個 ground truth 圖像 I C I^C IC,一個預(yù)測圖像 I P = G ( I D ) I^{P}=G(I^{D}) IP=G(ID), α 是一個大于等于 1 的整數(shù), Gradient Difference Loss (GDL) 為:
L G D L ( I C , I P ) = ∑ i , j ∣ ∣ I i , j C ? I i ? 1 , j C ∣ ? ∣ I i , j P ? I i ? 1 , j P ∣ ∣ α + ∣ ∣ I i , j ? 1 C ? I i , j C ∣ ? ∣ I i , j ? 1 P ? I i , j P ∣ ∣ α (5) \begin{array}{c}{\mathcal{L}_{G D L}(I^{C},I^{P})=}\\ {\sum_{i,j}||I_{i,j}^{C}-I_{i-1,j}^{C}|-|I_{i,j}^{P}-I_{i-1,j}^{P}||^{\alpha}+}\\ {||I_{i,j-1}^{C}-I_{i,j}^{C}|-|I_{i,j-1}^{P}-I_{i,j}^{P}||^{\alpha}}\\ \end{array}\tag{5} LGDL?(IC,IP)=∑i,j?∣∣Ii,jC??Ii?1,jC?∣?∣Ii,jP??Ii?1,jP?∣∣α+∣∣Ii,j?1C??Ii,jC?∣?∣Ii,j?1P??Ii,jP?∣∣α?(5)
在我們實(shí)驗(yàn)中,考慮 GD L時,將網(wǎng)絡(luò)表示為 UGAN-P,可以表示為:
L U G N - P ? = min ? G max ? D L W G A N ( G , D ) + λ 1 L L 1 ( G ) + λ 2 L G D L (6) \begin{aligned}\mathcal{L}^*_{UGN\text{-}P}=\min\limits_{G}\max\limits_{D}\mathcal{L}_{WGAN}(G,D)+\\ \lambda_{1}\mathcal{L}_{L1}(G)+\lambda_{2}\mathcal{L}_{GDL}\end{aligned}\tag{6} LUGN-P??=Gmin?Dmax?LWGAN?(G,D)+λ1?LL1?(G)+λ2?LGDL??(6)
3.4 網(wǎng)絡(luò)架構(gòu)
所提出的 生成器網(wǎng)絡(luò) 是一個 全卷積編碼器-解碼器,類似于[14]的工作,由于輸入和輸出之間的結(jié)構(gòu)相似性,它被設(shè)計(jì)為一個" U-Net "[26]。編碼器-解碼器網(wǎng)絡(luò) 通過卷積對輸入進(jìn)行下采樣(編碼)到較低維度的嵌入,然后通過轉(zhuǎn)置卷積對該嵌入進(jìn)行上采樣(解碼)以重建圖像。使用 “U-Net” 的優(yōu)勢來自于顯式地保留 編碼器產(chǎn)生的空間依賴關(guān)系,而不是依賴嵌入來包含所有信息。 這是通過添加 “skip connections” 來完成的,它將編碼器中的卷積層 i i i 產(chǎn)生的激活 concatenate 到 解碼器中的 轉(zhuǎn)置卷積層 n ? i + 1 的輸入,其中 n 是網(wǎng)絡(luò)中的總層數(shù)。我們生成器中的每個卷積層都使用 kernel size 為4 × 4,stride 為2。網(wǎng)絡(luò)編碼器部分的卷積之后是 batch normalization[12]和斜率為 0.2 的leaky ReLU activation,而解碼器中的轉(zhuǎn)置卷積之后是 ReLU activation 23。解碼器的最后一層除外,它使用 TanH 非線性來匹配輸入分布[- 1,1]。最近的工作提出了 Instance Normalization[30],以提高 圖像到圖像翻譯任務(wù) 的質(zhì)量,但我們沒有觀察到額外的好處。
我們的全卷積判別器是模仿[25]的,只是沒有使用 batch normalization。 這是因?yàn)?WGAN-GP 單獨(dú)懲罰了每個輸入的 判別器 梯度的范數(shù),batch normalization 將會是 無效的。[10]的作者推薦 layer normalization [4],但我們沒有發(fā)現(xiàn)顯著的改進(jìn)。我們的 判別器 被建模為 PatchGAN[14, 19],它在 圖像 patches 的 level 上進(jìn)行判別。與輸出真假對應(yīng)標(biāo)量值的常規(guī) 判別器 不同,我們的 PatchGAN 判別器輸出 32 × 32 × 1 特征矩陣,它為 high level frequencies 提供了度量標(biāo)準(zhǔn)。
4. 實(shí)驗(yàn)
4.1 數(shù)據(jù)集
我們使用 Imagenet[7] 的幾個子集 來訓(xùn)練和評估我們的方法。還對從 YouTubeTM 上拍攝的水下潛水員視頻進(jìn)行了頻率和空間域 diver tracking 算法的評估。選取 含有水下圖像的 Imagenet 子集 用于CycleGAN的訓(xùn)練,并基于 視覺檢查(就是人看吧) 手動將其分為兩類。設(shè) X 為無失真的水下圖像集合,Y 為有失真的水下圖像集合。X 包含 6143 張圖像,Y 包含 1817 張圖像。然后,我們訓(xùn)練 CycleGAN 來學(xué)習(xí)映射 F: X→Y,這樣來自 X 的圖像似乎來自 Y。最后,我們用于訓(xùn)練數(shù)據(jù)的 圖像對 是通過用 F 失真 X 中的所有圖像來生成的。圖2 顯示了樣本訓(xùn)練對。在與 CycleGAN 進(jìn)行比較時,使用了從 FlickrTM 獲取的 56 幅圖像作為測試集。
4. 評估
在 CycleGAN 生成的 圖像對 上訓(xùn)練 UGAN 和 UGAN-P,并在來自 測試集 Y 的圖像上進(jìn)行評估。請注意,這些圖像不包含任何 ground truth,因?yàn)樗鼈兪莵碜?Imagenet 的原始失真圖像。用于訓(xùn)練和測試的圖像大小為 256 × 256 × 3,歸一化在[?1,1]之間。圖3 顯示了來自測試集的樣本。值得注意的是,這些圖像包含不同數(shù)量的噪聲。 UGAN 和 UGAN-P 都能夠恢復(fù)丟失的顏色信息,以及糾正現(xiàn)有的任何顏色信息。
雖然許多 失真圖像 在整個圖像空間中都包含 藍(lán)色 或 綠色色調(diào),但情況并不總是如此。在某些環(huán)境中,靠近相機(jī)的物體可能沒有失真,顏色正確,而圖像的背景包含失真。在這種情況下,我們希望網(wǎng)絡(luò)只糾正圖像中出現(xiàn)扭曲的部分。圖3 中的最后一行顯示了這種圖像的一個示例。小丑魚的橙色保持不變,而背景中扭曲的??麆t經(jīng)過顏色校正。
對于定量評估,我們將其與 CycleGAN 進(jìn)行比較,因?yàn)樗谟?xùn)練 G: Y→X 期間固有地學(xué)習(xí)了逆映射。我們首先使用 Canny 邊緣檢測器[6],因?yàn)樗c真實(shí)值相比提供了顏色無關(guān)的圖像評估。其次,比較局部圖像塊,提供圖像的清晰度指標(biāo)。展示了現(xiàn)有的水下機(jī)器人跟蹤算法如何通過生成的圖像提高性能。
4.3 與 CycleGAN 對比
略文章來源:http://www.zghlxwxcb.cn/news/detail-768932.html
4.4 Diver Tracking using Frequency Domain Detection
MDPM tracker 在生成的圖像上 比 真實(shí)圖像 上的性能提升。水下圖像由于能見度低,往往無法捕捉到前景與背景亮度值的真實(shí)對比。生成的圖像似乎在一定程度上恢復(fù)了這些受侵蝕的強(qiáng)度變化,使 MDPM 跟蹤器的陽性檢測(正確檢測增加了350%)得到了很大的改善。文章來源地址http://www.zghlxwxcb.cn/news/detail-768932.html
4.5 訓(xùn)練細(xì)節(jié)和推理性能
- 所有實(shí)驗(yàn)的超參數(shù): λ 1 = 100 λ_1 = 100 λ1?=100, λ G P = 10 λ_{GP} = 10 λGP?=10,batch size = 32
- 優(yōu)化器和學(xué)習(xí)率:Adam, 學(xué)習(xí)率=1e?4
- 訓(xùn)練策略: 和 WGAN-GP 一樣,對于生成器的每次更新,判別器被更新 n 次,其中 n = 5。
- UGAN-P 的超參數(shù): λ 2 = 1.0 , α = 1 λ_2 = 1.0, α = 1 λ2?=1.0,α=1。
- 實(shí)現(xiàn)框架: Tensorflow
- 硬件: GTX 1080
- 訓(xùn)練方式: 從頭訓(xùn)練 100 個 epoch
- 推理速度:GPU 上的推理平均耗時 0.0138s,約為每秒 72幀(FPS)。在 CPU (Intel Core i7-5930K)上,推理平均耗時 0.1244s,約為 8 FPS。
- 輸入圖像大?。?56 ×256×3
到了這里,關(guān)于【水下圖像增強(qiáng)】Enhancing Underwater Imagery using Generative Adversarial Networks的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!