国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【水下圖像增強(qiáng)】Enhancing Underwater Imagery using Generative Adversarial Networks

這篇具有很好參考價值的文章主要介紹了【水下圖像增強(qiáng)】Enhancing Underwater Imagery using Generative Adversarial Networks。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

原始題目 Enhancing Underwater Imagery using Generative Adversarial Networks
中文名稱 使用 GAN 增強(qiáng)水下圖像
發(fā)表時間 2018年1月11日
平臺 ICRA 2018
來源 University of Minnesota, Minneapolis MN
文章鏈接 https://arxiv.org/abs/1801.04011
開源代碼 官方:https://github.com/IRVLab/UGAN (tensorflow )

摘要

自動水下航行器(Autonomous underwater vehicles (AUVs))依靠各種傳感器——聲學(xué)、慣性和視覺(acoustic, inertial and visual)——進(jìn)行智能決策。由于其 非侵入性、被動性和高信息量,視覺(non-intrusive, passive nature, and high information content) 是一種有吸引力的傳感方式,特別是在較淺的深度。然而,光的 折射和吸收( refraction and absorption)、水中懸浮粒子(suspended particles)、顏色失真(color distortion)等因素會影響視覺數(shù)據(jù)的質(zhì)量,導(dǎo)致圖像噪聲和失真。因此,依賴視覺感知的 AUVs 面臨著困難的挑戰(zhàn),因此在視覺驅(qū)動的任務(wù)中表現(xiàn)不佳。

本文提出了一種使用 GANs 來提高水下視覺場景質(zhì)量的方法,其目標(biāo)是 在 自主流程(autonomy pipeline) 中進(jìn)一步改善視覺驅(qū)動行為的輸入。此外,我們展示了最近提出的方法如何能夠生成用于這種水下圖像恢復(fù)的數(shù)據(jù)集。對于任何視覺引導(dǎo)的水下機(jī)器人來說,這種改進(jìn)可以通過強(qiáng)大的視覺感知來提高安全性和可靠性。為此,我們提出了定量和定性的數(shù)據(jù),這些數(shù)據(jù)表明,通過所提出的方法 校正的圖像產(chǎn)生了更有視覺吸引力的圖像,也為 diver 跟蹤算法提供了更高的精度。

5. 結(jié)論

提出了一種利用生成對抗網(wǎng)絡(luò)增強(qiáng)水下彩色圖像的方法。展示了使用 CycleGAN 生成配對圖像數(shù)據(jù)集,為所提出的恢復(fù)模型提供 訓(xùn)練集。定量和定性的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性,使用 diver 跟蹤算法對校正后的潛水員圖像序列進(jìn)行跟蹤,結(jié)果表明,與未校正的圖像序列相比,校正后的 diver 圖像序列具有更高的準(zhǔn)確性。

未來的工作將專注于從水下物體中創(chuàng)建更大、更多樣化的數(shù)據(jù)集,從而使網(wǎng)絡(luò)更具泛化性。用粒子和燈光效果等噪聲來增強(qiáng) CycleGAN 生成的數(shù)據(jù),可以提高數(shù)據(jù)集的多樣性。還打算研究一些不同的定量性能指標(biāo)來評估我們的方法。

1. 引言

隨著新型平臺、傳感器和推進(jìn)機(jī)制的出現(xiàn),水下機(jī)器人已經(jīng)成為自主領(lǐng)域機(jī)器人的一個穩(wěn)步增長的子領(lǐng)域。自主水下航行器通常配備有各種傳感器,而視覺感知由于其非侵入、被動和節(jié)能的特性,是一個有吸引力的選擇。珊瑚礁監(jiān)測[28]、深海探測[32]和海底測繪[5]是 visually-guided AUVs 和 ROVs (Remotely Operated Vehicles) 廣泛使用的一些任務(wù)。這些機(jī)器人的使用確保了人類不會暴露在水下探索的危險中,因?yàn)樗麄儾辉傩枰半U到深度(這是過去進(jìn)行此類任務(wù)的方式)。盡管水下環(huán)境具有使用視覺的優(yōu)勢,但水下環(huán)境對視覺感知提出了獨(dú)特的挑戰(zhàn),因?yàn)閼腋×W拥恼凵洹⑽蘸蜕⑸鋾O大地影響光學(xué)。例如,由于紅色波長很快被水吸收,圖像往往具有綠色或藍(lán)色色調(diào)。當(dāng)越深,這種效果惡化,因?yàn)樵絹碓蕉嗟募t色色調(diào)被吸收。這種失真在本質(zhì)上是極其非線性的,并且受到許多因素的影響,例如光線的數(shù)量(陰天與陽光,操作深度),水中粒子的數(shù)量,一天中的時間和正在使用的相機(jī)。這可能會導(dǎo)致分割、跟蹤或分類等任務(wù)的困難,因?yàn)樗鼈冮g接或直接使用顏色。

由于顏色和光照開始隨著深度的變化而變化,基于視覺的算法需要具有通用性,以便在機(jī)器人可能操作的深度范圍內(nèi)工作。由于獲取各種水下數(shù)據(jù)以訓(xùn)練視覺系統(tǒng)的高成本和困難,以及引入的大量噪聲,算法可能(并且確實(shí))在這些不同的領(lǐng)域表現(xiàn)不佳。圖1 顯示了水下環(huán)境中可能出現(xiàn)的視覺場景的高變化性。解決這個問題的一個步驟是能夠恢復(fù)圖像,使它們看起來像是在水面上,即 校正顏色并從場景中去除懸浮顆粒。通過進(jìn)行 多對一(非水下的) 映射 ,即從 水下領(lǐng)域 到 非水下領(lǐng)域(圖像在水面上的樣子),難以跨多種形式噪聲執(zhí)行的算法 可能只能聚焦一個干凈的領(lǐng)域。

水下圖像增強(qiáng),論文閱讀,計(jì)算機(jī)視覺,水下圖像增強(qiáng)
圖1: 自然 和 人工制品(我們的水下機(jī)器人) 的水下圖像樣本,顯示了可能發(fā)生的失真的多樣性。隨著圖像中相機(jī)到物體距離的變化,不同圖像之間的 失真程度和褪色程度(distortion and loss of color varies) 也不同。

深度神經(jīng)網(wǎng)絡(luò)已經(jīng)被證明是強(qiáng)大的非線性函數(shù)逼近器,特別是在視覺[17]領(lǐng)域。通常,這些網(wǎng)絡(luò)需要大量的數(shù)據(jù),要么標(biāo)記為 ground truth.,要么與 ground truth. 配對。對于灰度圖像[33]的自動著色問題,由于任何彩色圖像都可以轉(zhuǎn)換為黑白圖像,因此現(xiàn)成的訓(xùn)練數(shù)據(jù)是成對的。然而,水下圖像受到顏色或其他現(xiàn)象的扭曲,缺乏 ground truth,這是采用類似方法進(jìn)行校正的主要障礙。本文提出一種基于 Generative Adversarial Networks, GANs 的水下視覺場景質(zhì)量提升技術(shù),旨在提升自主水下機(jī)器人視覺驅(qū)動行為的性能。

我們使用最近提出的 CycleGAN[35] 方法,該方法學(xué)習(xí)在沒有圖像對的情況下將圖像從任意域 X 轉(zhuǎn)換到另一個任意域 Y,作為生成配對數(shù)據(jù)集的一種方法。 通過讓 X 是一組 未失真的(undistorted) 水下圖像,Y 是一組 失真的(distorted) 水下圖像,我們可以生成一個看起來在水下的圖像,同時保留 ground truth 。

2. 相關(guān)工作

雖然最近已經(jīng)有許多成功的自動著色方法[33,11],但大多數(shù)都 專注于將灰度圖像轉(zhuǎn)換為彩色的任務(wù)。

相當(dāng)多的方法使用基于物理的技術(shù)直接模擬光的折射[15]。

針對水下圖像的顏色恢復(fù),[29]的工作采用 馬爾可夫隨機(jī)場的能量最小化公式

與本文提出的工作最相似的是最近提出的 WaterGAN[20],它使用對抗性方法來生成逼真的水下圖像。他們的生成器模型可以分為三個階段:

  • 1)衰減,這說明了光的范圍相關(guān)衰減。
  • 2)散射,模擬由光子向圖像傳感器散射引起的霧霾效果;
  • 3)漸暈,在圖像角點(diǎn)上產(chǎn)生陰影效果,這種效果可以由特定的相機(jī)鏡頭引起。

與我們的工作不同的是,他們使用 GAN 來生成水下圖像,并嚴(yán)格使用 Euclidean loss 來進(jìn)行顏色校正,

我們兩者都使用 GAN。此外,它們在 WaterGAN 訓(xùn)練期間需要深度信息,這通常很難獲得,特別是在水下自主機(jī)器人應(yīng)用中。本文工作在整個過程中只需要兩個獨(dú)立域(例如 水下 和 陸地 )中的物體的圖像。

最近在生成模型,特別是 GANs 方面的工作,在 修復(fù)[24]、風(fēng)格遷移[8]和圖像到圖像轉(zhuǎn)換 等領(lǐng)域顯示了巨大的成功[14,35]。這主要是因?yàn)樗鼈兡軌蛱峁┍?歐氏距離 更有意義的損失,而 歐氏距離 已被證明會產(chǎn)生模糊的結(jié)果。本文將 估計(jì)水下圖像真實(shí)外觀的問題 構(gòu)建 為 成對圖像到圖像的轉(zhuǎn)換問題,使用生成對抗網(wǎng)絡(luò)(GANs)作為生成模型(詳細(xì)信息請參見第 3.2節(jié))。與[14]的工作非常類似,我們使用來自 兩個域的圖像對 作為輸入和 ground
truth
。

3. 方法

受顏色或其他環(huán)境影響而失真的水下圖像缺乏 ground truth,這是以往彩色化方法所必需的。此外,水下圖像中的失真是高度非線性的; 簡單的方法,如向圖像添加色調(diào),不能捕獲所有的依賴關(guān)系。本文提出使用 CycleGAN 作為失真模型,以生成用于訓(xùn)練的成對圖像。給定一個 無失真的水下圖像域 和一個 有失真的水下圖像域,CycleGAN 能夠進(jìn)行風(fēng)格遷移。給定一個 未失真的圖像,CycleGAN 將其失真,使其看起來像是來自 失真圖像的域。然后 在我們的算法中使用這些對進(jìn)行圖像重建。

無失真的水下圖像域: 沒有水下那種顏色的圖像
失真的水下圖像域: CycleGAN 生成的圖像

3.1 數(shù)據(jù)生成

深度、光照條件、相機(jī)模型和水下環(huán)境中的物理位置都是影響 圖像失真量 的因素。在某些條件下,水下圖像可能有很小的失真,或者完全沒有失真。 設(shè) I C I^C IC 為無失真的水下圖像, I D I^D ID 為 有失真的水下圖像。我們的目標(biāo)是學(xué)習(xí)函數(shù) f : I D → I C f: I^{D} \rightarrow I^{C} f:IDIC。 由于收集水下數(shù)據(jù)的困難,往往不僅 I D I^D ID I C I^C IC 不存在,而且 二者都不存在。

為了避免圖像對不足的問題,我們使用 CycleGAN 從 I C I^{C} IC 生成 I D I^{D} ID,它給我們一個 成對的圖像數(shù)據(jù)集。給定兩個數(shù)據(jù)集 X 和 Y,其中 $I^C∈X $和 I D ∈ Y I^D∈Y IDY, CycleGAN 學(xué)習(xí)一個映射 F : X → Y F: X→Y F:XY。圖2 顯示了從CycleGAN 生成的配對樣本。從這個配對的數(shù)據(jù)集中,我們訓(xùn)練一個生成器 G 來學(xué)習(xí)函數(shù) f : I D → I C f: I^D→I^C f:IDIC。應(yīng)該注意的是,在 CycleGAN 的訓(xùn)練過程中,它同時學(xué)習(xí)映射 G : Y → X G: Y→X G:YX,這與 f f f 類似。在第 4 節(jié)中,我們將 CycleGAN 生成的圖像與通過我們的方法生成的圖像進(jìn)行比較。

水下圖像增強(qiáng),論文閱讀,計(jì)算機(jī)視覺,水下圖像增強(qiáng)
圖2: ground truth 和 CycleGAN 生成的 失真的(distorted) 圖像的配對樣本。第一排: Ground truth。下一行: Generated samples。

3.2 對抗網(wǎng)絡(luò)

在機(jī)器學(xué)習(xí)文獻(xiàn)中,生成式對抗網(wǎng)絡(luò)(GANs)[9] 代表了一類基于博弈論的生成模型,其中 生成器網(wǎng)絡(luò)與對手競爭。從分類的角度來看,生成器網(wǎng)絡(luò) G 產(chǎn)生的實(shí)例會主動試圖 “欺騙” 鑒別器網(wǎng)絡(luò) d。目標(biāo)是讓鑒別器網(wǎng)絡(luò)能夠區(qū)分來自 數(shù)據(jù)集的“真”實(shí)例 和生成器網(wǎng)絡(luò)產(chǎn)生的 “假”實(shí)例。在我們的例子中,以圖像 I D I^D ID 為條件,生成器被訓(xùn)練生成一個圖像來試圖欺騙鑒別器,鑒別器被訓(xùn)練來區(qū)分 失真和非失真的水下圖像。在原始 GAN 公式中,我們的目標(biāo)是解決 minimax 問題:

min ? G max ? D E I C ~ p train? ( I C ) [ log ? D ( I C ) ] + E I D ~ p g e n ( I D ) [ log ? ( 1 ? D ( G ( I D ) ) ) ] (1) \begin{aligned} \min _{G} \max _{D} & \mathbb{E}_{I^{C} \sim p_{\text {train }}\left(I^{C}\right)}\left[\log D\left(I^{C}\right)\right]+ \\ & \mathbb{E}_{I^{D} \sim p_{g e n}\left(I^{D}\right)}\left[\log \left(1-D\left(G\left(I^{D}\right)\right)\right)\right] \end{aligned}\tag{1} Gmin?Dmax??EICptrain??(IC)?[logD(IC)]+EIDpgen?(ID)?[log(1?D(G(ID)))]?(1)

注意為了表示法的簡單性,我們將進(jìn)一步省略(omit) I C ? ~ ? P t r a i n ( I C ) \begin{array}{l}{{I^{C}\:\sim\:{\mathcal{P}}_{t r a i n}\left(I^{C}\right)}}\end{array} ICPtrain?(IC)? I D ?? ~ ???? P g e n ( I D ) I^{D}\;\sim\;\!P_{g e n}\big(I^{D}\big) IDPgen?(ID)。在這個公式中,discriminator 被假設(shè)為具有 sigmoid 交叉熵?fù)p失函數(shù)的分類器,這在實(shí)踐中可能會導(dǎo)致消失梯度和模式崩潰(collapse)等問題。

如[2]所示,隨著 判別器 的提升,生成器的梯度消失,使其難以或不可能進(jìn)行訓(xùn)練。當(dāng)生成器 “坍縮” 到單個點(diǎn)時,就會發(fā)生模式坍縮,僅用一個實(shí)例欺騙 判別器。為了說明模式崩潰的影響,假設(shè) GAN 被用于從 MNIST[18]數(shù)據(jù)集生成數(shù)字,但它只生成了相同的數(shù)字。實(shí)際上,我們期望的結(jié)果是生成所有數(shù)字的不同集合。為此,最近有許多方法為 判別器 假設(shè)了不同的損失函數(shù)[21,3,10,34]。本文關(guān)注 Wasserstein GAN (WGAN)[3]公式,提出通過使用 Kantorovich-Rubinstein 對偶(duality)[31]構(gòu)造一個值函數(shù) 來使用 Earth-Mover 或 Wasserstein-1 距離 W。在這個公式中,W 被近似給定一組 k-Lipschitz 函數(shù) f 建模為神經(jīng)網(wǎng)絡(luò)。為了確保 f 是 k-Lipschitz,判別器 的權(quán)重被剪切到某個范圍[?c, c]。不像[3]那樣裁剪網(wǎng)絡(luò)權(quán)重,本文采用帶梯度懲罰的 Wasserstein GAN with gradient penalty (WGAN-GP)[10],通過對 判別器 輸出相對于輸入的梯度范數(shù)實(shí)施軟約束來確保 Lipschitz 約束。

L W G A N ( G , D ) = E [ D ( I C ) ] ? E [ D ( G ( I D ) ) ] + λ G P E x ^ ~ P x ^ [ ( ∣ ∣ ? x ^ D ( x ^ ) ∣ ∣ 2 ? 1 ) 2 ] (2) \begin{aligned}\mathcal{L}_{WGAN}(G,D)=\mathbb{E}[D(I^C)]-\mathbb{E}[D(G(I^D))]+\\ \lambda_{GP}\mathbb{E}_{\hat{x}\sim\mathbb{P}_{\hat{x}}}\left[(||\nabla_{\hat{x}}D(\hat{x})||_2-1)^2\right]\end{aligned}\tag{2} LWGAN?(G,D)=E[D(IC)]?E[D(G(ID))]+λGP?Ex^Px^??[(∣∣?x^?D(x^)2??1)2]?(2)

[2] Martin Arjovsky and L′eon Bottou. Towards principled methods for training generative adversarial networks. arXiv preprint arXiv:1701.04862, 2017.

其中 P x ^ \mathbb{P}_{\hat{x}} Px^? 被定義為來自 真實(shí)數(shù)據(jù)分布 和 生成器分布 的 點(diǎn)對 之間的直線上的樣本,而 λGP 是一個加權(quán)因子。為了給 G 一些 ground truth 的感覺,以及捕獲圖像中的 low level frequencies ,我們還考慮了 L1 損失:

L L 1 = E [ ∣ ∣ I C ? G ( I D ) ∣ ∣ 1 ] (3) \mathcal{L}_{L1}=\mathbb{E}[||I^C-G(I^D)||_1]\tag{3} LL1?=E[∣∣IC?G(ID)1?](3)

結(jié)合這些,我們得到了我們網(wǎng)絡(luò)的最終目標(biāo)函數(shù),我們稱之為 Underwater GAN (UGAN):

L U G A N ? = min ? G max ? D L W G A N ( G , D ) + λ 1 L L 1 ( G ) (4) \mathcal{L}_{U G A N}^{*}=\operatorname*{min}_{G}\operatorname*{max}_{D}\mathcal{L}_{W G A N}(G,D)+\lambda_{1}\mathcal{L}_{L1}(G)\tag{4} LUGAN??=Gmin?Dmax?LWGAN?(G,D)+λ1?LL1?(G)(4)

3.3 圖像梯度差損失 Image Gradient Difference Loss

通常情況下,生成模型會產(chǎn)生模糊的圖像。本文探索了一種策略,通過直接懲罰 生成器 中圖像梯度預(yù)測的differences 來銳化這些預(yù)測,如[22]提出的。給定一個 ground truth 圖像 I C I^C IC,一個預(yù)測圖像 I P = G ( I D ) I^{P}=G(I^{D}) IP=G(ID), α 是一個大于等于 1 的整數(shù), Gradient Difference Loss (GDL) 為:

L G D L ( I C , I P ) = ∑ i , j ∣ ∣ I i , j C ? I i ? 1 , j C ∣ ? ∣ I i , j P ? I i ? 1 , j P ∣ ∣ α + ∣ ∣ I i , j ? 1 C ? I i , j C ∣ ? ∣ I i , j ? 1 P ? I i , j P ∣ ∣ α (5) \begin{array}{c}{\mathcal{L}_{G D L}(I^{C},I^{P})=}\\ {\sum_{i,j}||I_{i,j}^{C}-I_{i-1,j}^{C}|-|I_{i,j}^{P}-I_{i-1,j}^{P}||^{\alpha}+}\\ {||I_{i,j-1}^{C}-I_{i,j}^{C}|-|I_{i,j-1}^{P}-I_{i,j}^{P}||^{\alpha}}\\ \end{array}\tag{5} LGDL?(IC,IP)=i,j?∣∣Ii,jC??Ii?1,jC??Ii,jP??Ii?1,jP?α+∣∣Ii,j?1C??Ii,jC??Ii,j?1P??Ii,jP?α?(5)

在我們實(shí)驗(yàn)中,考慮 GD L時,將網(wǎng)絡(luò)表示為 UGAN-P,可以表示為:

L U G N - P ? = min ? G max ? D L W G A N ( G , D ) + λ 1 L L 1 ( G ) + λ 2 L G D L (6) \begin{aligned}\mathcal{L}^*_{UGN\text{-}P}=\min\limits_{G}\max\limits_{D}\mathcal{L}_{WGAN}(G,D)+\\ \lambda_{1}\mathcal{L}_{L1}(G)+\lambda_{2}\mathcal{L}_{GDL}\end{aligned}\tag{6} LUGN-P??=Gmin?Dmax?LWGAN?(G,D)+λ1?LL1?(G)+λ2?LGDL??(6)

3.4 網(wǎng)絡(luò)架構(gòu)

所提出的 生成器網(wǎng)絡(luò) 是一個 全卷積編碼器-解碼器,類似于[14]的工作,由于輸入和輸出之間的結(jié)構(gòu)相似性,它被設(shè)計(jì)為一個" U-Net "[26]。編碼器-解碼器網(wǎng)絡(luò) 通過卷積對輸入進(jìn)行下采樣(編碼)到較低維度的嵌入,然后通過轉(zhuǎn)置卷積對該嵌入進(jìn)行上采樣(解碼)以重建圖像。使用 “U-Net” 的優(yōu)勢來自于顯式地保留 編碼器產(chǎn)生的空間依賴關(guān)系,而不是依賴嵌入來包含所有信息。 這是通過添加 “skip connections” 來完成的,它將編碼器中的卷積層 i i i 產(chǎn)生的激活 concatenate 到 解碼器中的 轉(zhuǎn)置卷積層 n ? i + 1 的輸入,其中 n 是網(wǎng)絡(luò)中的總層數(shù)。我們生成器中的每個卷積層都使用 kernel size 為4 × 4,stride 為2。網(wǎng)絡(luò)編碼器部分的卷積之后是 batch normalization[12]和斜率為 0.2 的leaky ReLU activation,而解碼器中的轉(zhuǎn)置卷積之后是 ReLU activation 23。解碼器的最后一層除外,它使用 TanH 非線性來匹配輸入分布[- 1,1]。最近的工作提出了 Instance Normalization[30],以提高 圖像到圖像翻譯任務(wù) 的質(zhì)量,但我們沒有觀察到額外的好處。

我們的全卷積判別器是模仿[25]的,只是沒有使用 batch normalization。 這是因?yàn)?WGAN-GP 單獨(dú)懲罰了每個輸入的 判別器 梯度的范數(shù),batch normalization 將會是 無效的。[10]的作者推薦 layer normalization [4],但我們沒有發(fā)現(xiàn)顯著的改進(jìn)。我們的 判別器 被建模為 PatchGAN[14, 19],它在 圖像 patches 的 level 上進(jìn)行判別。與輸出真假對應(yīng)標(biāo)量值的常規(guī) 判別器 不同,我們的 PatchGAN 判別器輸出 32 × 32 × 1 特征矩陣,它為 high level frequencies 提供了度量標(biāo)準(zhǔn)。

4. 實(shí)驗(yàn)

4.1 數(shù)據(jù)集

我們使用 Imagenet[7] 的幾個子集 來訓(xùn)練和評估我們的方法。還對從 YouTubeTM 上拍攝的水下潛水員視頻進(jìn)行了頻率和空間域 diver tracking 算法的評估。選取 含有水下圖像的 Imagenet 子集 用于CycleGAN的訓(xùn)練,并基于 視覺檢查(就是人看吧) 手動將其分為兩類。設(shè) X 為無失真的水下圖像集合,Y 為有失真的水下圖像集合。X 包含 6143 張圖像,Y 包含 1817 張圖像。然后,我們訓(xùn)練 CycleGAN 來學(xué)習(xí)映射 F: X→Y,這樣來自 X 的圖像似乎來自 Y。最后,我們用于訓(xùn)練數(shù)據(jù)的 圖像對 是通過用 F 失真 X 中的所有圖像來生成的。圖2 顯示了樣本訓(xùn)練對。在與 CycleGAN 進(jìn)行比較時,使用了從 FlickrTM 獲取的 56 幅圖像作為測試集。

4. 評估

在 CycleGAN 生成的 圖像對 上訓(xùn)練 UGAN 和 UGAN-P,并在來自 測試集 Y 的圖像上進(jìn)行評估。請注意,這些圖像不包含任何 ground truth,因?yàn)樗鼈兪莵碜?Imagenet 的原始失真圖像。用于訓(xùn)練和測試的圖像大小為 256 × 256 × 3,歸一化在[?1,1]之間。圖3 顯示了來自測試集的樣本。值得注意的是,這些圖像包含不同數(shù)量的噪聲。 UGAN 和 UGAN-P 都能夠恢復(fù)丟失的顏色信息,以及糾正現(xiàn)有的任何顏色信息。

雖然許多 失真圖像 在整個圖像空間中都包含 藍(lán)色 或 綠色色調(diào),但情況并不總是如此。在某些環(huán)境中,靠近相機(jī)的物體可能沒有失真,顏色正確,而圖像的背景包含失真。在這種情況下,我們希望網(wǎng)絡(luò)只糾正圖像中出現(xiàn)扭曲的部分。圖3 中的最后一行顯示了這種圖像的一個示例。小丑魚的橙色保持不變,而背景中扭曲的??麆t經(jīng)過顏色校正。

對于定量評估,我們將其與 CycleGAN 進(jìn)行比較,因?yàn)樗谟?xùn)練 G: Y→X 期間固有地學(xué)習(xí)了逆映射。我們首先使用 Canny 邊緣檢測器[6],因?yàn)樗c真實(shí)值相比提供了顏色無關(guān)的圖像評估。其次,比較局部圖像塊,提供圖像的清晰度指標(biāo)。展示了現(xiàn)有的水下機(jī)器人跟蹤算法如何通過生成的圖像提高性能。

4.3 與 CycleGAN 對比

4.4 Diver Tracking using Frequency Domain Detection

MDPM tracker 在生成的圖像上 比 真實(shí)圖像 上的性能提升。水下圖像由于能見度低,往往無法捕捉到前景與背景亮度值的真實(shí)對比。生成的圖像似乎在一定程度上恢復(fù)了這些受侵蝕的強(qiáng)度變化,使 MDPM 跟蹤器的陽性檢測(正確檢測增加了350%)得到了很大的改善。文章來源地址http://www.zghlxwxcb.cn/news/detail-768932.html

4.5 訓(xùn)練細(xì)節(jié)和推理性能

  • 所有實(shí)驗(yàn)的超參數(shù): λ 1 = 100 λ_1 = 100 λ1?=100, λ G P = 10 λ_{GP} = 10 λGP?=10,batch size = 32
  • 優(yōu)化器和學(xué)習(xí)率:Adam, 學(xué)習(xí)率=1e?4
  • 訓(xùn)練策略: 和 WGAN-GP 一樣,對于生成器的每次更新,判別器被更新 n 次,其中 n = 5。
  • UGAN-P 的超參數(shù): λ 2 = 1.0 , α = 1 λ_2 = 1.0, α = 1 λ2?=1.0,α=1。
  • 實(shí)現(xiàn)框架: Tensorflow
  • 硬件: GTX 1080
  • 訓(xùn)練方式: 從頭訓(xùn)練 100 個 epoch
  • 推理速度:GPU 上的推理平均耗時 0.0138s,約為每秒 72幀(FPS)。在 CPU (Intel Core i7-5930K)上,推理平均耗時 0.1244s,約為 8 FPS。
  • 輸入圖像大?。?56 ×256×3

到了這里,關(guān)于【水下圖像增強(qiáng)】Enhancing Underwater Imagery using Generative Adversarial Networks的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【圖像增強(qiáng)】matlab實(shí)現(xiàn)幾種典型的圖像增強(qiáng)算法

    圖像增強(qiáng)算法主要目的是改善圖像的視覺效果或?yàn)楹罄m(xù)處理(如圖像分析、識別等)提供更好的圖像質(zhì)量。以下是一些常見的圖像增強(qiáng)算法及其原理: 直方圖均衡化 :通過拉伸圖像的灰度直方圖,使得直方圖更加均勻分布,從而增加圖像的對比度。 對數(shù)變換 :對數(shù)變換可以

    2024年04月10日
    瀏覽(19)
  • (數(shù)字圖像處理MATLAB+Python)第五章圖像增強(qiáng)-第二節(jié):基于直方圖修正的圖像增強(qiáng)

    (數(shù)字圖像處理MATLAB+Python)第五章圖像增強(qiáng)-第二節(jié):基于直方圖修正的圖像增強(qiáng)

    基于直方圖修正的圖像增強(qiáng) :是一種常見的圖像處理方法。該方法通過對圖像的像素值分布進(jìn)行調(diào)整,以改善圖像的對比度和亮度等視覺效果。具體地,直方圖校正方法將圖像的像素值轉(zhuǎn)換為一個新的值域范圍,使得像素值的分布更加均勻,從而增強(qiáng)圖像的細(xì)節(jié)和對比度。這

    2023年04月19日
    瀏覽(117)
  • 數(shù)字圖像處理(番外)圖像增強(qiáng)

    數(shù)字圖像處理(番外)圖像增強(qiáng)

    圖像增強(qiáng)的方法是通過一定手段對原圖像附加一些信息或變換數(shù)據(jù),有選擇地突出圖像中感興趣的特征或者抑制(掩蓋)圖像中某些不需要的特征,使圖像與視覺響應(yīng)特性相匹配。 圖像對比度計(jì)算方式如下: C = ∑ δ δ ( i , j ) P δ ( i , j ) C=displaystylesum_{{delta}}delta(i,j)P_delta(

    2024年02月14日
    瀏覽(91)
  • 數(shù)字圖像處理:實(shí)驗(yàn)三 圖像增強(qiáng)

    數(shù)字圖像處理:實(shí)驗(yàn)三 圖像增強(qiáng)

    圖像增強(qiáng)是數(shù)字圖像處理過程中常采用的一種方法。為了改善視覺效果或便于人和機(jī)器對圖像的理解和分析,根據(jù)圖像的特點(diǎn)或存在的問題采取的改善方法或加強(qiáng)特征的措施稱為圖像增強(qiáng)。圖像增強(qiáng)處理是改變圖像視覺效果的手段,增強(qiáng)后的圖像便于對它的后續(xù)處理。圖像增

    2024年02月04日
    瀏覽(24)
  • (數(shù)字圖像處理MATLAB+Python)第五章圖像增強(qiáng)-第四、五節(jié):基于模糊技術(shù)和基于偽彩色處理的圖像增強(qiáng)

    (數(shù)字圖像處理MATLAB+Python)第五章圖像增強(qiáng)-第四、五節(jié):基于模糊技術(shù)和基于偽彩色處理的圖像增強(qiáng)

    圖像的模糊特征平面 :假設(shè)原始圖像為 I ( x , y ) I(x,y) I ( x , y ) ,其中 x x x 和 y y y 分別表示圖像的水平和垂直方向的坐標(biāo)。模糊特征平面可以表示為 B ( x , y , θ ) B(x,y,theta) B ( x , y , θ ) ,其中 θ theta θ 是一個旋轉(zhuǎn)角度參數(shù),表示模糊核函數(shù)的旋轉(zhuǎn)角度。 B ( x , y , θ ) B(x,

    2023年04月20日
    瀏覽(102)
  • 【圖像處理】使用 Python 進(jìn)行圖像增強(qiáng)

    ????????圖像增強(qiáng)技術(shù)的深度和復(fù)雜性往往在一系列捕獲和共享中被忽視。從傅里葉變換到白平衡和直方圖處理,各種方法都可以將普通照片轉(zhuǎn)換為引人注目的圖像。這篇博文旨在解開這些技術(shù)。 ????????我在節(jié)日期間拍了一張照片,在夜間慶?;顒又?。遺憾的是,圖

    2024年02月16日
    瀏覽(168)
  • matlab數(shù)字圖像處理之圖像增強(qiáng)

    matlab數(shù)字圖像處理之圖像增強(qiáng)

    圖像處理 基本目的之一是改善圖像質(zhì)量,而改善圖像最常用的技術(shù)是圖像增強(qiáng)的目的是為了改善圖像的視覺效果,使圖像更加清晰,便于人和計(jì)算機(jī)對圖像進(jìn)一步的分析和處理 圖像質(zhì)量 的基本含義是指人們對一幅圖像視覺感受的評價。圖像增強(qiáng)的目的就是為了改善圖像顯示

    2024年02月04日
    瀏覽(26)
  • 【圖像分類】理論篇(4)圖像增強(qiáng)opencv實(shí)現(xiàn)

    【圖像分類】理論篇(4)圖像增強(qiáng)opencv實(shí)現(xiàn)

    隨機(jī)旋轉(zhuǎn)是一種圖像增強(qiáng)技術(shù),它通過將圖像以隨機(jī)角度進(jìn)行旋轉(zhuǎn)來增加數(shù)據(jù)的多樣性,從而幫助改善模型的魯棒性和泛化能力。這在訓(xùn)練深度學(xué)習(xí)模型時尤其有用,可以使模型更好地適應(yīng)各種角度的輸入。 原圖像: 旋轉(zhuǎn)后的圖像: 隨機(jī)裁剪是一種常見的數(shù)據(jù)增強(qiáng)技術(shù),用

    2024年02月12日
    瀏覽(18)
  • 【圖像增強(qiáng)器和轉(zhuǎn)換器】Winxvideo AIAI 驅(qū)動的視頻/圖像增強(qiáng)器和轉(zhuǎn)換器軟件。

    【圖像增強(qiáng)器和轉(zhuǎn)換器】Winxvideo AIAI 驅(qū)動的視頻/圖像增強(qiáng)器和轉(zhuǎn)換器軟件。

    Winxvideo AI,以前稱為WinX HD Video Converter Deluxe,是一款利用尖端深度學(xué)習(xí)技術(shù)的高級軟件工具包。它提供了一套全面的工具,用于放大、穩(wěn)定、轉(zhuǎn)換、壓縮、錄制和編輯 4K/8K/HDR 視頻。 AI 驅(qū)動的功能通過全面的 GPU 加速確保影院級質(zhì)量。 Winxvideo AI 提供了一套強(qiáng)大且易于使用的視

    2024年02月20日
    瀏覽(40)
  • 13.1 非線性變化的圖像增強(qiáng)和補(bǔ)償——濾波器對圖像作增強(qiáng)提高視覺質(zhì)量(matlab程序)

    13.1 非線性變化的圖像增強(qiáng)和補(bǔ)償——濾波器對圖像作增強(qiáng)提高視覺質(zhì)量(matlab程序)

    1. 簡述 ? ? ?? 圖像的線性變換和非線性變換,逐像素運(yùn)算就是對圖像的沒一個像素點(diǎn)的亮度值,通過一定的函數(shù)關(guān)系,轉(zhuǎn)換到新的亮度值。這個轉(zhuǎn)換可以由函數(shù)表示: s = f ( r ) s = f( r )s=f(r) 其中r為原來的像素值,s為新的像素值,通常采用的函數(shù)了單調(diào)函數(shù)進(jìn)行變換。 線性

    2024年02月12日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包