Generative Adversarial Nets由伊恩·古德費(fèi)洛(Ian J.Goodfellow)等人于2014年發(fā)表在Conference on Neural Information Processing Systems (NeurIPS)上。NeurIPS是機(jī)器學(xué)習(xí)和計(jì)算神經(jīng)科學(xué)領(lǐng)域的頂級(jí)國(guó)際學(xué)術(shù)會(huì)議之一。
1. GAN在哪些領(lǐng)域大放異彩
圖像生成:
論文地址:styleGAN styleGAN2
圖像生成是生成模型的基本問(wèn)題,GAN相對(duì)先前的生成模型能夠生成更高圖像質(zhì)量的圖像。如生成逼真的人臉圖像。https://thispersondoesnotexist.com是一個(gè)叫做‘這個(gè)人不存在’的網(wǎng)站,它是基于GAN的一個(gè)隨機(jī)人臉生成網(wǎng)站,每次刷新該網(wǎng)站都將生成一個(gè)不同的人臉。
圖像超分辨率
論文地址:SRGAN
將圖像放大時(shí),圖片會(huì)變得模糊。使用GAN將32*32的圖像擴(kuò)展為64*64的真實(shí)圖像,放大圖像的同時(shí)提升圖片的分辨率。
圖像轉(zhuǎn)化:
論文地址:CycleGAN
CycleGAN,即循環(huán)生成對(duì)抗網(wǎng)絡(luò),出自發(fā)表于 ICCV17 的論文《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》,和它的兄長(zhǎng)Pix2Pix(均為朱大神作品)一樣,用于圖像風(fēng)格遷移任務(wù)。以前的GAN都是單向生成,CycleGAN為了突破Pix2Pix對(duì)數(shù)據(jù)集圖片一一對(duì)應(yīng)的限制,采用了雙向循環(huán)生成的結(jié)構(gòu),因此得名CycleGAN。
其他GAN領(lǐng)域
生成對(duì)抗網(wǎng)絡(luò)(GANs)在多個(gè)領(lǐng)域都取得了顯著的成就,其靈活性和強(qiáng)大的生成能力使其能夠應(yīng)用于各種應(yīng)用。
-
圖像生成與轉(zhuǎn)換:
- pix2pix 和 CycleGAN: 用于圖像轉(zhuǎn)換,例如風(fēng)格遷移、圖片翻譯等。
- StyleGAN 和 ProGAN: 生成高分辨率逼真的圖像,用于人臉合成和自然圖像生成。
-
人臉生成和編輯:
- DeepFake 技術(shù): 使用 GANs 進(jìn)行逼真的人臉合成。
- StarGAN 和 Age-cGAN: 實(shí)現(xiàn)多領(lǐng)域的人臉編輯,如年齡、性別、表情等。
-
圖像修復(fù)和超分辨率:
- Super-Resolution GANs(SRGAN): 用于提高圖像的分辨率。
- Deep Image Prior: 利用 GANs 進(jìn)行圖像修復(fù)。
-
生成式藝術(shù):
- Artbreeder: 利用 GANs 進(jìn)行創(chuàng)造性的藝術(shù)生成,探索圖像合成的藝術(shù)應(yīng)用。
-
醫(yī)學(xué)圖像生成與分割:
- 生成醫(yī)學(xué)圖像: GANs 用于生成具有各種病例特征的醫(yī)學(xué)圖像,用于培訓(xùn)機(jī)器學(xué)習(xí)模型。
- 圖像分割: 利用 GANs 進(jìn)行醫(yī)學(xué)圖像的分割和增強(qiáng)。
-
風(fēng)格遷移和設(shè)計(jì):
- Neural Style Transfer: 使用 GANs 進(jìn)行藝術(shù)風(fēng)格的圖像轉(zhuǎn)換。
- FashionGAN: 用于時(shí)尚設(shè)計(jì)和生成。
-
文本生成:
- Text-to-Image Synthesis: GANs 用于將文本描述轉(zhuǎn)換為圖像。
- Conditional GANs: 用于生成與給定文本描述相關(guān)的圖像。
-
無(wú)監(jiān)督學(xué)習(xí)和數(shù)據(jù)增強(qiáng):
- 生成無(wú)監(jiān)督特征: GANs 用于學(xué)習(xí)無(wú)監(jiān)督的特征表示。
- 數(shù)據(jù)增強(qiáng): GANs 用于生成額外的訓(xùn)練數(shù)據(jù),提高監(jiān)督學(xué)習(xí)模型的性能。
其他GAN論文
-
pix2pix: https://affinelayer.com/pixsrv/
-
DiscoGAN:https://github.com/carpedm20/DiscoGAN-pytorch
-
TPGAN: https://arxiv.org/pdf/1704.04086.pdf
-
pix2pix HD:https://tcwang0509.github.io/pix2pixHD/
-
stackGAN: https://arxiv.org/pdf/1612.03242.pdf
-
AttnGAN:https://arxiv.org/abs/1711.10485
-
DTN:https://arxiv.org/pdf/1611.02200.pdf
-
MGAN: https://arxiv.org/pdf/1604.04382.pdf
-
Age-cGAN:https://arxiv.org/pdf/1702.01983.pdf
-
StarGAN:https://arxiv.org/abs/1711.09020
-
Image Inpainting:https://arxiv.org/abs/1804.07723
-
MaskGAN:https://arxiv.org/abs/1801.07736
GAN工作原理
生成對(duì)抗網(wǎng)絡(luò)(GAN)由兩個(gè)主要部分組成:生成器(Generator)和判別器(Discriminator)。這兩個(gè)部分通過(guò)對(duì)抗的方式共同學(xué)習(xí),使得生成器能夠生成逼真的數(shù)據(jù),而判別器能夠區(qū)分真實(shí)數(shù)據(jù)和生成器生成的數(shù)據(jù)。
生成器
在統(tǒng)計(jì)學(xué)眼中,整個(gè)世界是通過(guò)采樣各種不同的分布得到的。
生成模型:對(duì)整個(gè)數(shù)據(jù)的分布進(jìn)行建模,使得能夠生成各種分布。
生成圖片、生成文本、生成各種東西就是去抓住整個(gè)數(shù)據(jù)的一個(gè)分布。
生成器(Generator):
- 生成器的目標(biāo)是生成看起來(lái)像真實(shí)數(shù)據(jù)的樣本。
- 它接收一個(gè)隨機(jī)噪聲向量(通常是從正態(tài)分布中采樣得到的)作為輸入,并通過(guò)神經(jīng)網(wǎng)絡(luò)生成數(shù)據(jù)。
- 生成器的目標(biāo)是欺騙判別器,使其無(wú)法區(qū)分生成的數(shù)據(jù)和真實(shí)數(shù)據(jù)。
辨別器
判別器(Discriminator):
- 判別器的目標(biāo)是區(qū)分生成器生成的數(shù)據(jù)和真實(shí)數(shù)據(jù)。
- 它接收真實(shí)數(shù)據(jù)或生成器生成的數(shù)據(jù)作為輸入,并通過(guò)神經(jīng)網(wǎng)絡(luò)輸出一個(gè)概率值,表示輸入是真實(shí)數(shù)據(jù)的概率。
- 判別器的目標(biāo)是正確地將真實(shí)數(shù)據(jù)識(shí)別為真實(shí),并將生成的數(shù)據(jù)識(shí)別為偽造。
Generative Adversarial Nets Introduction部分
論文提到深度學(xué)習(xí)的前景是發(fā)現(xiàn)豐富的分層模型,這些模型代表了AI應(yīng)用中遇到的各種數(shù)據(jù)的概率分布。即深度學(xué)習(xí)不僅僅是深度神經(jīng)網(wǎng)絡(luò),更多的是對(duì)整個(gè)數(shù)據(jù)分布的一個(gè)特征的表示。
深度學(xué)習(xí)在辨別上做的不錯(cuò),但在生成上的效果不好,難點(diǎn)在于去最大化似然函數(shù)時(shí),我們要對(duì)概率函數(shù)很多近似,近似帶來(lái)了很大的計(jì)算困難。這篇文章的關(guān)鍵是不用近似似然函數(shù)而可以用別的方法來(lái)得到一個(gè)計(jì)算上更好的模型
作者在文中做了一個(gè)形象的比喻:將生成器比作一個(gè)生產(chǎn)假幣的造假者,而判別模型類(lèi)似于警察,試圖檢測(cè)假幣。造假者和警察會(huì)不斷學(xué)習(xí),造假者提升自己造假的手段,警察會(huì)提升自己判別真假幣的能力。最后希望得到這樣一個(gè)結(jié)果:造假者獲勝,造的假錢(qián)跟真的一樣,使得警察無(wú)法區(qū)分真幣假幣。
該框架可以針對(duì)多種模型和優(yōu)化算法給出具體的訓(xùn)練算法。在本文中,我們探究了生成模型通過(guò)多層感知機(jī)傳遞隨機(jī)噪聲生成樣本時(shí)的特殊情況,而判別模型也是多層感知機(jī)。我們把這種特殊情況稱(chēng)為adversarial nets。在這種情況下,我們可以只使用非常成功的反向傳播和dropout算法來(lái)訓(xùn)練這兩個(gè)模型,也可以只使用前向傳播從生成模型中采樣。不需要任何近似推斷或馬爾可夫鏈。
Generative Adversarial Nets Related work部分
在這一部分,作者提到之前的大多數(shù)關(guān)于深度生成模型的工作:一個(gè)是構(gòu)造出一個(gè)分布函數(shù),然后提供參數(shù)供其學(xué)習(xí),學(xué)習(xí)出真實(shí)的分布,明白其均值、方差到底是什么。一個(gè)是不去構(gòu)造分布函數(shù),而是學(xué)一個(gè)模型來(lái)近似這個(gè)分布,但是不知道最后的分布是怎樣的,算起來(lái)較容易。
隨后提到他們觀察到的一個(gè)結(jié)果:對(duì)
f
f
f的期望求導(dǎo),等價(jià)于對(duì)
f
f
f自己求導(dǎo)。這也就是為什么他們使用誤差反向傳播的原因。
之后作者提到了一些相關(guān)的工作,包括VAE、NCE,并解釋了與predictability minimization算法的區(qū)別
發(fā)現(xiàn)這里有總結(jié)的較好的,后續(xù)可以查看這里:https://blog.csdn.net/qq_45138078/article/details/128366117
Generative Adversarial Nets的缺陷及后續(xù)的改進(jìn)
訓(xùn)練不穩(wěn)定:外層循環(huán)迭代N次直到完成,如何判斷是否收斂,這里有兩項(xiàng),一個(gè)是往上走(max),一個(gè)是往下走(min),有兩個(gè)模型,所以如何判斷收斂并不容易。整體來(lái)說(shuō),GAN的收斂是非常不穩(wěn)定的。
判別器訓(xùn)練得太好:在價(jià)值函數(shù)中,等式右邊的第二項(xiàng)存在一定的問(wèn)題:在早期的時(shí)候G比較弱,生成的數(shù)據(jù)跟真實(shí)的數(shù)據(jù)差得比較遠(yuǎn),這就很容易將D訓(xùn)練的特別好(D能夠完美地區(qū)分開(kāi)生成的數(shù)據(jù)和真實(shí)的數(shù)據(jù)),就導(dǎo)致log(1-D(G(z)))會(huì)變成0,求梯度再更新G的時(shí)候,就會(huì)發(fā)現(xiàn)求不動(dòng)了。
后續(xù)論文改進(jìn)
- Improved Techniques for Training GANs提出了一系列的訓(xùn)練技巧,包括正則化項(xiàng)、生成器和判別器的架構(gòu)選擇等,以提高GAN的訓(xùn)練穩(wěn)定性和生成樣本的質(zhì)量。
- Wasserstein GAN引入Wasserstein距離(Earth Mover’s Distance)作為GAN的目標(biāo)函數(shù),通過(guò)減小生成分布和真實(shí)分布之間的差異,改善了訓(xùn)練的穩(wěn)定性和生成圖像的質(zhì)量。
- Least Squares Generative Adversarial Networks使用最小二乘損失函數(shù)代替原始GAN的二元交叉熵?fù)p失,有助于解決訓(xùn)練過(guò)程中的模式崩潰問(wèn)題,提高生成圖像的質(zhì)量。
- Self-Attention Generative Adversarial Networks引入了自注意力機(jī)制,使生成器能夠更好地捕捉輸入數(shù)據(jù)的長(zhǎng)距離依賴(lài)關(guān)系,提高生成圖像的細(xì)節(jié)和整體質(zhì)量。
- Training Generative Adversarial Networks with Limited Data針對(duì)有限數(shù)據(jù)情況,提出了一種基于數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)的方法,以改善生成模型在數(shù)據(jù)稀缺情況下的性能。
GAN未來(lái)及挑戰(zhàn)
隨著OpenAI發(fā)布DALL-E 2,自回歸模型和擴(kuò)散模型一夜之間成為大規(guī)模生成模型的新標(biāo)準(zhǔn),而在此之前,生成對(duì)抗網(wǎng)絡(luò)(GAN)一直都是主流選擇,并衍生出StyleGAN等技術(shù)。
擴(kuò)散模型:當(dāng)前DALL-E, Midjourney, Stable Diffusion圖片生成的核心都是Diffusion Model,它就是通過(guò)不停去除噪音期望獲得好結(jié)果的生成模型。
擴(kuò)散模型只需要訓(xùn)練一個(gè)模型,優(yōu)化過(guò)程更加穩(wěn)定。
擴(kuò)散模型在條件生成任務(wù)上確實(shí)要優(yōu)于GAN,特別是在生成的多樣性方面。
擴(kuò)散模型的訓(xùn)練過(guò)程相對(duì)簡(jiǎn)單,優(yōu)化更為容易。
兩階段擴(kuò)散模型可以進(jìn)一步提高生成圖片的質(zhì)量,其效果通常超過(guò)了單一的GAN模型文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-792913.html
大模型下的GAN-GigaGAN
針對(duì)增加StyleGAN架構(gòu)容量會(huì)導(dǎo)致不穩(wěn)定的問(wèn)題,來(lái)自浦項(xiàng)科技大學(xué)(韓國(guó))、卡內(nèi)基梅隆大學(xué)和Adobe研究院的研究人員提出了一種全新的生成對(duì)抗網(wǎng)絡(luò)架構(gòu)GigaGAN,打破了模型的規(guī)模限制,展示了 GAN 仍然可以勝任文本到圖像合成模型。(https://arxiv.org/abs/2303.05511)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-792913.html
到了這里,關(guān)于生成式對(duì)抗網(wǎng)絡(luò)GAN的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!