如何通俗理解擴(kuò)散模型? - 知乎瀉藥。實(shí)驗(yàn)室最近人人都在做擴(kuò)散,從連續(xù)到離散,從CV到NLP,基本上都被diffusion洗了一遍。但是觀察發(fā)現(xiàn),里面的數(shù)學(xué)基礎(chǔ)并不是模型應(yīng)用的必須。其實(shí)大部分的研究者都不需要理解擴(kuò)散模型的數(shù)學(xué)本質(zhì),更需要的是對(duì)…https://zhuanlan.zhihu.com/p/563543020Stable Diffusion原理解讀 - 知乎引言最近大火的AI作畫(huà)吸引了很多人的目光,AI作畫(huà)近期取得如此巨大進(jìn)展的原因個(gè)人認(rèn)為有很大的功勞歸屬于Stable Diffusion的開(kāi)源。Stable diffusion是一個(gè)基于Latent Diffusion Models(潛在擴(kuò)散模型,LDMs)的文…https://zhuanlan.zhihu.com/p/583124756
??????Jay Alammar 再發(fā)新作:超高質(zhì)量圖解 Stable Diffusion ,看完徹底搞懂「圖像生成」原理 - IT之家還記得火爆全網(wǎng)的圖解 Transformer 嗎?最近這位大佬博主 Jay Alammar 在博客上對(duì)大火的 Stable Diffusion 模型也撰寫(xiě)了一篇圖解,讓你從零開(kāi)始徹底搞懂圖像生成模型的原理,還配有超詳細(xì)的視頻講解!https://www.ithome.com/0/668/981.htm
【生成模型】Stable Diffusion原理+代碼_殺生丸學(xué)AI的博客-CSDN博客Stable diffusion是一個(gè)基于(潛在擴(kuò)散模型,LDMs)的文圖生成(text-to-image)模型。具體來(lái)說(shuō),得益于的計(jì)算資源支持和在LAION-5B的一個(gè)子集數(shù)據(jù)支持訓(xùn)練,用于文圖生成。通過(guò)在一個(gè)潛在表示空間中迭代“去噪”數(shù)據(jù)來(lái)生成圖像,然后將表示結(jié)果解碼為完整的圖像,讓文圖生成能夠在消費(fèi)級(jí)GPU上,在10秒級(jí)別時(shí)間生成圖片。目前,Stable Diffusion發(fā)布了v2版本。https://blog.csdn.net/qq_45752541/article/details/129082742?stable diffusion的出現(xiàn)極大的推動(dòng)了文生圖,圖生圖等領(lǐng)域的進(jìn)展,我之前也解析過(guò)dalle2,文生圖領(lǐng)域目前的論文還是非常多的,stable diffusion整體上最大的貢獻(xiàn)還是極大的加速了diffusion的落地,擴(kuò)散模型,是vae的延續(xù),ae中的v其實(shí)就是通過(guò)kl散度來(lái)向ae中添加噪聲,擴(kuò)散則是就這個(gè)加噪的過(guò)程和馬爾科夫過(guò)程關(guān)聯(lián)起來(lái),將加噪分步了。stable diffusion基于latent diffusion model,首先需要訓(xùn)練一個(gè)自編碼器,包括一個(gè)編碼器和一個(gè)解碼器,利用編碼器對(duì)圖片進(jìn)行壓縮,然后在潛在表示空間上做diffusion操作,最后利用解碼器恢復(fù)到原始像素空間即可。稱(chēng)之為感知壓縮perceptual compression。在潛在表示空間上做diffusion操作其主要過(guò)程和標(biāo)準(zhǔn)的擴(kuò)散模型沒(méi)有太大的區(qū)別,所用到的擴(kuò)散模型具體實(shí)現(xiàn)為time-conditional unet。論文為diffusion操作引入了條件機(jī)制,通過(guò)cross-attention的方式來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練,使條件圖片生成也可以實(shí)現(xiàn)。
結(jié)合上面的材料稍微解析一些diffusion。
上面這個(gè)是vae,vae的最大問(wèn)題是變分后驗(yàn),在vae中,我們先定義了右邊藍(lán)色的生成器,再學(xué)一個(gè)變分后驗(yàn)來(lái)適配這個(gè)生成器,先驗(yàn)分布是標(biāo)準(zhǔn)高斯分布。vae的生成器,是將標(biāo)準(zhǔn)高斯映射到數(shù)據(jù)樣本,vae的后驗(yàn)是將數(shù)據(jù)樣本映射到標(biāo)準(zhǔn)高斯(學(xué)出來(lái)的)。我現(xiàn)在想要設(shè)計(jì)一種方法A,使得A用一種簡(jiǎn)單的變分后驗(yàn)將數(shù)據(jù)樣本映射到標(biāo)準(zhǔn)高斯,并且使得A的生成器,將標(biāo)準(zhǔn)高斯映射到數(shù)據(jù)樣本,注意,因?yàn)樯善鞯乃阉骺臻g大于變分后驗(yàn),vae的效率遠(yuǎn)不及A方法,因?yàn)锳是學(xué)一個(gè)生成器(搜索空間大),所以可以直接模仿這個(gè)后驗(yàn)分布的一小步,A方法就是括但模型核心思路:定義一個(gè)類(lèi)似于變分后驗(yàn)的從數(shù)據(jù)樣本到高斯分布的映射,然后學(xué)一個(gè)生成器,這個(gè)生成器模仿我們定義的這個(gè)映射的每一小步。vae是數(shù)據(jù)樣本->高斯->數(shù)據(jù)樣本,擴(kuò)散是數(shù)據(jù)樣本->一小步一小步的擴(kuò)散->高斯->去噪->數(shù)據(jù)樣本。
abstract:通過(guò)將圖片合成過(guò)程分解為順序去噪自編碼器(a sequential application of denosing autoencoders),diffusion models實(shí)現(xiàn)了廣泛的應(yīng)用。此外,dms允許一種引導(dǎo)機(jī)制來(lái)控制圖像生成過(guò)程無(wú)須訓(xùn)練。但是在像素空間中運(yùn)行對(duì)算力要求過(guò)高。
1.introduction
????????高分辨率,復(fù)雜自然場(chǎng)景下的圖像合成目前是被scaling up likelihood-based models所主導(dǎo),這些模型可能在自回歸transformer中有上億參數(shù)量。對(duì)比Gans已被證明主要局限于具有相對(duì)有限可變性的數(shù)據(jù),他們的對(duì)抗學(xué)習(xí)過(guò)程不容易擴(kuò)展到建模復(fù)雜的多模態(tài)分布。dms屬于基于似然的模型類(lèi)別。訓(xùn)練一個(gè)dms通常需要數(shù)百個(gè)gpu days,150-1000 V100 days。
? ? ? ? 任何一個(gè)基于似然的模型,學(xué)習(xí)大致可以分為兩個(gè)階段。1.是感知壓縮階段,它會(huì)去除高頻細(xì)節(jié),但仍然學(xué)習(xí)很少的語(yǔ)義變化,2.實(shí)際生成模型學(xué)習(xí)數(shù)據(jù)的語(yǔ)義和概念組成(語(yǔ)義壓縮)。我們將訓(xùn)練分為兩個(gè)階段,首先訓(xùn)練一個(gè)自動(dòng)編碼器,它提供一個(gè)低維的表示空間,在感知上等同于數(shù)據(jù)空間,其次在學(xué)習(xí)的潛在空間上訓(xùn)練dm,將生成模型成為潛在擴(kuò)散模型ldm。這種方式的優(yōu)點(diǎn)在于我們只需要訓(xùn)練通用的自動(dòng)編碼器一次,就可以重復(fù)用于多次dm訓(xùn)練。
2.methods
2.1 perceptual image compression
????????由此可知,基于感知壓縮的擴(kuò)散模型的訓(xùn)練本質(zhì)上是一個(gè)兩階段訓(xùn)練的過(guò)程,第一階段需要訓(xùn)練一個(gè)自編碼器,第二階段才需要訓(xùn)練擴(kuò)散模型本身。在第一階段訓(xùn)練自編碼器時(shí),為了避免潛在表示空間出現(xiàn)高度的異化,作者使用了兩種正則化方法,一種是KL-reg,另一種是VQ-reg,因此在官方發(fā)布的一階段預(yù)訓(xùn)練模型中,會(huì)看到KL和VQ兩種實(shí)現(xiàn)。在Stable Diffusion中主要采用AutoencoderKL這種實(shí)現(xiàn)。
2.2 latent diffusion models
擴(kuò)散模型是一個(gè)時(shí)序去噪自編碼器,其目標(biāo)是根據(jù)輸入xt去預(yù)測(cè)一個(gè)對(duì)應(yīng)去噪后的變體,xt是輸入x的噪聲版本。而潛在擴(kuò)散模型中引入了預(yù)訓(xùn)練的感知壓縮模型,它包括一個(gè)編碼器和一個(gè)解碼器,這樣在訓(xùn)練時(shí)就可以用編碼器得到zt,從而讓模型在潛在表示空間中學(xué)習(xí)。與高維空間比,降維空間更適合基于似然的生成模型,因?yàn)?.可以專(zhuān)注于數(shù)據(jù)的重要語(yǔ)義,低維空間中高頻的細(xì)節(jié)被抽象掉了,2.在低維空間中可以進(jìn)行更有效的計(jì)算。
2.3 條件機(jī)制
后續(xù)就是作者的一系列實(shí)驗(yàn)了,整體來(lái)說(shuō)作者基于latent的先驗(yàn)自編碼器,訓(xùn)練一個(gè)dm,發(fā)現(xiàn)這樣做的效果也非常好。
3.圖示
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-418190.html
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-418190.html
到了這里,關(guān)于high-resolution image synthesis with latent diffusion models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!