系列文章目錄
AI繪畫(huà)
AI繪畫(huà),目前AI領(lǐng)域里最有話題性的技術(shù),上一個(gè)這么火的話題是swin transformer網(wǎng)絡(luò),而2022年8月Jason Allen憑借AI繪畫(huà)作品《太空歌劇院》拿下科羅拉多州博覽會(huì)美術(shù)競(jìng)賽一等獎(jiǎng),瞬間引爆社會(huì)爭(zhēng)論。后來(lái)10月19日,Jasper.ai 宣布完成了 1.25 億美元的A 輪融資,估值達(dá)到了 15 億美金,而 Jasper AI 從產(chǎn)品上線到現(xiàn)在也就 18 個(gè)月時(shí)間。
但是這里就不談?wù)撍纳鐣?huì)層面與資本層面,而是從技術(shù)層面出發(fā),了解一下他背后的技術(shù)變化與簡(jiǎn)單原理。
對(duì)于AI和畫(huà),我最開(kāi)始接觸的是圖片漫轉(zhuǎn),像什么風(fēng)景動(dòng)漫化,人物動(dòng)漫化、生成人物年幼年老照片。其實(shí)自2014年誕生以來(lái),GAN的發(fā)展非常迅速,最初的GAN難以生成高質(zhì)量的圖像,而現(xiàn)在的GAN已經(jīng)可以這些模型從生成模糊的人臉到具有不同約束的高清逼真圖片。
2018 年,大型半導(dǎo)體公司 NVIDIA 的研究團(tuán)隊(duì)發(fā)布了“StyleGAN”,作為 GAN 的應(yīng)用,它在圖像生成領(lǐng)域產(chǎn)生了巨大影響。StyleGAN 生成的人像精度高到與真人無(wú)異,引起了廣泛關(guān)注。StyleGAN 此后發(fā)布了性能改進(jìn)版本,例如 StyleGAN2、StyleGAN2-ADA 和 StyleGAN3。
但是隨著Diffusion Model的出現(xiàn)似乎一切都變了,在2021年它甚至可以說(shuō)混在小眾沒(méi)有破圈,在2022年它卻大紅大紫引領(lǐng)風(fēng)潮。
其中的代表人物Stable Diffusion 的文本到圖像更是橫空出世, 將無(wú)過(guò)濾圖像生成的門檻下放到歷史最低——文本生成圖像、圖像+文本生成圖像以及補(bǔ)全圖像中的某個(gè)部分(例如把貓換成一只狗),就能得到相應(yīng)的圖像結(jié)果。它一邊被 AI 藝術(shù)界所稱道,另一邊則被傳統(tǒng)藝術(shù)家激烈批評(píng);
關(guān)鍵詞:Withered vines, old trees, crows(枯藤老樹(shù)昏鴉,只能理解英文)
嘗試網(wǎng)址1:https://replicate.com/stability-ai/stable-diffusion
嘗試網(wǎng)址2:https://huggingface.co/spaces/stabilityai/stable-diffusion
現(xiàn)實(shí)風(fēng)格
水墨畫(huà)風(fēng)格
去Hugging Face等網(wǎng)站體驗(yàn)了一番,能夠感覺(jué)得到它能明白并融入部分關(guān)鍵詞元素,不得不說(shuō)確實(shí)是很強(qiáng)很新奇,不論是真實(shí)程度亦或是想象、理解能力,都是比較符合人類的想象。
2021年Diffusion Models Beat GANs on Image Synthesis在NeurIPS 2021上發(fā)表,認(rèn)為Diffusion模型可以實(shí)現(xiàn)優(yōu)于當(dāng)前最先進(jìn)的生成模型的圖像樣本質(zhì)量。
對(duì)于GAN和Diffusion Model,選擇哪一個(gè)進(jìn)行圖像合成或者說(shuō)圖像合成誰(shuí)才是最出色的模型,這就成為了一個(gè)爭(zhēng)論,甚至業(yè)界大佬都有所評(píng)論
它們都在圖像、視頻和語(yǔ)音生成領(lǐng)域得到了廣泛應(yīng)用,引發(fā)了關(guān)于哪種方法能產(chǎn)生更好結(jié)果的爭(zhēng)論——擴(kuò)散模型還是 GAN。
也有人對(duì)diffusion model 和 GAN 的有別的思考:GAN 能更靈活處理不同任務(wù),應(yīng)用層面部署比較容易,需要的資源小,不過(guò)學(xué)術(shù)上競(jìng)爭(zhēng)激烈,有時(shí)生成的樣本質(zhì)量比較一般。且GAN在對(duì)抗訓(xùn)練過(guò)程中會(huì)出現(xiàn)模式崩塌和訓(xùn)練不穩(wěn)定的問(wèn)題,VAE則嚴(yán)重依賴于目標(biāo)損失函數(shù),流模型則必須使用專門的框架來(lái)構(gòu)建可逆變換等問(wèn)題。
Diffusion model 相對(duì)不太靈活,缺少良好的 latent space 性質(zhì),資源消耗極大,但生成效率略高于auto-regressive model, 主要優(yōu)點(diǎn)質(zhì)量好,學(xué)術(shù)上容易出論文。在DALLE2開(kāi)源時(shí)候,普通人確實(shí)用不起的,但Stable Diffusion經(jīng)過(guò)優(yōu)化后一張卡就能放得下了,做到了真真正正的親民,且它具有的公式理念比GAN的超參更容易理解。
當(dāng)然diffusion model 和 GAN 不一定是天然對(duì)手,在既有交手也會(huì)有合作融合的時(shí)候,說(shuō)不定會(huì)像VIT和CNN相互借鑒。
GAN前言
GAN的全稱是Generative adversarial network,中文翻譯過(guò)來(lái)就是生成對(duì)抗網(wǎng)絡(luò)。生成對(duì)抗網(wǎng)絡(luò)其實(shí)是兩個(gè)網(wǎng)絡(luò)的組合:
生成網(wǎng)絡(luò)(Generator)負(fù)責(zé)生成模擬數(shù)據(jù)。生成網(wǎng)絡(luò)要不斷優(yōu)化自己生成的數(shù)據(jù)讓判別網(wǎng)絡(luò)判斷不出來(lái)。
判別網(wǎng)絡(luò)(Discriminator)負(fù)責(zé)判斷輸入的數(shù)據(jù)是真實(shí)的還是生成的。判別網(wǎng)絡(luò)也要優(yōu)化自己讓自己判斷得更準(zhǔn)確。
二者關(guān)系形成對(duì)抗,因此叫對(duì)抗網(wǎng)絡(luò),它們之間的關(guān)系可以用競(jìng)爭(zhēng)或敵對(duì)關(guān)系來(lái)描述。
我們可以拿捕食者與被捕食者之間的例子來(lái)類似說(shuō)明兩者之間的關(guān)系。在生物進(jìn)化的過(guò)程中,被捕食者會(huì)慢慢演化自己的特征,使自己越來(lái)越不容易被捕食者識(shí)別捕捉到,從而達(dá)到欺騙捕食者的目的;與此同時(shí),捕食者也會(huì)隨著被捕食者的演化來(lái)演化自己對(duì)被捕食者的識(shí)別,使自己越來(lái)越容易識(shí)別捕捉到捕食者。這樣就可以達(dá)到兩者共同進(jìn)化的目的。生成器代表的是被捕食者,鑒別器代表的是捕食者,而GAN希望被捕獵者贏得最后的勝利。
論文
一、生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)的協(xié)同進(jìn)化
1、生成器與判別器的學(xué)習(xí)趨向
圖中的黑色虛線表示真實(shí)的樣本的分布情況
藍(lán)色虛線表示判別器判別概率的分布情況
綠色實(shí)線表示映射的生成樣本的分布。
Z-X 表示均勻分布采樣得到噪聲z到表示通過(guò)擬合生成器x之后的分布的映射情況。
目標(biāo)是使用生成樣本分布(綠色實(shí)線)去擬合真實(shí)的樣本分布(黑色虛線),來(lái)達(dá)到生成以假亂真樣本的目的。
(a)狀態(tài)處于最初始的狀態(tài)的時(shí)候,生成器生成的分布和真實(shí)分布區(qū)別較大,并且判別器判別出樣本的概率曲折不穩(wěn)定,因此去訓(xùn)練判別器來(lái)更好地分辨樣本。
(b)樣本狀態(tài)是通過(guò)多次訓(xùn)練判別器來(lái)達(dá)到,此時(shí)判別樣本區(qū)分得非常顯著和良好,能夠明顯做出分類判別。然后再對(duì)生成器進(jìn)行訓(xùn)練。
(c)樣本狀態(tài)經(jīng)過(guò)訓(xùn)練,使得生成器與判別器進(jìn)行對(duì)比,能夠擬合學(xué)習(xí)到新數(shù)據(jù),此時(shí)生成器分布相比之前峰值逐漸逼近了真實(shí)樣本分布。
(d)狀態(tài)經(jīng)過(guò)多次反復(fù)訓(xùn)練迭代之后,使得生成樣本分布擬合于真實(shí)樣本分布,并且判別器分辨不出樣本是生成的還是真實(shí)的(判別概率均為0.5)。也就是說(shuō)我們這個(gè)時(shí)候就可以生成出非常真實(shí)的樣本,達(dá)成目的。
2、部分算法理念
其中,G代表生成器, D代表判別器, x代表真實(shí)數(shù)據(jù), Pdata代表真實(shí)數(shù)據(jù)概率密度分布,z代表了隨機(jī)輸入數(shù)據(jù)作為隨機(jī)高斯噪聲。
以MLP作為生成G與辨別D的簡(jiǎn)單模型,通過(guò)minimax訓(xùn)練G的同時(shí)也會(huì)訓(xùn)練D,而生成的數(shù)據(jù)是使得判別器盡量察覺(jué)的犯錯(cuò)達(dá)到最小化。在這個(gè)過(guò)程中D是努力去區(qū)分?jǐn)?shù)據(jù),G是努力生成區(qū)分不了的數(shù)據(jù),最終目的是為了達(dá)到一個(gè)D與G都無(wú)法繼續(xù)學(xué)習(xí)進(jìn)步為止,并稱之為博弈論中的納什均衡。
從上式可以看出,判別器D希望能盡可能區(qū)分真實(shí)樣本x和生成樣本G(z),因此D(x)必須盡可能大來(lái)表示區(qū)分力度,D(G(z))盡可能小來(lái)縮小與真實(shí)數(shù)據(jù)的區(qū)別, 綜合來(lái)說(shuō)就是V(D,G)整體盡可能大。從生成器G的角度來(lái)看,生成器G希望自己生成的虛假數(shù)據(jù)G(z)可以盡可能騙過(guò)判別器D,也就是希望D(G(z))盡可能大,也就是V(D,G)整體盡可能小。GAN的兩個(gè)模塊在訓(xùn)練V上的相互對(duì)抗,最后達(dá)到全局最優(yōu)與平衡。
制作兩個(gè)for循環(huán),這兩個(gè)for循環(huán)是嵌套在一起的,外部for循環(huán)執(zhí)行迭代,內(nèi)部for循環(huán)執(zhí)行k次以下內(nèi)容:
- 采樣m個(gè)噪音樣本
- 采樣m個(gè)真實(shí)示例
- 將采樣的2m數(shù)據(jù)傳入第一條公式(真實(shí)放在x,噪音放在z)來(lái)計(jì)算辨別器的參數(shù)與梯度,用來(lái)更新辨別
- end for
- 再采樣m個(gè)噪音樣本
- 將新采樣的噪音傳入第二條公式(噪音放在z)來(lái)計(jì)算生成器的梯度,用來(lái)更新生成器
- 先更新辨別器再更新生成器,迭代k輪(k是超參數(shù))
k值是一個(gè)需要控制浮動(dòng)的值,以保證生成辨別兩者之間的逐步擬合。太好導(dǎo)致辨別器處于完美要求過(guò)高,太壞導(dǎo)致跟不上生成器的更新而擺爛,這種一邊倒的情況就無(wú)法使得生成器與辨別器之間產(chǎn)生有益對(duì)抗,類似于曲折前進(jìn)的對(duì)抗學(xué)習(xí)。
Pdata(x)是指我把x放入真實(shí)數(shù)據(jù)分布中的百分比數(shù)值是多少
Pg(x)是指我把x放入G學(xué)習(xí)到的分布中的百分比數(shù)值是多少
當(dāng)G固定住的時(shí)候,辨別器D的最優(yōu)解是1/2,可以觀察圖(d),當(dāng)生成樣本分布擬合于真實(shí)樣本分布時(shí),判別器分辨不出樣本是生成的還是真實(shí)的,這時(shí)它不在0也不在1,而是1/2。
Pdata和Pg分布數(shù)值都是0-1之間,因此DG(x)的數(shù)值也在0-1之間,當(dāng)Pdata(x)==Pg(x),那么DG(x)=1/2。意味著辨別器D最優(yōu)解的時(shí)候輸出的值永遠(yuǎn)都是1/2,表示這兩個(gè)分布是完全重合,D無(wú)法區(qū)分真實(shí)與生成數(shù)據(jù)。
D*G是通過(guò)從兩個(gè)分布(真實(shí)的數(shù)據(jù)和生成的數(shù)據(jù))分別采樣,用V(D,G)這個(gè)目標(biāo)函數(shù)訓(xùn)練一個(gè)二分類的分類器,如果這個(gè)分類器的值都是1/2,就證明這兩個(gè)分布完全重合了。
Diffusion 前言
Diffusion最早是15年的一篇文章提出的,但當(dāng)時(shí)并不完善,直到20年時(shí)的DDPM才真正落地。之后的事情大家也就知道了,從21年底到22年間,先后有OpenAI的GLIDE、DALLE2和Google的Imagen都用上了這個(gè)工作。
Diffusion的核心思想,就是把生成的過(guò)程拆成一個(gè)個(gè)簡(jiǎn)單的小步驟,而不是像其他模型一樣「一步到位」,這樣擬合起來(lái)相對(duì)容易,所以做出來(lái)效果很好,同時(shí)訓(xùn)練起來(lái)也更加穩(wěn)定。
Diffusion Model (擴(kuò)散模型) 是一類生成模型, 和 VAE (Variational Autoencoder, 變分自動(dòng)編碼器), GAN (Generative Adversarial Network, 生成對(duì)抗網(wǎng)絡(luò)) 等生成網(wǎng)絡(luò)不同的是, 擴(kuò)散模型在前向階段對(duì)圖像逐步施加噪聲, 直至圖像被破壞變成完全的高斯噪聲, 然后在逆向階段學(xué)習(xí)從高斯噪聲還原為原始圖像的過(guò)程。它從物理現(xiàn)象中汲取靈感;它被稱為擴(kuò)散模型。擴(kuò)散模型背后的中心思想來(lái)自氣體分子的熱力學(xué),分子從高密度區(qū)域擴(kuò)散到低密度區(qū)域。這種運(yùn)動(dòng)在物理學(xué)文獻(xiàn)中通常被稱為熵增或熱寂。在信息論中,這相當(dāng)于由于噪聲的逐漸介入而導(dǎo)致的信息丟失。
擴(kuò)散建模的關(guān)鍵概念是,如果我們可以建立一個(gè)學(xué)習(xí)模型來(lái)學(xué)習(xí)由于噪聲引起的信息系統(tǒng)衰減,那么應(yīng)該可以逆轉(zhuǎn)這個(gè)過(guò)程,從而從噪聲中恢復(fù)信息。這個(gè)概念類似于 VAE,因?yàn)樗噲D通過(guò)首先將數(shù)據(jù)投影到潛在空間然后將其恢復(fù)到初始狀態(tài)來(lái)優(yōu)化目標(biāo)函數(shù)。然而,該系統(tǒng)不是學(xué)習(xí)數(shù)據(jù)分布,而是旨在對(duì)一系列噪聲分布進(jìn)行建模馬爾可夫鏈并通過(guò)以分層方式對(duì)數(shù)據(jù)進(jìn)行撤消/去噪來(lái)“解碼”數(shù)據(jù)。
一、Diffusion前向過(guò)程
擴(kuò)散的原理:
有一桶10升的礦泉水,我第一次往里面添加了一滴墨水并攪拌讓它隨機(jī)均勻分布,這時(shí)觀察這桶礦泉水發(fā)現(xiàn)是幾乎沒(méi)什么變化,那我滴入第二滴墨水,第三滴直到第N滴,這個(gè)過(guò)程中會(huì)發(fā)現(xiàn)水質(zhì)逐漸渾濁變黑,只就是色素在水分子中的擴(kuò)散。
那么放在圖像領(lǐng)域里,噪音就是墨水,圖片就是礦泉水,把噪音一點(diǎn)點(diǎn)分批次的隨機(jī)均勻的滿足高斯分布的規(guī)律來(lái)注入貓貓圖片中,從0到100到200到N次圖片從清晰到微暇到模糊到麻花,貓貓的規(guī)律逐漸消失。
就比如這張S 曲線合成數(shù)據(jù)集的前向擴(kuò)散過(guò)程結(jié)果圖,他的規(guī)律就是由像素點(diǎn)去組成S的規(guī)律,從X0到X∞,從規(guī)律到混亂。
通過(guò)加噪音去加強(qiáng)他的不規(guī)律的地方,破壞圖片中規(guī)律性弱的地方,而規(guī)律性強(qiáng)的地方一時(shí)半會(huì)是破壞不了的,隨著噪音的添加,規(guī)律性會(huì)從弱到強(qiáng)逐漸淘汰。
公式(1)中β是一個(gè)衰減權(quán)重,負(fù)責(zé)控制噪音z的幅度變化,隨著次數(shù)增加,β要越來(lái)越大比如論文中是0.0001到0.002,使得注入的噪音會(huì)比上一次多。而 x t x_t xt?是t時(shí)刻的一個(gè)分布,它是由上一時(shí)刻 x t ? 1 x_{t-1} xt?1?和噪音z組成。
公式(2)中的 α t {\sqrt α_t } α?t? 和 1 ? α t \sqrt {1- α_t} 1?αt??又是從公式(1)中脫胎而出的,是β這個(gè)權(quán)重的變體,所以這兩者可以理解為是權(quán)重的一種。越到最后β會(huì)越大,那么根據(jù)公式(1)可知 α t {α_t } αt?隨之變小,那么 α t \sqrtα_t α?t? 也會(huì)變小,而 1 ? α t \sqrt{1-α_t} 1?αt??逆反過(guò)來(lái)其實(shí)就是β,說(shuō)明越往后對(duì)噪聲 z z z影響越大??偟膩?lái)說(shuō)越到后面其實(shí) x t x_t xt?受上一時(shí)刻 x t ? 1 x_{t-1} xt?1?影響減少,受噪音 z z z影響增多,而且服從標(biāo)準(zhǔn)正態(tài)分布,簡(jiǎn)單理解就是越往后噪音注入的比例會(huì)更多。
α t = 1 ? β t ( 1 ) α_t = 1-β_t (1) αt?=1?βt?(1)
x t = α t x t ? 1 + 1 ? α t z 1 ( 2 ) x_t = \sqrt α_t x_{t-1} + \sqrt {1- α_t} z_1 (2) xt?=α?t?xt?1?+1?αt??z1?(2)
雖然我們可以從輸入的圖像 x 0 x_0 x0?開(kāi)始一直遞歸計(jì)算到 x n x_n xn?但是會(huì)產(chǎn)生一個(gè)問(wèn)題,如果是遞歸會(huì)不會(huì)太慢了,可不可以直接從 x 0 x_0 x0?直接得到 x t x_t xt?呢?
結(jié)合公式(2)再逆推出 x t ? 1 x_{t-1} xt?1?的公式(3),把公式(3)代入公式(2)的 x t ? 1 x_{t-1} xt?1?里得到公式(4)。再把公式(4)化簡(jiǎn)得到公式(5),其中因?yàn)? z 1 z_1 z1?和 z 2 z_2 z2?都符合高斯分布也就是正態(tài)分布 X ~ N ( μ , σ 2 ) X~N(μ,σ^2) X~N(μ,σ2),標(biāo)準(zhǔn)正態(tài)分布則是μ = 0,σ = 1,所以 1 ? α t z 1 \sqrt {1- α_t} z_1 1?αt??z1?和 1 ? α t ? 1 z 2 \sqrt {1- α_{t-1}} z_2 1?αt?1??z2?分別為 N ( μ t , 1 ? α t ) N(μ_t,1-\alpha_t) N(μt?,1?αt?)和 N ( μ t ? 1 , α t ( 1 ? α t ? 1 ) ) N(μ_{t-1},\alpha_t(1-\alpha_{t-1})) N(μt?1?,αt?(1?αt?1?)),而兩個(gè)不同的高斯分布相加后仍然符合高斯分布并用 z ˉ 2 \bar{z}_2 zˉ2?表示,結(jié)合公式(6)將 N ( μ t , 1 ? α t ) N(μ_t,1-\alpha_t) N(μt?,1?αt?)和 N ( μ t ? 1 , α t ( 1 ? α t ? 1 ) ) N(μ_{t-1},\alpha_t(1-\alpha_{t-1})) N(μt?1?,αt?(1?αt?1?))相加開(kāi)方得到高斯分布 1 ? α t α t ? 1 z ˉ 2 \sqrt {1- α_tα_{t-1}} \bar{z}_2 1?αt?αt?1??zˉ2?。
x t ? 1 = α t ? 1 x t ? 2 + 1 ? α t ? 1 z 2 ( 3 ) x_{t-1} = \sqrt {α_{t-1}} x_{t-2} + \sqrt {1- α_{t-1}} z_2 (3) xt?1?=αt?1??xt?2?+1?αt?1??z2?(3)
x t = α t ( α t ? 1 x t ? 2 + 1 ? α t ? 1 z 2 ) + 1 ? α t z 1 ( 4 ) x_t = \sqrt α_t(\sqrt {α_{t-1}} x_{t-2} + \sqrt {1- α_{t-1}} z_2)+ \sqrt {1- α_t} z_1 (4) xt?=α?t?(αt?1??xt?2?+1?αt?1??z2?)+1?αt??z1?(4)
x t = α t α t ? 1 x t ? 2 + 1 ? α t α t ? 1 z ˉ 2 ( 5 ) x_t = \sqrt {α_t α_{t-1}} x_{t-2} + \sqrt {1- α_tα_{t-1}} \bar{z}_2 (5) xt?=αt?αt?1??xt?2?+1?αt?αt?1??zˉ2?(5)
N
(
μ
1
,
σ
1
2
I
)
+
N
(
μ
2
,
σ
2
2
I
)
~
N
(
μ
1
+
μ
2
,
(
σ
1
2
+
σ
2
2
)
I
)
)
(
6
)
N(μ_1,\sigma^2_1 \Iota )+N(μ_2,\sigma^2_2\Iota )~N(μ_1+μ_2,(\sigma^2_1+\sigma^2_2)\Iota)) (6)
N(μ1?,σ12?I)+N(μ2?,σ22?I)~N(μ1?+μ2?,(σ12?+σ22?)I))(6)
?
經(jīng)過(guò)這些轉(zhuǎn)換計(jì)算可以總結(jié)出一些規(guī)律,觀察公式(2)和公式(5),可以發(fā)現(xiàn)每往前一時(shí)刻就在多乘上
α
t
?
前
一
時(shí)
刻
α_{t-前一時(shí)刻}
αt?前一時(shí)刻?,如果一直追溯到第0次那么就只需要一直累乘
α
t
,
α
t
?
1
,
α
t
?
2
,
α
t
?
3
…
α
0
α_t,α_{t-1},α_{t-2},α_{t-3}…α_0
αt?,αt?1?,αt?2?,αt?3?…α0?,這樣就解決了從
x
0
x_0
x0?直接得到
x
t
x_t
xt?的逐步遞歸問(wèn)題,那么就可以通過(guò)公式(7)來(lái)簡(jiǎn)單解決任意次數(shù)的計(jì)算擴(kuò)散分布,其中
α
ˉ
t
\bar{α}_t
αˉt?表示累乘的意思。
X T = α ˉ t x 0 + 1 ? α ˉ t z t ( 7 ) X_T = \sqrt { \bar{α}_t} x_0 + \sqrt {1- { \bar{α}_t} } z _t(7) XT?=αˉt??x0?+1?αˉt??zt?(7)
二、Diffusion反向過(guò)程
從一堆噪音點(diǎn)里向同性高斯噪聲數(shù)據(jù)重建結(jié)果
求出S圖,雖然說(shuō)在前向過(guò)程中可以通過(guò)公式去推出
x
0
x_0
x0?到
x
t
x_t
xt?的分布,但是在反向過(guò)程中卻無(wú)法直接從
x
t
x_t
xt?逆推出
x
0
x_0
x0?的。
前向過(guò)程可以理解為由各種已知因素推理出結(jié)果或者說(shuō)事件發(fā)展的趨向,是由因到果。
但是實(shí)際上我們做的往往是是給出到某種現(xiàn)象某種結(jié)論,然后讓機(jī)器去反推輸出。那么機(jī)器就需要去猜測(cè)計(jì)算形成這種結(jié)果的各種因素,是由果推因。
對(duì)于這個(gè)問(wèn)題,使用了貝葉斯公式(8)去解決,結(jié)合公式(8)得到公式(9)。那么 x t x_t xt?是已知的果, P ( x t ∣ x t ? 1 ) P(x_t∣x_{t-1}) P(xt?∣xt?1?)就是公式(2)中的 x t ? 1 x_{t-1} xt?1?求 x t x_t xt?。而 P ( x t ? 1 ) P(x_{t-1}) P(xt?1?)和 P ( x t ) {P(x_t)} P(xt?)可以通過(guò)公式(7)和 x 0 x_0 x0?去求出來(lái),這樣去看三個(gè)都是可計(jì)算的已知值。
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) ( 8 ) P(A∣B) = \frac{P(B∣A)P(A)}{P(B)} (8) P(A∣B)=P(B)P(B∣A)P(A)?(8)
P
(
x
t
?
1
∣
x
t
)
=
P
(
x
t
∣
x
t
?
1
)
P
(
x
t
?
1
)
P
(
x
t
)
(
9
)
P(x_{t-1}∣x_t) = \frac{P(x_t∣x_{t-1})P(x_{t-1})}{P(x_t)} (9)
P(xt?1?∣xt?)=P(xt?)P(xt?∣xt?1?)P(xt?1?)?(9)
?
f
(
x
)
=
1
2
π
σ
e
x
p
?
(
x
?
μ
)
2
2
σ
2
(
10
)
f(x) = \frac{1}{\sqrt{2πσ}} exp^{-\frac{(x-μ)^2}{2σ^2}} (10)
f(x)=2πσ?1?exp?2σ2(x?μ)2?(10)
再結(jié)合公式(6)的正態(tài)分布分別列出這三個(gè)對(duì)應(yīng)分布值。
結(jié)合正態(tài)分布公式(10)計(jì)算exp冪數(shù)
進(jìn)一步化簡(jiǎn)合并同類項(xiàng)exp
z作為反向過(guò)程是屬于一個(gè)未知值,但是我們之前的噪音z是在前向過(guò)程中計(jì)算的,所以既然是未知,那就通過(guò)預(yù)測(cè)得到,所謂預(yù)測(cè)也就是模型推導(dǎo),模型數(shù)據(jù)從前向過(guò)程的z訓(xùn)練得來(lái)。最終通過(guò)前向來(lái)預(yù)測(cè)反向過(guò)程的z值,這個(gè)模型一般是以UNet為基礎(chǔ)。
訓(xùn)練是前后向過(guò)程運(yùn)用,預(yù)測(cè)使用是只用反向過(guò)程,最終輸出的質(zhì)量取決于超參數(shù)的調(diào)整和訓(xùn)練時(shí)期的數(shù)量。
DDPM論文中的訓(xùn)練和采樣方法(就是那兩個(gè)階段)文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-780299.html
因算力要求較高,目前手頭上沒(méi)有足夠的資源,導(dǎo)致一些方面無(wú)法足夠的去論證。。。
未完待續(xù)。。。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-780299.html
到了這里,關(guān)于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)筆記6——生成式AI繪畫(huà)背后的的GAN與Diffusion初解的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!