一、研究現(xiàn)狀
? ? ? ?早期圖像生成方法主要是變分自動編碼器(Variational Autoencoders, VAEs),該算法利用編碼器和解碼器以及變分推斷的方法學習隱空間到真實圖像空間的映射從而完成圖像的生成。其優(yōu)勢是特征空間可遷移并且訓練較為穩(wěn)定,但是不容易進行模型評估,當輸入的圖像數(shù)據(jù)的分布情況復(fù)雜時,其學習到的特征泛化能力不足,而且生成的圖像模糊。
? ? ? ?生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)通過生成器與判別器的動態(tài)博弈來優(yōu)化模型,允許以良好的感知質(zhì)量對高分辨率圖像進行有效采樣,生成的圖像比較清晰。但該方法模型訓練不穩(wěn)定并難以捕捉完整的數(shù)據(jù)分布。
? ? ? ?最近,擴散模型(Diffusion Model, DM)在分布估計和生成樣本質(zhì)量方面取得了最先進的結(jié)果。擴散模型一步一步地向原始數(shù)據(jù)中加入高斯噪聲來破壞訓練數(shù)據(jù),隨后訓練神經(jīng)網(wǎng)絡(luò)來扭轉(zhuǎn)整個破壞過程,即通過逐漸去噪過程直至消除掉噪聲,從而將純噪聲轉(zhuǎn)化為高質(zhì)量圖像。但該模型依賴于長的馬爾可夫鏈的擴散步驟來產(chǎn)生樣本,計算資源和時間占用過高。
二、研究出發(fā)點
? ? ? ? 擴散模型屬于基于最大似然估計的生成模型類,容易花費過多的計算資源來學習數(shù)據(jù)中難以察覺的細節(jié)。盡管可以通過對相應(yīng)損失項的低采樣忽略感知上無關(guān)緊要的細節(jié),但這一步仍然需要在像素空間中進行昂貴的函數(shù)計算,這導致了巨大的計算時間和能源需求。
? ? ? ?因此,本文提出將VAE與DM結(jié)合,把壓縮感知信息與生成圖像的過程分離來避免這一缺陷。
三、創(chuàng)新點
1.通過自動編碼器(Autoencoder, AE)壓縮數(shù)據(jù),將擴散過程在隱空間(Latent Space)進行,極大地減小了擴散模型的計算量,并保持生成圖片的質(zhì)量不變。
? ? ? ?模型結(jié)構(gòu)如上圖所示。在訓練過程中,輸入樣本的x通過AE的Encoder進行壓縮至隱空間。擴散模型的正向擴散和反向生成過程都是在隱空間進行完成的。
? ? ? 具體來說,給定圖像? ,我們可以先利用一個編碼器
?來將圖像編碼到潛在表示空間
?,其中?
,然后再用解碼器從潛在表示空間重建圖片
? 。在感知壓縮壓縮的過程中,下采樣因子的大小?f=H/h=W/w
?。
? ? ? ? 這種方法的另一個顯著優(yōu)勢是,自編碼器只需訓練一次或采用預(yù)訓練的模型,因此可以將其用于訓練多次DM完全不同的任務(wù)。這使得對各種圖像到圖像和文本到圖像任務(wù)的大量擴散模型的有效探索成為可能。
2.設(shè)計了一種基于交叉注意力的通用條件生成控制機制,能夠?qū)崿F(xiàn)多模態(tài)的訓練。
? ? ? ?為了進行有條件的圖片生成,即根據(jù)控制信息來指導反向去噪過程,需要拓展得到一個條件時序去噪自編碼器(conditional denoising autoencoder) ?,通過?y?來控制圖片合成的過程。
? ? ? ? 具體來說,論文通過在UNet主干網(wǎng)絡(luò)上增加交叉注意力機制來實現(xiàn) 。為了能夠從多個不同的模態(tài)預(yù)處理?y?,論文引入了一個領(lǐng)域?qū)S镁幋a器(domain specific encoder)
?,它用來將?y?映射為一個中間表示?,以引入各種形態(tài)的條件,如文本、類別等。最終模型就可以通過一個交叉注意力層映射將控制信息融入到UNet的中間層,交叉注意力層的實現(xiàn)如下:
? ? ? ? ? ? ??
? ?? ? ? ? ? ?
?? ??
?
四、實驗設(shè)計及驗證?
本文實驗主要驗證了LDMs(Latent Diffusion Models)模型的性能。本文設(shè)計了大量的對比實驗,分別對壓縮比率因子、隱空間有效性、條件擴散進行了驗證。并測試了該模型在超分辨率、圖像修復(fù)等任務(wù)中的表現(xiàn)。
實驗一:感知壓縮權(quán)衡(Perceptual Compression Tradeoffs)
? ? ? 調(diào)整AE中encoder下采樣f,如果f=1那就等于沒有對輸入進行壓縮,本文對比了f在{1,2,4, 8, 16, 32}下的效果,如果f越大,則信息壓縮越嚴重,會造成圖片失真,但是訓練資源則占用越少,反之f約小則訓練的會越慢。對比實驗的結(jié)果如下圖所示。
? ? ? 可見,f在{4-16}之間可以比較好的平衡效率與視覺感知效果。作者重點推薦了LDM-4和LDM-8。
實驗二:對比生成圖片的質(zhì)量
? ? ? ?本文對LDMs的樣本生成能力從兩方面進行對比實驗,一是生成樣本的質(zhì)量,二是生成樣本的多樣性。實驗數(shù)據(jù)使用的是CelebA-HQ、FFHQ和LSUN-Churches/Bedrooms,實驗結(jié)果如下圖所示。
? ? ? ?其效果超過了GANs和LSGM,并且對于比同為擴散模型的DDPM效果要好,與ADM的效果接近,說明了隱空間的確保留了主要的特征信息。
?
實驗三:條件擴散
? ? ? 本文通過在Unet模型結(jié)構(gòu)上添加交叉注意力機制的方式可以適配多類條件的圖像生成任務(wù),例如text-to-image任務(wù)上,訓練數(shù)據(jù)為LAION-400M,文章展示了實驗結(jié)果如下:
實驗四:模型的通用性
? ? ? ?作者測試了LDMs在根據(jù)語義信息生成圖像、圖像超分辨率及圖像修復(fù)等應(yīng)用方向上的性能,均取得了極佳的效果。
?
?五、論文結(jié)論
- LDMs可以顯著提高去噪擴散模型的訓練和采樣效率,而不降低模型的質(zhì)量。
? ? ? 2. LDMs可以在諸多圖像生成任務(wù)中顯示出優(yōu)于先有方法的性能。文章來源:http://www.zghlxwxcb.cn/news/detail-831238.html
六、不足之處文章來源地址http://www.zghlxwxcb.cn/news/detail-831238.html
- 該模型仍是一個大模型,有著高達859M的參數(shù)量。
- 模型生成的圖片中存在許多“似是而非”的物體,說明模型并不真正理解各個物體的形態(tài),可以通過更細致的標簽或是引入先驗的物體結(jié)構(gòu)模型解決這一問題。
- 生成的圖片中有的并不符合透視法,或在空間結(jié)構(gòu)上不符合客觀規(guī)律。針對這一問題,可以將擴散模型與NeRF相結(jié)合,將二維圖像升維成三維結(jié)構(gòu)后再投影到二維來解決遮擋等空間推理問題。
到了這里,關(guān)于High-Resolution Image Synthesis with Latent Diffusion Models 穩(wěn)定擴散模型論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!