High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022)
https://arxiv.org/abs/2112.10752
GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models
GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model
貢獻(xiàn):大大減少計(jì)算復(fù)雜度、提出了cross-attention的方法來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練,使得條件圖片生成任務(wù)也可以實(shí)現(xiàn)
論文貢獻(xiàn)
- Diffusion model相比GAN可以取得更好的圖片生成效果,然而該模型是一種自回歸模型,需要反復(fù)迭代計(jì)算,因此訓(xùn)練和推理代價(jià)都很高。論文提出一種在潛在表示空間(latent space)上進(jìn)行diffusion過(guò)程的方法,從而能夠大大減少計(jì)算復(fù)雜度,同時(shí)也能達(dá)到十分不錯(cuò)的圖片生成效果。
- 相比于其它空間壓縮方法,論文提出的方法可以生成更細(xì)致的圖像,并且在高分辨率圖片生成任務(wù)(如風(fēng)景圖生成,百萬(wàn)像素圖像)上表現(xiàn)得也很好。
- 論文將該模型在無(wú)條件圖片生成(unconditional image synthesis), 圖片修復(fù)(inpainting),圖片超分(super-resolution)任務(wù)上進(jìn)行了實(shí)驗(yàn),都取得了不錯(cuò)的效果。
- 論文還提出了cross-attention的方法來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練,使得條件圖片生成任務(wù)也可以實(shí)現(xiàn)。論文中提到的條件圖片生成任務(wù)包括類(lèi)別條件圖片生成(class-condition), 文圖生成(text-to-image), 布局條件圖片生成(layout-to-image)。這也為日后Stable Diffusion的開(kāi)發(fā)奠定了基礎(chǔ)。
方法

Latent Diffusion Models整體流程如圖:
- 首先需要訓(xùn)練好一個(gè)自編碼模型(AutoEncoder,包括一個(gè)編碼器 E?和一個(gè)解碼器?D?)。
- 這樣一來(lái),我們就可以利用?Encoder 對(duì)圖片進(jìn)行壓縮,
- 然后在潛在表示空間上做diffusion操作,
- 最后我們?cè)儆?Decoder 恢復(fù)到原始像素空間即可,
論文將這個(gè)方法稱(chēng)之為感知壓縮(Perceptual Compression)。個(gè)人認(rèn)為這種將高維特征壓縮到低維,然后在低維空間上進(jìn)行操作的方法具有普適性,可以很容易推廣到文本、音頻、視頻等領(lǐng)域。
在潛在表示空間上做diffusion操作其主要過(guò)程和標(biāo)準(zhǔn)的擴(kuò)散模型沒(méi)有太大的區(qū)別,所用到的擴(kuò)散模型的具體實(shí)現(xiàn)為 time-conditional UNet。但是有一個(gè)重要的地方是論文為diffusion操作引入了條件機(jī)制(Conditioning Mechanisms),通過(guò)cross-attention的方式來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練,使得條件圖片生成任務(wù)也可以實(shí)現(xiàn)。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-432741.html
下面我們針對(duì)感知壓縮、擴(kuò)散模型、條件機(jī)制的具體細(xì)節(jié)進(jìn)行展開(kāi)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-432741.html
到了這里,關(guān)于Latent Diffusion Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!