国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Stable Diffusion背后原理(Latent Diffusion Models)

這篇具有很好參考價(jià)值的文章主要介紹了Stable Diffusion背后原理(Latent Diffusion Models)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

前言

2023年第一篇博客,大家新年好呀~

這次來(lái)關(guān)注一下Stable Diffusion背后的原理,即 High-Resolution Image Synthesis with Latent Diffusion Models 這篇論文。
之前關(guān)注的那些工作只能工作到 256 × 256 256 \times 256 256×256 像素(resize成這個(gè)后才輸入模型),甚至更低。
然而這篇 Latent Diffusion Models 可以到 512 × 512 512 \times 512 512×512 了,生成的質(zhì)量也更好。

本文與之前的文章一樣,會(huì)從論文和代碼兩個(gè)角度來(lái)分析. 本文會(huì)不斷更新中…

DDPM原理與代碼剖析
IDDPM原理和代碼剖析
DDIM原理及代碼(Denoising diffusion implicit models)
Classifier Guided Diffusion



理論

摘要

(1) 在摘要部分,作者就說(shuō)啊,之前的diffusion模型,也可以實(shí)現(xiàn)SOTA,但需要耗費(fèi)巨大算力。
“However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations.”

(2) 作者就想了個(gè)辦法,這也是模型名字 latent 的由來(lái),我們不要在原始像素上推導(dǎo)了,我們讓擴(kuò)散模型在 latent space(可以理解為一個(gè)feature map的空間中)進(jìn)行學(xué)習(xí)。
“we apply them in the latent space of powerful pretrained autoencoders.”
具體的,可以是圖片經(jīng)過(guò)encoder(可以是CNN) 后,得到一個(gè)feature map, 然后在這個(gè)feature map上進(jìn)行標(biāo)準(zhǔn)的擴(kuò)散過(guò)程,最后來(lái)個(gè)decoder映射回圖片像素空間。

(3) 優(yōu)勢(shì)很顯然
Our latent diffusion models (LDMs) achieve new state-of-the-art scores for image inpainting and class-conditional image synthesis and highly competitive performance on various tasks, including text-to-image synthesis, unconditional image generation and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs.


Introduction

(1) 在introduction那里, 作者分析了一下 概率密度 相關(guān)模型可以分為兩個(gè)階段, 一個(gè)是 perceptual上的,就是圖像紋理細(xì)節(jié),另一個(gè)是語(yǔ)義上的,例如帥哥變成了美女。
As with any likelihood-based model, learning can be roughly divided into two stages: First is a perceptual compression stage which removes high-frequency details but still learns little semantic variation. In the second stage, the actual generative model learns the semantic and conceptual composition of the data (semantic compression).

latent diffusion models,# diffusion,stable diffusion,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí),diffusion,ddpm

所以呢,作者想先找到perceptual上的點(diǎn),犧牲一點(diǎn)紋理的精度,換取生成高清圖像( 512 × 512 512\times 512 512×512)的能力。

“Compared to pixel-based diffusion approaches, we also significantly decrease inference costs.”



Method

(1) 圖片經(jīng)過(guò)一個(gè)編碼器,得到特征 z z z, 即
z = E ( x ) z = E(x) z=E(x)

中途就是常規(guī)的DDPM,只是denoise的是 z, 而不是 x。

latent diffusion models,# diffusion,stable diffusion,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí),diffusion,ddpm

最后通過(guò)decoder返回預(yù)測(cè)的 x ^ \hat{x} x^
x ^ = D ( z ^ ) \hat{x} = D(\hat{z}) x^=D(z^)

latent diffusion models,# diffusion,stable diffusion,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí),diffusion,ddpm

(2) 若是需要條件 (Conditioning Mechanisms) 的話, 則可以輸入相關(guān)條件的 feature
? θ ( z t , t , y ) \epsilon_θ(zt, t, y) ?θ?(zt,t,y), 這里 y = E c ( x c ) y=E_c(x_c) y=Ec?(xc?)
例如,如果需要輸入文本的話,先通過(guò)文本編碼器,得到文本特征,再輸入到Unet網(wǎng)絡(luò)的condition embedding即可, 通過(guò)是和 step embedding相加或拼接等。這是一般的condition ddpm操作。

但是作者認(rèn)為這樣不好, “however, combining the generative power of DMs with other types of conditionings beyond class-labels [15] or blurred variants of the input image [72] is so far an under-explored area of research.”

本文引入了一種 cross-attention mechanism ,

latent diffusion models,# diffusion,stable diffusion,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí),diffusion,ddpm

這里的 τ θ \tau_\theta τθ? 就是處理prompt y y y 的編碼器,例如文本 y y y 對(duì)應(yīng)的 τ θ \tau_\theta τθ? 就是文本編碼器。最后 ? θ \epsilon_\theta ?θ? τ θ \tau_\theta τθ? 靠下列式子更新:文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-800868.html

latent diffusion models,# diffusion,stable diffusion,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí),diffusion,ddpm

到了這里,關(guān)于Stable Diffusion背后原理(Latent Diffusion Models)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • diffusion model(五)stable diffusion底層原理(latent diffusion model, LDM)

    diffusion model(五)stable diffusion底層原理(latent diffusion model, LDM)

    [論文地址] High-Resolution Image Synthesis with Latent Diffusion Models [github] https://github.com/compvis/latent-diffusion diffusion model(一)DDPM技術(shù)小結(jié) (denoising diffusion probabilistic) diffusion model(二)—— DDIM技術(shù)小結(jié) diffusion model(三)—— classifier guided diffusion model diffusion model(四)文生圖diffusio

    2024年02月15日
    瀏覽(49)
  • AI繪畫Stable Diffusion原理之Autoencoder-Latent

    AI繪畫Stable Diffusion原理之Autoencoder-Latent

    傳送門: stable diffusion:Git|論文 stable-diffusion-webui:Git Google Colab Notebook部署stable-diffusion-webui:Git kaggle Notebook部署stable-diffusion-webui:Git AI繪畫,輸入一段文本就能生成相關(guān)的圖像,stable diffusion便是其中一個(gè)重要分支。自己對(duì)其中的原理比較感興趣,因此開啟這個(gè)系列的文章

    2024年02月15日
    瀏覽(16)
  • 由淺入深理解latent diffusion/stable diffusion(2):擴(kuò)散生成模型的工作原理

    Diffusion Models專欄文章匯總:入門與實(shí)戰(zhàn) 前言: 關(guān)于如何使用stable diffusion的文章已經(jīng)夠多了,但是由淺入深探索stable diffusion models背后原理,如何在自己的科研中運(yùn)用stable diffusion預(yù)訓(xùn)練模型的博客少之又少。本系列計(jì)劃寫5篇文章,和讀者一起遨游diffusion models的世界!本文主

    2024年02月08日
    瀏覽(23)
  • Latent Diffusion Models

    Latent Diffusion Models

    High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022) https://arxiv.org/abs/2112.10752 GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model 貢獻(xiàn) : 大大減少計(jì)算復(fù)雜度、提出了cross-attention的方法來(lái)實(shí)現(xiàn)

    2024年02月02日
    瀏覽(21)
  • Latent Diffusion(Stable Diffusion) 論文譯文

    Latent Diffusion(Stable Diffusion) 論文譯文

    Latent Diffusion(Stable Diffusion) 論文譯文: Latent Diffusion(Stable Diffusion) 論文譯文 以下是 附錄 的 H、其他定性結(jié)果: 最后,我們?yōu)槲覀兊木坝^模型(圖12、23、24和25)、我們的類條件ImageNet模型(圖26-27)以及我們的CelebA-HQ、FFHQ和LSUN數(shù)據(jù)集的無(wú)條件模型(圖28-31)提供了額外

    2024年02月15日
    瀏覽(23)
  • Stable diffusion相比于latent diffusion有哪些改進(jìn)?

    Stable diffusion相比于latent diffusion有哪些改進(jìn)?

    Stable Diffusion是對(duì)Latent Diffusion模型的改進(jìn),主要在以下方面進(jìn)行了優(yōu)化: 穩(wěn)定性:Stable Diffusion模型引入了穩(wěn)定性措施,通過(guò)限制每一步噪聲向量的大小來(lái)防止梯度爆炸或消失問(wèn)題的出現(xiàn)。這一改進(jìn)使得模型在訓(xùn)練過(guò)程中更加穩(wěn)定和可靠。 訓(xùn)練速度:Stable Diffusion模型通過(guò)減少

    2024年02月16日
    瀏覽(29)
  • 大模型 Dalle2 學(xué)習(xí)三部曲(一)Latent Diffusion Models學(xué)習(xí)

    大模型 Dalle2 學(xué)習(xí)三部曲(一)Latent Diffusion Models學(xué)習(xí)

    Diffusion?model 大獲成功,但是它的短板也很明顯,需要大量的計(jì)算資源,并且推理速度比較慢。如何才能提升Diffusion?model的計(jì)算效率。業(yè)界有各種各樣的改進(jìn),無(wú)疑 Latent?Diffusion?Models(潛在擴(kuò)散模型,LDMs) 是比較成功的一篇,那就來(lái)學(xué)習(xí)一下LDMS是怎么做的吧 1,與基于變換

    2024年01月18日
    瀏覽(25)
  • high-resolution image synthesis with latent diffusion models

    high-resolution image synthesis with latent diffusion models

    如何通俗理解擴(kuò)散模型? - 知乎 瀉藥。實(shí)驗(yàn)室最近人人都在做擴(kuò)散,從連續(xù)到離散,從CV到NLP,基本上都被diffusion洗了一遍。但是觀察發(fā)現(xiàn),里面的數(shù)學(xué)基礎(chǔ)并不是模型應(yīng)用的必須。其實(shí)大部分的研究者都不需要理解擴(kuò)散模型的數(shù)學(xué)本質(zhì),更需要的是對(duì)… https://zhuanlan.zhihu.

    2023年04月19日
    瀏覽(27)
  • 4、High-Resolution Image Synthesis with Latent Diffusion Models

    4、High-Resolution Image Synthesis with Latent Diffusion Models

    github地址 diffusion model明顯的缺點(diǎn)是耗費(fèi)大量的時(shí)間、計(jì)算資源,為此,論文將其應(yīng)用于強(qiáng)大的預(yù)訓(xùn)練自編碼器的潛在空間 ,這是首次允許在復(fù)雜性降低和細(xì)節(jié)保存之間達(dá)到一個(gè)近乎最佳的點(diǎn),極大地提高了視覺(jué)保真度。通過(guò)在模型架構(gòu)中引入交叉注意層,將擴(kuò)散模型轉(zhuǎn)化為

    2024年02月12日
    瀏覽(26)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包