国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Stable Diffusion-生式AI的新范式

2年前作者：@BangBang分類：Toy博客閱讀(27)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Stable Diffusion-生式AI的新范式。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

! Stable Diffusion-生式AI的新范式

擴(kuò)散模型（Stable Diffusion)現(xiàn)在是生成圖像的首選模型。由于擴(kuò)散模型允許我們以提示( prompts)為條件生成圖像，我們可以生成我們所選擇的圖像。在這些文本條件的擴(kuò)散模型中，穩(wěn)定擴(kuò)散模型由于其開源性而最為著名。

在這篇文章中，我們將把Stable Diffusion模型分解為構(gòu)成它的各個(gè)組成部分。此外，我們還將了解穩(wěn)定擴(kuò)散的工作原理。

Stable Diffusion-生式AI的新范式

圖1 使用Stable Diffusion從噪聲中生成圖像

熟悉Stable Diffusion的工作，將使我們也能理解其訓(xùn)練和推理的過(guò)程。在了解了Stable Diffusion的概念部分之后，我們將介紹它的不同版本和變化。

1. Stable Diffusion介紹

Latent Diffusion Model （LDM）是最初的文本-圖像模型，穩(wěn)定擴(kuò)散模型（Stable Diffusion）是一種擴(kuò)展。這意味著 "Stable Diffusion "也是一個(gè)文本-圖像模型。

CompVis和RunwayML的原始開放源代碼是基于Rombach等人的論文–“High-Resolution Image Synthesis with Latent Diffusion Models”。
Stable Diffusion-生式AI的新范式

圖2.使用Stable Diffusion生成的戴帽子的狗的圖像。

對(duì)擴(kuò)散模型及其機(jī)制感到困惑嗎？不要著急，本文將會(huì)使用PyTorch從頭開始建立一個(gè)基本的擴(kuò)散模型。

正如你現(xiàn)在可能已經(jīng)猜到的，穩(wěn)定擴(kuò)散并不是唯一能生成圖像的擴(kuò)散模型。

在Stable Diffusion之前，有OpenAI的DALL-E 2。在這之后，谷歌發(fā)布了Imagen。這兩個(gè)都是文本到圖像的擴(kuò)散模型。

這就提出了一個(gè)相關(guān)的問(wèn)題–“穩(wěn)定擴(kuò)散與其他從提示語(yǔ)生成圖像的擴(kuò)散模型有何不同？”

1.1 Stable Diffusion與其他基于擴(kuò)散的圖像生成模型有何不同？

Stable Diffusion是在圖像的潛在空間而不是在圖像的像素空間工作的。
Stable Diffusion-生式AI的新范式
其他生成性擴(kuò)散模型，如DALL-E 2和Imagen，在圖像的像素空間上工作。這使得它們的速度變慢，而且在這個(gè)過(guò)程中，消耗了更多的內(nèi)存。

自動(dòng)編碼器模型有助于創(chuàng)建這個(gè)潛在空間，它也作為模型中的噪聲預(yù)測(cè)器。如果你看過(guò)之前的DDPM文章，那么你已經(jīng)知道噪聲預(yù)測(cè)器模型是LDM（潛伏擴(kuò)散模型）中不可缺少的一部分。

在這一點(diǎn)上，我想到了另外幾個(gè)問(wèn)題。

UNet是穩(wěn)定擴(kuò)散模型中的一個(gè)組成部分/模型嗎？
該模型中還有其他組成部分嗎？如果是的話，它們是什么？

2. Stable Diffusion模型的組成部分

我們可以將Stable Diffusion模型分解為三個(gè)主要部分：

一個(gè)預(yù)先訓(xùn)練好的文本編碼器
一個(gè)UNet噪聲預(yù)測(cè)器
一個(gè)可變的自動(dòng)編碼器-解碼器模型。解碼器還包含一個(gè)用于生成最終高分辨率圖像的Upsampler網(wǎng)絡(luò)。
但在訓(xùn)練和推理過(guò)程中，所有的組件都參與其中。在訓(xùn)練期間，使用編碼器、UNet和預(yù)訓(xùn)練的文本編碼器。而在推理過(guò)程中，預(yù)訓(xùn)練過(guò)的文本編碼器、UNet和解碼器都參與其中。

廣義上講，一個(gè)預(yù)訓(xùn)練的文本編碼器將文本提示轉(zhuǎn)換為embeddings。

UNet模型作為噪聲預(yù)測(cè)器作用于潛在的空間信息。

自動(dòng)編碼器-解碼器有兩個(gè)任務(wù)。編碼器從原始圖像像素生成潛空間信息，解碼器從文本條件的潛空間預(yù)測(cè)圖像。

Stable Diffusion-生式AI的新范式

Stable Diffusion 的pipeline

3. 訓(xùn)練 Stable Diffusion

訓(xùn)練Stable Diffusion模型包括三個(gè)階段（拋開反向傳播和所有數(shù)學(xué)上的東西）：

根據(jù)prompt創(chuàng)建 token embeddings。從訓(xùn)練的角度來(lái)看，我們將文本prompt稱為標(biāo)題。
用embeddings對(duì)UNet進(jìn)行調(diào)節(jié)。潛在空間是使用自動(dòng)編碼器模型的編碼器部分生成的。這被稱為文本條件的潛空間。
UNet會(huì)在潛在空間上工作。
從上述步驟中，UNet預(yù)測(cè)了添加到潛空間的噪聲，并試圖對(duì)其進(jìn)行去噪處理。

3.1 Text Encoder

一般來(lái)說(shuō)，在所有的擴(kuò)散模型中，Text Encoder是一個(gè)大型的預(yù)訓(xùn)練的transformer語(yǔ)言模型。
Stable Diffusion使用CLIP的預(yù)訓(xùn)練Text Encoder部分進(jìn)行文本編碼。它把提示詞作為輸入，并輸出77×768維的 token embedding。

在77個(gè)tokens，75個(gè)是來(lái)自prompt的text tokens ，1個(gè)為start token，另外1個(gè)為end token。

Stable Diffusion-生式AI的新范式
其他預(yù)訓(xùn)練的語(yǔ)言transformers模型，如T5和BERT也可以使用。但 "Stable Diffusion "使用CLIP。

3.2 UNet噪聲預(yù)測(cè)器

在UNet之前，autoencoder-decoder模型的編碼器部分將輸入圖像轉(zhuǎn)換為其潛在的表示。

現(xiàn)在，重要的是要記住，UNET只作用于編碼后的latent 空間，根本不處理原始圖像像素。當(dāng)然，它是以文字提示為條件的。將文本提示添加到潛空間的過(guò)程被稱為文本調(diào)節(jié)(text conditioning)。

Stable Diffusion-生式AI的新范式

圖5.帶有 text embedding 的噪聲調(diào)節(jié)

不僅僅是文本調(diào)節(jié)(text conditioning)， latent information也要經(jīng)過(guò)一個(gè)噪音添加步驟，如上文所述。

從所有上述信息中，UNet試圖預(yù)測(cè)添加到圖像中的噪聲。

Stable Diffusion-生式AI的新范式
但這還不是全部。UNet的架構(gòu)比這更復(fù)雜。它包含了用于殘差連接Residual layers和用于將文本信息合并到圖像的潛在空間的Attention layers。

Figure 7. Noise prediction with text conditioning in Stable Diffusion.

在合并merging步驟之后，殘余塊可以利用embedded信息去噪。

UNet輸出一個(gè)64×64（空間）維度的張量。

3.3 Autoencoder-Decoder 模型

如前所述，Autoencoder的編碼器encoder部分從原始圖像中創(chuàng)建潛伏空間。

最后，該模型的解碼器Decoder 部分負(fù)責(zé)生成最終圖像。

Stable Diffusion-生式AI的新范式

圖8.解碼器對(duì)64×64矢量進(jìn)行上采樣，生成最終的512×512維圖像

解碼器作用于4x64x64維的向量，生成3x512x512的圖像。原始的Stable Diffusion（直到2.0版）默認(rèn)生成512×512維的圖像。

3.4 訓(xùn)練Stable Diffusion的完整過(guò)程

正如最初的LDM論文中所示，整個(gè)過(guò)程可以總結(jié)為以下圖片。

Stable Diffusion-生式AI的新范式
我們可以看到，首先編碼器是如何將圖像編碼到一個(gè)潛伏空間中的（上半部分右側(cè)紅色塊）。并注意到我們?nèi)绾斡梦谋尽⒄Z(yǔ)義圖或甚至圖像來(lái)調(diào)節(jié)潛空間。

QKV塊代表了來(lái)自Transformer模型的交叉注意力。大的綠色塊顯示了UNet在潛空間上的工作，以預(yù)測(cè)噪音。

4 Stable Diffusion推理–從噪聲和提示中生成圖像

一旦我們有了訓(xùn)練好的Stable Diffusion模型，生成圖像就會(huì)經(jīng)歷一個(gè)與訓(xùn)練稍有不同的過(guò)程。

在推理過(guò)程中，我們最初并沒有圖像。相反，我們必須使用text prompt來(lái)生成一個(gè)。此外，我們不需要自動(dòng)autoencoder-decoder 網(wǎng)絡(luò)的編碼器部分。這就把推理部分歸結(jié)為以下內(nèi)容：

預(yù)訓(xùn)練的文本編碼器text encoder。
UNet噪聲預(yù)測(cè)器。
以及autoencoder-decoder網(wǎng)絡(luò)的解碼器部分。

4.1 從prompt中生成圖像的過(guò)程

我們不向圖像添加噪聲，而是直接從純高斯噪聲開始。然后Stable Diffusion對(duì)其進(jìn)行迭代去噪，生成最終的圖像。我們可以控制去噪步驟的數(shù)量，這被稱為采樣步驟。

如果是一個(gè)純擴(kuò)散模型（不以文本提示為條件），那么這個(gè)過(guò)程將類似于以下情況：
Stable Diffusion-生式AI的新范式
但在這里，我們有一個(gè)文本提示text prompt，而噪音需要以文本提示為條件。因此，這個(gè)過(guò)程看起來(lái)像這樣：

圖11.Stable Diffusion推理過(guò)程

除了輸入圖像和編碼器（我們不再需要了），其他每個(gè)組件都保持不變。

但是，我們?cè)谏厦嬲劦搅瞬蓸硬襟E。這在整個(gè)過(guò)程中是如何體現(xiàn)的呢？

這可以通過(guò)擴(kuò)展UNet和展示去噪過(guò)程來(lái)更好地解釋。

Stable Diffusion-生式AI的新范式
我們可以把上述過(guò)程稱為反向擴(kuò)散過(guò)程，因?yàn)樵撃Ｐ蛷脑肼曋猩闪藞D像。

4.2 一些實(shí)際考慮的問(wèn)題

下面是一些要點(diǎn)，以澄清關(guān)于推理階段的幾個(gè)概念：

輸入的提示不需要完全是75個(gè)字的長(zhǎng)度。我們也可以提供更短和更長(zhǎng)的提示。
在推理過(guò)程中，UNet仍然會(huì)生成一個(gè)空間尺寸為64×64的圖像。
autoencoder的解碼器部分既是一個(gè)上采樣器，也是一個(gè)超分辨率模型的組合。這就產(chǎn)生了最終的512×512的圖像。
從完全實(shí)用的角度來(lái)看，只要我們能負(fù)擔(dān)得起GPU的內(nèi)存，我們就可以生成任何分辨率的圖像。

5. Stable Diffusion的不同版本

在這里，我們將討論在眾多的Stable Diffusion中一些比較顯著的變化。

所有這些模型都是通過(guò)對(duì)基本的Stable Diffusion版本之一進(jìn)行微調(diào)而得到的。

5.1 Arcane Diffusion

這種Stable Diffusion的變體在電視節(jié)目《Arcane》的圖像上進(jìn)行了微調(diào)。

Stable Diffusion-生式AI的新范式
在給模型提示的風(fēng)格信息，就能生成對(duì)應(yīng)風(fēng)格的圖像。

5.2 Robo Diffusion

Stable Diffusion的機(jī)器人擴(kuò)散版本可以生成非常酷的機(jī)器人圖像。

Stable Diffusion-生式AI的新范式

5.3 Open Journey

Stable Diffusion-生式AI的新范式
與基本的Stable Diffusion相比，這些圖像更具藝術(shù)性和動(dòng)態(tài)性。Openjourney模型已經(jīng)在Midjourney的圖像輸出上進(jìn)行了訓(xùn)練。

5.4 動(dòng)漫效果

Stable Diffusion-生式AI的新范式

總結(jié)

在這篇文章中，我們介紹了穩(wěn)定擴(kuò)散的整個(gè)架構(gòu)。除了訓(xùn)練和推理之外，我們還介紹了穩(wěn)定擴(kuò)散的實(shí)際應(yīng)用效果。

正如你從這篇文章中所理解的那樣，開源模型（如Stable Diffusion）讓AI社區(qū)擴(kuò)大了使用范圍。從非常簡(jiǎn)單的角色開始，到不同藝術(shù)風(fēng)格的復(fù)雜角色，這些模型讓我們探索我們的創(chuàng)造力。此外，微調(diào)這些模型所需的計(jì)算量正在減少。幾乎任何擁有非常普通的消費(fèi)級(jí)GPU的人都可以微調(diào)穩(wěn)定擴(kuò)散模型。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-496639.html

到了這里，關(guān)于Stable Diffusion-生式AI的新范式的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Stable diffusion擴(kuò)散模型相關(guān)
時(shí)隔兩年半（2年4個(gè)月），我又回來(lái)研究生成技術(shù)了。以前學(xué)習(xí)研究GAN沒結(jié)果，不管是技術(shù)上，還是應(yīng)用產(chǎn)品上，結(jié)果就放棄了，現(xiàn)在基于diffusion的技術(shù)又把生成技術(shù)帶上了一個(gè)新的高度?，F(xiàn)在自己又來(lái)研究學(xué)習(xí)這方面的東西了。現(xiàn)在看來(lái)，以前還是自己自我定位不清晰，想
2024年01月17日
瀏覽(30)
【CV】穩(wěn)定擴(kuò)散模型（Stable Diffusion）
????大家好，我是Sonhhxg_柒，希望你看完之后，能對(duì)你有所幫助，不足請(qǐng)指正！共同學(xué)習(xí)交流?? ??個(gè)人主頁(yè)－Sonhhxg_柒的博客_CSDN博客??? ??歡迎各位→點(diǎn)贊?? + 收藏?? + 留言??? ??系列專欄 - 機(jī)器學(xué)習(xí)【ML】?自然語(yǔ)言處理【NLP】? 深度學(xué)習(xí)【DL】 ?? ???foreword
2024年02月09日
瀏覽(42)
Stable Diffusion擴(kuò)散模型 + Consistency一致性模型
通過(guò)估計(jì)數(shù)據(jù)分布梯度進(jìn)行生成建模一文解釋 Diffusion Model (一) DDPM 理論推導(dǎo) 隨著人工智能在圖像生成，文本生成以及多模態(tài)生成等生成領(lǐng)域的技術(shù)不斷累積，生成對(duì)抗網(wǎng)絡(luò)（GAN）、變微分自動(dòng)編碼器（VAE）、normalizing flow models、自回歸模型（AR）、energy-based models以及近年來(lái)
2024年02月09日
瀏覽(20)
Stable Diffusion生成式擴(kuò)散模型代碼實(shí)現(xiàn)原理
Stable Diffusion可以使用PyTorch或TensorFlow等深度學(xué)習(xí)框架來(lái)實(shí)現(xiàn)。這些框架提供了一系列的工具和函數(shù)，使得開發(fā)者可以更方便地構(gòu)建、訓(xùn)練和部署深度學(xué)習(xí)模型。因此可以使用PyTorch或TensorFlow來(lái)實(shí)現(xiàn)Stable Diffusion模型。安裝PyTorch：確保您已經(jīng)安裝了PyTorch，并具備基本的PyTorch使用
2024年03月13日
瀏覽(34)
【擴(kuò)散模型】12、Stable Diffusion | 使用 Diffusers 庫(kù)來(lái)看看 Stable Diffusion 的結(jié)構(gòu)
參考：HuggingFace 參考：https://jalammar.github.io/illustrated-stable-diffusion/ Stable Diffusion 這個(gè)模型架構(gòu)是由 Stability AI 公司推于2022年8月由 CompVis、Stability AI 和 LAION 的研究人員在 Latent Diffusion Model 的基礎(chǔ)上創(chuàng)建并推出的。其原型是（Latent Diffusion Model），一般的擴(kuò)散模型都需要直接在像
2024年01月18日
瀏覽(31)
【擴(kuò)散模型】11、Stable Diffusion | 使用 Diffusers 庫(kù)來(lái)看看 Stable Diffusion 的結(jié)構(gòu)
參考：HuggingFace 參考：https://jalammar.github.io/illustrated-stable-diffusion/ Stable Diffusion 這個(gè)模型架構(gòu)是由 Stability AI 公司推于2022年8月由 CompVis、Stability AI 和 LAION 的研究人員在 Latent Diffusion Model 的基礎(chǔ)上創(chuàng)建并推出的。其原型是（Latent Diffusion Model），一般的擴(kuò)散模型都需要直接在像
2024年01月16日
瀏覽(37)
擴(kuò)散模型實(shí)戰(zhàn)（十）：Stable Diffusion文本條件生成圖像大模型
?擴(kuò)散模型實(shí)戰(zhàn)（一）：基本原理介紹擴(kuò)散模型實(shí)戰(zhàn)（二）：擴(kuò)散模型的發(fā)展擴(kuò)散模型實(shí)戰(zhàn)（三）：擴(kuò)散模型的應(yīng)用擴(kuò)散模型實(shí)戰(zhàn)（四）：從零構(gòu)建擴(kuò)散模型擴(kuò)散模型實(shí)戰(zhàn)（五）：采樣過(guò)程擴(kuò)散模型實(shí)戰(zhàn)（六）：Diffusers DDPM初探擴(kuò)散模型實(shí)戰(zhàn)（七）：Diffusers蝴蝶圖像生成實(shí)
2024年02月03日
瀏覽(23)
文字轉(zhuǎn)圖片生成系統(tǒng)-Stable diffusion穩(wěn)定擴(kuò)散模型
二話不說(shuō)先上效果圖：（附帶代碼和模型資源文件）? 讓它畫一個(gè)超級(jí)汽車在海邊。。? 近期百度推出了文言一心，一個(gè)能回答問(wèn)題，能根據(jù)文字描述繪制圖片的服務(wù)，前期可能不太完善出現(xiàn)了一些失誤，不過(guò)這個(gè)idea還是相當(dāng)不錯(cuò)的 ? 這個(gè)東西挺好哈，作為文學(xué)創(chuàng)作，生成
2024年02月09日
瀏覽(27)
Stable Diffusion擴(kuò)散模型推導(dǎo)公式的基礎(chǔ)知識(shí)
A 和 B 是兩個(gè)獨(dú)立事件： ? Rightarrow ? P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P ( A ∣ B ) = P ( A ) ， P ( B ∣ A ) = P ( B ) P(B|A)=P(B) P ( B ∣ A ) = P ( B ) ， ? Rightarrow ? P ( A , B ∣ C ) = P ( A ∣ C ) P ( B ∣ C ) P(A,B|C)=P(A|C)P(B|C) P ( A , B ∣ C ) = P ( A ∣ C ) P ( B ∣ C ) 貝葉斯公式： P ( A ∣ B ) = P ( B ∣
2024年04月10日
瀏覽(28)
【擴(kuò)散模型】萬(wàn)字長(zhǎng)文全面理解與應(yīng)用Stable Diffusion
Stable Diffusion是一個(gè)強(qiáng)大的文本條件隱式擴(kuò)散模型（text-conditioned latent diffusion model），它具有根據(jù)文字描述生成精美圖片的能力。它不僅是一個(gè)完全開源的模型（代碼，數(shù)據(jù)，模型全部開源），而且是它的參數(shù)量只有 1B 左右，大部分人可以在普通的顯卡上進(jìn)行推理甚至精調(diào)模
2024年01月22日
瀏覽(21)