国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion

2年前作者：楚沐向陽(yáng)分類：Toy博客閱讀(13)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

前言

前面一篇文章主要講了擴(kuò)散模型的理論基礎(chǔ)，還沒看過上篇的小伙伴可以點(diǎn)擊查看：DDPM理論基礎(chǔ)。這篇我們主要講一下一經(jīng)推出，就火爆全網(wǎng)的Stable Diffusion模型。Stable Diffusion因其免費(fèi)，開源，生成圖像質(zhì)量高等優(yōu)點(diǎn)，一經(jīng)推出，就火爆全網(wǎng)，后面stable-diffusion-webui的推出，更是降低了使用Stable Diffusion模型作畫的門檻，一時(shí)刷爆了整個(gè)社區(qū)。今天筆者詳細(xì)的帶大家看一下Stable Diffusion背后的原理。

Diffusion模型

這里為了讓大家更好的理解Stable Diffusion模型，我們先來(lái)簡(jiǎn)單介紹一下Diffusion模型。下圖展示了diffusion模型在訓(xùn)練和推理的過程。從圖中可以看出，擴(kuò)散過程主要包括幾個(gè)主要的模型，分別是text encoder(文本編碼器)，unet，image decoder(圖像解碼器)。其中，text encoder的作用主要是將輸入的文本，即prompt，編碼為token embeddings，這個(gè)token embeddings就是代表文本的一個(gè)個(gè)向量。這一個(gè)個(gè)文本向量會(huì)通過某種方式注入到unet中，用來(lái)控制unet生成符合文本描述的圖像。

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺

推理過程

在推理階段，擴(kuò)散過程是一個(gè)多步去噪的過程，主要就是一個(gè)unet網(wǎng)絡(luò)結(jié)構(gòu)，其輸入和輸出具有相同的形狀，輸入為含噪聲的圖像和時(shí)間戳 $t$ ，輸出為圖像上添加的噪聲，進(jìn)而得到去掉該噪聲的圖像。就這樣經(jīng)過unet的一步步去噪，逐步生成一個(gè)不含噪聲的，符合文本描述的圖像。有很多人會(huì)問，為什么不直接一步預(yù)測(cè)出噪聲，然后直接將該噪聲去掉，生成不含噪聲的圖像呢？其實(shí)這樣的話，噪聲很大，網(wǎng)絡(luò)很難預(yù)測(cè)出準(zhǔn)確的噪聲分布。上圖中的N即擴(kuò)散過程執(zhí)行的步數(shù)，該參數(shù)可以由我們自己指定，一般步數(shù)設(shè)置的越大，生成的圖像會(huì)越精細(xì)。經(jīng)過擴(kuò)散過程后會(huì)生成低分辨率的，不含噪聲的圖像，為了生成更高分辨率的圖像，這時(shí)就會(huì)在后面再接一個(gè)image decoder，用來(lái)擴(kuò)大圖像的分辨率，image decoder輸出的圖像即為最后我們想要的高分辨率圖像。

文本特征主要是通過cross attention模塊加入的，我們來(lái)大致拆解一下unet內(nèi)部的網(wǎng)絡(luò)結(jié)構(gòu)。如下圖，unet內(nèi)部主要是由多個(gè)resnet block和attention模塊組成的，兩者交替出現(xiàn)。每一個(gè)attention模塊接受resnet block輸出的圖像特征和文本特征向量作為輸入，將兩種特征進(jìn)行融合，從而達(dá)到以文本為條件，控制圖像生成的目的。

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺

attention內(nèi)部的計(jì)算過程如下圖。圖像特征和文本特征分別通過三個(gè)參數(shù)矩陣映射到Q，K，V，然后Q與K的轉(zhuǎn)置點(diǎn)乘除以scale因子后經(jīng)過softmax計(jì)算，最后點(diǎn)乘V，得到最后的特征。當(dāng)然現(xiàn)在都是基于multi-head的多頭attention操作，multi-head只是多次執(zhí)行下面的操作，得到多個(gè) $Z^i$ ，最后再將 $Z^i$ 拼接在一起，經(jīng)過最后一個(gè)參數(shù)矩陣映射得到最終的 $Z$ 。

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺

訓(xùn)練過程

diffusion模型的訓(xùn)練過程主要涉及unet網(wǎng)絡(luò)的學(xué)習(xí)，需要讓unet具備能力：
給它輸入一張含噪圖像，unet能夠預(yù)測(cè)出含噪圖像上的噪聲。
這樣我們就可以去掉含噪圖像上的噪聲，得到一張干凈的、不含噪聲的圖像。訓(xùn)練數(shù)據(jù)的構(gòu)造如下圖：

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺

首先第一步，選擇一張圖片；第二步，隨機(jī)生成一個(gè)基礎(chǔ)噪聲；第三步從0到 $T$ 的時(shí)間范圍內(nèi)，隨機(jī)選擇一個(gè)時(shí)間戳 $t$ ，通過 $t$ 和基礎(chǔ)噪聲計(jì)算出最終要添加的噪聲，時(shí)間戳 $t$ 越大，代表噪聲添加的次數(shù)越多，也即添加噪聲的強(qiáng)度越大。第四步就是將第三步生成的噪聲加到圖像上，得到一個(gè)含噪聲的圖像。此時(shí)，步驟四中得到的含噪圖像作為unet網(wǎng)絡(luò)的輸入，步驟三生成的噪聲作為unet學(xué)習(xí)的目標(biāo)，用來(lái)訓(xùn)練unet網(wǎng)絡(luò)。

通過上面的1,2,3,4步，我們可以生成很多訓(xùn)練數(shù)據(jù)，訓(xùn)練過程中就是不斷將訓(xùn)練數(shù)據(jù)喂給unet，讓其自主學(xué)習(xí)如何預(yù)測(cè)出含噪圖像上的噪聲，以達(dá)到去噪的目的。

Stable Diffusion模型

stable diffusion的最大貢獻(xiàn)就是沒有直接在像素空間進(jìn)行圖像的加噪和去噪，而是先將圖像進(jìn)行壓縮（下采樣），壓縮到一個(gè)圖像表征維度更低的隱空間(latent)，然后在隱空間中進(jìn)行擴(kuò)散過程，這不僅加快了擴(kuò)散過程的速度，同時(shí)減少了計(jì)算資源的消耗，而且在隱空間中操作依然能夠保證生成圖像的質(zhì)量。舉個(gè)例子，如果原圖像的分辨率是256x256，現(xiàn)在將它下采樣8倍，到32x32，那么在32x32分辨率的圖像上操作肯定比直接在256x256分辨率的圖像上操作更快且節(jié)省資源。256x256分辨率的原圖即為像素空間特征，壓縮后的32x32分辨率的圖就是隱空間特征。

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺

stable diffusion模型在推理和訓(xùn)練階段的流程圖如上圖所示。與diffusion模型相比，最大的變化就是在推理階段，擴(kuò)散過程的輸入由原來(lái)的隨機(jī)噪聲圖像image變成了隨機(jī)噪聲latent，其實(shí)兩者本質(zhì)上都是純?cè)肼?，只不過latent的分辨率比image的分辨率低，所以經(jīng)過擴(kuò)散過程生成的latent(Generated low resolution latent)也要比生成的image(Generated low resolution image)分辨率低，如果stable diffusion最終要生成與diffusion模型相同分辨率的圖像的話，這里image decoder的放大倍率就要更大。
那么在訓(xùn)練階段，主要進(jìn)行前向過程，也就是給圖像加噪聲。下圖就是stable diffusion生成訓(xùn)練數(shù)據(jù)的過程。可見，和diffusion相比，只是多了一步將原圖壓縮到latent的過程，后面的添加噪聲都是在latent上進(jìn)行的。

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺

下面我們放一張stable diffusion論文中的原圖。
零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺
其中 $\mathcal E$ 為圖像編碼器，用來(lái)壓縮圖像尺寸， $\mathcal D$ 為圖像解碼器用來(lái)恢復(fù)圖像尺寸。圖中的Diffusion Process即為前向過程，原圖像 $x$ 經(jīng)過編碼器 $\mathcal E$ 壓縮到隱空間 $z$ 后，在 $z$ 上進(jìn)行加噪，生成 $z_T$ 。生成過程為逆向過程，給定隱空間噪聲，經(jīng)過多步去噪，生成不含噪聲的壓縮后的 $z$ ，再經(jīng)過圖像解碼器恢復(fù)原始圖像的尺寸。

參考

https://www.cnblogs.com/gczr/p/14693829.html
https://jalammar.github.io/illustrated-stable-diffusion/
https://readpaper.com/pdf-annotate/note?pdfId=4665140328076951553&noteId=1834381375833065728文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-642131.html

到了這里，關(guān)于零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Stable diffusion模型大合集（18個(gè)）免費(fèi)下載
RealDosMix ChilloutMix DDicon Lyriel Realistic Vision V2.0 國(guó)風(fēng)3 hanfu 漢服 fking_scifi_v2 Dreamlike Photoreal 2.0 墨心 MoXin 小人書?連環(huán)畫 blindbox/大概是盲盒 epi_noiseoffset Miniature world style XP 3D: C4D,3D style on Midjourney 沁彩 Colorwater majicMIX realistic XXMix realistic 介紹：真人模型 ? ?下載地址：https://pan.qu
2024年02月13日
瀏覽(27)
免費(fèi)搭建個(gè)人stable-diffusion繪畫(干貨教程)
目前AI繪畫主流的模型有Midjourney、Stable Diffusion、DALL·E，最火的當(dāng)屬M(fèi)idjorney和Stable Diffusion，但是由于Midjourney沒有開源且要付費(fèi)，我今天主要分享Stable Diffusion的部署和使用方法的分享。大家應(yīng)該面對(duì)的一個(gè)不可避免的問題，就是本身電腦的局限性，比如顯卡，比如GPU,比如磁盤
2024年02月09日
瀏覽(95)
開源 AI庫(kù)Stable Diffusion 介紹
Stable Diffusion 是一個(gè)用于生成高質(zhì)量 AI 繪畫的 Python 庫(kù)，以下是一些使用 Stable Diffusion 的基本步驟：安裝 Stable Diffusion 庫(kù)。您可以使用 pip 安裝，命令如下：準(zhǔn)備模型和輸入圖像。Stable Diffusion 提供了一些預(yù)訓(xùn)練模型，可以用于生成 AI 繪畫。您還需要準(zhǔn)備一張輸入圖像，該圖
2024年02月12日
瀏覽(22)
Stable Diffusion免費(fèi)（三個(gè)月）通過阿里云輕松部署服務(wù)
今天偶然間看到了阿里云官網(wǎng)的這個(gè)，就來(lái)嘗試了一下，果然香碰碰，接下來(lái)三個(gè)月可以好好愉快的來(lái)玩耍了。 1、申請(qǐng)阿里云免費(fèi)試用三個(gè)月，入口如下: 函數(shù)計(jì)算FC_無(wú)服務(wù)器計(jì)算_Serverless_容器與中間件-阿里云阿里云函數(shù)計(jì)算（Function Compute）是一個(gè)事件驅(qū)動(dòng)的全托管計(jì)算服
2023年04月25日
瀏覽(87)
如何免費(fèi)使用 Stable-Diffusion AI 繪畫服務(wù)
最近一直有朋友問我，自己設(shè)備配置不行怎么使用 Stable-Diffusion，問我有沒有共享的 Stable-Diffusion AI 繪畫服務(wù)能體驗(yàn)一下，付費(fèi)也行。說實(shí)話聽到付費(fèi)我確實(shí)心動(dòng)了，但我的機(jī)器作一次圖 30s 起步，而付費(fèi)的云服務(wù)器動(dòng)輒一個(gè)月 4k+，只好抑制住這份心動(dòng)。但是總有辦法的。
2024年02月10日
瀏覽(34)
基于LoRA微調(diào)部署Stable Diffusion【免費(fèi)試用阿里云】
Stable Diffusion 是一種文本到圖像的潛在擴(kuò)散模型，由 Runway 和慕尼黑大學(xué)合作構(gòu)建，第一個(gè)版本于 2021 年發(fā)布。目前主流版本包含 v1.5、v2和v2.1。它主要用于生成以文本描述為條件的詳細(xì)圖像，也應(yīng)用于其他任務(wù)，如修復(fù)圖像、生成受文本提示引導(dǎo)的圖像到圖像的轉(zhuǎn)換等。體驗(yàn)
2024年02月13日
瀏覽(32)
Stable Diffusion 開源模型 SDXL 1.0 發(fā)布
關(guān)于 SDXL 模型，之前寫過兩篇： Stable Diffusion即將發(fā)布全新版本 Stable Diffusion XL 帶來(lái)哪些新東西？一晃四個(gè)月的時(shí)間過去了，Stability AI 團(tuán)隊(duì)終于發(fā)布了 SDXL 1.0。當(dāng)然在這中間發(fā)布過幾個(gè)中間版本，分別是 SDXL beta 和 SDXL 0.9。相較于 SDXL 0.9 的僅供研究的版本，這次的完整版本進(jìn)
2024年02月15日
瀏覽(30)
可用于Stable Diffusion免費(fèi)的AI繪畫標(biāo)簽生成器
這是一個(gè)開源項(xiàng)目，借花獻(xiàn)佛，基于原作者的基礎(chǔ)上進(jìn)行了微調(diào)還有以及修改內(nèi)容。支持中英文，權(quán)重以及xxxx詞匯，老司機(jī)都懂。直接可在右側(cè)根據(jù)需求進(jìn)行點(diǎn)選操作，然后復(fù)制到自己的Stable Diffusion中進(jìn)行AI繪畫。下載壓縮包百度云盤夸克云盤安裝nmp，如果你機(jī)器有的話
2024年02月09日
瀏覽(90)
使用阿里云免費(fèi)Serverless函數(shù)計(jì)算產(chǎn)品資源安裝 Stable Diffusion
喜歡用 Stable Diffusion 的小伙伴注意了！上一篇介紹了使用谷歌的 Colab 免費(fèi)資源來(lái)安裝這個(gè)畫圖神器。但因?yàn)橘Y源是免費(fèi)的，高峰時(shí)期有可能會(huì)被谷歌斷掉服務(wù)的連接，像周末這種使用高峰，GPU 的資源得不到保證。沒關(guān)系，今天我們來(lái)介紹一個(gè)更靠譜的安裝方法，讓你隨時(shí)隨
2024年02月09日
瀏覽(90)
自制開源的 Midjourney、Stable Diffusion “咒語(yǔ)”作圖工具
本篇文章聊聊如何通過 Docker 和八十行左右的 Python 代碼，實(shí)現(xiàn)一款類似 Midjourney 官方圖片解析功能 Describe 的 Prompt 工具。讓你在玩 Midjourney、Stable Diffusion 這類模型時(shí)，不再為生成 Prompt 描述撓頭。本文將提供兩個(gè)版本的工具，分別支持 CPU 和 GPU 推理使用，如果你有一張大于
2024年02月09日
瀏覽(18)

<noscript id="a4vky"></noscript>