国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion

這篇具有很好參考價(jià)值的文章主要介紹了零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

前言

前面一篇文章主要講了擴(kuò)散模型的理論基礎(chǔ),還沒看過上篇的小伙伴可以點(diǎn)擊查看:DDPM理論基礎(chǔ)。這篇我們主要講一下一經(jīng)推出,就火爆全網(wǎng)的Stable Diffusion模型。Stable Diffusion因其免費(fèi),開源,生成圖像質(zhì)量高等優(yōu)點(diǎn),一經(jīng)推出,就火爆全網(wǎng),后面stable-diffusion-webui的推出,更是降低了使用Stable Diffusion模型作畫的門檻,一時(shí)刷爆了整個(gè)社區(qū)。今天筆者詳細(xì)的帶大家看一下Stable Diffusion背后的原理。

Diffusion模型

這里為了讓大家更好的理解Stable Diffusion模型,我們先來(lái)簡(jiǎn)單介紹一下Diffusion模型。下圖展示了diffusion模型在訓(xùn)練和推理的過程。從圖中可以看出,擴(kuò)散過程主要包括幾個(gè)主要的模型,分別是text encoder(文本編碼器),unet,image decoder(圖像解碼器)。其中,text encoder的作用主要是將輸入的文本,即prompt,編碼為token embeddings,這個(gè)token embeddings就是代表文本的一個(gè)個(gè)向量。這一個(gè)個(gè)文本向量會(huì)通過某種方式注入到unet中,用來(lái)控制unet生成符合文本描述的圖像。

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺

推理過程

在推理階段,擴(kuò)散過程是一個(gè)多步去噪的過程,主要就是一個(gè)unet網(wǎng)絡(luò)結(jié)構(gòu),其輸入和輸出具有相同的形狀,輸入為含噪聲的圖像和時(shí)間戳 t t t,輸出為圖像上添加的噪聲,進(jìn)而得到去掉該噪聲的圖像。就這樣經(jīng)過unet的一步步去噪,逐步生成一個(gè)不含噪聲的,符合文本描述的圖像。有很多人會(huì)問,為什么不直接一步預(yù)測(cè)出噪聲,然后直接將該噪聲去掉,生成不含噪聲的圖像呢?其實(shí)這樣的話,噪聲很大,網(wǎng)絡(luò)很難預(yù)測(cè)出準(zhǔn)確的噪聲分布。上圖中的N即擴(kuò)散過程執(zhí)行的步數(shù),該參數(shù)可以由我們自己指定,一般步數(shù)設(shè)置的越大,生成的圖像會(huì)越精細(xì)。經(jīng)過擴(kuò)散過程后會(huì)生成低分辨率的,不含噪聲的圖像,為了生成更高分辨率的圖像,這時(shí)就會(huì)在后面再接一個(gè)image decoder,用來(lái)擴(kuò)大圖像的分辨率,image decoder輸出的圖像即為最后我們想要的高分辨率圖像。

文本特征主要是通過cross attention模塊加入的,我們來(lái)大致拆解一下unet內(nèi)部的網(wǎng)絡(luò)結(jié)構(gòu)。如下圖,unet內(nèi)部主要是由多個(gè)resnet block和attention模塊組成的,兩者交替出現(xiàn)。每一個(gè)attention模塊接受resnet block輸出的圖像特征和文本特征向量作為輸入,將兩種特征進(jìn)行融合,從而達(dá)到以文本為條件,控制圖像生成的目的。

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺

attention內(nèi)部的計(jì)算過程如下圖。圖像特征和文本特征分別通過三個(gè)參數(shù)矩陣映射到Q,K,V,然后Q與K的轉(zhuǎn)置點(diǎn)乘除以scale因子后經(jīng)過softmax計(jì)算,最后點(diǎn)乘V,得到最后的特征。當(dāng)然現(xiàn)在都是基于multi-head的多頭attention操作,multi-head只是多次執(zhí)行下面的操作,得到多個(gè) Z i Z^i Zi,最后再將 Z i Z^i Zi拼接在一起,經(jīng)過最后一個(gè)參數(shù)矩陣映射得到最終的 Z Z Z。

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺

訓(xùn)練過程

diffusion模型的訓(xùn)練過程主要涉及unet網(wǎng)絡(luò)的學(xué)習(xí),需要讓unet具備能力:
給它輸入一張含噪圖像,unet能夠預(yù)測(cè)出含噪圖像上的噪聲。
這樣我們就可以去掉含噪圖像上的噪聲,得到一張干凈的、不含噪聲的圖像。訓(xùn)練數(shù)據(jù)的構(gòu)造如下圖:

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺

首先第一步,選擇一張圖片;第二步,隨機(jī)生成一個(gè)基礎(chǔ)噪聲;第三步從0到 T T T的時(shí)間范圍內(nèi),隨機(jī)選擇一個(gè)時(shí)間戳 t t t,通過 t t t和基礎(chǔ)噪聲計(jì)算出最終要添加的噪聲,時(shí)間戳 t t t越大,代表噪聲添加的次數(shù)越多,也即添加噪聲的強(qiáng)度越大。第四步就是將第三步生成的噪聲加到圖像上,得到一個(gè)含噪聲的圖像。此時(shí),步驟四中得到的含噪圖像作為unet網(wǎng)絡(luò)的輸入,步驟三生成的噪聲作為unet學(xué)習(xí)的目標(biāo),用來(lái)訓(xùn)練unet網(wǎng)絡(luò)。

通過上面的1,2,3,4步,我們可以生成很多訓(xùn)練數(shù)據(jù),訓(xùn)練過程中就是不斷將訓(xùn)練數(shù)據(jù)喂給unet,讓其自主學(xué)習(xí)如何預(yù)測(cè)出含噪圖像上的噪聲,以達(dá)到去噪的目的。

Stable Diffusion模型

stable diffusion的最大貢獻(xiàn)就是沒有直接在像素空間進(jìn)行圖像的加噪和去噪,而是先將圖像進(jìn)行壓縮(下采樣),壓縮到一個(gè)圖像表征維度更低的隱空間(latent),然后在隱空間中進(jìn)行擴(kuò)散過程,這不僅加快了擴(kuò)散過程的速度,同時(shí)減少了計(jì)算資源的消耗,而且在隱空間中操作依然能夠保證生成圖像的質(zhì)量。舉個(gè)例子,如果原圖像的分辨率是256x256,現(xiàn)在將它下采樣8倍,到32x32,那么在32x32分辨率的圖像上操作肯定比直接在256x256分辨率的圖像上操作更快且節(jié)省資源。256x256分辨率的原圖即為像素空間特征,壓縮后的32x32分辨率的圖就是隱空間特征。

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺

stable diffusion模型在推理和訓(xùn)練階段的流程圖如上圖所示。與diffusion模型相比,最大的變化就是在推理階段,擴(kuò)散過程的輸入由原來(lái)的隨機(jī)噪聲圖像image變成了隨機(jī)噪聲latent,其實(shí)兩者本質(zhì)上都是純?cè)肼?,只不過latent的分辨率比image的分辨率低,所以經(jīng)過擴(kuò)散過程生成的latent(Generated low resolution latent)也要比生成的image(Generated low resolution image)分辨率低,如果stable diffusion最終要生成與diffusion模型相同分辨率的圖像的話,這里image decoder的放大倍率就要更大。
那么在訓(xùn)練階段,主要進(jìn)行前向過程,也就是給圖像加噪聲。下圖就是stable diffusion生成訓(xùn)練數(shù)據(jù)的過程。可見,和diffusion相比,只是多了一步將原圖壓縮到latent的過程,后面的添加噪聲都是在latent上進(jìn)行的。

零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺

下面我們放一張stable diffusion論文中的原圖。
零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion,stable diffusion,AIGC,人工智能,計(jì)算機(jī)視覺
其中 E \mathcal E E為圖像編碼器,用來(lái)壓縮圖像尺寸, D \mathcal D D為圖像解碼器用來(lái)恢復(fù)圖像尺寸。圖中的Diffusion Process即為前向過程,原圖像 x x x經(jīng)過編碼器 E \mathcal E E壓縮到隱空間 z z z后,在 z z z上進(jìn)行加噪,生成 z T z_T zT?。生成過程為逆向過程,給定隱空間噪聲,經(jīng)過多步去噪,生成不含噪聲的壓縮后的 z z z,再經(jīng)過圖像解碼器恢復(fù)原始圖像的尺寸。

參考

https://www.cnblogs.com/gczr/p/14693829.html
https://jalammar.github.io/illustrated-stable-diffusion/
https://readpaper.com/pdf-annotate/note?pdfId=4665140328076951553&noteId=1834381375833065728文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-642131.html

到了這里,關(guān)于零基礎(chǔ)看懂免費(fèi)開源的Stable Diffusion的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Stable diffusion模型大合集(18個(gè))免費(fèi)下載

    Stable diffusion模型大合集(18個(gè))免費(fèi)下載

    RealDosMix ChilloutMix DDicon Lyriel Realistic Vision V2.0 國(guó)風(fēng)3 hanfu 漢服 fking_scifi_v2 Dreamlike Photoreal 2.0 墨心 MoXin 小人書?連環(huán)畫 blindbox/大概是盲盒 epi_noiseoffset Miniature world style XP 3D: C4D,3D style on Midjourney 沁彩 Colorwater majicMIX realistic XXMix realistic 介紹:真人模型 ? ?下載地址:https://pan.qu

    2024年02月13日
    瀏覽(27)
  • 免費(fèi)搭建個(gè)人stable-diffusion繪畫(干貨教程)

    免費(fèi)搭建個(gè)人stable-diffusion繪畫(干貨教程)

    目前AI繪畫主流的模型有Midjourney、Stable Diffusion、DALL·E,最火的當(dāng)屬M(fèi)idjorney和Stable Diffusion,但是由于Midjourney沒有開源且要付費(fèi),我今天主要分享Stable Diffusion的部署和使用方法的分享。 大家應(yīng)該面對(duì)的一個(gè)不可避免的問題,就是本身電腦的局限性,比如顯卡,比如GPU,比如磁盤

    2024年02月09日
    瀏覽(95)
  • 開源 AI庫(kù)Stable Diffusion 介紹

    Stable Diffusion 是一個(gè)用于生成高質(zhì)量 AI 繪畫的 Python 庫(kù),以下是一些使用 Stable Diffusion 的基本步驟: 安裝 Stable Diffusion 庫(kù)。您可以使用 pip 安裝,命令如下: 準(zhǔn)備模型和輸入圖像。Stable Diffusion 提供了一些預(yù)訓(xùn)練模型,可以用于生成 AI 繪畫。您還需要準(zhǔn)備一張輸入圖像,該圖

    2024年02月12日
    瀏覽(22)
  • Stable Diffusion免費(fèi)(三個(gè)月)通過阿里云輕松部署服務(wù)

    Stable Diffusion免費(fèi)(三個(gè)月)通過阿里云輕松部署服務(wù)

    今天偶然間看到了阿里云官網(wǎng)的這個(gè),就來(lái)嘗試了一下,果然香碰碰,接下來(lái)三個(gè)月可以好好愉快的來(lái)玩耍了。 1、申請(qǐng)阿里云免費(fèi)試用三個(gè)月,入口如下: 函數(shù)計(jì)算FC_無(wú)服務(wù)器計(jì)算_Serverless_容器與中間件-阿里云 阿里云函數(shù)計(jì)算(Function Compute)是一個(gè)事件驅(qū)動(dòng)的全托管計(jì)算服

    2023年04月25日
    瀏覽(87)
  • 如何免費(fèi)使用 Stable-Diffusion AI 繪畫服務(wù)

    如何免費(fèi)使用 Stable-Diffusion AI 繪畫服務(wù)

    最近一直有朋友問我,自己設(shè)備配置不行怎么使用 Stable-Diffusion,問我有沒有共享的 Stable-Diffusion AI 繪畫服務(wù)能體驗(yàn)一下,付費(fèi)也行。說實(shí)話聽到付費(fèi)我確實(shí)心動(dòng)了,但我的機(jī)器作一次圖 30s 起步,而付費(fèi)的云服務(wù)器動(dòng)輒一個(gè)月 4k+,只好抑制住這份心動(dòng)。 但是總有辦法的。

    2024年02月10日
    瀏覽(34)
  • 基于LoRA微調(diào)部署Stable Diffusion【免費(fèi)試用阿里云】

    基于LoRA微調(diào)部署Stable Diffusion【免費(fèi)試用阿里云】

    Stable Diffusion 是一種文本到圖像的潛在擴(kuò)散模型,由 Runway 和慕尼黑大學(xué)合作構(gòu)建,第一個(gè)版本于 2021 年發(fā)布。目前主流版本包含 v1.5、v2和v2.1。它主要用于生成以文本描述為條件的詳細(xì)圖像,也應(yīng)用于其他任務(wù),如修復(fù)圖像、生成受文本提示引導(dǎo)的圖像到圖像的轉(zhuǎn)換等。 體驗(yàn)

    2024年02月13日
    瀏覽(32)
  • Stable Diffusion 開源模型 SDXL 1.0 發(fā)布

    Stable Diffusion 開源模型 SDXL 1.0 發(fā)布

    關(guān)于 SDXL 模型,之前寫過兩篇: Stable Diffusion即將發(fā)布全新版本 Stable Diffusion XL 帶來(lái)哪些新東西? 一晃四個(gè)月的時(shí)間過去了,Stability AI 團(tuán)隊(duì)終于發(fā)布了 SDXL 1.0。當(dāng)然在這中間發(fā)布過幾個(gè)中間版本,分別是 SDXL beta 和 SDXL 0.9。相較于 SDXL 0.9 的僅供研究的版本,這次的完整版本進(jìn)

    2024年02月15日
    瀏覽(30)
  • 可用于Stable Diffusion免費(fèi)的AI繪畫標(biāo)簽生成器

    可用于Stable Diffusion免費(fèi)的AI繪畫標(biāo)簽生成器

    這是一個(gè)開源項(xiàng)目,借花獻(xiàn)佛,基于原作者的基礎(chǔ)上進(jìn)行了微調(diào)還有以及修改內(nèi)容。 支持中英文,權(quán)重以及xxxx詞匯,老司機(jī)都懂。 直接可在右側(cè)根據(jù)需求進(jìn)行點(diǎn)選操作,然后復(fù)制到自己的Stable Diffusion中進(jìn)行AI繪畫。 下載壓縮包 百度云盤 夸克云盤 安裝nmp,如果你機(jī)器有的話

    2024年02月09日
    瀏覽(90)
  • 使用阿里云免費(fèi)Serverless函數(shù)計(jì)算產(chǎn)品資源安裝 Stable Diffusion

    使用阿里云免費(fèi)Serverless函數(shù)計(jì)算產(chǎn)品資源安裝 Stable Diffusion

    喜歡用 Stable Diffusion 的小伙伴注意了!上一篇介紹了使用谷歌的 Colab 免費(fèi)資源來(lái)安裝這個(gè)畫圖神器。 但因?yàn)橘Y源是免費(fèi)的,高峰時(shí)期有可能會(huì)被谷歌斷掉服務(wù)的連接,像周末這種使用高峰,GPU 的資源得不到保證。 沒關(guān)系,今天我們來(lái)介紹一個(gè)更靠譜的安裝方法,讓你隨時(shí)隨

    2024年02月09日
    瀏覽(90)
  • 自制開源的 Midjourney、Stable Diffusion “咒語(yǔ)”作圖工具

    自制開源的 Midjourney、Stable Diffusion “咒語(yǔ)”作圖工具

    本篇文章聊聊如何通過 Docker 和八十行左右的 Python 代碼,實(shí)現(xiàn)一款類似 Midjourney 官方圖片解析功能 Describe 的 Prompt 工具。 讓你在玩 Midjourney、Stable Diffusion 這類模型時(shí),不再為生成 Prompt 描述撓頭。 本文將提供兩個(gè)版本的工具,分別支持 CPU 和 GPU 推理使用,如果你有一張大于

    2024年02月09日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包