Stable Diffusion是一個(gè)基于Latent Diffusion Models(潛在擴(kuò)散模型,LDMs)的文圖生成(text-to-image)模型。具體來說,Stable Diffusion在 LAION-5B 的一個(gè)子集上訓(xùn)練了一個(gè)Latent Diffusion Models,該模型專門用于文圖生成。Latent Diffusion Models通過在一個(gè)潛在表示空間中迭代“去噪”數(shù)據(jù)來生成圖像,然后將表示結(jié)果解碼為完整的圖像,讓文圖生成能夠在消費(fèi)級GPU上,在10秒級別時(shí)間生成圖片,大大降低了落地門檻,也帶來了文圖生成領(lǐng)域的大火。
本文主要是解析不同種類的模型,其它內(nèi)容學(xué)習(xí)請點(diǎn)擊:
- 安裝及其問題解決參考:《Windows安裝Stable Diffusion WebUI及問題解決記錄》;
- 運(yùn)行使用時(shí)問題《Windows使用Stable Diffusion時(shí)遇到的各種問題整理》;
- 模型運(yùn)用及參數(shù)《Stable Diffusion 個(gè)人推薦的各種模型及設(shè)置參數(shù)、擴(kuò)展應(yīng)用等合集》;
- 提示詞生圖咒語《AI繪圖提示詞/咒語/詞綴/關(guān)鍵詞使用指南(Stable Diffusion Prompt 設(shè)計(jì)師操作手冊)》;
- 不同類的模型Models說明《解析不同種類的StableDiffusion模型Models》;
- 繪制人物動作及手腳細(xì)節(jié)《Stable Diffusion 準(zhǔn)確繪制人物動作及手腳細(xì)節(jié)(需ControlNet擴(kuò)展)》;
- 各種風(fēng)格對比及實(shí)際運(yùn)用《AI繪圖風(fēng)格對照表/畫風(fēng)樣稿詳細(xì)研究記錄及經(jīng)驗(yàn)總結(jié)》;
一、 checkpoint(主模型)
Checkpoint這個(gè)詞在不同的領(lǐng)域有不同的含義。在深度學(xué)習(xí)中,Checkpoint是用于描述在每次訓(xùn)練后保存模型參數(shù)(權(quán)重)的慣例或術(shù)語。這就像在游戲中保存關(guān)卡時(shí)你可以隨時(shí)通過加載保存文件回復(fù)游戲。你可以加載保存的模型權(quán)重重新開啟訓(xùn)練甚至可以之后進(jìn)行一個(gè)推理。
主模型形象一些理解的話就是畫師本身,而本文中的其它模型都是調(diào)整和優(yōu)化主模型的工具。
訓(xùn)練流程:
大意就是:
- 樣本圖片A出一張n級噪聲圖B和n-1噪聲圖C,
- 文本標(biāo)識和噪聲圖B結(jié)合生成圖D,
- 將C圖與D圖進(jìn)行比較,
- 如果成功就將n級噪聲降一級重復(fù)上面的步驟,直到最后一級噪聲圖。
- 如果失敗就返回第二步重新生成圖D。
是不是和我們?nèi)祟惖膶W(xué)習(xí)過程一樣?詞與圖像之間的關(guān)系從懵懂模糊到清晰明確。
二、 Embeding(文本轉(zhuǎn)換)
Embedding是指將自然語言文本(如句子或段落)轉(zhuǎn)換為計(jì)算機(jī)可以理解的數(shù)值向量表示形式的過程。這種向量表示法通常稱為嵌入(embedding),可以在許多自然語言處理(NLP)任務(wù)中使用,例如語言模型、情感分析、問答系統(tǒng)等。在Stable Diffusion中,您可以使用內(nèi)置的嵌入模型或創(chuàng)建自定義的嵌入模型來生成嵌入。
一文讀懂Embedding的概念,以及它和深度學(xué)習(xí)的關(guān)系
訓(xùn)練流程:
與checkpoint不同的就是失敗之后去修正文本標(biāo)識,通過不斷訓(xùn)練文本標(biāo)識的理解來最終達(dá)到正確出圖的目的。
依賴主模型,所以如果主模型與embeding不搭,那么效果將不盡如人意,就如同你讓油畫家來畫水墨畫,雖然他畫畫功底很好,但不會水墨畫,自然也難以達(dá)到預(yù)期效果。
三、 LoRA(勞拉)
在Stable Diffusion中,LoRA是一種用于微調(diào)大型語言模型的技術(shù),全稱為Low-Rank Adaptation of Large Language Models。
LoRA最初是為大模型提出的,并在transformer塊上進(jìn)行了演示,但該技術(shù)也可以應(yīng)用于其他地方。在微調(diào)Stable Diffusion的情況下,LoRA可以應(yīng)用于將圖像表示與描述它們的提示相關(guān)聯(lián)的交叉注意層。
訓(xùn)練流程:
四、 Hypernetwork(風(fēng)格化)
在Stable Diffusion中,Hypernetwork是一種用于訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)的技術(shù)。它是一種生成網(wǎng)絡(luò)的網(wǎng)絡(luò),可以通過它來生成其他網(wǎng)絡(luò)的權(quán)重。Hypernetwork可以用于生成描述圖像的提示的交叉注意層。
訓(xùn)練流程:
相比LoRA,多了一些步驟,不如LoRA那么短小精悍。
出圖更適合風(fēng)景,而不是特定具象的物體。
五、 AVE(特定)
在Stable Diffusion中,AVE是一種用于訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)的技術(shù)。它是一種生成網(wǎng)絡(luò)的網(wǎng)絡(luò),可以通過它來生成其他網(wǎng)絡(luò)的權(quán)重。在Stable Diffusion中,AVE可以用于生成描述圖像的提示的交叉注意層。
和Hypernetwork描述一致~~
Aesthetic Embedding
Aesthetic Gradient
Variational Autoencoder
大多數(shù)都融合在了主模型中,一般不會用到。
六、 目錄
五個(gè)模型對應(yīng)的目錄如下圖:文章來源:http://www.zghlxwxcb.cn/news/detail-418095.html
models/Stable-diffusion
該目錄就是主模型文件夾。文章來源地址http://www.zghlxwxcb.cn/news/detail-418095.html
到了這里,關(guān)于解析不同種類的StableDiffusion模型Models,再也不用擔(dān)心該用什么了的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!