Stable Diffusion
Stable Diffusion用來文字生成圖片,ControlNet就是用來控制構(gòu)圖的,LoRA就是用來控制風(fēng)格的 。
stable-diffusion-webui
國內(nèi)加速官網(wǎng):
mirrors / AUTOMATIC1111 / stable-diffusion-webui · GitCode
安裝參考:
Stable Diffusion安裝與常見錯(cuò)誤(+Lora使用)2023年最新安裝教程_cycyc123的博客-CSDN博客
ComfyUI
保姆級教程:從0到1搭建Stable Diffusion XL完整工作流進(jìn)行AI繪畫_WeThinkIn的博客-CSDN博客
StableDiffusion模型資源探索食用指南 - 知乎
大模型
大模型特指標(biāo)準(zhǔn)的latent-diffusion模型。擁有完整的TextEncoder、U-Net、VAE。
由于想要訓(xùn)練一個(gè)大模型非常困難,需要極高的顯卡算力,所以絕大多數(shù)人不會訓(xùn)練大模型。
CKPT
經(jīng)過訓(xùn)練的圖片合集,被稱作模型,也就是chekpoint
CKPT的全稱為CheckPoint(檢查點(diǎn)),完整模型的常見格式,模型體積較大,一般真人版的單個(gè)模型的大小在7GB左右,動漫版的在2-5個(gè)G之間。
早期的CKPT后綴名是ckpt,如今新的CKPT后綴名都是safetensors
VAE
全稱:VAE全稱Variational autoencoder。變分自編碼器,負(fù)責(zé)將潛空間的數(shù)據(jù)轉(zhuǎn)換為正常圖像。
后綴格式:后綴一般為.pt格式。
Lora
是一種體積較小的繪畫模型,是對大模型的微調(diào)。與每次作畫只能選擇一個(gè)大模型不同,lora模型可以在已選擇大模型的基礎(chǔ)上添加一個(gè)甚至多個(gè)。一般體積在幾十到幾百兆左右。
Lora的后綴名也是safetensors,對于小白來說,容易和ckpt造成誤解,所以講一下如何安裝。
CKPT和lora的安裝
對于絕大部分用戶來說,主要用得到的模型文件就兩種,一種是CKPT,一種是lora。
最好的模型下載網(wǎng)站,是傳說中的C站,http://civitai.com(需科學(xué)上網(wǎng))。
CKPT的安裝路徑是models\stable-diffusion 拷貝過來即可使用(只需刷新,無需重啟服務(wù))。
./stable-diffusion-webui/models/Stable-diffusion
Loar的安裝路徑容易搞錯(cuò),Stable Diffusion的安裝目錄下默認(rèn)有個(gè)models\lora ,但很多教程都提醒并非這個(gè)lora目錄,
.stable-diffusion-webui/models/Lora
而是另一個(gè):extensions\sd-webui-additional-networks\models\lora
然而事實(shí)上,默認(rèn)解壓縮好的Stable Diffusion是沒有后面這個(gè)路徑的,也不要手工創(chuàng)建,需要在Stable Diffusion的網(wǎng)頁界面進(jìn)行如下操作。
AI學(xué)習(xí)筆記|讓數(shù)字生命更真實(shí):模型(chekpoint)和微調(diào)模型(lora) - 知乎
Stable Diffusion XL
參考
深入淺出完整解析Stable Diffusion XL(SDXL)核心基礎(chǔ)知識 - 知乎
上表是Stable Diffusion XL與之前的Stable Diffusion系列的對比,從中可以看出,Stable DiffusionV1.4/1.5的U-Net參數(shù)量只有860M,就算是Stable DiffusionV2.0/2.1,其參數(shù)量也不過865M。但等到Stable Diffusion XL,U-Net模型(Base部分)參數(shù)量就增加到2.6B,參數(shù)量增加幅度達(dá)到了3倍左右。
目前能夠加載Stable Diffusion XL模型并進(jìn)行圖像生成的框架有四種:
-
ComfyUI框架
-
SD.Next框架
-
Stable Diffusion WebUI框架
-
diffusers框架
ControlNet
ControlNet是一種通過添加額外條件來控制擴(kuò)散模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。它提供了一種增強(qiáng)穩(wěn)定擴(kuò)散的方法,在文本到圖像生成過程中使用條件輸入,如涂鴉、邊緣映射、分割映射、pose關(guān)鍵點(diǎn)等。可以讓生成的圖像將更接近輸入圖像,這比傳統(tǒng)的圖像到圖像生成方法有了很大的改進(jìn)。
ControlNet 模型可以在使用小數(shù)據(jù)集進(jìn)行訓(xùn)練。然后整合任何預(yù)訓(xùn)練的穩(wěn)定擴(kuò)散模型來增強(qiáng)模型,來達(dá)到微調(diào)的目的。
- ControNet 的初始版本帶有以下預(yù)訓(xùn)練權(quán)重。??
- Canny edge — 黑色背景上帶有白色邊緣的單色圖像。
- Depth/Shallow areas — 灰度圖像,黑色代表深區(qū)域,白色代表淺區(qū)域。
- Normal map — 法線貼圖圖像。
- Semantic segmentation map——ADE20K 的分割圖像。
- HED edge ?— 黑色背景上帶有白色軟邊緣的單色圖像。
- Scribbles — 黑色背景上帶有白色輪廓的手繪單色涂鴉圖像。
- OpenPose (姿勢關(guān)鍵點(diǎn))— OpenPose 骨骼圖像。
- M-LSD ?— 僅由黑色背景上的白色直線組成的單色圖像。
參考
使用ControlNet 控制 Stable Diffusion-騰訊云開發(fā)者社區(qū)-騰訊云
ControlNet精準(zhǔn)控制AI繪畫教程 - 掘金
ControlNet詳細(xì)入門介紹 - 知乎
資源
https://lexica.art/
lexica.art?該網(wǎng)站擁有數(shù)百萬Stable Diffusion案例的文字描述和圖片,可以為大家提供足夠的創(chuàng)作靈感??梢蕴峁﹑romt靈感
https://civitai.com/
Civitai是一個(gè)聚集AI繪圖愛好者的社區(qū),在此網(wǎng)站上有許多定制化的模型,特別是對于3D、現(xiàn)實(shí)、人物和不同畫風(fēng)進(jìn)行了有針對性的訓(xùn)練。因此,當(dāng)您使用特定的模型生成特定主題的圖像時(shí),表現(xiàn)力會極大加強(qiáng)。
Hugging Face – The AI community building the future.
HuggingFace是一個(gè)專注于構(gòu)建、訓(xùn)練和部署最新模型的網(wǎng)站,這些模型由開發(fā)者個(gè)人完成訓(xùn)練并部署到專門的網(wǎng)站。文章來源:http://www.zghlxwxcb.cn/news/detail-695842.html
HuggingFace 是為 Stable Diffusion 構(gòu)建 AI 模型的創(chuàng)作者的首選平臺。截止目前平臺上有上百個(gè)與 Stable Diffusion 相關(guān)的模型。文章來源地址http://www.zghlxwxcb.cn/news/detail-695842.html
到了這里,關(guān)于Stable Diffusion stable-diffusion-webui開發(fā)筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!