型下載說明(下載模型后輸入對應(yīng)參數(shù)即可生成)
建議直接去civitai.com找模型,如果無法找到可以在幕后模型區(qū)找也可以去,
下載好后放入對應(yīng)的文件夾。進(jìn)入127.0.0.1:7680 左上角刷新即可看到新的模型。
模型種類
大模型
大模型特指標(biāo)準(zhǔn)的latent-diffusion
模型。擁有完整的TextEncoder
、U-Net
、VAE
。
由于想要訓(xùn)練一個大模型非常困難,需要極高的顯卡算力,所以更多的人選擇去訓(xùn)練小型模型。
CKPT
CKPT格式的全稱為CheckPoint
(檢查點),完整模型的常見格式,模型體積較大,一般單個模型的大小在7GB左右。
文件位置:該模型一般放置在*\stable-diffusion-webui\models\Stable-diffusion
目錄內(nèi)。
小模型
小模型一般都是截取大模型的某一特定部分,雖然不如大模型能力那樣完整,但是小而精,因為訓(xùn)練的方向各為明確,所以在生成特定內(nèi)容的情況下,效果更佳。
常見微調(diào)模型:Textual inversion (Embedding)
、Hypernetwork
、VAE
、LoRA
等,下面一一進(jìn)行介紹。
VAE
全稱:VAE全稱Variational autoencoder
。變分自編碼器,負(fù)責(zé)將潛空間的數(shù)據(jù)轉(zhuǎn)換為正常圖像。
后綴格式:后綴一般為.pt格式。
功能描述:類似于濾鏡一樣的東西,他會影響出圖的畫面的色彩和某些極其微小的細(xì)節(jié)。大模型本身里面自帶 VAE ,但是并不是所有大模型都適合使用VAE,VAE最好搭配指定的模型,避免出現(xiàn)反效果,降低生成質(zhì)量。
使用方法:設(shè)置 -> Stable-Diffusion -> 模型的 VAE (SD VAE)
,在該選項框內(nèi)選擇VAE模型。
文件位置:該模型一般放置在*\stable-diffusion-webui\models\VAE
目錄內(nèi)。
Embedding
常見格式為pt
、png
、webp
格式,文件體積一般只有幾KB。
風(fēng)格模型,即只針對一個風(fēng)格或一個主題,并將其作為一個模塊在生成畫作時使用對應(yīng)TAG在Prompt進(jìn)行調(diào)用。
使用方法:例如本站用數(shù)百張海綿寶寶
訓(xùn)練了一個Embedding模型,然后將該模型命名為HMBaby
,在使用AI繪圖時加載名稱為HMBaby
的Embedding模型,在使用Promat時加入HMBaby
的Tag關(guān)鍵字,SD將會自動調(diào)用該模型參與AI創(chuàng)作。
文件位置:該模型一般放置在*\stable-diffusion-webui\embeddings
目錄內(nèi)。
Hypernetwork
一般為.pt后綴格式,大小一般在幾十兆左右。這種模型的可自定義的參數(shù)非常之多。
使用方法:使用方法:在SD的文生圖或圖生圖界面內(nèi)的生成按鈕下,可以看到一個紅色的圖標(biāo),該圖標(biāo)名為Show extra networks(顯示額外網(wǎng)絡(luò))
,點擊該紅色圖標(biāo)將會在本頁彈出一個面板,在該面板中可以看到Hypernetwork選項卡
。
文件位置:該模型一般放置在*\stable-diffusion-webui\models\hypernetworks
目錄內(nèi)。
LoRA
LoRA的模型分兩種,一種是基礎(chǔ)模型,一種是變體。
目前最新版本的Stable-diffusion-WebUI原生支持Lora模型庫,非常方便使用。
使用方法:在SD的文生圖或圖生圖界面內(nèi)的生成按鈕下,可以看到一個紅色的圖標(biāo),該圖標(biāo)名為Show extra networks(顯示額外網(wǎng)絡(luò))
,點擊該紅色圖標(biāo)將會在本頁彈出一個面板,在該面板中可以看到Lora選項卡,在該選項卡中可以自由選擇Lora模型,點擊想要使用的模型將會自動在Prompt文本框中插入該Lora模型的Tag名稱。
基礎(chǔ)模型
名稱一般為chilloutmix*
,后綴可能為safetensors或CKPT。
基礎(chǔ)模型存放位置:*\stable-diffusion-webui\models\Stable-diffusion
目錄內(nèi)。
變體模型
變體模型存放位置:*\stable-diffusion-webui\models\Lora
目錄內(nèi)。
是放在extensions下的,sd-webui-additional-networks文件夾下的models文件夾里的lora?。?/p>
不是主文件夾下的models,別放錯了?。?!
模型后綴解析
格式 | 描述 |
---|---|
.ckpt | Pytorch的標(biāo)準(zhǔn)模型保存格式,容易遭受Pickle反序列化攻擊。 |
.pt | Pytorch的標(biāo)準(zhǔn)模型保存格式,容易遭受Pickle反序列化攻擊。 |
.pth | Pytorch的標(biāo)準(zhǔn)模型保存格式,容易遭受Pickle反序列化攻擊。 |
.safetensors | safetensors格式可與Pytorch的模型相互格式轉(zhuǎn)換,內(nèi)容數(shù)據(jù)無區(qū)別。 |
其它 | webui 特殊模型保存方法:PNG、WEBP圖片格式。 |
Safetensors格式
- Safetensors格式所生成的內(nèi)容與ckpt等格式完全一致(包括NFSW)。
- Safetensors格式擁有更高的安全性,
- Safetensors比ckpt格式加載速度更快
- 該格式必須在2023年之后的Stable Diffusion內(nèi)才可以使用,在此之間的SD版本內(nèi)使用將無法識別。
- Safetensors格式由Huggingface推出,將會逐漸取代ckpt、pt、pth等格式,使用方法上與其它格式完全一致。
Pickle反序列化攻擊
可以將字節(jié)流轉(zhuǎn)換為一個對象,但是當(dāng)我們程序接受任意輸入時,如果用戶的輸入包含一些惡意的序列化數(shù)據(jù),然后這些數(shù)據(jù)在服務(wù)器上被反序列化,服務(wù)器是在將用戶的輸入轉(zhuǎn)換為一個對象,之后服務(wù)器就會被任意代碼執(zhí)行。
模型訓(xùn)練
Embedding (Textual inversion)
可訓(xùn)練:畫風(fēng)√ 人物√ | 推薦訓(xùn)練:人物
配置要求:顯存6GB以上。
訓(xùn)練速度:中等 | 訓(xùn)練難度:中等
綜合評價:☆☆☆
Hypernetwork
可訓(xùn)練:畫風(fēng)√ 人物√ |?推薦訓(xùn)練:畫風(fēng)
配置要求:顯存6GB以上。
訓(xùn)練速度:中等 | 訓(xùn)練難度:難
綜合評價:☆☆
評價:非常強(qiáng)大的一種模型,但是想訓(xùn)練好很難,不推薦訓(xùn)練。
LoRA
可訓(xùn)練:畫風(fēng)??人物√? 概念√ |?推薦訓(xùn)練:人物
配置要求:顯存8GB以上。
訓(xùn)練速度:快?| 訓(xùn)練難度:簡單
綜合評價:☆☆☆☆
評價:非常好訓(xùn)練 好出效果的人物訓(xùn)練,配置要求低,圖要求少。
備注:LoRA 本身也應(yīng)該歸類到 Dreambooth,但是這里還是分開講。
Dreambooth / Native Train
可訓(xùn)練:畫風(fēng)√ 人物√ 概念√ |?推薦訓(xùn)練:Dreambooth 推薦人物,Native Train 推薦畫風(fēng)
配置要求:顯存12GB以上。
訓(xùn)練速度:慢 | 訓(xùn)練難度:可以簡單可以很難
綜合評價:☆☆☆☆☆
評價:微調(diào)大模型,非常強(qiáng)大的訓(xùn)練方式,但是使用上會不那么靈活,推薦訓(xùn)練畫風(fēng)用,人物使用 LoRA 訓(xùn)練。
DreamArtist
顯存要求6GB(4GB應(yīng)該也可以),只需要(也只能)使用一張圖完成訓(xùn)練,一般用于訓(xùn)練人物(畫風(fēng)沒法抓住主次),優(yōu)點是訓(xùn)練要求極低,成功率高,缺點是容易過擬合,并且不像Embedding可以跨模型應(yīng)用,這個訓(xùn)練時使用什么模型應(yīng)用時就要用什么,哪怕調(diào)一下CLIP參數(shù)生成結(jié)果都會完全跑飛。推薦每250步保存模型,后期用X/Y圖腳本進(jìn)行挑選。
模型后綴
倉庫內(nèi)一般存在多個模型文件,文件名后綴各不相同,這里簡單介紹下文件名常見后綴及其含義:
ControlNet
ControlNet比之前的img2img要更加的精準(zhǔn)和有效,可以直接提取畫面的構(gòu)圖,人物的姿勢和畫
面的深度信息等等。有了它的幫助,就不用頻繁的用提示詞來碰運氣,抽卡式的創(chuàng)作了。
instruct-pix2pix
在 stable-diffusion-webui 中的img2img專用模型 自然語言指導(dǎo)圖像編輯 生成速度極快 ,僅需要幾秒的時間。
FP16、FP32
代表著精度不同,精度越高所需顯存越大,效果也會有所提升。
512|768
代表著默認(rèn)訓(xùn)練分辨率時512X512還是768X768,理論上默認(rèn)分辨率高生成效果也會相應(yīng)更好。
inpaint
代表著是專門為imgtoimg中的inpaint功能訓(xùn)練的模型,在做inpaint時效果會相對來說較好。
depth
代表此模型是能包含處理圖片深度信息并進(jìn)行inpainting和img2img的
EMA
模型文件名中帶EMA一般意味著這是個用來繼續(xù)訓(xùn)練的模型,文件大小相對較大
與之相比,正常的、大小相當(dāng)較小的那個模型文件是為了做推理生成的
對于那些有興趣真正理解發(fā)生了什么的人來說,應(yīng)該使用EMA模型來進(jìn)行推理
小模型實際上有EMA權(quán)重。而大模型是一個 “完整版”,既有EMA權(quán)重,也有標(biāo)準(zhǔn)權(quán)重。因此,如果你想訓(xùn)練這個模型,你應(yīng)該加載完整的模型,并使用use_ema=False。
EMA權(quán)重
就像你作為一個學(xué)生在接受訓(xùn)練時,也許你會在最后一次考試表現(xiàn)較差,或者決定作弊并記住答案。所以一般來說,通過使用考試分?jǐn)?shù)的平均值,你可以更好地了解到學(xué)生的表現(xiàn),
由于你不關(guān)心幼兒園時的分?jǐn)?shù),如果你只考慮去年的分?jǐn)?shù)(即只用一組最近的實際數(shù)據(jù)值來預(yù)測),你會得到MA
(moving average 移動平均數(shù)). 而如果你保留整個歷史,但給最近的分?jǐn)?shù)以更大的權(quán)重,則會得到EMA
(exponential moving average 指數(shù)移動平均數(shù))。
這對具有不穩(wěn)定訓(xùn)練動態(tài)的GANs來說是一個非常重要的技巧,但對擴(kuò)散模型來說,它其實并不是那么重要。文章來源:http://www.zghlxwxcb.cn/news/detail-815728.html
VAE
VAE模型文件并不能和正常模型文件一樣獨立完成圖片生成。文章來源地址http://www.zghlxwxcb.cn/news/detail-815728.html
到了這里,關(guān)于AI繪畫軟件Stable Diffusion模型/Lora/VAE文件存放位置的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!