目錄
學前視頻
0.本章素材
1.什么是文生圖
2.界面介紹
2.1切換模型的地方
2.2切換VAE
2.3功能欄
2.4提示詞
1.提示詞的詞性
2.提示詞的語法
3.提示詞的組成
4.提示詞的權重調整
2.5參數調整欄
1.采樣方法
2.采樣迭代步數
3.面部修復
4.平鋪圖
5.高清修復
6.寬度和高度
7.生成批次和每批數量
8.提示詞引導系數(CFGScale)
9.隨機種子
2.6模板操作區(qū)
3.結語
4.課后訓練
學前視頻
stable diffusion 文生圖講解
0.本章素材
anything模型(二次元模型)
百度地址:https://pan.baidu.com/s/1VvDJOP_MbUcR7lCSasQ19Q?pwd=g5uk
提取碼:g5uk
夸克地址:https://pan.quark.cn/s/09719485f653
提取碼:PWLu
vae:vae-ft-mse-840000-ema-pruned
百度網盤鏈接:https://pan.baidu.com/s/1XnZoRd7n4NV0SFjslpjM_w?pwd=gu4f
提取碼:gu4f
夸克網盤:https://pan.quark.cn/s/db59977509f8
提取碼:mehy
通用提示詞模板:
夸克網盤:https://pan.quark.cn/s/fb90a9853507
?1.什么是文生圖
????????stablediffustion并不是自己就能平白無故生成一張圖,stablediffustion只是一個執(zhí)行者,既然是執(zhí)行者,那么就需要對應的指令去告訴SD,我們需要做什么,比如說我需要一個在山里的女孩的圖片
????????我輸入1girl,inthemountain,那么SD就會輸出背景是山,一個女孩的圖片了,文生圖,就是從文字概述中生成對應的圖片信息.
????????由于SD不認識中文,提示詞都必須是英文,而且看上去混亂無章,很多人剛剛入門時,會覺得一頭霧水,不知道要怎么寫,也不知道該寫什么,看到界面這么多參數,也不知道該點什么.不用擔心.接下來,我將通過細致的講解,讓同學們一步一步學會甚至熟練使用。?
2.界面介紹
2.1切換模型的地方
????????模型簡單來說就是決定你出圖效果,一些模型是出3D圖片效果很好,一些模型是二次元圖片效果很好,但是需要注意的事,如果用建筑類的模型去生成二次元圖片,會大大增加崩壞圖片的幾率,因為模型出圖的效果是基于訓練的素材,建筑類的模型,一般是大量的使用建筑圖片給模型進行訓練.
????????模型常見的尾綴為ckpt,safetensors,大小一般是2G到7G
存放路徑是x:\xxx\sd-webui-aki-v4\models\Stable-diffusion
常見的模型下載網站有:
https://civitai.com/(C站,國內無法正常訪問)
國內可用:
https://www.liblibai.com/(類似C站的國內鏡像網站)
https://huggingface.co/(抱臉網)

2.2切換VAE
????????VAE簡單的理解可以是增強畫質的工具,(多數情況下,可以增加畫質,但是也有可能會導致畫質變得更差)類似濾鏡,或者智能P圖,多數模型都會自帶有對應的VUE模型,會自動識別.
????????簡短來說就是圖沒有灰色,或者畫質過差,不用切換VAE
存放地址:X:\\XX\sd-webui-aki-v4\models\VAE
2.3功能欄
????????主要是Stablediffusion各種功能的切換,本章講解文生圖功能
2.4提示詞
????????提示詞是控制圖片繪制的核心要素,也是本章的重點內容,會分多個小點進行講解
1.提示詞的詞性
???????在文生圖界面中提示詞分為兩種,一種是正向提示詞(Prompt),一種是反向提示詞(NegativePrompt)。
-
正向提示詞的意思是:我需要什么(圖片中出現什么)。
-
反向提示詞的意思是:我不需要什么(圖片中不出現什么)。
例如hair(頭發(fā))在正向提示詞輸入框中,則說明生成的圖片中需要頭發(fā),反之在反向提示詞輸入框中,則說明圖片中不要出現頭發(fā),一個詞語是正向提示詞還是反向提示詞取決于詞語在什么輸入框(反向提示詞未必一定會生效,比如加了缺少胳膊,出的圖一定幾率也會出沒有手)
2.提示詞的語法
1.sd支持單詞,短語,簡單的句子這幾種模式
-
單詞:1girl,longhair,in the mountain(一個女孩,長發(fā),在山里);
-
短語:Agirlhaslonghair,in the mountain(一個女孩有長發(fā),在山里);
-
句子:Agirl with long hair is in the mountains(一個長發(fā)女孩在山里);
以上這幾種的效果都是一樣的,都會生成相同效果的圖片,而我們常用的是使用單詞進行編寫提示詞,因為更容易進行調試修改
2.不同提示詞之間需要用英文逗號進行分割,并且前后有空格或者換行是不影響效果的
3.提示詞越在前面,權重越高,所以主體應該放在前面
3.提示詞的組成
-
基礎詞:通用的詞語,主要是對畫質的提示,通常無論哪種圖片都可以加上,也稱為起手式常用的有bestquality,ultra-detailed,masterpiece,finelydetail,highres,8kwallpaper(最好的質量,超細節(jié),杰作,精細的細節(jié),高分辨率,8k壁紙).
-
主體詞:對畫面的主體進行描述的詞語,比如環(huán)境描述,光線描述,圖片包含什么的描述,比如1petitegirl,outdoors,Purplefog(一個嬌小的女孩,戶外,紫霧).
-
細節(jié)詞:對于主體的更加細節(jié)描述,比如眼睛的大小,瞳孔的顏色,衣服的描述,發(fā)色的描述,身材的描述等比如redeyes,eyehighlights,dress,shortpuffysleeves(紅眼睛,挑亮眼睛,裙子,蓬松的短袖)
正向提示詞從本質上說就是基礎詞+主體詞+細節(jié)詞的描述,也許你會說我一下子想不出這么豐富的詞語,那么你可以從最簡單的開始:
一個女孩在戶外
->生成圖片
->查看圖片
->添加細節(jié)
->一個嬌小的女孩,有著紅色的眼睛,穿著裙子和蓬松的短袖
->循環(huán)的生成圖片
->不停的調整細節(jié)
->生成圖片
有個反向提示詞需要注意:nsfw,反向提示詞加上這個詞語可以很大程度上減少少兒不宜的圖片出現,避免社死.
提示詞網站:https://prompthero.com/stable-diffusion-prompts
4.提示詞的權重調整
在生成圖片的時候我們可能需要某個細節(jié)更加突出或者減弱,此時我們可以使用權重去進行控制
1.固定權重調整
-
權重上升()(xxx)包含的詞語是指權重增加1.1倍,()可以進行疊加,每疊加一次就增加1.1倍,例如((xxx))就是1.1*1.1,(((xxx)))就是1.1*1.1*1.1
-
權重微量上升{}{xxx}包含的詞語權重增加1.05倍,同時也可以疊加,{{xxx}}就是1.05*10.5
-
權重下降[][xxx]每套一層,額外x0.9同時也可以疊加,[[xxx]]就是0.9*0.9
2.動態(tài)權重調整
括號加數字(xxx:1.5)當數字大于1時權重上升,1.5則是1.5倍的意思,數字小于1時,權重下降(xxx:0.5)權重是原來的0.5倍
2.5參數調整欄
這里就是對文生圖繪制的細節(jié)調整,每一個參數都有自己對應的含義,也會對結果圖有一定的影響。
1.采樣方法
采樣方式就是指sd用什么算法進行圖片生成,影響出圖質量以及出圖速度。
以下是各種采樣方式的出圖效果:
-
Euler a速度和質量都非常不錯,適合快速出圖,但是要注意自己的提示詞,因為快也很容易出一些崩壞圖
-
DDIM和Euler則需要一定的好的運氣,需要反復抽卡
-
DPM++2系列算法則以相對步數就可以達到其他算法的質量甚至更高(一般來說帶++的都是升級版)
-
LMS、DPMfast、LMSKarras和PLMS這幾個算法則不太推薦
?一般細心的模型都會有推薦采樣算法,大家也可以上模型的詳情進行查看例如:
2.采樣迭代步數
采樣迭代步數越高,圖片則會越精細,但是需要申明采樣迭代步數并不是越高越好,圖片的質量是有上限的,過高的采樣迭代步數只會增加出圖的速度以及增加崩壞的幾率,但是也有研究表明,過高的迭代步數有助于手部的生成,但是大部分情況下,過高的迭代步數并不會有較大的收益.
對于不同的模型也有各種不同的采樣迭代步數:
·DDIM和EulerA一般為30以上40以下;
·DPM2A則一般為60以上;
·DPM系列則一般為20以上30以下;
但是有個異類DPMadaptive這個采樣方式,采樣迭代步數對于這個采樣方法是不生效的.
當然這個并不是通用的,更多是一種參考值,更加具體的,可以參考模型的推薦步數.
3.面部修復
一般是用于三次元圖片的面部修復,但是對于二次元圖片的面部修復支持效果不是很好,三次元圖片可以勾選,二次元圖片不要勾選,二次元修復效果不好
4.平鋪圖
就是一張圖片中會出現重復的元素,特定場景會使用.
5.高清修復
這個可是神器之一,可以把模糊的照片變清晰
?sd用放大倍率進行等比例放大,這樣圖片的細節(jié)會更加清晰,質量更加高,如果放大倍數是2時圖片分辨率會從512*512變?yōu)?024*1024,高清修復的時候不要直接拉動寬度和高度.
常用的放大算法三次元的用R-ESRGAN4x+,二次元用R-ESRGAN4x+Anime6B,高分迭代步數為0則是用原圖的意思,重繪幅度一般0.5到0.7最佳,過高會導致原圖和修復后的圖片有較大區(qū)別.
6.寬度和高度
這個應該很容易理解吧,就是圖片的寬度和高度,配置太低的不要調太大,會無法出圖,并且如果寬高設置過大,會出現多人,多手,多腳,多頭等奇異畫風,這個主要是因為模型訓練時大多數是使用小圖進行訓練,當生成圖片過大,AI會認為這是多張圖合并而成,當需要生成大圖時,建議使用高清修復功能.
當515*512時,大概率會生成大頭照,而需要生成全身照時,需要將高度調高到700以上,并且加上提示詞“fullbody”.
7.生成批次和每批數量
這個需要一起說明,生成批次是指生成多少次,每批數量是指一次生成多少張,生成批次對顯存要求不高,但是每批數量對顯存的要求較高,一般我們需要出多張圖時,只設置生成批次即可,每批數量過多容易導致爆顯存,生成批次只會影響出圖速度.
8.提示詞引導系數(CFGScale)
就是SD多大程度上會聽從你的指令.
1-基本上不理會你的提示;
3-更具創(chuàng)造性;
7-在遵守提示和自由之間取得良好的平衡(默認值);
15-更加遵守提示;
30-嚴格遵守提示;
9.隨機種子
你可以認為這個就是圖片的編碼,當為-1的時候,則是隨機生成一個編號,相同的隨機種子出的圖會大致一致.
2.6模板操作區(qū)
3.結語
至此文生圖的講解就到這里結束了,下一章,我們開始了解什么是圖生圖
4.課后訓練
-
使用anythiny模型構建一張小女孩在月光下微笑的圖片(512*512大小)
-
通過更換采樣模式查看相同圖片的生成效果是否一致(seed需要一致)
-
圖片不變的情況下,生成一張1024x1024的高清圖
-
同時生成五張小女孩在月光下微笑的圖片
-
提示詞不變的情況下,通過調節(jié)引導系數,查看圖片的變化情況
文章來源:http://www.zghlxwxcb.cn/news/detail-628207.html
下一節(jié):【stable diffusion】保姆級入門課程02-Stable diffusion(SD)圖生圖-基礎圖生圖用法?文章來源地址http://www.zghlxwxcb.cn/news/detail-628207.html
到了這里,關于【stable diffusion】保姆級入門課程01-Stable diffusion(SD)文生圖究竟是怎么一回事的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!