Stable Diffusion
Stable Diffusion是一個開源的圖像生成AI系統(tǒng),由Anthropic公司開發(fā)。它基于 Transformer模型架構(gòu),可以通過文字描述生成高質(zhì)量的圖像。
Stable Diffusion的主要特點(diǎn)包括:
- 強(qiáng)大的圖像生成能力。它可以根據(jù)文本描述生成非常逼真的圖像,包括人物、風(fēng)景、動物等各種主題。
- 對文本的理解能力強(qiáng)。它可以捕捉文本描述的關(guān)鍵信息,轉(zhuǎn)換為視覺上的表現(xiàn)。
- 生成圖像分辨率高。它可以生成512x512甚至1024x1024像素的高分辨率圖像。
- 開源且易于使用。它建立在開源框架PyTorch等基礎(chǔ)上,可以輕松地在GPU及普通電腦上運(yùn)行。
- 訓(xùn)練數(shù)據(jù)量大。它的訓(xùn)練數(shù)據(jù)集包含大量高質(zhì)量圖像,這是它強(qiáng)大能力的重要基礎(chǔ)。
- 結(jié)果多樣化。每次輸入相同提示,它都可以生成略有不同的結(jié)果,增加了結(jié)果的多樣性。
- 控制能力強(qiáng)。用戶可以通過調(diào)整文字提示、超參數(shù)等方式控制生成結(jié)果。
Stable Diffusion是一種潛在擴(kuò)散模型(Latent Diffusion Model),能夠從文本描述中生成詳細(xì)的圖像。它還可以用于圖像修復(fù)、圖像繪制、文本到圖像和圖像到圖像等任務(wù)。簡單地說,我們只要給出想要的圖片的文字描述在提Stable Diffusion就能生成符合你要求的逼真的圖像。Stable Diffusion作為新興的AI生成模型,擁有強(qiáng)大的圖像生成能力,是目前最先進(jìn)的開源生成模型之一,值得關(guān)注。它的出現(xiàn)將推動創(chuàng)作界發(fā)生革命性的變化。
使用
嘗試下效果
prompt:beautiful girl,bikini,sea,beach,sunshine
生成的效果如下:
效果不太好,我們來學(xué)習(xí)下prompt如何編寫,再看看改善效果。
prompt的編寫技巧
prompt 和 negative prompt
描述語分為正向/負(fù)向描述,它們也叫tag(標(biāo)簽)或prompt(提示詞)
正面提示詞:相比Midjourney,SD需要寫得更精準(zhǔn)和細(xì)致,描述少就給AI更多自由發(fā)揮空間。
負(fù)面提示詞:不想讓SD生成的內(nèi)容。
正向:masterpiece, best quality, 畫質(zhì)詞,畫面描述。
反向:根據(jù)畫面產(chǎn)出加不想出現(xiàn)的畫面。
Prompt格式
第一段:畫質(zhì)tag,畫風(fēng)tag
第二段:畫面主體,主體強(qiáng)調(diào),主體細(xì)節(jié)概括(主體可以是人、事、物、景)畫面核心內(nèi)容
第三段:畫面場景細(xì)節(jié),或人物細(xì)節(jié),embedding tag。畫面細(xì)節(jié)內(nèi)容
第二段一般提供人數(shù),人物主要特征,主要動作(一般置于人物之前),物體主要特征,主景或景色框架等
Prompt規(guī)則細(xì)節(jié)
- 提示詞的順序決定了權(quán)重的大小,越靠前的詞匯權(quán)重越大,會對圖像生成產(chǎn)生更直接的影響。
- 生成圖片分辨率越大,需要的提示詞量也越多,否則不同的提示詞會產(chǎn)生不一致的效果,相互干擾。
- 使用括號可以精確調(diào)整單個詞的權(quán)重值,提高或降低其對圖像生成的影響程度。常用的權(quán)重調(diào)整范圍建議控制在0.25到1.5之間,避免超出這個范圍帶來負(fù)面效果。
方法如下:
(word) - 將權(quán)重提高 1.1 倍
((word)) - 將權(quán)重提高 1.21 倍(= 1.1 * 1.1)
[word] - 將權(quán)重降低至原先的 90.91%
(word:1.5) - 將權(quán)重提高 1.5 倍
(word:0.25) - 將權(quán)重減少為原先的 25%
請注意,權(quán)重值最好不要超過 1.5
優(yōu)化
根據(jù)上面的規(guī)則我們來改下下prompt
A beautiful young girl standing in the shallow seawater on a sunny tropical beach. She has long wavy blonde hair flowing in the ocean breeze. She's wearing a red floral bikini which compliments her tanned skin tone. Her fit athletic body is perfectly framed in this scene. She has a bright, energetic smile on her face as she's enjoying the warm ocean water washing over her feet. The background is a picturesque tropical beach scene with white sand, palm trees, and turquoise blue water sparkling in the bright sunlight stretching out to the horizon. This is a perfect summer beach day. The overall color tone is vibrant and cheerful. The girl looks natural, elegant, and carefree. This is a high quality, photorealistic image.
報(bào)錯
“Unsafe content found”
繼續(xù)優(yōu)化
"A cheerful young woman smiling and having fun at the beach. She has long, dark brown hair blowing casually in the tropical breeze. She's dressed appropriately in a blue floral one-piece swimsuit. Posing happily on the shore, with one hand up to her forehead to shade her eyes. Behind her is a beautiful scenic view of bright turquoise waves gently lapping against the sandy shore. In the background, the wide open clear blue sky meets the ocean horizon. Palm trees and green vegetation dot the landscape. The sunlight is bright and warm. This is a high quality, idyllic summer beach scene."
主要修改的點(diǎn)包括:
- 使用積極正面詞語 como “cheerful”,“having fun”,“happily”,移除可能引起歧義的詞匯。
- 將比基尼改為更保守的連體泳衣。
- 去掉只描寫女孩的語句,加上與海灘景色的銜接。
- 增加陽光、植被等寧靜自然的元素。
- 使用專業(yè)的視覺描述詞語如“idyllic”,“scenic”等。
- 強(qiáng)調(diào)圖像質(zhì)量要高,內(nèi)容要正面積極。
- 避免可能引起歧義或聯(lián)想的表達(dá)。
看效果
很明顯,改善很明顯…… 哈哈哈哈哈哈哈 (如果被嚇到實(shí)在不好意思,我也有點(diǎn)看恐怖片的感覺)
上面這些圖是因?yàn)槲褿uidance Scale的參數(shù)設(shè)置太低了。
Guidance Scale
Stable Diffusion 模型中的 Guidance Scale 參數(shù)是調(diào)整文本提示(Text Prompt)對圖像生成影響力的一個重要超參數(shù)。
Guidance Scale 參數(shù)的主要作用是:
- 控制文本提示的重要性:
- 參數(shù)值越高,文本提示的影響就越大,生成圖片會越關(guān)注文本提示的要求。
- 參數(shù)值越低,文本提示影響減弱,生成圖片會更具原創(chuàng)性和多樣性。
- 平衡文本提示和訓(xùn)練數(shù)據(jù):
- 參數(shù)值越高,依賴文本提示的信息更多,訓(xùn)練數(shù)據(jù)的影響被壓制。
- 參數(shù)值越低,訓(xùn)練數(shù)據(jù)的信息起主導(dǎo)作用,文本提示只起輔助影響。
- 調(diào)節(jié)生成圖片質(zhì)量:
- 適當(dāng)?shù)腉uidance Scale可以幫助生成更高質(zhì)量的圖片。
- 參數(shù)過大或過小,都可能導(dǎo)致生成圖片質(zhì)量下降。
通常Guidance Scale的取值范圍在1-20之間。默認(rèn)值是7,這是一個比較平衡的設(shè)置。使用時可以通過調(diào)整這個參數(shù),來實(shí)現(xiàn)對生成圖片的精細(xì)控制。
Guidance Scale直接影響文本提示的作用強(qiáng)度,是Stable Diffusion中非常重要的一個生成控制超參數(shù)。
我們來調(diào)整下Guidance Scale參數(shù)
改后的效果如圖(我實(shí)在不知道怎么修改CSDN才不違規(guī)了,一個連體泳衣都違規(guī),其他平臺都正常顯示,只能馬賽克了):
文章來源:http://www.zghlxwxcb.cn/news/detail-576790.html
總結(jié)
想要用Stable Diffusion生成高質(zhì)量的圖片,避免生成低質(zhì)量的“爛圖片”,可以注意以下幾點(diǎn):文章來源地址http://www.zghlxwxcb.cn/news/detail-576790.html
- 使用合理的提示詞(Prompt)
- 提示詞要簡潔明確,避免歧義。important信息前置。
- 添加合適的描述詞幫助生成細(xì)節(jié)。如大小,顏色,質(zhì)感等。
- 使用正確的英文語法和拼寫。
- 避免使用負(fù)面和敏感詞匯。
- 調(diào)整超參數(shù)
- 適當(dāng)調(diào)高 Guidance Scale,加強(qiáng)提示詞影響力。
- 調(diào)整 Steps(迭代次數(shù))不要過少,一般100-200。
- 調(diào)試不同的 Sampler,如DDIM較平滑。
- 使用高質(zhì)量訓(xùn)練數(shù)據(jù)
- 大型模型效果更好,如Stable Diffusion v2。
- 嘗試不同主題的訓(xùn)練數(shù)據(jù),匹配生成目標(biāo)。
- 生成分辨率不要過低
- 分辨率過低會造成圖片質(zhì)量下降。
- 一般選擇512x512 或更高分辨率。
- 復(fù)核和選擇圖片
- 生成多張樣本圖片,挑選效果最佳的。
- 檢查合理性,刪除離題圖像。
通過以上方法,可以最大程度地避免Stable Diffusion生成不理想的低質(zhì)量圖片。但過程中也需要一定的試錯嘗試,以找到最佳設(shè)置。
到了這里,關(guān)于Stable Diffusion如何生成高質(zhì)量的圖-prompt寫法介紹的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!