一、本地部署 Stable Diffusion
前言
目前市面上比較權威,并能用于工作中的AI繪畫軟件其實就兩款。一個叫Midjourney(簡稱MJ),另一個叫Stable-Diffusion(簡稱SD)。MJ需要付費使用,而SD開源免費,但是上手難度和學習成本略大,并且非常吃電腦配置(顯卡、內(nèi)存)。
E和Midjourney相比,Stable Diffusion 最大的優(yōu)勢是開源,這意味著Stable Diffusion的潛力巨大、發(fā)展飛快。由于開源免費屬性,SD 已經(jīng)收獲了大量活躍用戶,開發(fā)者社群已經(jīng)為此提供了大量免費高質(zhì)量的外接預訓練模型(fine-tune)和插件,并且在持續(xù)維護更新。在第三方插件和模型的加持下,SD擁有比Midjourney更加豐富的個性化功能,在經(jīng)過使用者調(diào)教后可以生成更貼近需求的圖片,甚至在 AI 視頻特效、AI音樂生成等領域,Stable Diffusion 也占據(jù)了一席之地。
Stable Diffusion是一種潛在擴散模型(Latent Diffusion Model),能夠從文本描述中生成詳細的圖像。它還可以用于圖像修復、圖像繪制、文本到圖像和圖像到圖像等任務。簡單地說,我們只要給出想要的圖片的文字描述在提Stable Diffusion就能生成符合你要求的逼真的圖像!
電腦配置
電腦配置最核心的關鍵點:看顯卡、看內(nèi)存、看硬盤、看CPU。其中最重要的是看顯卡。N卡(英偉達Nvida獨立顯卡)首選,效率遠超集顯/AMD/Intel顯卡和CPU渲染,最低10系起步,體驗感佳用40系,顯存最低4G,6G及格,上不封頂;內(nèi)存最低8G,16G及格,上不封頂;硬盤可用空間最好有個500G朝上,固態(tài)最佳。
系統(tǒng)要求:支持 Win10/Win11/macOS(僅限Apple Silicon,Intel 版本的 Mac 無法調(diào)用 Radeon 顯卡)和 Linux 系統(tǒng),蘋果版 SD 兼容的插件數(shù)量較少,功能性不及 Windows 與 Linux 電腦。
如果身邊沒有合適的電腦可以考慮購買云主機,比如騰訊GPU云服務器。若無法使用獨立顯卡和云服務,亦可修改啟動配置,使用CPU渲染(兼容性強,出圖速度慢,需要16G以上內(nèi)存)。
從圖中可看出,與AMD或英特爾的任何產(chǎn)品相比,Nvidia的GPU提供了卓越的性能--有時是以巨大的優(yōu)勢。隨著Torch的DLL修復到位,RTX 4090的性能比帶有xformers的RTX 3090 Ti高出50%,而沒有xformers的性能則高出43%。生成每張圖片只需要三秒多。
安裝方法
SD開源地址:https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki
目前大家普遍采用的Stable Diffusion Web UI是發(fā)布于開源程序分享網(wǎng)站 Github 的 Python 項目,和平常軟件安裝方法有所不同,不是下載安裝即可用的軟件,需要準備執(zhí)行環(huán)境、編譯源碼,針對不同操作系統(tǒng)(操作系統(tǒng)依賴)、不同電腦(硬件依賴)還有做些手工調(diào)整,這需要使用者擁有一定的程序開發(fā)經(jīng)驗(可以現(xiàn)學),已經(jīng)有很多大佬們寫了詳細的安裝教程。(如https://www.tonyisstark.com/846.html?@托尼不是塔克)
如果像我一樣是小白不會裝,現(xiàn)在可以直接使用大佬們做的一鍵啟動程序包,比如國內(nèi)@秋葉aaaki大大開發(fā)的整合包,極大的降低了安裝門檻(強烈推薦?。?/p>
(詳見https://www.bilibili.com/video/BV1ne4y1V7QU)一鍵啟動包只是封裝了可視化的一鍵界面,不影響出圖效果,只是降低了本地部署的門檻。
Nvidia 顯卡用戶須知:在使用SD前,請登錄 Nvidia 官網(wǎng)https://www.nvidia.cn/geforce/drivers/下載安裝對應顯卡最新版驅(qū)動程序,與https://blog.csdn.net/weixin_44177494/article/details/120444922顯卡支持的最新版 CUDA 驅(qū)動。
啟動SD
進入SD安裝文件夾,雙擊 webui-user.bat,待其加載完成方可使用瀏覽器(Chrome/Edge)登錄默認的加載IP?http://127.0.0.1:7860/
界面漢化
如果需要中文語言包,可以下載如下中文語言包擴展,下載界面網(wǎng)址為:https://github.com/VinsonLaro/stable-diffusion-webui-chinese
方法1:通過WebUI拓展進行安裝
1.打開stable diffusion webui,進入"Extensions"選項卡
2.點擊"Install from URL",注意"URL for extension's git repository"下方的輸入框
3.粘貼或輸入本Git倉庫地址https://github.com/VinsonLaro/stable-diffusion-webui-chinese
4.點擊下方的黃色按鈕"Install"即可完成安裝,然后重啟WebUI(點擊"Install from URL"左方的"Installed",然后點擊黃色按鈕"Apply and restart UI"網(wǎng)頁下方的"Reload UI"完成重啟)
5.點擊"Settings",左側(cè)點擊"User interface"界面,在界面里最下方的"Localization (requires restart)",選擇"Chinese-All"或者"Chinese-English"
6.點擊界面最上方的黃色按鈕"Apply settings",再點擊右側(cè)的"Reload UI"即可完成漢化
?
二、界面基礎
了解界面
接下來是具體的使用方法簡介。目前SD并不存在通行可靠的使用規(guī)范,每個人的電腦配置、需求都不盡相同,cpkd/Safetensors大模型、VAE、embeding、lora等AI模型、各類插件、提示詞、輸出參數(shù)的組合牽一發(fā)則動全身,需要大家有足夠的耐心查閱插件開發(fā)者的說明文檔和來自https://civitai.com/等分享網(wǎng)站的使用心得,大家可以先到civitai上搜索中意的圖例,復用原作者的出圖提示詞、參數(shù)和模型,再以此修改,這樣學習的效果最為直觀。
文生圖:根據(jù)文本提示生成圖像
圖生圖:根據(jù)提供的圖像作為范本、結合文本提示生成圖像
更多:優(yōu)化(清晰、擴展)圖像
圖片信息:顯示圖像基本信息,包含提示詞和模型信息(除非信息被隱藏)
模型合并:把已有的模型按不同比例進行合并生成新模型
訓練:根據(jù)提供的圖片訓練具有某種圖像風格的模型
描述語分為正向/負向描述,它們也叫tag(標簽)或prompt(提示詞)
正面提示詞:相比Midjourney需要寫得更精準和細致,描述少就給AI更多自由發(fā)揮空間。
負面提示詞:不想讓SD生成的內(nèi)容。
正向:masterpiece, best quality, 更多畫質(zhì)詞,畫面描述
反向:nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers,extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry,根據(jù)畫面產(chǎn)出加不想出現(xiàn)的畫面。
生成下面的5個小圖標(從左到右依次分別是)
- 復原上次生成圖片的提示詞(自動記錄)
- 清空當前所有提示詞
- 打開模型選擇界面
- 應用選擇的風格模板到當前的提示詞
- 存檔當前的正反向提示詞
采樣方法
1.建議根據(jù)自己使用的checkpoint使用腳本跑網(wǎng)格圖(用自己關心的參數(shù))然后選擇自己想要的結果。
2.懶得對比:請使用DPM++ 2M或DPM++ 2M Karras(二次元圖)或UniPC,想要點驚喜和變化,Euler a、DPM++ SDE、DPM++ SDE Karras(寫實圖)、DPM2 a Karras(注意調(diào)整對應eta值)
3.eta和sigma都是多樣性相關的,但是它們的多樣性來自步數(shù)的變化,追求更大多樣性的話應該關注seed的變化,這兩項參數(shù)應該是在圖片框架被選定后,再在此基礎上做微調(diào)時使用的參數(shù)。
采樣步數(shù)
穩(wěn)定擴散通過從充滿噪音的畫布開始創(chuàng)建圖像,并逐漸去噪以達到最終輸出。此參數(shù)控制這些去噪步驟的數(shù)量。通常越高越好,但在一定程度上,我們使用的默認值是25個步驟。以下是不同情況下使用哪個步驟編號的一般指南:
- 如果您正在測試新的提示,并希望獲得快速結果來調(diào)整您的輸入,請使用10-15個步驟
- 當您找到您喜歡的提示時,請將步驟增加到25
- 如果是有毛皮的動物或有紋理的主題,生成的圖像缺少一些細節(jié),嘗試將其提高到40
面部修復:修復人物的面部,但是非寫實風格的人物開啟面部修復可能導致面部崩壞。
平鋪:生成一張可以平鋪的圖像
高分辨率重繪:使用兩個步驟的過程進行生成,以較小的分辨率創(chuàng)建圖像,然后在不改變構圖的情況下改進其中的細節(jié),選中該選項會有一系列新的參數(shù),
其中重要的是:
放大算法:Latent 在許多情況下效果不錯,但重繪幅度小于 0.5 后就不甚理想。ESRGAN_4x、SwinR 4x 對 0.5 以下的重繪幅度有較好支持。
放大倍數(shù): 通常2倍即可
重繪幅度:決定算法對圖像內(nèi)容的保留程度。該值越高,放大后圖像就比放大前圖像差別越大。低 denoising 意味著修正原圖,高 denoising 就和原圖就沒有大的相關性了。一般來講閾值是 0.7 左右,超過 0.7 和原圖基本上無關,0.3 以下就是稍微改一些,0什么都不會改變,1會得到一個完全不同的圖像。具體的執(zhí)行步驟為 重繪強度 * 重繪步數(shù)。
長寬尺寸(分辨率)
長寬尺寸并非數(shù)值越大越好,最佳的范圍應在512至768像素之間,比如正方形圖多是512*512和768*768,人像肖像 512x768,風景畫 768×512,可按比例加大或減小,這個值必須是 8 的倍數(shù)。如果不希望主題對象出現(xiàn)重復,應在此范圍內(nèi)選擇適當?shù)某叽?。如果需要更高分辨率的圖片,建議先使用SD模型生成圖片,然后再使用合適的模型進行upscale。
生成批次:每次生成圖像的組數(shù)。一次運行生成圖像的數(shù)量為生成批次 * 每批數(shù)量。
每批數(shù)量:同時生成多少個圖像。增加這個值可以提高性能,但你也需要更多的 VRAM。圖像總數(shù)是這個值乘以批次數(shù)。除 4090 等高級顯卡以外通常保持為 1。
提示詞相關性CFG:較高的數(shù)值將提高生成結果與提示的匹配度。
OpenArt上使用的默認CFG是7,這在創(chuàng)造力和生成你想要的東西之間提供了最佳平衡。通常不建議低于5。
CFG量表可以分為不同的范圍,每個范圍都適合不同的提示類型和目標
CFG 2 – 6:有創(chuàng)意,但可能太扭曲,沒有遵循提示。對于簡短的提示來說,可以很有趣和有用
CFG 710:推薦用于大多數(shù)提示。創(chuàng)造力和引導一代之間的良好平衡
CFG 10-15:當您確定您的提示是詳細且非常清晰的,您希望圖像是什么樣子時
CFG 16-20:除非提示非常詳細,否則通常不推薦??赡苡绊懸恢滦院唾|(zhì)量
CFG >20:幾乎無法使用
隨機種子(Seed):生成每張圖片時的隨機種子,這個種子是用來作為確定擴散初始狀態(tài)的基礎。不懂的話,用隨機的即可。
?
提示詞生成
開始不知道怎么寫提示詞,可以先參考優(yōu)秀的風格模板作為起手式,還可以借助描述語工具和網(wǎng)站,多出圖多研究,掌握了出圖規(guī)律,慢慢就可以自己寫提示詞啦,寫提示詞要盡可能寫的詳細。跑AI的過程就像抽卡,抽出一堆卡,選出你審美范疇里覺得好看的。
找tag關鍵詞網(wǎng)站:
可參考Civitai | Stable Diffusion models, embeddings, hypernetworks and more中優(yōu)秀作品的提示詞作為模板。
其他網(wǎng)站還有:
ChatGPT:https://chat.openai.com/
AI Creator:https://ai-creator.net/arts
NovelAI:https://spell.novelai.dev
魔咒百科詞典:https://aitag.top
AI咒術生成器:https://tag.redsex.cc/
AI詞匯加速器 AcceleratorI Prompt:
詞圖 PromptTool:https://www.prompttool.com/NovelAI
鱉哲法典:http://tomxlysplay.com.cn/#/
Danbooru tag:Tag Groups Wiki | Danbooru (http://donmai.us)
總結
使用AI繪圖工具Stable Diffusion確實能提高美術工作者的生產(chǎn)效率,但是請記住:人工智能,沒有人工就沒有智能。Stable Diffusion并不是簡單易上手的APP,我們需要花費一定的時間和精力去學習和不斷調(diào)試,才能使其真正為我們所用,高效產(chǎn)出效果符合需求的圖片。
最后,我為大家簡單羅列一下使用SD的幾項核心能力:
1.Github使用能力,使用者在熟練掌握Github開源項目的安裝、調(diào)參、排錯、編程環(huán)境設置等技能后,就不會在SD報錯時六神無主了。
2.基礎出圖調(diào)試能力,這項能力能夠讓使用者無需協(xié)助就能自行摸索穩(wěn)定輸出可用的圖片。
3.Controlnet構圖能力,基于Controlnet的構圖控制是美術從業(yè)者駕馭SD的韁繩,不會用Controlnet,你只會被隨機噪聲牽著走。
4.學習插件并組合使用的能力。
5.Lora等小模型的訓練能力(進階)。
站在巨人的肩膀上文章來源:http://www.zghlxwxcb.cn/news/detail-792461.html
https://avoid.overfit.cn/post/acbb609d015a40fc8d0cd26f8e215dd9
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#attentionemphasis
https://muhou.net/document/236688.html
https://guide.novelai.dev/guide/prompt-engineering/practice
【Stable Diffusion】ControlNet 詳解篇 - 知乎
stable diffusion webui如何工作以及采樣方法的對比 - 知乎
https://www.163.com/dy/article/I22IV66G0518R7MO.html
https://stable-diffusion-art.com文章來源地址http://www.zghlxwxcb.cn/news/detail-792461.html
到了這里,關于Stable Diffusion/Win/本地部署的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!