AIGC系列之：升級版的Stable Diffusion之SDXL介紹

這篇具有很好參考價值的文章主要介紹了AIGC系列之：升級版的Stable Diffusion之SDXL介紹。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

AIGC工具對比

DALL-E

MidJourney

Stable Diffusion

相關(guān)資料

SDXL介紹

SDXL生圖效果

SDXL訓(xùn)練LoRA流程

AIGC工具對比

????????在目前的三大新興文本轉(zhuǎn)圖像模型中，Stable Diffusion誕生得最晚，但由于擁有發(fā)展良好的開源社區(qū)，它的用戶關(guān)注度和應(yīng)用廣度都超越Midjourney和DALL-E。

DALL-E

????????2021 年 1 月，OpenAI 推出了 DALL－E 模型，通過 120 億參數(shù)版本的 GPT-3 Transformer 模型來理解自然語言輸入并生成相應(yīng)的圖片。但是它的推出主要用于研究，所以訪問權(quán)限僅限于小部分測試版用戶。這個模型不穩(wěn)定對于細(xì)節(jié)理解處理不完善，且會出現(xiàn)嚴(yán)重的邏輯或者事實(shí)錯誤，但是作為開創(chuàng)者，還是得專門提出來的。

????????在發(fā)布 DALL-E 時還發(fā)布了 CLIP （Contrastive Language-Image Pre-training，對比圖文預(yù)訓(xùn)練）。CLIP 是一種神經(jīng)網(wǎng)絡(luò)，為輸入的圖像返回最佳的標(biāo)題。它所做的事情與 DALL-E 所做的相反 —— 它是將圖像轉(zhuǎn)換為文本，而 DALL-E 是將文本轉(zhuǎn)換為圖像。引入 CLIP 的目的是為了學(xué)習(xí)物體的視覺和文字表示之間的聯(lián)系。

????????2022 年 4 月，OpenAI 發(fā)布了新版本的 DALL-E 2 ，它是 DALL-E 的升級版本，另外能對所生成的圖像進(jìn)行二次編輯，現(xiàn)在即使是新用戶也需要充值才能生成新圖。

????????2023年的9月21日，Open Ai發(fā)布了其dall-e系列中的最新一代產(chǎn)品，DALL-3相比于上一代的dall-2來說，進(jìn)行了一次全方面的升級。但dall-3可以通過只通過文字描述來完美生成圖片，完全通過文字來控制畫面，這代表著，用戶再也不需要去學(xué)習(xí)如何構(gòu)建關(guān)鍵詞，只需要一段語言描述就可以生成一張完全符合這段語言描述的畫面。這對目前的AI繪畫來說將會是一個巨大的沖擊，同時也代表了接下來AI繪畫的方向。

MidJourney

????????MidJourney 的 v1 是 2022 年 2 月發(fā)布的，它火出圈是由于 22 年 7 月份的 v3 版本。它的特點(diǎn)是綜合能力比較全面，藝術(shù)性很強(qiáng)，非常像藝術(shù)家制作的作品，另外圖像生成速度更快，早期主要是很多藝術(shù)家會借助 Midjourney 作為創(chuàng)作靈感。另外，因?yàn)?Midjourney 搭載在 Discord 頻道上，所以有非常良好的社區(qū)討論環(huán)境和用戶基礎(chǔ)。

????????第二次火其實(shí)就是今年 3 月份發(fā)布 V5, 官方說這個版本在生成圖像的人物真實(shí)程度、手指細(xì)節(jié)等方面都有了顯著改善，并且在提示詞理解的準(zhǔn)確性、審美多樣性和語言理解方面也都取得了進(jìn)步。

Stable Diffusion

????????2022年7月Stable Diffusion的問世則震驚了全球，相比前輩們，Stable Diffusion已經(jīng)成功的解決了細(xì)節(jié)及效率問題，通過算法迭代將AI繪圖的精細(xì)度提升到了藝術(shù)品級別，并將生產(chǎn)效率提升到了秒級，創(chuàng)作所需的設(shè)備門檻也被拉到了民用水準(zhǔn)。

????????2022年8月對于AI繪圖來說，革命性的時刻已經(jīng)來臨，也得益于Stable Diffusion的開源性質(zhì)，全球AI繪圖產(chǎn)品迎來了日新月異的發(fā)展。這次AI創(chuàng)作大討論，正是公眾們直觀地感受到了技術(shù)浪潮帶來的影響，AI繪圖正在走進(jìn)千家萬戶，輿論熱潮也隨之而來。

????????2023 年 4 月，Stability AI 發(fā)布了 Beta 版本的 Stable Diffusion XL ，并提到在訓(xùn)練結(jié)束后參數(shù)穩(wěn)定后會開源，并改善了需要輸入非常長的提示詞 (prompts)，對于人體結(jié)構(gòu)的處理有瑕疵，經(jīng)常出現(xiàn)動作和人體結(jié)構(gòu)異常。

????????2023年7月27日，Stability AI正式發(fā)布了下一代文生圖模型—SDXL 1.0。SDXL 1.0擁有目前所有開放式圖像模型中最大的參數(shù)數(shù)量，采用了創(chuàng)新的新架構(gòu)，包括一個擁有35億參數(shù)的基礎(chǔ)模型和一個66億參數(shù)的優(yōu)化模型，這也是本文要介紹的重點(diǎn)，接下來一起看一下吧～

SDXL介紹

sd_xl_base_1.0.safe,AIGC,深度學(xué)習(xí),AIGC,stable diffusion,SDXL,DALLE,Midjourney,圖像生成,計算機(jī)視覺

SDXL 1.0包括兩種不同的模型:

????????sdxl-base-1.0:生成1024 x 1024圖像的基本文本到圖像模型?；灸Ｐ褪褂肙penCLIP-ViT/G和CLIP-ViT/L進(jìn)行文本編碼。

????????sdxl-refiner-1.0:一個圖像到圖像的模型，用于細(xì)化基本模型的潛在輸出，可以生成更高保真度的圖像。細(xì)化模型只使用OpenCLIP-ViT/G模型。SDXL 1.0的refiner是基于OpenCLIP-ViT/G的具有6.6B參數(shù)模型，是目前可用的最強(qiáng)大的開放訪問圖像模型之一。

????????對于 Stable Diffusion 的U-Net、VAE、CLIP Text Encoder三大組件都做了改進(jìn)。

U-Net 增加 Transformer Blocks (自注意力 + 交叉注意力) 來增強(qiáng)特征提取和融合能力；
VAE 增加條件變分自編碼器來提升潛在空間的表達(dá)能力；
CLIP Text Encoder 增加兩個大小不同的編碼器來提升文本理解和匹配能力。

????????增加單獨(dú)基于 Latent 的 Refiner 模型，來提升圖像的精細(xì)化程度。Refiner 模型也是一個潛在擴(kuò)散模型，接收基礎(chǔ)模型生成的圖像 Latent 特征作為輸入，進(jìn)一步去噪和優(yōu)化，使得最終輸出的圖像更加清晰和銳利。

????????設(shè)計了很多訓(xùn)練 Tricks，包括圖像尺寸條件化策略，圖像裁剪參數(shù)條件化以及多尺度訓(xùn)練等。這些 Tricks 可以提高模型的泛化能力和穩(wěn)定性，使得模型能夠適應(yīng)不同的分辨率和寬高比，以及不同的圖像內(nèi)容和風(fēng)格。

????????預(yù)先發(fā)布 SDXL 0.9 測試版本，基于用戶使用體驗(yàn)和生成圖片的情況，針對性增加數(shù)據(jù)集和使用 RLHF 技術(shù)優(yōu)化迭代推出 SDXL 1.0 正式版。RLHF 是一種基于強(qiáng)化學(xué)習(xí)的圖像質(zhì)量評估技術(shù)，可以根據(jù)人類的偏好來調(diào)整模型的參數(shù)，使得生成圖像的色彩，對比度，光線以及陰影方面更加符合人類的審美。

SDXL生圖效果

SDXL的生圖穩(wěn)定性更好，細(xì)節(jié)更加豐富，真實(shí)，可控性比SD1.5也大大提升

生圖效果1:

lora:AP-xl:1, AP, no humans, cat, realistic, animal focus, animal, blurry, simple background, whiskers, newspaper, gray background, ragdoll, wear sunglasses,

Negative prompt: (worst quality, low quality:1.4), (malformed hands:1.4),(poorly drawn hands:1.4),(mutated fingers:1.4),(extra limbs:1.35),(poorly drawn face:1.4), missing legs,(extra legs:1.4),missing arms, extra arm,ugly, huge eyes, fat, worst face,(close shot:1.1), text, watermark, blurry eyes,

Steps: 35, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 3539483990, Size: 512x512, Model hash: 31e35c80fc, Model: sd_xl_base_1.0, VAE hash: 63aeecb90f, VAE: sdxl_vae.safetensors, Lora hashes: "AP-xl: f5f7e8a091b0", Refiner: sd_xl_refiner_1.0_0.9vae [8d0ce6c016], Refiner switch at: 0.8, Version: v1.6.0-2-g4afaaf8a

Time taken: 1 min. 0.6 sec.

sd_xl_base_1.0.safe,AIGC,深度學(xué)習(xí),AIGC,stable diffusion,SDXL,DALLE,Midjourney,圖像生成,計算機(jī)視覺

生圖效果2:

lora:AP-xl:1, AP, no humans, dog, (sit on the toilet:1.4), (smoking in mouse and watch newspaper:1.5), realistic, animal focus, animal, blurry, simple background, whiskers, gray background, ragdoll, wear sunglasses,

Steps: 36, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1930821284, Size: 512x512, Model hash: 31e35c80fc, Model: sd_xl_base_1.0, VAE hash: 63aeecb90f, VAE: sdxl_vae.safetensors, Lora hashes: "AP-xl: f5f7e8a091b0", Refiner: sd_xl_refiner_1.0_0.9vae [8d0ce6c016], Refiner switch at: 0.8, Version: v1.6.0-2-g4afaaf8a

Time taken: 57.6 sec.

sd_xl_base_1.0.safe,AIGC,深度學(xué)習(xí),AIGC,stable diffusion,SDXL,DALLE,Midjourney,圖像生成,計算機(jī)視覺

SDXL訓(xùn)練LoRA流程

SDXL訓(xùn)練LoRA

????????后續(xù)還會更新一下SDXL+LoRA的生圖效果，從以上效果中可以看出SDXL的生圖效果比SD更加精細(xì)，效果更好，對文本的穩(wěn)定性也更好。但這同時也帶來了較長的生成時間，因?yàn)镾DXL需要較大的步數(shù)進(jìn)行采樣，一般約在30步以上才能生成的比較精美。而SD一般只需要20步左右就可以生成出來。因此大家如果一直在用SD1.5或者2.0生圖的可以試試SDXL，相信會有一個不一樣的體會。文章來源地址http://www.zghlxwxcb.cn/news/detail-826809.html

到了這里，關(guān)于AIGC系列之：升級版的Stable Diffusion之SDXL介紹的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！