目錄
AIGC工具對比
DALL-E
MidJourney
Stable Diffusion
相關(guān)資料
SDXL介紹
SDXL生圖效果
SDXL訓(xùn)練LoRA流程
AIGC工具對比
????????在目前的三大新興文本轉(zhuǎn)圖像模型中,Stable Diffusion誕生得最晚,但由于擁有發(fā)展良好的開源社區(qū),它的用戶關(guān)注度和應(yīng)用廣度都超越Midjourney和DALL-E。
DALL-E
????????2021 年 1 月,OpenAI 推出了 DALL-E 模型,通過 120 億參數(shù)版本的 GPT-3 Transformer 模型來理解自然語言輸入并生成相應(yīng)的圖片。但是它的推出主要用于研究,所以訪問權(quán)限僅限于小部分測試版用戶。這個模型不穩(wěn)定對于細(xì)節(jié)理解處理不完善,且會出現(xiàn)嚴(yán)重的邏輯或者事實(shí)錯誤,但是作為開創(chuàng)者,還是得專門提出來的。
????????在發(fā)布 DALL-E 時還發(fā)布了 CLIP (Contrastive Language-Image Pre-training,對比圖文預(yù)訓(xùn)練)。CLIP 是一種神經(jīng)網(wǎng)絡(luò),為輸入的圖像返回最佳的標(biāo)題。它所做的事情與 DALL-E 所做的相反 —— 它是將圖像轉(zhuǎn)換為文本,而 DALL-E 是將文本轉(zhuǎn)換為圖像。引入 CLIP 的目的是為了學(xué)習(xí)物體的視覺和文字表示之間的聯(lián)系。
????????2022 年 4 月,OpenAI 發(fā)布了新版本的 DALL-E 2 ,它是 DALL-E 的升級版本,另外能對所生成的圖像進(jìn)行二次編輯,現(xiàn)在即使是新用戶也需要充值才能生成新圖。
????????2023年的9月21日,Open Ai發(fā)布了其dall-e系列中的最新一代產(chǎn)品,DALL-3相比于上一代的dall-2來說,進(jìn)行了一次全方面的升級。但dall-3可以通過只通過文字描述來完美生成圖片,完全通過文字來控制畫面,這代表著,用戶再也不需要去學(xué)習(xí)如何構(gòu)建關(guān)鍵詞,只需要一段語言描述就可以生成一張完全符合這段語言描述的畫面。這對目前的AI繪畫來說將會是一個巨大的沖擊,同時也代表了接下來AI繪畫的方向。
MidJourney
????????MidJourney 的 v1 是 2022 年 2 月發(fā)布的,它火出圈是由于 22 年 7 月份的 v3 版本。它的特點(diǎn)是綜合能力比較全面,藝術(shù)性很強(qiáng),非常像藝術(shù)家制作的作品,另外圖像生成速度更快,早期主要是很多藝術(shù)家會借助 Midjourney 作為創(chuàng)作靈感。另外,因?yàn)?Midjourney 搭載在 Discord 頻道上,所以有非常良好的社區(qū)討論環(huán)境和用戶基礎(chǔ)。
????????第二次火其實(shí)就是今年 3 月份發(fā)布 V5, 官方說這個版本在生成圖像的人物真實(shí)程度、手指細(xì)節(jié)等方面都有了顯著改善,并且在提示詞理解的準(zhǔn)確性、審美多樣性和語言理解方面也都取得了進(jìn)步。
Stable Diffusion
????????2022年7月Stable Diffusion的問世則震驚了全球,相比前輩們,Stable Diffusion已經(jīng)成功的解決了細(xì)節(jié)及效率問題,通過算法迭代將AI繪圖的精細(xì)度提升到了藝術(shù)品級別,并將生產(chǎn)效率提升到了秒級,創(chuàng)作所需的設(shè)備門檻也被拉到了民用水準(zhǔn)。
????????2022年8月對于AI繪圖來說,革命性的時刻已經(jīng)來臨,也得益于Stable Diffusion的開源性質(zhì),全球AI繪圖產(chǎn)品迎來了日新月異的發(fā)展。這次AI創(chuàng)作大討論,正是公眾們直觀地感受到了技術(shù)浪潮帶來的影響,AI繪圖正在走進(jìn)千家萬戶,輿論熱潮也隨之而來。
????????2023 年 4 月,Stability AI 發(fā)布了 Beta 版本的 Stable Diffusion XL ,并提到在訓(xùn)練結(jié)束后參數(shù)穩(wěn)定后會開源,并改善了需要輸入非常長的提示詞 (prompts),對于人體結(jié)構(gòu)的處理有瑕疵,經(jīng)常出現(xiàn)動作和人體結(jié)構(gòu)異常。
????????2023年7月27日,Stability AI正式發(fā)布了下一代文生圖模型—SDXL 1.0。SDXL 1.0擁有目前所有開放式圖像模型中最大的參數(shù)數(shù)量,采用了創(chuàng)新的新架構(gòu),包括一個擁有35億參數(shù)的基礎(chǔ)模型和一個66億參數(shù)的優(yōu)化模型,這也是本文要介紹的重點(diǎn),接下來一起看一下吧~
相關(guān)資料
論文:《SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis》
組織:Stability AI, Applied Research
論文地址:https://arxiv.org/pdf/2307.01952.pdf
代碼地址:https://github.com/Stability-AI/generative-models
模型權(quán)重:https://huggingface.co/stabilit
試用地址:https://huggingface.co/spaces/google/sdxl
SDXL介紹
????????2023年7月27日,Stability AI正式發(fā)布了下一代文生圖模型—SDXL 1.0。SDXL 1.0擁有目前所有開放式圖像模型中最大的參數(shù)數(shù)量,采用了創(chuàng)新的新架構(gòu),包括一個擁有35億參數(shù)的基礎(chǔ)模型和一個66億參數(shù)的優(yōu)化模型。
SDXL 1.0包括兩種不同的模型:
????????sdxl-base-1.0:生成1024 x 1024圖像的基本文本到圖像模型?;灸P褪褂肙penCLIP-ViT/G和CLIP-ViT/L進(jìn)行文本編碼。
????????sdxl-refiner-1.0:一個圖像到圖像的模型,用于細(xì)化基本模型的潛在輸出,可以生成更高保真度的圖像。細(xì)化模型只使用OpenCLIP-ViT/G模型。SDXL 1.0的refiner是基于OpenCLIP-ViT/G的具有6.6B參數(shù)模型,是目前可用的最強(qiáng)大的開放訪問圖像模型之一。
????????對于 Stable Diffusion 的U-Net、VAE、CLIP Text Encoder三大組件都做了改進(jìn)。
-
U-Net 增加 Transformer Blocks (自注意力 + 交叉注意力) 來增強(qiáng)特征提取和融合能力;
-
VAE 增加條件變分自編碼器來提升潛在空間的表達(dá)能力;
-
CLIP Text Encoder 增加兩個大小不同的編碼器來提升文本理解和匹配能力。
????????增加單獨(dú)基于 Latent 的 Refiner 模型,來提升圖像的精細(xì)化程度。Refiner 模型也是一個潛在擴(kuò)散模型,接收基礎(chǔ)模型生成的圖像 Latent 特征作為輸入,進(jìn)一步去噪和優(yōu)化,使得最終輸出的圖像更加清晰和銳利。
????????設(shè)計了很多訓(xùn)練 Tricks,包括圖像尺寸條件化策略,圖像裁剪參數(shù)條件化以及多尺度訓(xùn)練等。這些 Tricks 可以提高模型的泛化能力和穩(wěn)定性,使得模型能夠適應(yīng)不同的分辨率和寬高比,以及不同的圖像內(nèi)容和風(fēng)格。
????????預(yù)先發(fā)布 SDXL 0.9 測試版本,基于用戶使用體驗(yàn)和生成圖片的情況,針對性增加數(shù)據(jù)集和使用 RLHF 技術(shù)優(yōu)化迭代推出 SDXL 1.0 正式版。RLHF 是一種基于強(qiáng)化學(xué)習(xí)的圖像質(zhì)量評估技術(shù),可以根據(jù)人類的偏好來調(diào)整模型的參數(shù),使得生成圖像的色彩,對比度,光線以及陰影方面更加符合人類的審美。
SDXL生圖效果
SDXL的生圖穩(wěn)定性更好,細(xì)節(jié)更加豐富,真實(shí),可控性比SD1.5也大大提升
生圖效果1:
lora:AP-xl:1, AP, no humans, cat, realistic, animal focus, animal, blurry, simple background, whiskers, newspaper, gray background, ragdoll, wear sunglasses,
Negative prompt: (worst quality, low quality:1.4), (malformed hands:1.4),(poorly drawn hands:1.4),(mutated fingers:1.4),(extra limbs:1.35),(poorly drawn face:1.4), missing legs,(extra legs:1.4),missing arms, extra arm,ugly, huge eyes, fat, worst face,(close shot:1.1), text, watermark, blurry eyes,
Steps: 35, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 3539483990, Size: 512x512, Model hash: 31e35c80fc, Model: sd_xl_base_1.0, VAE hash: 63aeecb90f, VAE: sdxl_vae.safetensors, Lora hashes: "AP-xl: f5f7e8a091b0", Refiner: sd_xl_refiner_1.0_0.9vae [8d0ce6c016], Refiner switch at: 0.8, Version: v1.6.0-2-g4afaaf8a
Time taken: 1 min. 0.6 sec.
生圖效果2:
lora:AP-xl:1, AP, no humans, dog, (sit on the toilet:1.4), (smoking in mouse and watch newspaper:1.5), realistic, animal focus, animal, blurry, simple background, whiskers, gray background, ragdoll, wear sunglasses,
Negative prompt: (worst quality, low quality:1.4), (malformed hands:1.4),(poorly drawn hands:1.4),(mutated fingers:1.4),(extra limbs:1.35),(poorly drawn face:1.4), missing legs,(extra legs:1.4),missing arms, extra arm,ugly, huge eyes, fat, worst face,(close shot:1.1), text, watermark, blurry eyes,
Steps: 36, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 1930821284, Size: 512x512, Model hash: 31e35c80fc, Model: sd_xl_base_1.0, VAE hash: 63aeecb90f, VAE: sdxl_vae.safetensors, Lora hashes: "AP-xl: f5f7e8a091b0", Refiner: sd_xl_refiner_1.0_0.9vae [8d0ce6c016], Refiner switch at: 0.8, Version: v1.6.0-2-g4afaaf8a
Time taken: 57.6 sec.
SDXL訓(xùn)練LoRA流程
SDXL訓(xùn)練LoRA文章來源:http://www.zghlxwxcb.cn/news/detail-826809.html
????????后續(xù)還會更新一下SDXL+LoRA的生圖效果,從以上效果中可以看出SDXL的生圖效果比SD更加精細(xì),效果更好,對文本的穩(wěn)定性也更好。但這同時也帶來了較長的生成時間,因?yàn)镾DXL需要較大的步數(shù)進(jìn)行采樣,一般約在30步以上才能生成的比較精美。而SD一般只需要20步左右就可以生成出來。因此大家如果一直在用SD1.5或者2.0生圖的可以試試SDXL,相信會有一個不一樣的體會。文章來源地址http://www.zghlxwxcb.cn/news/detail-826809.html
到了這里,關(guān)于AIGC系列之:升級版的Stable Diffusion之SDXL介紹的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!