開(kāi)源、免費(fèi)的Stable Diffusion就能達(dá)到Midjourney水平!
自從Midjourney發(fā)布v5之后,在生成圖像的人物真實(shí)程度、手指細(xì)節(jié)等方面都有了顯著改善,并且在prompt理解的準(zhǔn)確性、審美多樣性和語(yǔ)言理解方面也都取得了進(jìn)步。
相比之下,Stable Diffusion雖然免費(fèi)、開(kāi)源,但每次都要寫(xiě)一大長(zhǎng)串的prompt,想生成高質(zhì)量的圖像全靠多次抽卡。
最近Stability AI的官宣,正在研發(fā)的Stable Diffusion XL開(kāi)始面向公眾測(cè)試,目前可以在Clipdrop平臺(tái)免費(fèi)試用。
?
試用鏈接:https://clipdrop.co/stable-diffusion
Stability AI的創(chuàng)始人兼首席執(zhí)行官Emad Mostaque表示,目前該模型仍然處于訓(xùn)練階段,等參數(shù)穩(wěn)定后將會(huì)開(kāi)源;SD-XL在「握手」等圖像細(xì)節(jié)方面會(huì)表現(xiàn)更好,幾乎完全可控。
?
Stable Diffusion XL也并不是最終發(fā)布版的名字,并且也并非是v3,因?yàn)镾D-XL的架構(gòu)和SD-v2系列的模型架構(gòu)非常相似。
簡(jiǎn)約的家庭健身房,橡膠地板,壁掛式電視,舉重凳,藥球,啞鈴,瑜伽墊,高科技設(shè)備,高細(xì)節(jié),組織和效率
下面幾張SD-XL官方發(fā)布的例圖,可以看出圖像的質(zhì)量已經(jīng)非常能打了。
?
不過(guò)有時(shí)候less并不代表more,有網(wǎng)友認(rèn)為SD-XL為了擺脫「糟糕的品味」,設(shè)定了太多的規(guī)則,定制化空間越來(lái)越小,不符合大多數(shù)人的喜好。目前v1.5的Stable Diffusion仍然是社區(qū)內(nèi)最流行的基座模型。
網(wǎng)友表示希望新版SD能夠和SD 2.1版本的嵌入、hypernetworkds和Lora模型保持兼容,再?gòu)牧汩_(kāi)始重訓(xùn)的話就太難受了。
也有網(wǎng)友認(rèn)為,SD-XL的表現(xiàn)和civit網(wǎng)站上網(wǎng)友分享的模型差不多,新模型的效果也并不是特別驚艷,也就是平均水平。
SD-XL:開(kāi)源版Midjourney
關(guān)于Stable Diffusion XL模型的具體信息,官方并沒(méi)有透露太多,目前只知道是一個(gè)與v2模型架構(gòu)相似、但規(guī)模和參數(shù)量更大的模型。
SD-v2.1包括9億參數(shù),SD-XL大約有23億參數(shù),Emad表示正式版可能會(huì)額外發(fā)布一個(gè)更小的蒸餾版本。
SD-XL相比之前版本的改進(jìn)如下:
-
使用較短的描述性prompt即可生成高質(zhì)量圖像
-
可以生成更貼合prompt的圖像
-
圖像中的人體結(jié)構(gòu)更合理
-
與 v2.1和 v1.5版本(程度較輕)相比,SD-XL生成的圖片更符合大眾審美
-
負(fù)面提示詞(negative prompt)是可選項(xiàng)
-
生成的肖像圖更逼真
-
圖像中的文本更清晰
需要注意的是,SD-XL可能與之前版本的插件不兼容。
清晰可讀的文字
在v1系列和v2.1版本的Stable Diffusion模型中,并不具備在圖片中生成可讀文本的能力。
雖然SD-XL生成的文本信息并不總是準(zhǔn)確,但確實(shí)得到了巨大的提升。
Photo of a woman sitting in a restaurant holding a menu that says “Menu”
一個(gè)女人坐在餐館里拿著寫(xiě)著「Menu」的菜單
Photo of a man holding a sign that says “Stable Diffusion”
一個(gè)男人舉著寫(xiě)著「Stable Diffusion」的牌子
a young female holding a sign that says “Stable Diffusion”, highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light
一個(gè)年輕的女性舉著一個(gè)牌子,上面寫(xiě)著「Stable Diffusion」,頭發(fā)高亮,坐在餐廳外面,棕色的眼睛,穿著裙子,側(cè)燈
更好的人體結(jié)構(gòu)
Stable Diffusion在生成人體解剖結(jié)構(gòu)方面一直存在諸多問(wèn)題,多幾條腿、少個(gè)胳膊實(shí)在是太常見(jiàn)不過(guò)的問(wèn)題,通常需要使用inpaint功能進(jìn)一步對(duì)圖像細(xì)節(jié)進(jìn)行修正;或者是使用ControlNet的Open Pose功能從參考圖像中復(fù)制人體的姿態(tài)。
比如說(shuō)SD-v1.5生成瑜伽的圖像,經(jīng)常會(huì)出現(xiàn)扭曲的人體。
Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting
一個(gè)女人的照片在瑜伽服裝,三角形的姿勢(shì),海灘在晚上,邊緣照明
SD-XL雖然生成的圖像并不完美,不過(guò)在人體姿態(tài)方面已經(jīng)有了顯著的進(jìn)步。
更有美感(more aesthetic)
比如同樣以屋子為主題,SD-XL可以生成更對(duì)稱(chēng)、視覺(jué)效果更好的照片。
SD-XL在肖像照片上也有顯著改進(jìn)。
photo shot of a woman
一個(gè)女人的照片
更貼合prompt的圖像
SD-XL可以更好地理解輸入的prompt,并生成更精確的圖像。
比如以duotone(雙色)為例,SD-v1.5只會(huì)生成黑白圖像,而SD-XL則可以生成具有多種顏色的雙色調(diào)圖像。
與 v1模型相比,理解提示符的能力有所提高。
duotone portrait of a woman
一個(gè)女人的雙色調(diào)肖像
因?yàn)镾D-XL同屬v2系列模型,所以文本模型尺寸更大,可以比v1模型更好地理解提示詞。
比如下面的例子中,v1.5模型始終無(wú)法理解圖像中的兩個(gè)主題(機(jī)器人和人類(lèi)),但SD-XL模型可以生成正常的圖像(雖然機(jī)器人還是不夠big)。
big robot friend sitting next to a human, ghost in the shell style, anime wallpaper
大機(jī)器人朋友坐在人類(lèi)旁邊攻殼機(jī)動(dòng)隊(duì)風(fēng)格的動(dòng)漫壁紙
a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background
一個(gè)年輕人,頭發(fā)染得很亮,棕色眼睛,穿著白襯衫和藍(lán)色牛仔褲,站在海灘上,背景是一座火山
藝術(shù)風(fēng)格
在藝術(shù)風(fēng)格上,SD-XL并沒(méi)有顯著改進(jìn),和之前的版本各有千秋。
比如兩個(gè)模型以不同的角度生成了Edward Hopper風(fēng)格的圖像。
New York city by Edward Hopper
Edward Hopper繪制的紐約
Leonid Afmov 的風(fēng)格中,SD-v1.5更準(zhǔn)確,SD-XL缺少了不同顏色的筆刷(unmistakable colorful board brushstrokes)。
New York city by Leonid Afremov
Leonid Afemov繪制的紐約
William-Adolphe Bouguereau風(fēng)格中,V1.5和SDXL都可以生成一些類(lèi)似的內(nèi)容,其中SD-XL更接近Bouguereau創(chuàng)作的經(jīng)典學(xué)院派繪畫(huà),并且面部細(xì)節(jié)更多。
Portrait of beautiful woman by William-Adolphe Bouguereau
William-Adolphe Bouguereau繪制的美女肖像
風(fēng)格轉(zhuǎn)變問(wèn)題
在添加一些無(wú)關(guān)緊要的關(guān)鍵字后,模型的風(fēng)格可能會(huì)突然轉(zhuǎn)變。
比如先生成一張照片風(fēng)格的圖像。
a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background
一個(gè)年輕人,頭發(fā)染得很亮,棕色眼睛,穿著白襯衫和藍(lán)色牛仔褲,站在海灘上,背景是一座火山
再添加一條黃色的圍巾后,圖像風(fēng)格就變成了卡通風(fēng)格。
a young man, highlights in hair, brown eyes,?wearing a yellow scarf,?in white shirt and blue jean on a beach with a volcano in background
一個(gè)年輕人,頭發(fā)染得很亮,棕色的眼睛,圍著黃色的圍巾,穿著白襯衫和藍(lán)色牛仔褲,站在一個(gè)火山為背景的海灘上
問(wèn)題的故障可能源于預(yù)覽問(wèn)題,在正式發(fā)布后該問(wèn)題不知能否得到解決。
參考資料:?whaosoft aiot?http://143ai.com??
https://clipdrop.co/stable-diffusion文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-558051.html
?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-558051.html
到了這里,關(guān)于Stable Diffusion-XL的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!