幾個(gè)使用Stable Diffusion XL 1.0生成的圖像示例。
新的SDXL 1.0發(fā)布允許在本地計(jì)算機(jī)上運(yùn)行的高分辨率人工智能圖像合成。
周三,Stability AI發(fā)布了其下一代開源權(quán)重人工智能圖像合成模型Stable Diffusion XL 1.0(SDXL)。它可以根據(jù)文本描述生成新穎的圖像,并生成比之前版本的Stable Diffusion更多細(xì)節(jié)和更高分辨率的圖像。
就像穩(wěn)定擴(kuò)散1.4版一樣,在去年8月份發(fā)布開源版本后引起轟動(dòng)一樣,任何具備適當(dāng)硬件和技術(shù)知識(shí)的人都可以免費(fèi)下載SDXL文件并在自己的機(jī)器上本地運(yùn)行該模型。
本地操作意味著不需要支付訪問(wèn)SDXL模型的費(fèi)用,幾乎沒有審查問(wèn)題,未來(lái)業(yè)余愛好者可以微調(diào)權(quán)重文件(包含使模型功能的中性網(wǎng)絡(luò)數(shù)據(jù)),以生成特定類型的圖像。
一位Reddit用戶名為masslevel的用戶使用Stable Diffusion XL的beta版本生成的一張圖像。
升級(jí)引擎
與其他潛在擴(kuò)散圖像生成器一樣,SDXL從隨機(jī)噪聲開始,并根據(jù)文本提示的指導(dǎo)“識(shí)別”噪聲中的圖像,并逐步完善圖像。但根據(jù)Stability的說(shuō)法,SDXL利用了一個(gè)“三倍大的UNet骨干”,比早期的Stable Diffusion模型具有更多的模型參數(shù)來(lái)完成其技巧。簡(jiǎn)而言之,這意味著SDXL架構(gòu)會(huì)進(jìn)行更多的處理來(lái)得到最終的圖像。
為了生成圖像,SDXL利用了一個(gè)“專家組合”架構(gòu),指導(dǎo)了一個(gè)潛在擴(kuò)散過(guò)程。專家組合是指一種方法,其中一個(gè)初始單一模型被訓(xùn)練,然后分成專門為不同階段的生成過(guò)程訓(xùn)練的專業(yè)模型,從而提高圖像質(zhì)量。在這種情況下,有一個(gè)基本的SDXL模型和一個(gè)可選的“精煉器”模型,可以在初始生成后運(yùn)行,使圖像看起來(lái)更好。
Table Diffusion XL 包含兩個(gè)可組合的文本編碼器。在 Xander Steenbrugge 的這個(gè)例子中,大象和章魚無(wú)縫地組合成一個(gè)概念。
值得注意的是,SDXL還使用了兩種不同的文本編碼器來(lái)理解書面提示,從而幫助確定模型權(quán)重中編碼的相關(guān)圖像。用戶可以為每個(gè)編碼器提供不同的提示,從而產(chǎn)生新穎、高質(zhì)量的概念組合。
然后,圖像細(xì)節(jié)和尺寸方面有所改進(jìn)。 雖然 Stable Diffusion 1.5 是在 512×512 像素圖像上進(jìn)行訓(xùn)練的(使之成為最佳的生成圖像大小,但缺少小型特征的細(xì)節(jié)),但 Stable Diffusion 2.x 將其增加到了 768×768。 現(xiàn)在,Stability AI 建議使用 Stable Diffusion XL 生成 1024×1024 像素圖像,比 SD 1.5 生成的大小相似的圖片具有更高的細(xì)節(jié)。
本地控制,開放的理念
我們下載了Stable Diffusion XL 1.0模型,并在Windows機(jī)器上使用12GB VRAM的RTX 3060 GPU本地運(yùn)行它。像ComfyUI和AUTOMATIC1111的Stable Diffusion Web UI這樣的接口使得這個(gè)過(guò)程比去年Stable Diffusion首次推出時(shí)更加用戶友好,但仍需要一些技術(shù)調(diào)整才能使其正常工作。如果您想嘗試它,本教程可以給您指明方向。
總的來(lái)說(shuō),我們看到了具有夢(mèng)幻般質(zhì)量的圖像生成,更多地傾向于商業(yè)AI圖像生成器Midjourney的風(fēng)格。正如上面提到的那樣,SDXL通過(guò)提供更大的圖像尺寸和更多的細(xì)節(jié)而閃耀。它似乎也會(huì)更忠實(shí)地遵循提示,盡管這是可以爭(zhēng)議的。
其他值得注意的改進(jìn)包括比以前的SD模型更好地渲染手部,并且它更擅長(zhǎng)在圖像中渲染文本。但是,與早期模型一樣,生成高質(zhì)量的圖像仍然像拉一個(gè)老虎機(jī)的桿子一樣,希望得到好的結(jié)果。專家們發(fā)現(xiàn),仔細(xì)提示(以及大量的試錯(cuò))是獲得更好結(jié)果的關(guān)鍵。
使用SDXL 1.0生成的“人手”AI圖像
在消費(fèi)級(jí)硬件上本地運(yùn)行時(shí),SDXL也存在缺點(diǎn),例如比Stable Diffusion 1.x 和 2.x需要更高的內(nèi)存要求和更慢的生成時(shí)間。(在我們的測(cè)試平臺(tái)上,以20個(gè)步驟,歐拉祖先,CFG 8渲染一個(gè)1024x1024的圖像,SD 1.5花費(fèi)23.3秒,而SDXL 1.0花費(fèi)了26.4秒。所得到的SDXL圖像比SD 1.5圖像少了一些重復(fù)元素。)
到目前為止,SD模型制作愛好者似乎對(duì)缺乏精細(xì)調(diào)校的LoRA感到遺憾,這些LoRA適用于SD 1.5風(fēng)格的模型,可以提升美感(比如3D渲染風(fēng)格)或某些場(chǎng)景的更詳細(xì)的背景,但他們預(yù)計(jì)社區(qū)很快就會(huì)填補(bǔ)這些空白。
在穩(wěn)定擴(kuò)散中,社區(qū)是關(guān)鍵,因?yàn)樵撃P涂梢栽诒镜剡\(yùn)行而不需要監(jiān)督。這對(duì)于利用該軟件制作有趣藝術(shù)品的業(yè)余合成器群體來(lái)說(shuō)是一種福利。但這也意味著該軟件可以用來(lái)創(chuàng)建深度偽造、色情以及虛假信息。對(duì)于Stability AI來(lái)說(shuō),一些負(fù)面方面和開放性之間的權(quán)衡是值得的。
在本月早些時(shí)候發(fā)布在arXiv上的SDXL技術(shù)報(bào)告中,Stability抱怨稱,“黑匣子”模型(如OpenAI的DALL-E和Midjourney)不允許用戶下載權(quán)重,“使得評(píng)估這些模型的偏見和局限性在公正客觀的方式下變得具有挑戰(zhàn)性?!彼麄冞M(jìn)一步聲稱,這些模型的封閉性“阻礙了可重復(fù)性,扼殺了創(chuàng)新,并防止社區(qū)在這些模型基礎(chǔ)上進(jìn)行進(jìn)一步的科學(xué)和藝術(shù)進(jìn)步?!?mark hidden color="red">文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-665277.html
這種理想主義可能對(duì)那些感到被威脅的藝術(shù)家來(lái)說(shuō)并沒有多大的安慰,因?yàn)榧夹g(shù)利用藝術(shù)家的作品碎片來(lái)訓(xùn)練像SDXL這樣的模型,而未經(jīng)允許,這不會(huì)解決版權(quán)訴訟的問(wèn)題。但即便如此,盡管圖像合成技術(shù)存在道德問(wèn)題,它仍在朝著前方不斷發(fā)展,這正是Stable Diffusion愛好者所希望的。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-665277.html
到了這里,關(guān)于新一代圖像合成模型:Stable Diffusion XL(SDXL)上線!的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!