
圖片由 Stability AI 提供
AI 歷史上最重要的一周還沒有結(jié)束。就在 OpenAI 宣布了可以生成令人驚嘆的視頻的 Sora 和 Google 公布了支持高達(dá) 150 萬個(gè)上下文窗口的 Gemini 1.5 之后,Stability AI 今天展示了 Stable Diffusion 3 的早期預(yù)覽。
什么是Stable Diffusion 3?
Stable Diffusion 3 是來自 Stability AI 的最新、能力最強(qiáng)的文本到圖像模型。它在處理多主題提示、圖像質(zhì)量甚至文本渲染能力方面都有顯著改進(jìn)。
該模型套件目前的參數(shù)范圍從 8 億到 80 億。它結(jié)合了擴(kuò)散變換器架構(gòu)(類似于 Sora)和流匹配。
擴(kuò)散變換器架構(gòu)
擴(kuò)散變換器(DiT)架構(gòu) 是一種新穎的擴(kuò)散模型類別,它結(jié)合了變換器技術(shù)。與通常使用卷積 U-Net 骨干的傳統(tǒng)擴(kuò)散模型不同,DiT 使用變換器在圖像的潛在塊上進(jìn)行操作。
擴(kuò)散變換器(DiT)架構(gòu)
這種架構(gòu)在大型數(shù)據(jù)集(如 ImageNet)上的類條件圖像生成任務(wù)中特別有效,DiT 在圖像質(zhì)量和生成模型性能方面樹立了新的基準(zhǔn)。
流匹配
流匹配(FM) 是一種新的、無需模擬的連續(xù)歸一化流(CNF)訓(xùn)練方法,它使得以前所未有的規(guī)模訓(xùn)練 CNF 成為可能。FM 通過回歸與一般高斯概率路徑兼容的固定條件概率路徑的向量場來工作,包括擴(kuò)散路徑。
在 ImageNet 上訓(xùn)練的模型的相同初始噪聲的樣本路徑
這不僅使得擴(kuò)散模型的訓(xùn)練更加穩(wěn)健,還為使用非擴(kuò)散概率路徑(如最優(yōu)傳輸路徑)的 CNF 提供了更快的訓(xùn)練、采樣和更好的泛化能力。
Stable Diffusion 3 有哪些新功能?
以下是 SD3 帶來的關(guān)鍵改進(jìn):
- 文本渲染支持
- 性能提升
- 多主題提示
- 更好的圖像質(zhì)量
這個(gè)新圖像模型最令人興奮的功能可能是它能夠像 OpenAI 的 Dall-E 3 和 Google 的 Gemini 中的 Imagen 2 一樣渲染文本。Stability AI 的首席執(zhí)行官 Emad Mostaque 已經(jīng)分享了使用 SD 3 生成的圖像,以下是我最喜歡的一些:
提示:“一張紅色球體放在藍(lán)色立方體的頂部。它們后面是一個(gè)綠色三角形,右邊是一只狗,左邊是一只貓”
Stable Diffusion 3 的樣本圖像
我覺得這張圖片有趣的地方是動物白色毛發(fā)上微妙的綠色色調(diào)。我想知道模型是否從幕后綠幕拍攝的照片中學(xué)到了這種效果。
提示:“一個(gè)紅蘋果在教室的桌子上的影視照片,黑板上用粉筆寫著“go big or go home””
Stable Diffusion 3 的樣本圖像
Stable Diffusion 3 對比 Dall-E 3 和 Gemini
我快速比較了 SD3 和 OpenAI 的 Dall-E 3 生成的圖像。在下面的例子中,我使用了 SD3 公告 博文 中的提示。
提示:“夜晚,一個(gè)巫師站在山頂上施放魔法,將彩色能量化作“Stable Diffusion 3”字樣的宇宙法術(shù)”
圖片由 Jim Clyde Monge 提供
Stable Diffusion 3 剛剛擊敗了 Dall-E 3 嗎?老實(shí)說,我很驚訝 Dall-E 3 反復(fù)拒絕使用這個(gè)提示來渲染文本。你可以自己試試。
出于好奇,我還將提示輸入 Gemini Advance,以下是結(jié)果:
圖片由 Jim Clyde Monge 提供
如何獲得Stable Diffusion 3 的訪問權(quán)限?
目前,Stable Diffusion 3.0 尚未對公眾開放。但你可以在這里注冊,以獲得 Discord 服務(wù)器的邀請。
Stable Diffusion 3 的等待列表
總結(jié)
總的來說,我對看到更多Stable Diffusion 3 的例子感到非常興奮。我已經(jīng)注冊了,以獲得預(yù)覽模型的早期訪問權(quán)限。
不過,我有一個(gè)擔(dān)憂,就是公告帖子的一半內(nèi)容都在談?wù)?AI 安全性。考慮到最近的 Gemini 事件,這種對安全性的過度關(guān)注感覺像是一個(gè)錯(cuò)失的營銷機(jī)會。
Stable Diffusion的主要用途不就是你可以將其安裝在自己的計(jì)算機(jī)上,制作你想要的東西嗎?文章來源:http://www.zghlxwxcb.cn/news/detail-848764.html
無論如何,如果需要,社區(qū)可以對開源模型進(jìn)行微調(diào)。只要明確一點(diǎn),SD3 圖像模型仍然是開源的。預(yù)覽版是為了提高其質(zhì)量和安全性,就像其他Stable Diffusion版本一樣。文章來源地址http://www.zghlxwxcb.cn/news/detail-848764.html
到了這里,關(guān)于Stable Diffusion 3 來了 —— 充滿了巨大的改進(jìn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!