2023年真是文生圖大放異彩的一年,給數(shù)字藝術(shù)界和創(chuàng)意圈注入了新鮮血液。從起初的基礎(chǔ)圖像創(chuàng)作躍進(jìn)到現(xiàn)在的超逼真效果,這些先進(jìn)的模型徹底變革了我們制作和享受數(shù)字作品的途徑。
最近,一些大公司比如華為、谷歌、還有Stability AI等人工智能巨頭也沒閑著,紛紛推出了自己的最新文生圖模型。
今天就給大家盤點(diǎn)一下近期新推出的文生圖模型,為了讓各位更全面地理解這些技術(shù),我還特別準(zhǔn)備了相關(guān)的研究論文和代碼分享!
1、PanGu-Draw(華為)
論文:PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion
PanGu-Draw:通過時(shí)間解耦訓(xùn)練和可重用 Coop-Diffusion 推進(jìn)資源節(jié)約型文本到圖像合成
簡(jiǎn)述:本文提出了PanGu-Draw,一種高效的文本到圖像潛在擴(kuò)散模型,能適應(yīng)多控制信號(hào)。該模型采用時(shí)間解耦訓(xùn)練策略,分為結(jié)構(gòu)器和紋理器,大幅提升數(shù)據(jù)和計(jì)算效率。同時(shí),研究人員引入Coop-Diffusion算法,允許不同潛在空間和分辨率的模型協(xié)同工作,無需額外數(shù)據(jù)或重新訓(xùn)練。PanGu-Draw在文本到圖像和多控制圖像生成上表現(xiàn)出色,指向了訓(xùn)練效率和生成多功能性的新方向。
2、Imagen & Imagen 2(谷歌)
論文:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
具有深度語(yǔ)言理解的逼真文本到圖像擴(kuò)散模型
簡(jiǎn)述:本文提出了Imagen,一款新型的文本到圖像擴(kuò)散模型,實(shí)現(xiàn)了極高的真實(shí)感和深度語(yǔ)言理解。該模型結(jié)合了大型Transformer語(yǔ)言模型和擴(kuò)散模型的技術(shù),優(yōu)化了語(yǔ)言模型的大小以提高圖像質(zhì)量和文本對(duì)齊。在COCO數(shù)據(jù)集上,Imagen取得了領(lǐng)先的FID分?jǐn)?shù),且其樣本的圖像-文本對(duì)齊得到了人類評(píng)分者的好評(píng)。研究人員還引入了DrawBench基準(zhǔn)測(cè)試,比較了Imagen與其他最新方法,發(fā)現(xiàn)其在樣本質(zhì)量和圖像文本對(duì)齊方面更優(yōu)秀。
3、SDXL Turbo(Stability AI)
論文:Adversarial Diffusion Distillation
對(duì)抗性擴(kuò)散蒸餾
簡(jiǎn)述:本文提出了SDXL Turbo,它在 SDXL 1.0 的基礎(chǔ)上進(jìn)行迭代,并為文本到圖像模型實(shí)現(xiàn)了一種新的蒸餾技術(shù):對(duì)抗擴(kuò)散蒸餾(ADD),能夠高效地從大規(guī)模基礎(chǔ)圖像擴(kuò)散模型中采樣,同時(shí)保持高質(zhì)量圖像。該模型在一步中明顯優(yōu)于現(xiàn)有幾步方法,并在四步內(nèi)達(dá)到最先進(jìn)擴(kuò)散模型的性能。ADD 是首個(gè)使用基礎(chǔ)模型實(shí)現(xiàn)單步實(shí)時(shí)圖像合成的方法。
4、CM3Leon(Meta)
論文:Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning
擴(kuò)展自回歸多模態(tài)模型:預(yù)訓(xùn)練和指令調(diào)優(yōu)
簡(jiǎn)述:本文提出了CM3Leon,一種多模態(tài)語(yǔ)言模型,擅長(zhǎng)生成和填充文本和圖像。它是首個(gè)采用純文本語(yǔ)言模型訓(xùn)練方法的多模態(tài)模型,包括大規(guī)模檢索增強(qiáng)預(yù)訓(xùn)練和多任務(wù)監(jiān)督微調(diào)階段。CM3Leon在文本到圖像生成上實(shí)現(xiàn)了領(lǐng)先性能,計(jì)算量比同類方法少5倍。此外,CM3Leon在圖像編輯和控制生成等任務(wù)中展現(xiàn)出前所未有的可控性。
5、PixArt-α(華為諾亞方舟實(shí)驗(yàn)室聯(lián)合大連理工大學(xué)、香港大學(xué)、香港科技大學(xué)等機(jī)構(gòu))
論文:PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
PixArt-α:快速訓(xùn)練擴(kuò)散變壓器,實(shí)現(xiàn)逼真的文本到圖像合成
簡(jiǎn)述:本文提出了PixArt-α,一種高效的基于Transformer的文本轉(zhuǎn)圖像模型,它能以較少的訓(xùn)練資源生成與最先進(jìn)模型相媲美的商業(yè)級(jí)圖像。PixArt-α采用三種策略:優(yōu)化的訓(xùn)練步驟、高效的Transformer架構(gòu)和增強(qiáng)的數(shù)據(jù)處理,實(shí)現(xiàn)了快速、低成本且環(huán)保的訓(xùn)練過程。實(shí)驗(yàn)結(jié)果顯示,PixArt-α在多個(gè)方面表現(xiàn)出色,為AIGC領(lǐng)域提供了新的創(chuàng)新方向。
6、Kandinsky 3.0(俄羅斯AI Forever研究團(tuán)隊(duì))
論文:Kandinsky 3.0 Technical Report
Kandinsky 3.0 技術(shù)報(bào)告
簡(jiǎn)述:本文提出了Kandinsky 3.0,一個(gè)基于潛在擴(kuò)散的大規(guī)模文本到圖像生成模型,旨在提高圖像生成的質(zhì)量和真實(shí)性。該模型通過使用更大的U-Net主干網(wǎng)和文本編碼器以及去除擴(kuò)散映射進(jìn)行改進(jìn)。文中詳細(xì)介紹了模型的架構(gòu)、訓(xùn)練過程和生產(chǎn)系統(tǒng),并強(qiáng)調(diào)了關(guān)鍵組件對(duì)提升模型質(zhì)量的重要性。實(shí)驗(yàn)表明,Kandinsky 3.0在文本理解和特定領(lǐng)域表現(xiàn)上有所提升。
7、DreamBooth(谷歌)
論文:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
DreamBooth:微調(diào)文本到圖像擴(kuò)散模型,用于主題驅(qū)動(dòng)的生成
簡(jiǎn)述:本文提出了DreamBooth,一種個(gè)性化文生圖模型,它通過微調(diào)預(yù)訓(xùn)練的文生圖模型,如Imagen,將一個(gè)獨(dú)特的標(biāo)識(shí)符與某個(gè)物體綁定,這樣模型就可以在含有該標(biāo)識(shí)符的prompt下,在不同場(chǎng)景中生成包含該物體的新穎圖片。這種技術(shù)利用模型的語(yǔ)義先驗(yàn)和新的特定類先驗(yàn)保留損失,實(shí)現(xiàn)了在多樣化條件下合成主體的能力。研究人員將此技術(shù)應(yīng)用于多種任務(wù),并提出了新的數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn),以推動(dòng)主題驅(qū)動(dòng)的圖像生成的發(fā)展。
8、GigaGAN(POSTECH、卡內(nèi)基梅隆大學(xué)和 Adobe 研究院的研究人員)
論文:Scaling up GANs for Text-to-Image Synthesis
擴(kuò)展 GAN 以進(jìn)行文本到圖像合成
簡(jiǎn)述:本文提出了GigaGAN,一種改進(jìn)的 GAN 架構(gòu),它被設(shè)計(jì)用于提高文本到圖像合成的效率和質(zhì)量,它具有三大優(yōu)勢(shì):首先,它在推理時(shí)間快幾個(gè)數(shù)量級(jí),合成 512px 的圖像只需 0.13 秒;其次,它可以合成高分辨率圖像,例如,在 16 秒內(nèi)合成 3.66 像素的圖像;最后,GigaGAN支持各種潛在空間編輯應(yīng)用,如潛在插值、樣式混合和向量算術(shù)運(yùn)算。
9、LCM?(清華大學(xué)交叉信息研究院的研究者們)
論文:Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference
潛在一致性模型:通過少步推理合成高分辨率圖像
簡(jiǎn)述:本文提出了LCM,一種在預(yù)訓(xùn)練LDM上快速推理的新模型,通過預(yù)測(cè)常微分方程的解減少迭代,實(shí)現(xiàn)快速、高保真的圖像采樣。LCM在預(yù)訓(xùn)練的無分類器引導(dǎo)擴(kuò)散模型上表現(xiàn)出色,只需少量步驟即可生成高質(zhì)量的圖像,訓(xùn)練僅需少量計(jì)算資源。研究人員還提出了LCF,用于在自定義圖像數(shù)據(jù)集上微調(diào)LCM。在LAION-5B-Aesthetics數(shù)據(jù)集上的評(píng)估顯示,LCM實(shí)現(xiàn)了最先進(jìn)的文本到圖像生成性能。
碼字不易,歡迎大家點(diǎn)贊評(píng)論收藏!
關(guān)注下方《享享學(xué)AI》
回復(fù)【文生圖模型】獲取完整論文和代碼文章來源:http://www.zghlxwxcb.cn/news/detail-819302.html
??文章來源地址http://www.zghlxwxcb.cn/news/detail-819302.html
到了這里,關(guān)于9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!