国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼)

這篇具有很好參考價(jià)值的文章主要介紹了9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

2023年真是文生圖大放異彩的一年,給數(shù)字藝術(shù)界和創(chuàng)意圈注入了新鮮血液。從起初的基礎(chǔ)圖像創(chuàng)作躍進(jìn)到現(xiàn)在的超逼真效果,這些先進(jìn)的模型徹底變革了我們制作和享受數(shù)字作品的途徑。

最近,一些大公司比如華為、谷歌、還有Stability AI等人工智能巨頭也沒閑著,紛紛推出了自己的最新文生圖模型。

今天就給大家盤點(diǎn)一下近期新推出的文生圖模型,為了讓各位更全面地理解這些技術(shù),我還特別準(zhǔn)備了相關(guān)的研究論文和代碼分享!

1、PanGu-Draw(華為)

論文:PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

PanGu-Draw:通過時(shí)間解耦訓(xùn)練和可重用 Coop-Diffusion 推進(jìn)資源節(jié)約型文本到圖像合成

簡(jiǎn)述:本文提出了PanGu-Draw,一種高效的文本到圖像潛在擴(kuò)散模型,能適應(yīng)多控制信號(hào)。該模型采用時(shí)間解耦訓(xùn)練策略,分為結(jié)構(gòu)器和紋理器,大幅提升數(shù)據(jù)和計(jì)算效率。同時(shí),研究人員引入Coop-Diffusion算法,允許不同潛在空間和分辨率的模型協(xié)同工作,無需額外數(shù)據(jù)或重新訓(xùn)練。PanGu-Draw在文本到圖像和多控制圖像生成上表現(xiàn)出色,指向了訓(xùn)練效率和生成多功能性的新方向。

9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼),人工智能,華為,計(jì)算機(jī)視覺,深度學(xué)習(xí)

2、Imagen & Imagen 2(谷歌)

論文:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

具有深度語(yǔ)言理解的逼真文本到圖像擴(kuò)散模型

簡(jiǎn)述:本文提出了Imagen,一款新型的文本到圖像擴(kuò)散模型,實(shí)現(xiàn)了極高的真實(shí)感和深度語(yǔ)言理解。該模型結(jié)合了大型Transformer語(yǔ)言模型和擴(kuò)散模型的技術(shù),優(yōu)化了語(yǔ)言模型的大小以提高圖像質(zhì)量和文本對(duì)齊。在COCO數(shù)據(jù)集上,Imagen取得了領(lǐng)先的FID分?jǐn)?shù),且其樣本的圖像-文本對(duì)齊得到了人類評(píng)分者的好評(píng)。研究人員還引入了DrawBench基準(zhǔn)測(cè)試,比較了Imagen與其他最新方法,發(fā)現(xiàn)其在樣本質(zhì)量和圖像文本對(duì)齊方面更優(yōu)秀。

9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼),人工智能,華為,計(jì)算機(jī)視覺,深度學(xué)習(xí)

3、SDXL Turbo(Stability AI)

論文:Adversarial Diffusion Distillation

對(duì)抗性擴(kuò)散蒸餾

簡(jiǎn)述:本文提出了SDXL Turbo,它在 SDXL 1.0 的基礎(chǔ)上進(jìn)行迭代,并為文本到圖像模型實(shí)現(xiàn)了一種新的蒸餾技術(shù):對(duì)抗擴(kuò)散蒸餾(ADD),能夠高效地從大規(guī)模基礎(chǔ)圖像擴(kuò)散模型中采樣,同時(shí)保持高質(zhì)量圖像。該模型在一步中明顯優(yōu)于現(xiàn)有幾步方法,并在四步內(nèi)達(dá)到最先進(jìn)擴(kuò)散模型的性能。ADD 是首個(gè)使用基礎(chǔ)模型實(shí)現(xiàn)單步實(shí)時(shí)圖像合成的方法。

9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼),人工智能,華為,計(jì)算機(jī)視覺,深度學(xué)習(xí)

4、CM3Leon(Meta)

論文:Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

擴(kuò)展自回歸多模態(tài)模型:預(yù)訓(xùn)練和指令調(diào)優(yōu)

簡(jiǎn)述:本文提出了CM3Leon,一種多模態(tài)語(yǔ)言模型,擅長(zhǎng)生成和填充文本和圖像。它是首個(gè)采用純文本語(yǔ)言模型訓(xùn)練方法的多模態(tài)模型,包括大規(guī)模檢索增強(qiáng)預(yù)訓(xùn)練和多任務(wù)監(jiān)督微調(diào)階段。CM3Leon在文本到圖像生成上實(shí)現(xiàn)了領(lǐng)先性能,計(jì)算量比同類方法少5倍。此外,CM3Leon在圖像編輯和控制生成等任務(wù)中展現(xiàn)出前所未有的可控性。

9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼),人工智能,華為,計(jì)算機(jī)視覺,深度學(xué)習(xí)

5、PixArt-α(華為諾亞方舟實(shí)驗(yàn)室聯(lián)合大連理工大學(xué)、香港大學(xué)、香港科技大學(xué)等機(jī)構(gòu))

論文:PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

PixArt-α:快速訓(xùn)練擴(kuò)散變壓器,實(shí)現(xiàn)逼真的文本到圖像合成

簡(jiǎn)述:本文提出了PixArt-α,一種高效的基于Transformer的文本轉(zhuǎn)圖像模型,它能以較少的訓(xùn)練資源生成與最先進(jìn)模型相媲美的商業(yè)級(jí)圖像。PixArt-α采用三種策略:優(yōu)化的訓(xùn)練步驟、高效的Transformer架構(gòu)和增強(qiáng)的數(shù)據(jù)處理,實(shí)現(xiàn)了快速、低成本且環(huán)保的訓(xùn)練過程。實(shí)驗(yàn)結(jié)果顯示,PixArt-α在多個(gè)方面表現(xiàn)出色,為AIGC領(lǐng)域提供了新的創(chuàng)新方向。

9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼),人工智能,華為,計(jì)算機(jī)視覺,深度學(xué)習(xí)

6、Kandinsky 3.0(俄羅斯AI Forever研究團(tuán)隊(duì))

論文:Kandinsky 3.0 Technical Report

Kandinsky 3.0 技術(shù)報(bào)告

簡(jiǎn)述:本文提出了Kandinsky 3.0,一個(gè)基于潛在擴(kuò)散的大規(guī)模文本到圖像生成模型,旨在提高圖像生成的質(zhì)量和真實(shí)性。該模型通過使用更大的U-Net主干網(wǎng)和文本編碼器以及去除擴(kuò)散映射進(jìn)行改進(jìn)。文中詳細(xì)介紹了模型的架構(gòu)、訓(xùn)練過程和生產(chǎn)系統(tǒng),并強(qiáng)調(diào)了關(guān)鍵組件對(duì)提升模型質(zhì)量的重要性。實(shí)驗(yàn)表明,Kandinsky 3.0在文本理解和特定領(lǐng)域表現(xiàn)上有所提升。

9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼),人工智能,華為,計(jì)算機(jī)視覺,深度學(xué)習(xí)

7、DreamBooth(谷歌)

論文:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

DreamBooth:微調(diào)文本到圖像擴(kuò)散模型,用于主題驅(qū)動(dòng)的生成

簡(jiǎn)述:本文提出了DreamBooth,一種個(gè)性化文生圖模型,它通過微調(diào)預(yù)訓(xùn)練的文生圖模型,如Imagen,將一個(gè)獨(dú)特的標(biāo)識(shí)符與某個(gè)物體綁定,這樣模型就可以在含有該標(biāo)識(shí)符的prompt下,在不同場(chǎng)景中生成包含該物體的新穎圖片。這種技術(shù)利用模型的語(yǔ)義先驗(yàn)和新的特定類先驗(yàn)保留損失,實(shí)現(xiàn)了在多樣化條件下合成主體的能力。研究人員將此技術(shù)應(yīng)用于多種任務(wù),并提出了新的數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn),以推動(dòng)主題驅(qū)動(dòng)的圖像生成的發(fā)展。

9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼),人工智能,華為,計(jì)算機(jī)視覺,深度學(xué)習(xí)

8、GigaGAN(POSTECH、卡內(nèi)基梅隆大學(xué)和 Adobe 研究院的研究人員)

論文:Scaling up GANs for Text-to-Image Synthesis

擴(kuò)展 GAN 以進(jìn)行文本到圖像合成

簡(jiǎn)述:本文提出了GigaGAN,一種改進(jìn)的 GAN 架構(gòu),它被設(shè)計(jì)用于提高文本到圖像合成的效率和質(zhì)量,它具有三大優(yōu)勢(shì):首先,它在推理時(shí)間快幾個(gè)數(shù)量級(jí),合成 512px 的圖像只需 0.13 秒;其次,它可以合成高分辨率圖像,例如,在 16 秒內(nèi)合成 3.66 像素的圖像;最后,GigaGAN支持各種潛在空間編輯應(yīng)用,如潛在插值、樣式混合和向量算術(shù)運(yùn)算。

9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼),人工智能,華為,計(jì)算機(jī)視覺,深度學(xué)習(xí)

9、LCM?(清華大學(xué)交叉信息研究院的研究者們)

論文:Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference

潛在一致性模型:通過少步推理合成高分辨率圖像

簡(jiǎn)述:本文提出了LCM,一種在預(yù)訓(xùn)練LDM上快速推理的新模型,通過預(yù)測(cè)常微分方程的解減少迭代,實(shí)現(xiàn)快速、高保真的圖像采樣。LCM在預(yù)訓(xùn)練的無分類器引導(dǎo)擴(kuò)散模型上表現(xiàn)出色,只需少量步驟即可生成高質(zhì)量的圖像,訓(xùn)練僅需少量計(jì)算資源。研究人員還提出了LCF,用于在自定義圖像數(shù)據(jù)集上微調(diào)LCM。在LAION-5B-Aesthetics數(shù)據(jù)集上的評(píng)估顯示,LCM實(shí)現(xiàn)了最先進(jìn)的文本到圖像生成性能。

9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼),人工智能,華為,計(jì)算機(jī)視覺,深度學(xué)習(xí)

碼字不易,歡迎大家點(diǎn)贊評(píng)論收藏!

關(guān)注下方《享享學(xué)AI》

回復(fù)【文生圖模型】獲取完整論文和代碼

??文章來源地址http://www.zghlxwxcb.cn/news/detail-819302.html

到了這里,關(guān)于9款最新文生圖模型匯總!含華為、谷歌、Stability AI等大廠創(chuàng)新模型(附論文和代碼)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Stability AI發(fā)布基于穩(wěn)定擴(kuò)散的音頻生成模型Stable Audio

    Stability AI發(fā)布基于穩(wěn)定擴(kuò)散的音頻生成模型Stable Audio

    近日Stability AI推出了一款名為Stable Audio的尖端生成模型,該模型可以根據(jù)用戶提供的文本提示來創(chuàng)建音樂。在NVIDIA A100 GPU上Stable Audio可以在一秒鐘內(nèi)以44.1 kHz的采樣率產(chǎn)生95秒的立體聲音頻,與原始錄音相比,該模型處理時(shí)間的大幅減少歸因于它對(duì)壓縮音頻潛在表示的有效處理

    2024年02月07日
    瀏覽(36)
  • Stability AI推出Stable Diffusion XL 1.0,文本到圖像模型

    Stability AI推出Stable Diffusion XL 1.0,文本到圖像模型

    Stability AI宣布推出Stable Diffusion XL 1.0,這是一個(gè)文本到圖像的模型,該公司將其描述為迄今為止“最先進(jìn)的”版本。 Stability AI表示,SDXL 1.0能生成更加鮮明準(zhǔn)確的色彩,在對(duì)比度、光線和陰影方面做了增強(qiáng),可生成100萬像素的圖像(1024×1024)。而且還支持在網(wǎng)頁(yè)上直接對(duì)生成

    2024年02月15日
    瀏覽(22)
  • [ai筆記8] 聊聊openAI最新文生視頻產(chǎn)品-Sora

    [ai筆記8] 聊聊openAI最新文生視頻產(chǎn)品-Sora

    歡迎來到文思源想的ai空間,這是技術(shù)老兵重學(xué)ai以及成長(zhǎng)思考的第8篇分享! 近期sora在科技屆引發(fā)不小的轟動(dòng),雖然這是openai并未對(duì)外發(fā)布的相關(guān)產(chǎn)品,目前如同小米汽車的技術(shù)發(fā)布會(huì),但是確實(shí)引發(fā)了不小的震撼,因此特地到官方網(wǎng)站閱讀了它的所有介紹,包括技術(shù)資料,

    2024年02月20日
    瀏覽(21)
  • 深入淺出熟悉OpenAI最新大作Sora文生視頻大模型

    深入淺出熟悉OpenAI最新大作Sora文生視頻大模型

    蠢蠢欲動(dòng),惴惴不安,朋友們我又來了,這個(gè)春節(jié)真的過的是像過山車,Gemini1.5 PRO還沒過勁,OpenAI又放大招,人類真的要認(rèn)輸了嗎,讓我忍不住想要再探究竟,到底是什么讓文生視頻發(fā)生了質(zhì)的躍遷,再次不僅止不住唏噓,那些老板們辛辛苦苦創(chuàng)起來的業(yè),恐怕又被降維打擊

    2024年02月21日
    瀏覽(26)
  • Stability AI官宣Stable Code Instruct 3B模型,編程效率迎新突破|TodayAI

    Stability AI官宣Stable Code Instruct 3B模型,編程效率迎新突破|TodayAI

    剛剛出走CEO的Stability AI官宣了大模型Stable Code Instruct 3B,這個(gè)創(chuàng)新性大型語(yǔ)言模型吸引了編程和軟件開發(fā)界的廣泛關(guān)注。該模型基于Stable Code 3B開發(fā),并通過自然語(yǔ)言提示,有效處理代碼生成、數(shù)學(xué)解答以及其他與軟件開發(fā)相關(guān)的查詢?nèi)蝿?wù)。 據(jù)了解,Stable Code Instruct 3B在3B規(guī)模

    2024年04月13日
    瀏覽(28)
  • 最新AI創(chuàng)作系統(tǒng)ChatGPT系統(tǒng)源碼+DALL-E3文生圖+AI繪畫+GPT語(yǔ)音對(duì)話功能

    最新AI創(chuàng)作系統(tǒng)ChatGPT系統(tǒng)源碼+DALL-E3文生圖+AI繪畫+GPT語(yǔ)音對(duì)話功能

    SparkAi創(chuàng)作系統(tǒng)是基于ChatGPT進(jìn)行開發(fā)的Ai智能問答系統(tǒng)和Midjourney繪畫系統(tǒng),支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來非常完美,可以說SparkAi是目前國(guó)內(nèi)一款的ChatGPT對(duì)接OpenAI軟件系統(tǒng)。那么如何搭建部署AI創(chuàng)作ChatGPT?小編這里寫一個(gè)詳細(xì)圖文教程吧!

    2024年02月04日
    瀏覽(26)
  • 最新國(guó)內(nèi)可用GPT4、Midjourney繪畫、DALL-E3文生圖模型教程

    最新國(guó)內(nèi)可用GPT4、Midjourney繪畫、DALL-E3文生圖模型教程

    ChatGPT3.5、GPT4.0、GPT語(yǔ)音對(duì)話、Midjourney繪畫,文檔對(duì)話總結(jié)+DALL-E3文生圖,相信對(duì)大家應(yīng)該不感到陌生吧?簡(jiǎn)單來說,GPT-4技術(shù)比之前的GPT-3.5相對(duì)來說更加智能,會(huì)根據(jù)用戶的要求生成多種內(nèi)容甚至也可以和用戶進(jìn)行創(chuàng)作交流。 然而,GPT-4對(duì)普通用戶來說都是需要額外付費(fèi)才可

    2024年01月20日
    瀏覽(39)
  • 最新AI創(chuàng)作系統(tǒng)ChatGPT網(wǎng)站源碼AI繪畫,GPTs,AI換臉支持,GPT聯(lián)網(wǎng)提問、DALL-E3文生圖

    最新AI創(chuàng)作系統(tǒng)ChatGPT網(wǎng)站源碼AI繪畫,GPTs,AI換臉支持,GPT聯(lián)網(wǎng)提問、DALL-E3文生圖

    SparkAi創(chuàng)作系統(tǒng)是基于ChatGPT進(jìn)行開發(fā)的Ai智能問答系統(tǒng)和Midjourney繪畫系統(tǒng),支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來非常完美,那么如何搭建部署AI創(chuàng)作ChatGPT?小編這里寫一個(gè)詳細(xì)圖文教程吧。已支持GPTs、GPT語(yǔ)音對(duì)話、GPT-4模型、GPT聯(lián)網(wǎng)提問、DALL-E

    2024年04月16日
    瀏覽(91)
  • 最新AIGC創(chuàng)作系統(tǒng)ChatGPT系統(tǒng)源碼,支持最新GPT-4-Turbo模型,支持DALL-E3文生圖,圖片對(duì)話理解功能

    最新AIGC創(chuàng)作系統(tǒng)ChatGPT系統(tǒng)源碼,支持最新GPT-4-Turbo模型,支持DALL-E3文生圖,圖片對(duì)話理解功能

    SparkAi創(chuàng)作系統(tǒng)是基于OpenAI很火的ChatGPT進(jìn)行開發(fā)的Ai智能問答系統(tǒng)和Midjourney繪畫系統(tǒng),支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來非常完美,可以說SparkAi是目前國(guó)內(nèi)一款的ChatGPT對(duì)接OpenAI軟件系統(tǒng)。那么如何搭建部署AI創(chuàng)作ChatGPT?小編這里寫一個(gè)詳細(xì)圖

    2024年02月04日
    瀏覽(28)
  • 最新國(guó)內(nèi)GPT4.0使用教程,AI繪畫,GPT語(yǔ)音對(duì)話使用,DALL-E3文生圖

    最新國(guó)內(nèi)GPT4.0使用教程,AI繪畫,GPT語(yǔ)音對(duì)話使用,DALL-E3文生圖

    ChatGPT3.5、GPT4.0、GPT語(yǔ)音對(duì)話、Midjourney繪畫,文檔對(duì)話總結(jié)+DALL-E3文生圖,相信對(duì)大家應(yīng)該不感到陌生吧?簡(jiǎn)單來說,GPT-4技術(shù)比之前的GPT-3.5相對(duì)來說更加智能,會(huì)根據(jù)用戶的要求生成多種內(nèi)容甚至也可以和用戶進(jìn)行創(chuàng)作交流。 然而,GPT-4對(duì)普通用戶來說都是需要額外付費(fèi)才可

    2024年01月24日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包