一、DeepFloyd IF 簡介
- DeepFloyd IF:能夠繪制文字的 AI 圖像工具
之前的 Stable Diffusion 和 Midjourney 都無法生成帶有文字的圖片,而文字都是亂碼。 DeepFloyd IF,這個文本到圖像的級聯(lián)像素擴散模型功能強大,能巧妙地將文本集成到圖像中。 - DeepFloyd IF的優(yōu)點是它能夠生成高度真實的圖像,并且具有很強的語言理解能力。它使用大規(guī)模數(shù)據(jù)集進行訓練,這使得它能夠生成高質量的圖像。
- DeepFloyd IF支持文本到圖像的生成和圖像到圖像的翻譯,這使得它在文本到圖像的生成領域具有很大的潛力。
二、DeepFloyd IF模型架構
DeepFloyd IF 采用模塊化設計,由一個固定的文本編碼器和三個級聯(lián)的像素擴散模塊組成:
- 凍結文本編碼器: 將文本提示轉換為圖像。它使用預訓練的語言模型將文本提示轉化為嵌入,然后通過像素擴散模型將這些嵌入解碼為圖像。
- 基本模型: 基于文本提示生成64x64px圖像。使用預訓練的語言模型和像素擴散模型來生成圖像。
-
超分辨率模型: 包括兩個超分辨率模型,每個模型都旨在生成分辨率遞增的圖像。
- 第一個超分辨率模型生成256x256px的圖像,
- 第二個超分辨率模型生成1024x1024px的圖像。
三、DeepFloyd IF模型生成流程
DeepFloyd IF模型的所有階段都使用基于 T5 變換器的固定文本編碼器提取文本嵌入,然后將其輸入到增強了跨注意力和注意力池化的 UNet 架構中。
- 第一階段: 基本擴散模型將定性文本轉換為64x64圖像。DeepFloyd團隊已訓練三個版本的基本模型,每個模型的參數(shù)都不同:IF-I 400M、IF-I 900M和IF-I 4.3B。
- 第二階段: 為了“放大”圖像,應用兩個文本條件超分辨率模型(Efficient U-Net)對基本模型的輸出。第一個模型將64x64圖像放大到256x256圖像。同樣,該模型也有幾個版本可用:IF-II 400M和IF-II 1.2B。
-
第三階段: 應用第二個超分辨率擴散模型產生生動的1024x1024圖像。
四、DeepFloyd IF 模型定義
DeepFloyd IF是一個模塊化的、級聯(lián)的、像素擴散模型。
-
模塊化:
DeepFloyd IF由幾個神經模塊組成(可以獨立解決任務的神經網絡,如從文本提示生成圖像和超分辨率),這些模塊在一個體系結構中相互作用,產生協(xié)同效應。 -
級聯(lián):
DeepFloyd IF以級聯(lián)方式對高分辨率數(shù)據(jù)進行建模,使用不同分辨率下單獨訓練的一系列模型。該過程從生成唯一低分辨率樣本的基本模型(“player”)開始,然后由連續(xù)的超分辨率模型(“amplifiers”)上采樣以產生高分辨率圖像。 -
擴散:
DeepFloyd IF的基本模型和超分辨率模型是擴散模型,其中使用一系列步驟的馬爾科夫鏈向數(shù)據(jù)中注入隨機噪聲,然后反轉該過程以從噪聲中生成新數(shù)據(jù)樣本。和stable diffusion最大的區(qū)別是deep-floyd是在像素空間做擴散,而不是在latents空間做擴散。文章來源:http://www.zghlxwxcb.cn/news/detail-817711.html
-
像素:
DeepFloyd IF在像素空間工作。與使用潛在表示的潛在擴散模型(如Stable Diffusion)不同,擴散是在像素級實現(xiàn)的。
參考:
新的生圖模型DeepFloyd IF來了,可以拳打Stable Diffusion,腳踢Dall-E?
一款由文本生成圖像的強大模型,可以智能地將文本集成到圖像中文章來源地址http://www.zghlxwxcb.cn/news/detail-817711.html
到了這里,關于DeepFloyd IF:由文本生成圖像的強大模型,能夠繪制文字的 AI 圖像工具的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!