個人主頁:【??個人主頁】
前言
DALL-E 2 是一種基于語言的人工智能圖像生成器,可以根據(jù)文本提示創(chuàng)建高質(zhì)量的圖像和藝術作品。它使用CLIP、先驗和 unCLIP 模型來生成圖像,其質(zhì)量取決于文本提示的具體性。這也是我今天要介紹的主角
什么是DALL-E 2 ?
DALL-E 2是一款人工智能圖像生成器,它可以根據(jù)自然語言的文本描述創(chuàng)建圖像和藝術形式。簡單來說,它是一個根據(jù)文本生成圖像的人工智能系統(tǒng)。2021年1月,OpenAI 推出了 DALL-E 模型,DALL-E 2 是其升級版?!癉ALL-E”這個名字源于西班牙著名藝術家Salvador Dalí 和廣受歡迎的皮克斯動畫機器人 “Wall-E” 的組合。2022年7月,DALL-E 2 進入測試階段,可供白名單中的用戶使用。同年9月28日,OpenAI 取消了白名單的要求,推出了任何人都可以訪問并且使用的開放測試版。
DALL·E2是OpenAI創(chuàng)建的語言模型的第二個版本,能夠從文本描述中生成圖像。它基于與GPT-3相同的架構,GPT-3是一種廣泛使用的自然語言處理模型,但已在圖像字幕對的大型數(shù)據(jù)集上進行了訓練,以生成與給定描述相對應的圖像。與前代DALL·E類似,DALL·E2能夠生成各種各樣的圖像,包括物體、場景,甚至抽象概念。
介紹的怎么厲害,它又能干啥呢?
基本功能
- 圖像生成:可以根據(jù)文本描述生成圖片,也可以通過圖片生成相關的文本描述。
- 圖像編輯:可以對生成的圖片進行編輯,例如改變顏色、添加/刪除物體等。
- 圖像轉(zhuǎn)換:可以將某種圖像轉(zhuǎn)換成另一種圖像,例如將手繪圖轉(zhuǎn)換成真實圖片。
- 圖像分類:可以將圖片分類到不同的類別中。
- 物體檢測:可以檢測圖片中的物體,并給出它們的類別和位置信息。
- 語義分割:可以將圖片中的物體分割出來。
- 圖像識別:可以對圖片進行識別,例如識別人臉、車輛等。
- 圖像壓縮:可以將圖片壓縮成更小的尺寸,同時保持較好的圖像質(zhì)量。
新功能
編輯
DALL-E 2的一個值得關注的新功能是編輯,用戶可以從現(xiàn)有圖片開始,選擇一個區(qū)域,然后告訴模型對其進行編輯。
編輯功能的演示,DALL-E 2在一個現(xiàn)有圖片的房間角落加一個火烈鳥擺設
2021年DALL-E的text to image生成效果,讓人們一窺多模態(tài)的潛力,也帶動著多模態(tài)圖像合成與編輯方向的大火,前有 DALL-E、GauGAN2,后有統(tǒng)一的多模態(tài)預訓練模型“女媧”。這些連接文本和視覺領域的技術創(chuàng)新使我們更接近實現(xiàn)多模態(tài)AI系統(tǒng)。
OpenAI表示將繼續(xù)在該系統(tǒng)的基礎上進行開發(fā),同時檢查圖像生成中的偏見或錯誤信息的產(chǎn)生等潛在危險。
OpenAI試圖通過技術保障措施和新的內(nèi)容政策來解決這些問題,同時還降低了計算負載,推進了模型的基本功能。
變體功能
用戶可以上傳一張起始圖片,然后創(chuàng)建一系列類似的變體,還可以混合兩個圖像,生成具有這兩種元素的圖像。
“一碗看起來像怪物、用羊毛織成的湯”
DALL-E 2基于CLIP,一個由OpenAI去年發(fā)布的計算機視覺系統(tǒng)。OpenAI推出的兩個連接文本與圖像的神經(jīng)網(wǎng)絡DALL-E 和 CLIP中,DALL-E 可以基于文本直接生成圖像,而CLIP 則能夠完成圖像與文本類別的匹配。
CLIP embeddings 具有許多理想的特性:對圖像分布變化具有魯棒性,并且已經(jīng)過微調(diào)以在各種視覺和語言任務上實現(xiàn)最先進的結果。同時,diffusion models已經(jīng)成為一種有前途的生成建模框架,推動了圖像和視頻生成任務的最新技術。在這項工作中,OpenAI團隊結合這兩種方法來解決文本條件圖像生成問題。
OpenAI研究科學家Prafulla Dhariwal表示:“DALL-E 1剛剛從語言中采用了GPT-3方法,并將其應用于生成圖像:我們將圖像壓縮成一系列單詞,然后才學會預測接下來會發(fā)生什么”。
但是單詞匹配并不一定能捕捉到重點,而且預測過程限制了圖像的真實性。
CLIP的設計目的,是以人類的方式查看圖像并總結其內(nèi)容,而OpenAI在這個過程中迭代創(chuàng)建了 “unCLIP”——一個以描述開始并朝著圖像生成目標運行的版本。
DALL-E2使用一種 diffusion model 生成圖像,Dhariwal將其描述為從“一袋點狀物”開始,然后以越來越大的細節(jié)填充圖案。
一份關于unCLIP的研究表示,它部分地躲開了CLIP一個非常有趣的缺點:人們可以通過在一個對象(比如史密斯奶奶的蘋果)上標記一個表示其他東西(比如iPod)的單詞,來愚弄模型的識別能力。
總結
除此之外,DALL·E 2仍具有許多有趣的功能值得我們?nèi)ラ_發(fā),我們也期待未來它給我們帶來更亮眼的表現(xiàn)。
Dhariwal表示:“我們希望繼續(xù)進行分階段的過程,這樣就可以不斷從得到的反饋中評估如何安全地發(fā)布這項技術”。
文章來源:http://www.zghlxwxcb.cn/news/detail-462118.html
參考文獻
DALL·E 2官網(wǎng)文章來源地址http://www.zghlxwxcb.cn/news/detail-462118.html
到了這里,關于【OpenAI】DALL·E 2,讓我來帶你認識一下這位來自AI界的藝術家的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!