目錄
1.標(biāo)題解讀
2.前言
3.摘要部分
4.引言部分
?5.生成模型概述
6.擴(kuò)散模型的發(fā)展
7.方法部分
1.標(biāo)題解讀
Hierarchical Text-Conditional Image Generation with CLIP Latents
是一種層級(jí)式的基于CLIP特征的根據(jù)文本生成圖像模型。
層級(jí)式的意思是說(shuō)在圖像生成時(shí),先生成64*64再生成256*256,最終生成令人嘆為觀止的1024*1024的高清大圖。
DALLE·2模型根據(jù)CLIP的文本特征和圖像特征最終生成圖像,可以看做CLIP的反向過(guò)程,因此DALLE·2被作者稱為unCLIP
2.前言
022Open AI提出DALLE2, 根據(jù)文本描述生成原創(chuàng)性的、現(xiàn)實(shí)的圖像??山Y(jié)合概念,屬性和風(fēng)格。
除了根據(jù)文本直接生成圖片,還可以根據(jù)文本對(duì)圖片進(jìn)行修改。光線,紋理等。
圖一中,在位置3加入火烈鳥,我們甚至可以看到在水中出現(xiàn)了火烈鳥的倒影,這是符合自然規(guī)律的。圖二中,在水池中添加火烈鳥,出現(xiàn)的是一個(gè)火烈鳥的游泳圈,這說(shuō)明游泳圈與水池的匹配程度較高,這也是符合常識(shí)的。以上兩個(gè)例子真的讓人嘆為觀止,說(shuō)明了AI的的確確學(xué)到了一種很好的數(shù)據(jù)分布。
我們一直認(rèn)為AI是能先處理重復(fù)性的工作,也就是體力工作。而這種創(chuàng)造性的工作往往是AI無(wú)法取代的,但現(xiàn)在似乎已經(jīng)觸手可及了。
?上圖是DALLE2與DALLE的對(duì)比,DALLE2達(dá)到了DALLE 4倍分辨率。
?上圖是自2021年來(lái)該領(lǐng)域的發(fā)展,主要由清華的團(tuán)隊(duì)和OpenAI主導(dǎo)。
模型主要架構(gòu)為:
先訓(xùn)練好一個(gè)CLIP模型,找到圖像和文本對(duì)之間的相連關(guān)系。給定一個(gè)文本,CLIP的文本編碼器就可以將這個(gè)文本變成一個(gè)文本特征。DALL·E2訓(xùn)練一個(gè)prior模型,將文本特征作為該模型的輸入,輸出為圖像特征,將這個(gè)圖像特征給解碼器,從而生成一個(gè)完成的圖像。CLIP結(jié)合GLIDE(基于擴(kuò)散模型)
3.摘要部分
CLIP已經(jīng)能夠?qū)W習(xí)到很穩(wěn)健的特征,比如語(yǔ)義semantics和風(fēng)格style,如果只是拿來(lái)做分類就很可惜,如果能拿來(lái)做圖像生成任務(wù)。兩個(gè)階段prior和decode。
prior:根文本描述生成類似CLIP的圖像特征;decoder:根據(jù)圖像特征生成圖像。
兩個(gè)亮點(diǎn),一是顯式的生成圖像特征能夠提高圖像的多樣性且非常逼真(圖像寫實(shí)程度以及文本匹配程度很高),而GAN是的本質(zhì)是“以假亂真”,去生成一個(gè)相似的分布,雖然生成的圖像很逼真,但是多樣性不好。二是可以實(shí)時(shí)的利用文本信息引導(dǎo)模型生成編輯各種圖片,不需要訓(xùn)練(zero-shot)。
相對(duì)于自回歸模型,解碼器使用擴(kuò)散模型效果更好。
4.引言部分
視覺領(lǐng)域的進(jìn)展:大模型或者大數(shù)據(jù)集(圖像文本對(duì))例如CLIP,特別好的zero-shot能力。擴(kuò)散模型(概率分布模型),在圖像和視頻生成任務(wù)上稱為最前沿SOFT的模型。再一個(gè)就是,引導(dǎo)guidance的技巧,犧牲一部分多樣性,提升更高的逼真度。
模型主要架構(gòu)如上圖,上部是一個(gè)CLIP,輸入為文本圖像對(duì),文本信息和圖像信息分別經(jīng)過(guò)文本編碼器和圖像編碼器提取文本特征C和圖像特征C,文本特征C和圖像特征C也是成對(duì)存在。下方作為DALLE2主體部分,主要由prior和decoder兩階段。首先,文本信息經(jīng)過(guò)文本編碼器提取文本特征D,然后prior根據(jù)文本信息D生成圖像特征D。訓(xùn)練過(guò)程中,圖像特征C作為圖像特征D的ground truth進(jìn)行訓(xùn)練,也就是說(shuō)訓(xùn)練時(shí)DALLE2生成的圖像特征D時(shí)不時(shí)的看一下CLIP生成的對(duì)應(yīng)文本的圖像特征C。最后通過(guò)一個(gè)解碼器decoder根據(jù)圖像特征D生成圖像。
?5.生成模型概述
GAN的核心是“以假亂真”。致命缺點(diǎn):訓(xùn)練不穩(wěn)定,須同時(shí)訓(xùn)練兩個(gè)網(wǎng)絡(luò),存在平衡的問(wèn)題(生成器和判別器有一方特別好。另一個(gè)特別差),容易坍塌,圖片多樣性差一些。
?
?編碼器提取特征(維度比較小),解碼器重構(gòu)輸入x。
AE、DAE又或者是MAE都是為了編碼器提取特征,然后用這個(gè)特征去做一些分類、檢測(cè)和分割等任務(wù)。訓(xùn)練過(guò)程的損失是將生成的樣本與原始樣本的差異作為損失,訓(xùn)練過(guò)程要時(shí)不時(shí)的看原始樣本。然而,它們學(xué)到不是一種分布,無(wú)法進(jìn)行采樣。因此VAE(Variational auto-encoder)就用來(lái)做生成任務(wù)。
?
VAE 與AE、DAE不同的是,特征是從編碼器學(xué)習(xí)到的分布中采樣得到的。多樣性相對(duì)于GAN就要好很多。
那么如果我們出門之前我們聽到新聞?wù)f今天路上出了個(gè)交通事故,那么我們想算一下堵車的概率,這個(gè)就叫做條件概率 。也就是P(堵車|交通事故)。這是有因求果,先驗(yàn)概率。
如果我們已經(jīng)出了門,然后遇到了堵車,那么我們想算一下堵車時(shí)由交通事故引起的概率有多大,那這個(gè)就叫做后驗(yàn)概率 (也是條件概率,但是通常習(xí)慣這么說(shuō)) 。也就是P(交通事故|堵車)。這是有果求因。
?VQ-VAE提出離散化的思想,在處理圖像和語(yǔ)音時(shí),圖像變成像素,語(yǔ)音也是抽樣的。與VAE不同的是,?VQ-VAE不再去做分布的預(yù)測(cè),使用一個(gè)codebook取而代之。codebook可以理解為聚類的中心,codebook的大小一般為k×d,k8192,d=512或者768。8192個(gè)長(zhǎng)為d的向量,即為8192個(gè)聚類中心。由于量化的特征(quantised feature)都是codebook中的,就非??煽亍?/strong>然而,要學(xué)習(xí)固定的codebook,又無(wú)法像VAE一樣隨機(jī)采樣,多樣性就差一些。
?
前向擴(kuò)散過(guò)程(forward diffusion):不斷地加噪聲,最終原始樣本就變成了噪聲。
反向擴(kuò)散(reverse diffusion):不斷地降噪,最終噪聲就變成了目標(biāo)樣本。
本質(zhì):將隨機(jī)噪聲一點(diǎn)一點(diǎn)降噪,次數(shù)足夠多,就可以生成想要的圖片。
擴(kuò)散的概念時(shí)引用自熱力學(xué)。
6.擴(kuò)散模型的發(fā)展
初步2015年左右。2020年6月,Denoising Diffusion Probabilistic Model(DDPM),利用殘差的思想,不再去預(yù)測(cè)xt-1,而是去預(yù)測(cè)噪聲ε。
?
?1.利用殘差的思想,xt=xt-1+ε。不去預(yù)測(cè)xt-1,轉(zhuǎn)而預(yù)測(cè)噪聲ε。
2.加入了time embedding。告訴模型預(yù)測(cè)到哪一步。開始生成輪廓,粗糙的大致的輪廓,隨著進(jìn)一步預(yù)測(cè),逐漸生成細(xì)致的特征。
訓(xùn)練過(guò)程損失loss,預(yù)測(cè)的噪聲(反向擴(kuò)散過(guò)程)與設(shè)定的噪聲(前向擴(kuò)散過(guò)程)之間的差值,設(shè)定的噪聲是正向擴(kuò)散過(guò)程人為設(shè)定的,是已知的。
擴(kuò)散模型與VAE區(qū)別和聯(lián)系:
1.DDPM也可以看做編碼器-解碼器的結(jié)構(gòu)。DDPM添加噪聲的編碼器是固定的過(guò)程,而VAE的編碼器是學(xué)習(xí)獲得的。
2.擴(kuò)散模型的每一步,特征圖大小都是一樣的,而AE等編碼器提取的bottleneck feature則是維度較小(壓縮)的特征。
3.擴(kuò)散模型與步數(shù)的概念,正向和反向過(guò)程。time embedding
DDPM—improved DDPM(學(xué)了方差、添加噪聲的schedule改善)—diffusion beats GAN(大模型,新的歸一化)—GLIDE(classifer guided diffusion)—DALLE2
?用分類器計(jì)算一個(gè)交叉熵?fù)p失,得到一個(gè)梯度引導(dǎo)采樣、圖像生成。梯度隱含著信息,這些信息包括當(dāng)前圖片是否含有一個(gè)物體,生成的物體是否真實(shí)。犧牲了一部分多樣性,改善了逼真性。
classifer free guidance
?訓(xùn)練時(shí)生成兩個(gè)輸出。一個(gè)有條件,一個(gè)無(wú)條件。對(duì)比兩個(gè)輸出,就可以學(xué)習(xí)到兩個(gè)輸出之間的差異(在高維特征空間)。在測(cè)試時(shí),使用無(wú)條件的模型得到無(wú)條件的輸出,并利用學(xué)到的差異,修正無(wú)條件的輸出,也可以得到和有條件的輸出類似的結(jié)果。
7.方法部分
?回顧一下模型架構(gòu),上部是一個(gè)CLIP,輸入為文本圖像對(duì),文本信息和圖像信息分別經(jīng)過(guò)文本編碼器和圖像編碼器提取文本特征C和圖像特征C,文本特征C和圖像特征C也是成對(duì)存在。下方作為DALLE2主體部分,主要由prior和decoder兩階段。首先,文本信息經(jīng)過(guò)文本編碼器提取文本特征D,然后prior根據(jù)文本信息D生成圖像特征D。訓(xùn)練過(guò)程中,圖像特征C作為圖像特征D的ground truth進(jìn)行訓(xùn)練,也就是說(shuō)訓(xùn)練時(shí)DALLE2生成的圖像特征D時(shí)不時(shí)的看一下CLIP生成的對(duì)應(yīng)文本的圖像特征C。最后通過(guò)一個(gè)解碼器decoder根據(jù)圖像特征D生成圖像。
兩階段的形式,公式如下:
The decoder allows us to invert images given their CLIP image embeddings, while the prior allows us to learn a generative model of the image embeddings themselves. Stacking these two components yields a generative model P (x|y) of images x given captions y:
P (x|y) = P (x, zi|y) = P (x|zi, y)P (zi|y).
P (x|y)根據(jù)文本生成圖像; P (x, zi|y)根據(jù)文本生成圖像特征和圖像
P (x|zi, y)根據(jù)文本和圖像特征生成圖像;P (zi|y) 根據(jù)文本生成圖像特征
?GLIDE模型的變體,使用了CLIP的guidance。
也使用了classifier-free guidance。
級(jí)聯(lián)式的生成,分辨率64*64-256*256-1024*1024。為了訓(xùn)練的穩(wěn)定性,作者在訓(xùn)練時(shí)加了很多噪聲。另外,擴(kuò)散模型大部分是U-Net,是一個(gè)CNN的結(jié)構(gòu)而非transformer。推理時(shí)可以用在任何尺寸上,并不需要序列長(zhǎng)度保持一致。
?prior模型:基于文本去生成圖像特征。
不論是自回歸模型還是擴(kuò)散模型,都使用了classifier free guidance,因?yàn)樾Ч_實(shí)好。
作者訓(xùn)練了一個(gè)transformer 的decoder,因?yàn)檫@里的輸入輸出是embedding,直接用transformer處理序列。輸入有文本、CLIP文本的embedding,擴(kuò)散模型的timestep embedding,加入噪聲后的CLIP圖像embedding以及transformer自身的embedding(CLStoken)。輸出為沒(méi)有加入噪聲的CLIP圖像embedding。
DDPM曾提出利用殘差思想預(yù)測(cè)噪聲,但是這里作者發(fā)現(xiàn)直接預(yù)測(cè)沒(méi)有噪聲的圖像要比預(yù)測(cè)噪聲更好。因此這里的損失是預(yù)測(cè)值與未加噪聲的圖像(特征)直接對(duì)比。
?8.結(jié)果
?MS-COCO256*256上FID分?jǐn)?shù),DALLE2(unCLIP)達(dá)到了最低的分?jǐn)?shù),使用擴(kuò)散模型比自回歸AR模型分?jǐn)?shù)也有略微的降低。
通過(guò)對(duì)比不同模型根據(jù)特定的文本信息生成的圖像,DALLE2確實(shí)生成比較真實(shí)的,復(fù)合語(yǔ)境的圖像。
9.局限性
無(wú)法將物體和屬性結(jié)合起來(lái)。CLIP太關(guān)注物體間的相似性,不能識(shí)別上下左右等方位信息。
生成圖片,圖片中文字的順序不對(duì)。文本編碼器BPE的存根詞綴編碼存在問(wèn)題。
不能生成特別復(fù)雜場(chǎng)景的圖像,細(xì)節(jié)缺失特別嚴(yán)重。第一張圖修狗在湖邊綠色的草地上,前景特別突出,導(dǎo)致湖邊和草地的背景不夠明顯。第二張時(shí)代廣場(chǎng)上廣告牌都是像素塊。
文章鏈接:
http://arxiv.org/abs/2204.06125
python的學(xué)習(xí)還是要多以練習(xí)為主,想要練習(xí)python的同學(xué),推薦可以去看,他們現(xiàn)在的IT題庫(kù)內(nèi)容很豐富,屬于國(guó)內(nèi)做的很好的了,而且是課程+刷題+面經(jīng)+求職+討論區(qū)分享,一站式求職學(xué)習(xí)網(wǎng)站,最最最重要的里面的資源全部免費(fèi)。
牛客網(wǎng) - 找工作神器|筆試題庫(kù)|面試經(jīng)驗(yàn)|實(shí)習(xí)招聘內(nèi)推,求職就業(yè)一站解決_牛客網(wǎng)求職之前,先上牛客,就業(yè)找工作一站解決。互聯(lián)網(wǎng)IT技術(shù)/產(chǎn)品/運(yùn)營(yíng)/硬件/汽車機(jī)械制造/金融/財(cái)務(wù)管理/審計(jì)/銀行/市場(chǎng)營(yíng)銷/地產(chǎn)/快消/管培生等等專業(yè)技能學(xué)習(xí)/備考/求職神器,在線進(jìn)行企業(yè)校招實(shí)習(xí)筆試面試真題模擬考試練習(xí),全面提升求職競(jìng)爭(zhēng)力,找到好工作,拿到好offer。https://www.nowcoder.com/link/pc_csdncpt_ssdxjg_python
他們這個(gè)python的練習(xí)題,知識(shí)點(diǎn)編排詳細(xì),題目安排合理,題目表述以指導(dǎo)的形式進(jìn)行。整個(gè)題單覆蓋了Python入門的全部知識(shí)點(diǎn)以及全部語(yǔ)法,通過(guò)知識(shí)點(diǎn)分類逐層遞進(jìn),從Hello World開始到最后的實(shí)踐任務(wù),都會(huì)非常詳細(xì)地指導(dǎo)你應(yīng)該使用什么函數(shù),應(yīng)該怎么輸入輸出。
??途W(wǎng)(??途W(wǎng) - 找工作神器|筆試題庫(kù)|面試經(jīng)驗(yàn)|實(shí)習(xí)招聘內(nèi)推,求職就業(yè)一站解決_??途W(wǎng))還提供題解專區(qū)和討論區(qū)會(huì)有大神提供題解思路,對(duì)新手玩家及其友好,有不清楚的語(yǔ)法,不理解的地方,看看別人的思路,別人的代碼,也許就能豁然開朗。
快點(diǎn)擊下方鏈接學(xué)起來(lái)吧!
??途W(wǎng) - 找工作神器|筆試題庫(kù)|面試經(jīng)驗(yàn)|實(shí)習(xí)招聘內(nèi)推,求職就業(yè)一站解決_??途W(wǎng)
參考:文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-408477.html
參考:
DALL·E 2【論文精讀】_嗶哩嗶哩_bilibilihttps://www.bilibili.com/video/BV17r4y1u77B?spm_id_from=333.999.0.0&vd_source=8203bbd7379886d2ef6007067465d65c文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-408477.html
到了這里,關(guān)于DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!