DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

這篇具有很好參考價(jià)值的文章主要介紹了DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

1.標(biāo)題解讀

2.前言

3.摘要部分

4.引言部分

?5.生成模型概述

6.擴(kuò)散模型的發(fā)展

7.方法部分

1.標(biāo)題解讀

Hierarchical Text-Conditional Image Generation with CLIP Latents

是一種層級(jí)式的基于CLIP特征的根據(jù)文本生成圖像模型。

層級(jí)式的意思是說(shuō)在圖像生成時(shí)，先生成64*64再生成256*256，最終生成令人嘆為觀止的1024*1024的高清大圖。

DALLE·2模型根據(jù)CLIP的文本特征和圖像特征最終生成圖像，可以看做CLIP的反向過(guò)程，因此DALLE·2被作者稱為unCLIP

2.前言

022Open AI提出DALLE2，根據(jù)文本描述生成原創(chuàng)性的、現(xiàn)實(shí)的圖像?？山Y(jié)合概念，屬性和風(fēng)格。

除了根據(jù)文本直接生成圖片，還可以根據(jù)文本對(duì)圖片進(jìn)行修改。光線，紋理等。

DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

圖一中，在位置3加入火烈鳥，我們甚至可以看到在水中出現(xiàn)了火烈鳥的倒影，這是符合自然規(guī)律的。圖二中，在水池中添加火烈鳥，出現(xiàn)的是一個(gè)火烈鳥的游泳圈，這說(shuō)明游泳圈與水池的匹配程度較高，這也是符合常識(shí)的。以上兩個(gè)例子真的讓人嘆為觀止，說(shuō)明了AI的的確確學(xué)到了一種很好的數(shù)據(jù)分布。

我們一直認(rèn)為AI是能先處理重復(fù)性的工作，也就是體力工作。而這種創(chuàng)造性的工作往往是AI無(wú)法取代的，但現(xiàn)在似乎已經(jīng)觸手可及了。

DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

?上圖是DALLE2與DALLE的對(duì)比，DALLE2達(dá)到了DALLE 4倍分辨率。

DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

?上圖是自2021年來(lái)該領(lǐng)域的發(fā)展，主要由清華的團(tuán)隊(duì)和OpenAI主導(dǎo)。

模型主要架構(gòu)為：

先訓(xùn)練好一個(gè)CLIP模型，找到圖像和文本對(duì)之間的相連關(guān)系。給定一個(gè)文本，CLIP的文本編碼器就可以將這個(gè)文本變成一個(gè)文本特征。DALL·E2訓(xùn)練一個(gè)prior模型，將文本特征作為該模型的輸入，輸出為圖像特征，將這個(gè)圖像特征給解碼器，從而生成一個(gè)完成的圖像。CLIP結(jié)合GLIDE（基于擴(kuò)散模型）

3.摘要部分

CLIP已經(jīng)能夠?qū)W習(xí)到很穩(wěn)健的特征，比如語(yǔ)義semantics和風(fēng)格style，如果只是拿來(lái)做分類就很可惜，如果能拿來(lái)做圖像生成任務(wù)。兩個(gè)階段prior和decode。

prior：根文本描述生成類似CLIP的圖像特征；decoder：根據(jù)圖像特征生成圖像。

兩個(gè)亮點(diǎn)，一是顯式的生成圖像特征能夠提高圖像的多樣性且非常逼真（圖像寫實(shí)程度以及文本匹配程度很高），而GAN是的本質(zhì)是“以假亂真”，去生成一個(gè)相似的分布，雖然生成的圖像很逼真，但是多樣性不好。二是可以實(shí)時(shí)的利用文本信息引導(dǎo)模型生成編輯各種圖片，不需要訓(xùn)練（zero-shot）。

相對(duì)于自回歸模型，解碼器使用擴(kuò)散模型效果更好。

4.引言部分

視覺領(lǐng)域的進(jìn)展：大模型或者大數(shù)據(jù)集（圖像文本對(duì)）例如CLIP，特別好的zero-shot能力。擴(kuò)散模型（概率分布模型），在圖像和視頻生成任務(wù)上稱為最前沿SOFT的模型。再一個(gè)就是，引導(dǎo)guidance的技巧，犧牲一部分多樣性，提升更高的逼真度。

DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

模型主要架構(gòu)如上圖，上部是一個(gè)CLIP，輸入為文本圖像對(duì)，文本信息和圖像信息分別經(jīng)過(guò)文本編碼器和圖像編碼器提取文本特征C和圖像特征C，文本特征C和圖像特征C也是成對(duì)存在。下方作為DALLE2主體部分，主要由prior和decoder兩階段。首先，文本信息經(jīng)過(guò)文本編碼器提取文本特征D，然后prior根據(jù)文本信息D生成圖像特征D。訓(xùn)練過(guò)程中，圖像特征C作為圖像特征D的ground truth進(jìn)行訓(xùn)練，也就是說(shuō)訓(xùn)練時(shí)DALLE2生成的圖像特征D時(shí)不時(shí)的看一下CLIP生成的對(duì)應(yīng)文本的圖像特征C。最后通過(guò)一個(gè)解碼器decoder根據(jù)圖像特征D生成圖像。

?5.生成模型概述

DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

GAN的核心是“以假亂真”。致命缺點(diǎn)：訓(xùn)練不穩(wěn)定，須同時(shí)訓(xùn)練兩個(gè)網(wǎng)絡(luò)，存在平衡的問(wèn)題（生成器和判別器有一方特別好。另一個(gè)特別差），容易坍塌，圖片多樣性差一些。

? DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

?編碼器提取特征（維度比較小），解碼器重構(gòu)輸入x。

DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

AE、DAE又或者是MAE都是為了編碼器提取特征，然后用這個(gè)特征去做一些分類、檢測(cè)和分割等任務(wù)。訓(xùn)練過(guò)程的損失是將生成的樣本與原始樣本的差異作為損失，訓(xùn)練過(guò)程要時(shí)不時(shí)的看原始樣本。然而，它們學(xué)到不是一種分布，無(wú)法進(jìn)行采樣。因此VAE（Variational auto-encoder）就用來(lái)做生成任務(wù)。

? DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

VAE 與AE、DAE不同的是，特征是從編碼器學(xué)習(xí)到的分布中采樣得到的。多樣性相對(duì)于GAN就要好很多。

那么如果我們出門之前我們聽到新聞?wù)f今天路上出了個(gè)交通事故，那么我們想算一下堵車的概率，這個(gè)就叫做條件概率。也就是P(堵車|交通事故)。這是有因求果，先驗(yàn)概率。

如果我們已經(jīng)出了門，然后遇到了堵車，那么我們想算一下堵車時(shí)由交通事故引起的概率有多大，那這個(gè)就叫做后驗(yàn)概率 （也是條件概率，但是通常習(xí)慣這么說(shuō)）。也就是P(交通事故|堵車)。這是有果求因。

DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）

?VQ-VAE提出離散化的思想，在處理圖像和語(yǔ)音時(shí)，圖像變成像素，語(yǔ)音也是抽樣的。與VAE不同的是，?VQ-VAE不再去做分布的預(yù)測(cè)，使用一個(gè)codebook取而代之。codebook可以理解為聚類的中心，codebook的大小一般為k×d，k8192，d=512或者768。8192個(gè)長(zhǎng)為d的向量，即為8192個(gè)聚類中心。由于量化的特征（quantised feature）都是codebook中的，就非?？煽亍?/strong>然而，要學(xué)習(xí)固定的codebook，又無(wú)法像VAE一樣隨機(jī)采樣，多樣性就差一些。

?

前向擴(kuò)散過(guò)程（forward diffusion）：不斷地加噪聲，最終原始樣本就變成了噪聲。

反向擴(kuò)散（reverse diffusion）：不斷地降噪，最終噪聲就變成了目標(biāo)樣本。

本質(zhì)：將隨機(jī)噪聲一點(diǎn)一點(diǎn)降噪，次數(shù)足夠多，就可以生成想要的圖片。

擴(kuò)散的概念時(shí)引用自熱力學(xué)。

6.擴(kuò)散模型的發(fā)展

初步2015年左右。2020年6月，Denoising Diffusion Probabilistic Model（DDPM），利用殘差的思想，不再去預(yù)測(cè)xt-1，而是去預(yù)測(cè)噪聲ε。

?

?1.利用殘差的思想，xt=xt-1+ε。不去預(yù)測(cè)xt-1，轉(zhuǎn)而預(yù)測(cè)噪聲ε。

2.加入了time embedding。告訴模型預(yù)測(cè)到哪一步。開始生成輪廓，粗糙的大致的輪廓，隨著進(jìn)一步預(yù)測(cè)，逐漸生成細(xì)致的特征。

訓(xùn)練過(guò)程損失loss，預(yù)測(cè)的噪聲（反向擴(kuò)散過(guò)程）與設(shè)定的噪聲（前向擴(kuò)散過(guò)程）之間的差值，設(shè)定的噪聲是正向擴(kuò)散過(guò)程人為設(shè)定的，是已知的。

擴(kuò)散模型與VAE區(qū)別和聯(lián)系：

1.DDPM也可以看做編碼器-解碼器的結(jié)構(gòu)。DDPM添加噪聲的編碼器是固定的過(guò)程，而VAE的編碼器是學(xué)習(xí)獲得的。

2.擴(kuò)散模型的每一步，特征圖大小都是一樣的，而AE等編碼器提取的bottleneck feature則是維度較小（壓縮）的特征。

3.擴(kuò)散模型與步數(shù)的概念，正向和反向過(guò)程。time embedding

DDPM—improved DDPM(學(xué)了方差、添加噪聲的schedule改善)—diffusion beats GAN(大模型，新的歸一化)—GLIDE（classifer guided diffusion）—DALLE2

?用分類器計(jì)算一個(gè)交叉熵?fù)p失，得到一個(gè)梯度引導(dǎo)采樣、圖像生成。梯度隱含著信息，這些信息包括當(dāng)前圖片是否含有一個(gè)物體，生成的物體是否真實(shí)。犧牲了一部分多樣性，改善了逼真性。

classifer free guidance

?訓(xùn)練時(shí)生成兩個(gè)輸出。一個(gè)有條件，一個(gè)無(wú)條件。對(duì)比兩個(gè)輸出，就可以學(xué)習(xí)到兩個(gè)輸出之間的差異（在高維特征空間）。在測(cè)試時(shí)，使用無(wú)條件的模型得到無(wú)條件的輸出，并利用學(xué)到的差異，修正無(wú)條件的輸出，也可以得到和有條件的輸出類似的結(jié)果。

7.方法部分

?回顧一下模型架構(gòu)，上部是一個(gè)CLIP，輸入為文本圖像對(duì)，文本信息和圖像信息分別經(jīng)過(guò)文本編碼器和圖像編碼器提取文本特征C和圖像特征C，文本特征C和圖像特征C也是成對(duì)存在。下方作為DALLE2主體部分，主要由prior和decoder兩階段。首先，文本信息經(jīng)過(guò)文本編碼器提取文本特征D，然后prior根據(jù)文本信息D生成圖像特征D。訓(xùn)練過(guò)程中，圖像特征C作為圖像特征D的ground truth進(jìn)行訓(xùn)練，也就是說(shuō)訓(xùn)練時(shí)DALLE2生成的圖像特征D時(shí)不時(shí)的看一下CLIP生成的對(duì)應(yīng)文本的圖像特征C。最后通過(guò)一個(gè)解碼器decoder根據(jù)圖像特征D生成圖像。

兩階段的形式，公式如下：

The decoder allows us to invert images given their CLIP image embeddings, while the prior allows us to learn a generative model of the image embeddings themselves. Stacking these two components yields a generative model P (x|y) of images x given captions y:

P (x|y) = P (x, zi|y) = P (x|zi, y)P (zi|y).

P (x|y)根據(jù)文本生成圖像； P (x, zi|y)根據(jù)文本生成圖像特征和圖像

P (x|zi, y)根據(jù)文本和圖像特征生成圖像；P (zi|y) 根據(jù)文本生成圖像特征

?GLIDE模型的變體，使用了CLIP的guidance。

也使用了classifier-free guidance。

級(jí)聯(lián)式的生成，分辨率64*64-256*256-1024*1024。為了訓(xùn)練的穩(wěn)定性，作者在訓(xùn)練時(shí)加了很多噪聲。另外，擴(kuò)散模型大部分是U-Net，是一個(gè)CNN的結(jié)構(gòu)而非transformer。推理時(shí)可以用在任何尺寸上，并不需要序列長(zhǎng)度保持一致。

?prior模型：基于文本去生成圖像特征。

不論是自回歸模型還是擴(kuò)散模型，都使用了classifier free guidance，因?yàn)樾Ч_實(shí)好。

作者訓(xùn)練了一個(gè)transformer 的decoder，因?yàn)檫@里的輸入輸出是embedding，直接用transformer處理序列。輸入有文本、CLIP文本的embedding，擴(kuò)散模型的timestep embedding，加入噪聲后的CLIP圖像embedding以及transformer自身的embedding（CLStoken）。輸出為沒(méi)有加入噪聲的CLIP圖像embedding。

DDPM曾提出利用殘差思想預(yù)測(cè)噪聲，但是這里作者發(fā)現(xiàn)直接預(yù)測(cè)沒(méi)有噪聲的圖像要比預(yù)測(cè)噪聲更好。因此這里的損失是預(yù)測(cè)值與未加噪聲的圖像（特征）直接對(duì)比。

?8.結(jié)果

?MS-COCO256*256上FID分?jǐn)?shù)，DALLE2（unCLIP）達(dá)到了最低的分?jǐn)?shù)，使用擴(kuò)散模型比自回歸AR模型分?jǐn)?shù)也有略微的降低。

通過(guò)對(duì)比不同模型根據(jù)特定的文本信息生成的圖像，DALLE2確實(shí)生成比較真實(shí)的，復(fù)合語(yǔ)境的圖像。

9.局限性

無(wú)法將物體和屬性結(jié)合起來(lái)。CLIP太關(guān)注物體間的相似性，不能識(shí)別上下左右等方位信息。

生成圖片，圖片中文字的順序不對(duì)。文本編碼器BPE的存根詞綴編碼存在問(wèn)題。

不能生成特別復(fù)雜場(chǎng)景的圖像，細(xì)節(jié)缺失特別嚴(yán)重。第一張圖修狗在湖邊綠色的草地上，前景特別突出，導(dǎo)致湖邊和草地的背景不夠明顯。第二張時(shí)代廣場(chǎng)上廣告牌都是像素塊。

文章鏈接：

http://arxiv.org/abs/2204.06125

python的學(xué)習(xí)還是要多以練習(xí)為主，想要練習(xí)python的同學(xué)，推薦可以去看，他們現(xiàn)在的IT題庫(kù)內(nèi)容很豐富，屬于國(guó)內(nèi)做的很好的了，而且是課程+刷題+面經(jīng)+求職+討論區(qū)分享，一站式求職學(xué)習(xí)網(wǎng)站，最最最重要的里面的資源全部免費(fèi)。

牛客網(wǎng) - 找工作神器|筆試題庫(kù)|面試經(jīng)驗(yàn)|實(shí)習(xí)招聘內(nèi)推，求職就業(yè)一站解決_牛客網(wǎng)求職之前，先上牛客，就業(yè)找工作一站解決。互聯(lián)網(wǎng)IT技術(shù)/產(chǎn)品/運(yùn)營(yíng)/硬件/汽車機(jī)械制造/金融/財(cái)務(wù)管理/審計(jì)/銀行/市場(chǎng)營(yíng)銷/地產(chǎn)/快消/管培生等等專業(yè)技能學(xué)習(xí)/備考/求職神器，在線進(jìn)行企業(yè)校招實(shí)習(xí)筆試面試真題模擬考試練習(xí)，全面提升求職競(jìng)爭(zhēng)力，找到好工作，拿到好offer。https://www.nowcoder.com/link/pc_csdncpt_ssdxjg_python

他們這個(gè)python的練習(xí)題，知識(shí)點(diǎn)編排詳細(xì)，題目安排合理，題目表述以指導(dǎo)的形式進(jìn)行。整個(gè)題單覆蓋了Python入門的全部知識(shí)點(diǎn)以及全部語(yǔ)法，通過(guò)知識(shí)點(diǎn)分類逐層遞進(jìn)，從Hello World開始到最后的實(shí)踐任務(wù)，都會(huì)非常詳細(xì)地指導(dǎo)你應(yīng)該使用什么函數(shù)，應(yīng)該怎么輸入輸出。

?？途W(wǎng)（?？途W(wǎng) - 找工作神器|筆試題庫(kù)|面試經(jīng)驗(yàn)|實(shí)習(xí)招聘內(nèi)推，求職就業(yè)一站解決_?？途W(wǎng)）還提供題解專區(qū)和討論區(qū)會(huì)有大神提供題解思路，對(duì)新手玩家及其友好，有不清楚的語(yǔ)法，不理解的地方，看看別人的思路，別人的代碼，也許就能豁然開朗。

快點(diǎn)擊下方鏈接學(xué)起來(lái)吧！

?？途W(wǎng) - 找工作神器|筆試題庫(kù)|面試經(jīng)驗(yàn)|實(shí)習(xí)招聘內(nèi)推，求職就業(yè)一站解決_?？途W(wǎng)

參考：

參考：

DALL·E 2【論文精讀】_嗶哩嗶哩_bilibilihttps://www.bilibili.com/video/BV17r4y1u77B?spm_id_from=333.999.0.0&vd_source=8203bbd7379886d2ef6007067465d65c文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-408477.html
到了這里，關(guān)于DALLE·2（Hierarchical Text-Conditional Image Generation with CLIP Latents）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！