国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents

這篇具有很好參考價值的文章主要介紹了【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

前言

本篇工作即DALL·E2,是文生圖領(lǐng)域和多模態(tài)領(lǐng)域具有轟動性的工作,其一出現(xiàn)就上了各大板塊的熱搜。DALL·E2生成的圖像豐富且真實,很容易以假亂真。它的實現(xiàn)基于CLIP和擴(kuò)散模型,前者結(jié)合豐富的圖文語義,后者生成多樣高質(zhì)量圖像,這套組合拳可謂實力十足。下面就來看看這篇工作具體是怎么做的吧。


Paper https://arxiv.org/pdf/2204.06125.pdf
Code https://github.com/lucidrains/DALLE2-pytorch
From arXiv 13 Apr 2022

Abstract

對比學(xué)習(xí)模型如CLIP展現(xiàn)了其強大的圖像語義和風(fēng)格的表征。為了利用這些表征來進(jìn)行圖像的生成,作者提出了兩階段模型:prior模型通過文本描述生成圖像表征,解碼器模型根據(jù)圖像表征生成圖像。這種顯示生成圖像表征可以提高圖像的多樣性,同時將圖像的真實性損失和caption相似性損失降至最低。此外,CLIP的聯(lián)合嵌入空間能夠以零樣本的方式進(jìn)行語言引導(dǎo)的圖像操作。作者采用擴(kuò)散模型作為編碼器,相對于自回歸模型,擴(kuò)散模型計算效率更高,產(chǎn)生圖片質(zhì)量更好。

1 Introduction

最近CV領(lǐng)域受到大規(guī)模圖文數(shù)據(jù)集的推動,如CLIP,可以學(xué)習(xí)到更多的圖像表征。CLIP對圖像分布魯棒,并且有強大的零樣本能力,微調(diào)后可以在各種CV和語言下游任務(wù)上實現(xiàn)先進(jìn)結(jié)果。與此同時,擴(kuò)散模型作為一種有前景的生成建模框架,在視覺和視頻生成任務(wù)上達(dá)到了SOTA。擴(kuò)散模型利用一種引導(dǎo)技術(shù),以犧牲樣本多樣性為代價提高圖像的真實性。
本文工作結(jié)合CLIP和擴(kuò)散模型用于解決文生圖問題。作者首先訓(xùn)練擴(kuò)散解碼器用于解碼CLIP圖像編碼,類似GAN的反轉(zhuǎn),對輸入圖像進(jìn)行編碼和解碼可以產(chǎn)生語義相近的輸出圖像,還可以通過對圖像嵌入差值的反轉(zhuǎn)在圖像之間進(jìn)行差值,本質(zhì)上就是不同圖像之間的融合。
使用CLIP表征的顯著優(yōu)勢是能夠沿著任何文本編碼方向從語義上修改圖像,這在GAN上需要碰運氣實現(xiàn)。此外,對圖像的編碼解碼還為作者提供了觀察圖像的哪些特征被 CLIP 識別或忽略的工具。
為了獲得完整的生成圖像,作者將CLIP編碼器與prior模型結(jié)合,該模型將CLIP文本表征轉(zhuǎn)換為圖像表征。模型對比上,DALL·E2生成的圖像質(zhì)量高,多樣性豐富,并且計算效率高。

2 Method

【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
整個模型流程如上圖所示,該模型又稱為unCLIP,首先將圖像的caption輸入到文本編碼器中,得到文編表征,這里的文本編碼器是預(yù)訓(xùn)練好的CLIP模型的編碼器。接著將得到的文本編碼器輸入到prior模型進(jìn)行轉(zhuǎn)換,得到轉(zhuǎn)換后的圖像編碼,最后圖像編碼輸入到解碼器中生成圖像。該過程可以用如下的公式概括:

2.1 Decoder

作者采用擴(kuò)散模型來處理CLIP的文本embedding,具體來說,作者將CLIP嵌入投影并添加到現(xiàn)有的時間步嵌入和四個額外的上下文token中,這些token連接到GLIDE文本編碼器的輸出序列。作者保留了文本condition,假設(shè)其允許擴(kuò)散模型學(xué)習(xí)CLIP無法捕獲的自然語言信息。但是結(jié)果顯示這樣的幫助微乎其微。
雖然可以直接從解碼器的分布中采樣,但是過去的工作表明使用條件信息的知道可以大大提高樣本質(zhì)量。作者在10% 的時間隨機(jī)將CLIP的嵌入設(shè)置為零,并在訓(xùn)練期間隨機(jī)丟棄50% 的文本caption,來實現(xiàn)classifier free guidence。
為了生成高分辨率圖像,作者訓(xùn)練兩個擴(kuò)散上采樣模型,第一個將64×64上采樣到256×256,第二個將256×256上采樣到1024×1024。為了提高上采樣器的魯棒性,作者隨機(jī)加入了噪聲。模型僅使用空間卷積(U-Net),并沒有采用注意力層。

2.2 Prior

在Decoder之間,我們需要一個prior模型將文本caption轉(zhuǎn)換為圖像嵌入,本文設(shè)計了兩個不同的模型:

  • Autoregressive(AR) prior:CLIP圖像嵌入被轉(zhuǎn)換為理算的code,以caption為條件自回歸生成預(yù)測。
  • Diffusion prior:連續(xù)的圖像編碼通過caption引導(dǎo)高斯擴(kuò)散模型進(jìn)行建模。

為了提高樣本質(zhì)量,作者在訓(xùn)練的10%時間里隨機(jī)丟棄文本條件,AR和擴(kuò)散先驗都使用無分類器指導(dǎo)進(jìn)行采樣。為了有效從AR先驗中進(jìn)行訓(xùn)練和采樣,作者首先應(yīng)用PCA降低CLIP圖像embedding的維度。特別是,當(dāng)使用SAM訓(xùn)練CLIP時,CLIP表示空間的秩顯著降低。通過保留原始1024個主成分中的319個,可以保留幾乎所有的信息。接著將主成分進(jìn)行排序,將每個主成分量化為1024個離散桶,并使用帶有因果注意掩碼的Transformer預(yù)測結(jié)果序列,提高了訓(xùn)練的準(zhǔn)確性。

3 Image Manipulations

本文的方法允許對任何圖像進(jìn)行重建,這里描繪三種不同類型的操作。

3.1 Variations

給定圖像,可以生成具有相同基本內(nèi)容,但是在形狀和方向有所不同的相關(guān)圖像。作者采用DDIM將解碼器應(yīng)用于二分表示,描述了CLIP識別圖像的方向, 編碼了解碼器重建圖像所需的殘差信息。作為超參數(shù)調(diào)整生成圖像的多樣性。
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)

3.2 Interpolations

DALL·E2還可以混合兩個圖像。作者使用球形插值在兩個圖像的CLIP嵌入之間旋轉(zhuǎn),產(chǎn)生中間CLIP表示,然后輸入到模型中進(jìn)行生成。
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)

3.3 Text Diffs

和其它圖像生成模型相比,使用CLIP關(guān)鍵優(yōu)勢是能夠?qū)D像和文本嵌入到相同的潛在空間,從而允許應(yīng)用語言引導(dǎo)圖像生成。為了修改圖像滿足新的文本描述,首先獲取圖像的CLIP文本嵌入,以及描述當(dāng)前圖像caption的CLIP文本嵌入,接著獲取二者的差異并歸一化,采用類似的差值方法,即3.2中所描述,來改變圖像的生成。
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)

4 Probing the CLIP Latent Space

本文的解碼器模型允許直接可視化CLIP圖像編碼器所看到的內(nèi)容,從而探索CLIP潛在空間。CLIP有很多錯誤預(yù)測的情況,比如下面的情況,在主體前面覆蓋一張寫有字的紙,就會導(dǎo)致CLIP無法預(yù)測正確的對象,因為CLIP無法學(xué)習(xí)到相對的位置關(guān)系,許多抽象的概念無法理解。
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
PCA重建提供了另一種探測CLIP潛在空間結(jié)構(gòu)的工具。下圖中作者采用少量源圖像的CLIP嵌入,并逐漸增加PCA維度來重建它們,然后在解碼器上使用DDIM可視化重建的圖像嵌入。這允許看懂不同維度編碼的語義信息。
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
通過上圖可以看到,早期的PCA維度保留了粗粒度的語義信息,而后期的PCA維度則編碼更細(xì)粒度的細(xì)節(jié)。

5 Text-to-Image Generation

【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
實驗部分內(nèi)容也比較多,但是這里只關(guān)注模型在MS-COCO數(shù)據(jù)集上和其它模型的對比,畢竟DALL-E模型之前的表現(xiàn)就很驚艷,只是在評分上并不能讓讀者很好的信服??梢钥吹剑瑹o論是AR prior還是Diffusion prior,DALL·E2都遠(yuǎn)遠(yuǎn)領(lǐng)先其它模型的得分。
在定量分析后,作者還進(jìn)行了定性分析,將unCLIP模型和GLIDE模型進(jìn)行了對比,目的是評估模型生成藝術(shù)圖像和照片的效果。作者利用GPT-3和真實的圖像caption生成prompt,用于模型生成圖像,接著作者使用AVA數(shù)據(jù)集訓(xùn)練CLIP線性探針來預(yù)測人類審美判斷。
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
作者發(fā)現(xiàn)prompt提高了GLIDE和unCLIP的美觀質(zhì)量。下圖是美學(xué)質(zhì)量的召回率:
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
理論上,Prompt通常會讓模型在真實性和多樣性上進(jìn)行權(quán)衡。但是作者發(fā)現(xiàn)引導(dǎo)unCLIP不會降低召回率,并且會提高美學(xué)質(zhì)量。

6 Related Work

6.1 GAN

【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
GAN的工作流程如上圖所示,首先生成隨機(jī)噪聲輸入到生成器中,得到生成的圖像,接著將該圖像與真實的圖像同時輸入到辨別器中進(jìn)行判斷,通過判別損失和生成損失來更新模型參數(shù)。注意,這里判別器和生成器參數(shù)的更新是交替進(jìn)行。由于GAN的目標(biāo)函數(shù)就是以假亂真,因此GAN生成的圖像保真度高。只是訓(xùn)練不夠穩(wěn)定,容易坍塌,并且生成多樣性不夠。

6.2 AE

【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
AE即auto-encoder,給定一個輸入 x x x輸入到特征編碼器中得到 y y y,一般來說這個特征 y y y都會小很多,接著將 y y y輸入到解碼器中得到 x ~ \tilde{x} x~,目標(biāo)是重建原始圖像。

6.3 DAE

DAE其實就在AE的基礎(chǔ)上將輸入的 x x x打亂,后面的操作完全一樣,并且目標(biāo)是重建原始圖像,而不是打亂后的圖像。

6.4 VAE

【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
VAE的框架和AE相似,但是實際上大不相同。VAE將輸入的真實樣本擬合到一個正態(tài)分布,然后再從這個分布中采樣變量,通過生成器生成樣本。VAE有些不錯的性質(zhì),因為它是從分布中采樣,所以生成圖像的多樣性比GAN好的多。

6.5 VQ-VAE

【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
VQ的含義是對VAE做量化的意思。VAE的缺點在于不方便做大,并且分布也不好去學(xué)習(xí)。因此將圖像的編碼和codebook中的編碼作對比,將最相似的編碼作為解碼器的輸入,最后生成圖像和原始圖片進(jìn)行對比。

6.6 DALL·E

【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
DALL·E就是在VQ-VAE基礎(chǔ)上實現(xiàn)的,文本通過BPE得到文本特征,圖像經(jīng)過VQ-VAE得到圖像特征,將二者特征連接到一起,然后輸入到GPT中進(jìn)行自回歸生成。推理過程直接使用文本生成文本特征,輸入到自回歸網(wǎng)絡(luò)中得到生成的圖像。

6.7 Diffusion

【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
擴(kuò)散模型相對于其它模型最大的區(qū)別在于它的特征和原圖是相同尺寸的。它的思想很簡單,就是將高斯噪聲多輪加入到原始圖像中,最終使圖像完全變?yōu)楦咚乖肼?span id="n5n3t3z" class="katex--inline"> z z z,模型(通常是U-Net)負(fù)責(zé)將得到的高斯噪聲 z z z還原回原始圖像。由于復(fù)原的輪次也和添加噪聲的輪次相同,因此在復(fù)原時需要前向T輪次,這和GAN不同,GAN只需一次就能將噪聲生成圖像,因此在效率上diffusion不如其它模型。
具體來說,Diffusion的工作是輸入 x t x_t xt?,預(yù)測 x t ? 1 x_{t-1} xt?1?,然后重復(fù)T輪。由于預(yù)測回原始圖像的任務(wù)過于復(fù)雜, 因此2020年的PPDM做了進(jìn)一步的改進(jìn),它將預(yù)測任務(wù)改為了預(yù)測添加的噪聲,并加入了time embedding,提醒模型現(xiàn)在走到哪一步了。因為不同時間步模型輸出的針對性不同,有時候要求細(xì)粒度的特征,有時候要求粗粒度的特征。此外,之前預(yù)測正態(tài)分布的工作都是學(xué)習(xí)該分布的均值和方差,DDPM提出,只要學(xué)習(xí)分布的均值就可以得到很好的性能。

6.8 Subsection

【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
DDPM和VAE有很多相似之處,比如都是編碼器-解碼器架構(gòu),不同之處也很明顯,比如擴(kuò)散模型特征維度保持不變,而VAE中間的特征往往比輸入小很多。并且擴(kuò)散模型有步數(shù)的概念。
在DDPM工作出來之后,OpenAI的研究人員就開始著手于將擴(kuò)散模型更好應(yīng)用到圖像生成上。他們發(fā)現(xiàn)擴(kuò)散模型在大模型上性能表現(xiàn)優(yōu)異(可擴(kuò)展性好),并提出新的歸一化方式Adaptive group normalization,根據(jù)步數(shù)進(jìn)行自適應(yīng)歸一化。此外還提出了classifier guidance的方法,引導(dǎo)模型采樣和生成,不僅讓采樣更逼真,還加快了采樣的速度。
上述工作即《Diffusion Models Beat GANs on Image Synthesis》,發(fā)表在NeurIPS2021,它的初衷還是在于擴(kuò)散模型在量化上不如GAN,雖然其生成圖像的效果已經(jīng)很逼真了。這篇工作擴(kuò)散模型為classifier guided diffusion,其結(jié)構(gòu)如下圖所示:
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
在之前擴(kuò)散模型的基礎(chǔ)上,兩兩生成圖像之間添加了一個分類器。這個分類器的梯度引導(dǎo)解碼器判斷當(dāng)前圖像有沒有生成的物體,真不真實。這樣的操作讓模型生成的圖像更為真實,在評分上也有顯著的提高,超過了當(dāng)前最好的GAN模型。這里引導(dǎo)的方式有很多種,可以是風(fēng)格引導(dǎo),像素級別引導(dǎo),特征引導(dǎo),語言方面也可以用大模型生成引導(dǎo),這些引導(dǎo)都是condition,這也帶來了一定的缺陷,因為這些引導(dǎo)都是用別的模型,會增加訓(xùn)練成本,同時不可控。因此后續(xù)又出了classifier free guidence,即在輸出時分別輸出有條件和無條件輸出,學(xué)習(xí)二者的差距。該方法在后續(xù)工作都有所應(yīng)用。
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
接下來就是DALL·E2的動機(jī)了。擴(kuò)散模型中加入分類器的操作,其實就是間接加入語義信息的過程,模型借助語義信息從而生成更真實的圖像。那么直接利用語義信息,豈不是能生成更好的圖像?那什么模型是直接連接語義和圖像信息的橋梁?CLIP!這也是我認(rèn)為的作者工作的脈絡(luò)。

7 Limitations and Risks

盡管在CLIP嵌入上調(diào)節(jié)圖像的生成可以提高圖像生成的多樣性,但是也會帶來一定的局限性,特別是,unCLIP在屬性綁定上比GLIDE要差。這些屬性涉及到一些抽象和復(fù)雜的概念,如位置屬性,文字屬性等, CLIP 嵌入本身沒有顯式地將屬性綁定到對象,并且會經(jīng)常混淆圖像中多個對象的屬性。如下圖所示:
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
一個類似的相關(guān)的問題是unCLIP難以生成連貫的文本,如下圖所示:
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
CLIP的嵌入無法精確編碼渲染文本的拼寫信息,再加上BPE的編碼模糊了caption中單詞的拼寫, 會讓這個問題變得更糟。此外,模型很難在復(fù)雜的場景中生成細(xì)節(jié)。這可能是解碼器層次結(jié)構(gòu)的限制,以更高分辨率訓(xùn)練unCLIP應(yīng)該能夠緩解這個問題,代價是額外的訓(xùn)練和推理計算。
【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents,多模態(tài),CV,對比學(xué)習(xí),機(jī)器學(xué)習(xí),人工智能,CLIP,DALL·E 2,文生圖,多模態(tài)
最后探討安全問題。圖像生成模型存在于欺詐和其他有害內(nèi)容相關(guān)的風(fēng)險,隨著圖像越來越真實,很容易將生成的圖像誤認(rèn)為是真實的圖像,這會帶來一系列安全問題。

閱讀總結(jié)

作為文生圖的工作,其核心是如何將文本語義和圖像語義進(jìn)行對齊,而CLIP正是學(xué)習(xí)到豐富的文本語義和圖像語義的工作,因此充分利用CLIP豐富的知識,再加上擴(kuò)散模型的多樣性,可以生成高質(zhì)量和多樣的圖像。雖然DALL·E2并沒有真正將一些復(fù)雜的文本語義和圖像屬性信息對齊,但也取得了巨大的成功,說明這條路是可行的,只需要后續(xù)的工作進(jìn)行進(jìn)一步的優(yōu)化和對齊工作,就可以完美解決這樣的問題。這也是多模態(tài)領(lǐng)域最核心的問題,如果能夠?qū)⑽谋尽D像、音頻、視頻等多模態(tài)信息在語義上得到對齊,那么大一統(tǒng)模型就將到來,這對人類社會的改變將不可名狀。文章來源地址http://www.zghlxwxcb.cn/news/detail-706793.html

到了這里,關(guān)于【論文精讀】Hierarchical Text-Conditional Image Generation with CLIP Latents的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    代碼:lllyasviel/ControlNet: Let us control diffusion models! (github.com) 論文地址 最近AI繪畫又雙叒叕進(jìn)化了,前一次還只能生成二次元,這次三次元都能生成了。這次AI繪畫這么火爆的原因跟下面這篇文章脫不開關(guān)系,它將AI繪畫帶到了一個新的高度。 我們提出了一個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)cont

    2024年02月11日
    瀏覽(23)
  • Text to image論文精讀GigaGAN: 生成對抗網(wǎng)絡(luò)仍然是文本生成圖像的可行選擇

    Text to image論文精讀GigaGAN: 生成對抗網(wǎng)絡(luò)仍然是文本生成圖像的可行選擇

    GigaGAN是Adobe和卡內(nèi)基梅隆大學(xué)學(xué)者們提出的一種新的GAN架構(gòu),作者設(shè)計了一種新的GAN架構(gòu),推理速度、合成高分辨率、擴(kuò)展性都極其有優(yōu)勢,其證明GAN仍然是文本生成圖像的可行選擇之一。 文章鏈接:https://arxiv.org/abs/2303.05511 項目地址:https://mingukkang.github.io/GigaGAN/ 最近,文

    2023年04月09日
    瀏覽(27)
  • Text to image論文精讀MISE:多模態(tài)圖像合成和編輯Multimodal Image Synthesis and Editing: A Survey

    Text to image論文精讀MISE:多模態(tài)圖像合成和編輯Multimodal Image Synthesis and Editing: A Survey

    由于信息在現(xiàn)實世界中以各種形式存在, 多模態(tài)信息之間的有效交互和融合對于計算機(jī)視覺和深度學(xué)習(xí)研究中多模態(tài)數(shù)據(jù)的創(chuàng)建和感知起著關(guān)鍵作用 。 近期 OpenAI 發(fā)布的 DALLE-2 和谷歌發(fā)布的 Imagen 等實現(xiàn)了令人驚嘆的文字到圖像的生成效果,引發(fā)了廣泛關(guān)注并且衍生出了很多

    2024年02月04日
    瀏覽(27)
  • Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start

    Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start

    隨著文本到圖像擴(kuò)散模型的發(fā)展,很多模型已經(jīng)可以合成各種新的概念和場景。然而,它們?nèi)匀浑y以生成結(jié)構(gòu)化、不常見的概念、組合圖像。今年4月巴伊蘭大學(xué)和OriginAI發(fā)表《It’s all about where you start: Text-to-image generation with seed selection》一文,提出了一種SeedSelect技術(shù),微調(diào)

    2024年02月07日
    瀏覽(24)
  • Adding Conditional Control to Text-to-Image Diffusion Models

    Adding Conditional Control to Text-to-Image Diffusion Models

    安全驗證 - 知乎 知乎,中文互聯(lián)網(wǎng)高質(zhì)量的問答社區(qū)和創(chuàng)作者聚集的原創(chuàng)內(nèi)容平臺,于 2011 年 1 月正式上線,以「讓人們更好的分享知識、經(jīng)驗和見解,找到自己的解答」為品牌使命。知乎憑借認(rèn)真、專業(yè)、友善的社區(qū)氛圍、獨特的產(chǎn)品機(jī)制以及結(jié)構(gòu)化和易獲得的優(yōu)質(zhì)內(nèi)容,

    2024年02月06日
    瀏覽(20)
  • 條件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models

    條件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models

    ??在之前的擴(kuò)散模型介紹中,入門-1,主要考慮的是無條件下的圖片生成,涉及到的問題主要是如何保證圖片的質(zhì)量,這個過程需要考慮很多的參數(shù)項,參數(shù)設(shè)定的不同會對圖片的質(zhì)量和多樣性產(chǎn)生很大的影響。 ?? 能夠讓diffusion模型在工業(yè)界中大放異彩的模型,比如條件

    2024年02月16日
    瀏覽(25)
  • 論文閱讀【14】HDLTex: Hierarchical Deep Learning for Text Classification

    論文閱讀【14】HDLTex: Hierarchical Deep Learning for Text Classification

    論文十問十答: Q1論文試圖解決什么問題? 多標(biāo)簽文本分類問題 Q2這是否是一個新的問題? 不是 Q3這篇文章要驗證一個什么科學(xué)假設(shè)? 因為文本標(biāo)簽越多,分類就越難,所以就將文本類型進(jìn)行分層分類,這樣就可以加大文本分類的準(zhǔn)確度。 Q4有哪些相關(guān)研究?如何歸類?誰

    2023年04月09日
    瀏覽(19)
  • 【圖像拼接】論文精讀:Image Stitching Based on Semantic Planar Region Consensus(PRCS)

    第一次來請先看這篇文章:【圖像拼接(Image Stitching)】關(guān)于【圖像拼接論文精讀】專欄的相關(guān)說明,包含專欄使用說明、創(chuàng)新思路分享等(不定期更新) Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half

    2024年02月03日
    瀏覽(22)
  • 【論文精讀】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

    【論文精讀】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

    預(yù)備知識【Transformer】: http://t.csdn.cn/m2Jat 預(yù)備知識【BERT】 : ?http://t.csdn.cn/QCmUK 雖然Transformer體系結(jié)構(gòu)已經(jīng)成為自然語言處理任務(wù)的事實上的標(biāo)準(zhǔn),但它在計算機(jī)視覺方面的應(yīng)用仍然有限 。在視覺上,注意力機(jī)制要么與卷積網(wǎng)絡(luò)結(jié)合應(yīng)用,要么用于替換卷積網(wǎng)絡(luò)的某些組件

    2024年02月03日
    瀏覽(26)
  • 【圖像拼接】論文精讀:Content-Preserving Image Stitching With Piecewise Rectangular Boundary Constraints

    第一次來請先看這篇文章:【圖像拼接(Image Stitching)】關(guān)于【圖像拼接論文精讀】專欄的相關(guān)說明,包含專欄使用說明、創(chuàng)新思路分享等(不定期更新)

    2024年02月04日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包