国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

這篇具有很好參考價(jià)值的文章主要介紹了DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

目錄

1.標(biāo)題解讀

2.前言

3.摘要部分

4.引言部分

?5.生成模型概述

6.擴(kuò)散模型的發(fā)展

7.方法部分


1.標(biāo)題解讀

Hierarchical Text-Conditional Image Generation with CLIP Latents

是一種層級(jí)式的基于CLIP特征的根據(jù)文本生成圖像模型。

層級(jí)式的意思是說(shuō)在圖像生成時(shí),先生成64*64再生成256*256,最終生成令人嘆為觀止的1024*1024的高清大圖。

DALLE·2模型根據(jù)CLIP的文本特征和圖像特征最終生成圖像,可以看做CLIP的反向過(guò)程,因此DALLE·2被作者稱為unCLIP

2.前言

022Open AI提出DALLE2, 根據(jù)文本描述生成原創(chuàng)性的、現(xiàn)實(shí)的圖像??山Y(jié)合概念,屬性和風(fēng)格。

除了根據(jù)文本直接生成圖片,還可以根據(jù)文本對(duì)圖片進(jìn)行修改。光線,紋理等。

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

圖一中,在位置3加入火烈鳥,我們甚至可以看到在水中出現(xiàn)了火烈鳥的倒影,這是符合自然規(guī)律的。圖二中,在水池中添加火烈鳥,出現(xiàn)的是一個(gè)火烈鳥的游泳圈,這說(shuō)明游泳圈與水池的匹配程度較高,這也是符合常識(shí)的。以上兩個(gè)例子真的讓人嘆為觀止,說(shuō)明了AI的的確確學(xué)到了一種很好的數(shù)據(jù)分布。

我們一直認(rèn)為AI是能先處理重復(fù)性的工作,也就是體力工作。而這種創(chuàng)造性的工作往往是AI無(wú)法取代的,但現(xiàn)在似乎已經(jīng)觸手可及了。

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

?上圖是DALLE2與DALLE的對(duì)比,DALLE2達(dá)到了DALLE 4倍分辨率。

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

?上圖是自2021年來(lái)該領(lǐng)域的發(fā)展,主要由清華的團(tuán)隊(duì)和OpenAI主導(dǎo)。

模型主要架構(gòu)為:

先訓(xùn)練好一個(gè)CLIP模型,找到圖像和文本對(duì)之間的相連關(guān)系。給定一個(gè)文本,CLIP的文本編碼器就可以將這個(gè)文本變成一個(gè)文本特征。DALL·E2訓(xùn)練一個(gè)prior模型,將文本特征作為該模型的輸入,輸出為圖像特征,將這個(gè)圖像特征給解碼器,從而生成一個(gè)完成的圖像。CLIP結(jié)合GLIDE(基于擴(kuò)散模型)

3.摘要部分

CLIP已經(jīng)能夠?qū)W習(xí)到很穩(wěn)健的特征,比如語(yǔ)義semantics和風(fēng)格style,如果只是拿來(lái)做分類就很可惜,如果能拿來(lái)做圖像生成任務(wù)。兩個(gè)階段prior和decode。

prior:根文本描述生成類似CLIP的圖像特征;decoder:根據(jù)圖像特征生成圖像。

兩個(gè)亮點(diǎn),一是顯式的生成圖像特征能夠提高圖像的多樣性且非常逼真(圖像寫實(shí)程度以及文本匹配程度很高),而GAN是的本質(zhì)是“以假亂真”,去生成一個(gè)相似的分布,雖然生成的圖像很逼真,但是多樣性不好。二是可以實(shí)時(shí)的利用文本信息引導(dǎo)模型生成編輯各種圖片,不需要訓(xùn)練(zero-shot)。

相對(duì)于自回歸模型,解碼器使用擴(kuò)散模型效果更好。

4.引言部分

視覺領(lǐng)域的進(jìn)展:大模型或者大數(shù)據(jù)集(圖像文本對(duì))例如CLIP,特別好的zero-shot能力。擴(kuò)散模型(概率分布模型),在圖像和視頻生成任務(wù)上稱為最前沿SOFT的模型。再一個(gè)就是,引導(dǎo)guidance的技巧,犧牲一部分多樣性,提升更高的逼真度。

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

模型主要架構(gòu)如上圖,上部是一個(gè)CLIP,輸入為文本圖像對(duì),文本信息和圖像信息分別經(jīng)過(guò)文本編碼器和圖像編碼器提取文本特征C和圖像特征C,文本特征C和圖像特征C也是成對(duì)存在。下方作為DALLE2主體部分,主要由prior和decoder兩階段。首先,文本信息經(jīng)過(guò)文本編碼器提取文本特征D,然后prior根據(jù)文本信息D生成圖像特征D。訓(xùn)練過(guò)程中,圖像特征C作為圖像特征D的ground truth進(jìn)行訓(xùn)練,也就是說(shuō)訓(xùn)練時(shí)DALLE2生成的圖像特征D時(shí)不時(shí)的看一下CLIP生成的對(duì)應(yīng)文本的圖像特征C。最后通過(guò)一個(gè)解碼器decoder根據(jù)圖像特征D生成圖像。

?5.生成模型概述

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

GAN的核心是“以假亂真”。致命缺點(diǎn):訓(xùn)練不穩(wěn)定,須同時(shí)訓(xùn)練兩個(gè)網(wǎng)絡(luò),存在平衡的問(wèn)題(生成器和判別器有一方特別好。另一個(gè)特別差),容易坍塌,圖片多樣性差一些。

?DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

?編碼器提取特征(維度比較小),解碼器重構(gòu)輸入x。

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

AE、DAE又或者是MAE都是為了編碼器提取特征,然后用這個(gè)特征去做一些分類、檢測(cè)和分割等任務(wù)。訓(xùn)練過(guò)程的損失是將生成的樣本與原始樣本的差異作為損失,訓(xùn)練過(guò)程要時(shí)不時(shí)的看原始樣本。然而,它們學(xué)到不是一種分布,無(wú)法進(jìn)行采樣。因此VAE(Variational auto-encoder)就用來(lái)做生成任務(wù)。

?DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

VAE 與AE、DAE不同的是,特征是從編碼器學(xué)習(xí)到的分布中采樣得到的。多樣性相對(duì)于GAN就要好很多。

那么如果我們出門之前我們聽到新聞?wù)f今天路上出了個(gè)交通事故,那么我們想算一下堵車的概率,這個(gè)就叫做條件概率 。也就是P(堵車|交通事故)。這是有因求果,先驗(yàn)概率。

如果我們已經(jīng)出了門,然后遇到了堵車,那么我們想算一下堵車時(shí)由交通事故引起的概率有多大,那這個(gè)就叫做后驗(yàn)概率 (也是條件概率,但是通常習(xí)慣這么說(shuō)) 。也就是P(交通事故|堵車)。這是有果求因。

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

?VQ-VAE提出離散化的思想,在處理圖像和語(yǔ)音時(shí),圖像變成像素,語(yǔ)音也是抽樣的。與VAE不同的是,?VQ-VAE不再去做分布的預(yù)測(cè),使用一個(gè)codebook取而代之。codebook可以理解為聚類的中心,codebook的大小一般為k×d,k8192,d=512或者768。8192個(gè)長(zhǎng)為d的向量,即為8192個(gè)聚類中心。由于量化的特征(quantised feature)都是codebook中的,就非??煽亍?/strong>然而,要學(xué)習(xí)固定的codebook,又無(wú)法像VAE一樣隨機(jī)采樣,多樣性就差一些。

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

?DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

前向擴(kuò)散過(guò)程(forward diffusion):不斷地加噪聲,最終原始樣本就變成了噪聲。

反向擴(kuò)散(reverse diffusion):不斷地降噪,最終噪聲就變成了目標(biāo)樣本。

本質(zhì):將隨機(jī)噪聲一點(diǎn)一點(diǎn)降噪,次數(shù)足夠多,就可以生成想要的圖片。

擴(kuò)散的概念時(shí)引用自熱力學(xué)。

6.擴(kuò)散模型的發(fā)展

初步2015年左右。2020年6月,Denoising Diffusion Probabilistic Model(DDPM),利用殘差的思想,不再去預(yù)測(cè)xt-1,而是去預(yù)測(cè)噪聲ε。

?DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

?1.利用殘差的思想,xt=xt-1+ε。不去預(yù)測(cè)xt-1,轉(zhuǎn)而預(yù)測(cè)噪聲ε。

2.加入了time embedding。告訴模型預(yù)測(cè)到哪一步。開始生成輪廓,粗糙的大致的輪廓,隨著進(jìn)一步預(yù)測(cè),逐漸生成細(xì)致的特征。

訓(xùn)練過(guò)程損失loss,預(yù)測(cè)的噪聲(反向擴(kuò)散過(guò)程)與設(shè)定的噪聲(前向擴(kuò)散過(guò)程)之間的差值,設(shè)定的噪聲是正向擴(kuò)散過(guò)程人為設(shè)定的,是已知的。

擴(kuò)散模型與VAE區(qū)別和聯(lián)系:

1.DDPM也可以看做編碼器-解碼器的結(jié)構(gòu)。DDPM添加噪聲的編碼器是固定的過(guò)程,而VAE的編碼器是學(xué)習(xí)獲得的。

2.擴(kuò)散模型的每一步,特征圖大小都是一樣的,而AE等編碼器提取的bottleneck feature則是維度較小(壓縮)的特征。

3.擴(kuò)散模型與步數(shù)的概念,正向和反向過(guò)程。time embedding

DDPM—improved DDPM(學(xué)了方差、添加噪聲的schedule改善)—diffusion beats GAN(大模型,新的歸一化)—GLIDE(classifer guided diffusion)—DALLE2

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

?用分類器計(jì)算一個(gè)交叉熵?fù)p失得到一個(gè)梯度引導(dǎo)采樣、圖像生成。梯度隱含著信息,這些信息包括當(dāng)前圖片是否含有一個(gè)物體,生成的物體是否真實(shí)。犧牲了一部分多樣性,改善了逼真性。

classifer free guidance

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

?訓(xùn)練時(shí)生成兩個(gè)輸出。一個(gè)有條件,一個(gè)無(wú)條件。對(duì)比兩個(gè)輸出,就可以學(xué)習(xí)到兩個(gè)輸出之間的差異(在高維特征空間)。在測(cè)試時(shí),使用無(wú)條件的模型得到無(wú)條件的輸出,并利用學(xué)到的差異,修正無(wú)條件的輸出,也可以得到和有條件的輸出類似的結(jié)果。

7.方法部分

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

?回顧一下模型架構(gòu),上部是一個(gè)CLIP,輸入為文本圖像對(duì),文本信息和圖像信息分別經(jīng)過(guò)文本編碼器和圖像編碼器提取文本特征C和圖像特征C,文本特征C和圖像特征C也是成對(duì)存在。下方作為DALLE2主體部分,主要由prior和decoder兩階段。首先,文本信息經(jīng)過(guò)文本編碼器提取文本特征D,然后prior根據(jù)文本信息D生成圖像特征D。訓(xùn)練過(guò)程中,圖像特征C作為圖像特征D的ground truth進(jìn)行訓(xùn)練,也就是說(shuō)訓(xùn)練時(shí)DALLE2生成的圖像特征D時(shí)不時(shí)的看一下CLIP生成的對(duì)應(yīng)文本的圖像特征C。最后通過(guò)一個(gè)解碼器decoder根據(jù)圖像特征D生成圖像。

兩階段的形式,公式如下:

The decoder allows us to invert images given their CLIP image embeddings, while the prior allows us to learn a generative model of the image embeddings themselves. Stacking these two components yields a generative model P (x|y) of images x given captions y:

P (x|y) = P (x, zi|y) = P (x|zi, y)P (zi|y).

P (x|y)根據(jù)文本生成圖像; P (x, zi|y)根據(jù)文本生成圖像特征和圖像

P (x|zi, y)根據(jù)文本和圖像特征生成圖像;P (zi|y) 根據(jù)文本生成圖像特征

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

?GLIDE模型的變體,使用了CLIP的guidance。

也使用了classifier-free guidance。

級(jí)聯(lián)式的生成,分辨率64*64-256*256-1024*1024。為了訓(xùn)練的穩(wěn)定性,作者在訓(xùn)練時(shí)加了很多噪聲。另外,擴(kuò)散模型大部分是U-Net,是一個(gè)CNN的結(jié)構(gòu)而非transformer。推理時(shí)可以用在任何尺寸上,并不需要序列長(zhǎng)度保持一致。

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

?prior模型:基于文本去生成圖像特征。

不論是自回歸模型還是擴(kuò)散模型,都使用了classifier free guidance,因?yàn)樾Ч_實(shí)好。

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

作者訓(xùn)練了一個(gè)transformer 的decoder,因?yàn)檫@里的輸入輸出是embedding,直接用transformer處理序列。輸入有文本、CLIP文本的embedding,擴(kuò)散模型的timestep embedding,加入噪聲后的CLIP圖像embedding以及transformer自身的embedding(CLStoken)。輸出為沒(méi)有加入噪聲的CLIP圖像embedding。

DDPM曾提出利用殘差思想預(yù)測(cè)噪聲,但是這里作者發(fā)現(xiàn)直接預(yù)測(cè)沒(méi)有噪聲的圖像要比預(yù)測(cè)噪聲更好。因此這里的損失是預(yù)測(cè)值與未加噪聲的圖像(特征)直接對(duì)比。

?8.結(jié)果

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

?MS-COCO256*256上FID分?jǐn)?shù),DALLE2(unCLIP)達(dá)到了最低的分?jǐn)?shù),使用擴(kuò)散模型比自回歸AR模型分?jǐn)?shù)也有略微的降低。

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

通過(guò)對(duì)比不同模型根據(jù)特定的文本信息生成的圖像,DALLE2確實(shí)生成比較真實(shí)的,復(fù)合語(yǔ)境的圖像。

9.局限性

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

無(wú)法將物體和屬性結(jié)合起來(lái)。CLIP太關(guān)注物體間的相似性,不能識(shí)別上下左右等方位信息。

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

生成圖片,圖片中文字的順序不對(duì)。文本編碼器BPE的存根詞綴編碼存在問(wèn)題。

DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

不能生成特別復(fù)雜場(chǎng)景的圖像,細(xì)節(jié)缺失特別嚴(yán)重。第一張圖修狗在湖邊綠色的草地上,前景特別突出,導(dǎo)致湖邊和草地的背景不夠明顯。第二張時(shí)代廣場(chǎng)上廣告牌都是像素塊。

文章鏈接:

http://arxiv.org/abs/2204.06125

python的學(xué)習(xí)還是要多以練習(xí)為主,想要練習(xí)python的同學(xué),推薦可以去看,他們現(xiàn)在的IT題庫(kù)內(nèi)容很豐富,屬于國(guó)內(nèi)做的很好的了,而且是課程+刷題+面經(jīng)+求職+討論區(qū)分享,一站式求職學(xué)習(xí)網(wǎng)站,最最最重要的里面的資源全部免費(fèi)。

牛客網(wǎng) - 找工作神器|筆試題庫(kù)|面試經(jīng)驗(yàn)|實(shí)習(xí)招聘內(nèi)推,求職就業(yè)一站解決_牛客網(wǎng)求職之前,先上牛客,就業(yè)找工作一站解決。互聯(lián)網(wǎng)IT技術(shù)/產(chǎn)品/運(yùn)營(yíng)/硬件/汽車機(jī)械制造/金融/財(cái)務(wù)管理/審計(jì)/銀行/市場(chǎng)營(yíng)銷/地產(chǎn)/快消/管培生等等專業(yè)技能學(xué)習(xí)/備考/求職神器,在線進(jìn)行企業(yè)校招實(shí)習(xí)筆試面試真題模擬考試練習(xí),全面提升求職競(jìng)爭(zhēng)力,找到好工作,拿到好offer。https://www.nowcoder.com/link/pc_csdncpt_ssdxjg_pythonDALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)

他們這個(gè)python的練習(xí)題,知識(shí)點(diǎn)編排詳細(xì),題目安排合理,題目表述以指導(dǎo)的形式進(jìn)行。整個(gè)題單覆蓋了Python入門的全部知識(shí)點(diǎn)以及全部語(yǔ)法,通過(guò)知識(shí)點(diǎn)分類逐層遞進(jìn),從Hello World開始到最后的實(shí)踐任務(wù),都會(huì)非常詳細(xì)地指導(dǎo)你應(yīng)該使用什么函數(shù),應(yīng)該怎么輸入輸出。

??途W(wǎng)(??途W(wǎng) - 找工作神器|筆試題庫(kù)|面試經(jīng)驗(yàn)|實(shí)習(xí)招聘內(nèi)推,求職就業(yè)一站解決_??途W(wǎng))還提供題解專區(qū)和討論區(qū)會(huì)有大神提供題解思路,對(duì)新手玩家及其友好,有不清楚的語(yǔ)法,不理解的地方,看看別人的思路,別人的代碼,也許就能豁然開朗。

快點(diǎn)擊下方鏈接學(xué)起來(lái)吧!

??途W(wǎng) - 找工作神器|筆試題庫(kù)|面試經(jīng)驗(yàn)|實(shí)習(xí)招聘內(nèi)推,求職就業(yè)一站解決_??途W(wǎng)

參考:

參考:

DALL·E 2【論文精讀】_嗶哩嗶哩_bilibilihttps://www.bilibili.com/video/BV17r4y1u77B?spm_id_from=333.999.0.0&vd_source=8203bbd7379886d2ef6007067465d65c文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-408477.html

到了這里,關(guān)于DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Adding Conditional Control to Text-to-Image Diffusion Models

    Adding Conditional Control to Text-to-Image Diffusion Models

    安全驗(yàn)證 - 知乎 知乎,中文互聯(lián)網(wǎng)高質(zhì)量的問(wèn)答社區(qū)和創(chuàng)作者聚集的原創(chuàng)內(nèi)容平臺(tái),于 2011 年 1 月正式上線,以「讓人們更好的分享知識(shí)、經(jīng)驗(yàn)和見解,找到自己的解答」為品牌使命。知乎憑借認(rèn)真、專業(yè)、友善的社區(qū)氛圍、獨(dú)特的產(chǎn)品機(jī)制以及結(jié)構(gòu)化和易獲得的優(yōu)質(zhì)內(nèi)容,

    2024年02月06日
    瀏覽(21)
  • Adding Conditional Control to Text-to-Image Diffusion Models——【論文筆記】

    Adding Conditional Control to Text-to-Image Diffusion Models——【論文筆記】

    本文發(fā)表于ICCV2023? 論文地址:ICCV 2023 Open Access Repository (thecvf.com) 官方實(shí)現(xiàn)代碼:lllyasviel/ControlNet: Let us control diffusion models! (github.com)? 論文提出了一種神經(jīng)網(wǎng)絡(luò)架構(gòu)ControlNet,可以將空間條件控制添加到大型的預(yù)訓(xùn)練文本到圖像擴(kuò)散模型中。ControlNet將預(yù)訓(xùn)練好的大型擴(kuò)散模型

    2024年02月01日
    瀏覽(21)
  • 條件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models

    條件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models

    ??在之前的擴(kuò)散模型介紹中,入門-1,主要考慮的是無(wú)條件下的圖片生成,涉及到的問(wèn)題主要是如何保證圖片的質(zhì)量,這個(gè)過(guò)程需要考慮很多的參數(shù)項(xiàng),參數(shù)設(shè)定的不同會(huì)對(duì)圖片的質(zhì)量和多樣性產(chǎn)生很大的影響。 ?? 能夠讓diffusion模型在工業(yè)界中大放異彩的模型,比如條件

    2024年02月16日
    瀏覽(25)
  • 106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation

    106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation

    ?很多工作在擴(kuò)散先驗(yàn)中注入跨視圖一致性,但仍然缺乏細(xì)粒度的視圖一致性。論文提出的文本到3d的方法有效地減輕了漂浮物(由于密度過(guò)大)和完全空白空間(由于密度不足)的產(chǎn)生。 ?簡(jiǎn)單而言,論文工作是 Dreamfusion+Zero123 。 ?使用兩種不同的分?jǐn)?shù)蒸餾進(jìn)行監(jiān)督:文本條件下

    2024年01月17日
    瀏覽(26)
  • AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    代碼:lllyasviel/ControlNet: Let us control diffusion models! (github.com) 論文地址 最近AI繪畫又雙叒叕進(jìn)化了,前一次還只能生成二次元,這次三次元都能生成了。這次AI繪畫這么火爆的原因跟下面這篇文章脫不開關(guān)系,它將AI繪畫帶到了一個(gè)新的高度。 我們提出了一個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)cont

    2024年02月11日
    瀏覽(23)
  • 文本-圖像生成(Text-to-Image Generation)的評(píng)價(jià)指標(biāo)介紹——CLIPScore、TISE

    文本-圖像生成(Text-to-Image Generation)的評(píng)價(jià)指標(biāo)介紹——CLIPScore、TISE

    論文標(biāo)題:CLIPScore: A Reference-free Evaluation Metric for Image Captioning 這一篇是針對(duì)Image Caption領(lǐng)域的評(píng)價(jià)指標(biāo),但是有些基于條件的Diffusion模型也使用了這個(gè)評(píng)價(jià)指標(biāo)來(lái)衡量文本和生成圖像的匹配程度。 本文提出的CLIPScore(下文簡(jiǎn)稱CLIPS)是不需要推理的評(píng)估指標(biāo),之前常見的基于

    2023年04月08日
    瀏覽(21)
  • [PMLR 2021] Zero-Shot Text-to-Image Generation:零樣本文本到圖像生成

    [PMLR 2021] Zero-Shot Text-to-Image Generation:零樣本文本到圖像生成

    Fig 1. 原始圖像(上)和離散VAE重建圖像(下)的比較。編碼器對(duì)空間分辨率進(jìn)行8倍的下采樣。雖然細(xì)節(jié)(例如,貓毛的紋理、店面上的文字和插圖中的細(xì)線)有時(shí)會(huì)丟失或扭曲,但圖像的主要特征通常仍然是可識(shí)別的。我們使用8192的大詞匯量來(lái)減輕信息的丟失 原文鏈接:[PMLR 2021]Ze

    2024年02月11日
    瀏覽(19)
  • dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

    dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

    【筆記】Stable Diffusion模型優(yōu)化入門級(jí)介紹 - LoRA vs Dreambooth vs Textural Inversion vs Hypernetworks - 知乎 22年9月份一個(gè)獲獎(jiǎng)作品使AI繪畫引爆全網(wǎng),10月我在本地部署了一個(gè)StableDiffusionWebUI程序,然后,就沒(méi)有然后了。看著我本地生成的一張張垃圾圖,從小就喜歡畫畫又沒(méi)有天賦的我心

    2024年02月10日
    瀏覽(25)
  • 【文生圖】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

    【文生圖】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

    論文地址:https://arxiv.org/abs/2208.12242v1 項(xiàng)目地址:https://dreambooth.github.io/ DreamBooth 主要的工作目的是實(shí)現(xiàn)保留主體的細(xì)致特征的情況下使用文本對(duì)其進(jìn)行環(huán)境等編輯。整體方法為給定一個(gè)主體的3-5個(gè)圖像和文本提示作為輸入,微調(diào)預(yù)訓(xùn)練的文生圖模型(Imagen,但不限于特定模型

    2024年02月05日
    瀏覽(20)
  • tune a video:one-shot tuning of image diffusion models for text-to-video generation

    tune a video:one-shot tuning of image diffusion models for text-to-video generation

    【Diffusion Models】新加坡國(guó)立大學(xué)、騰訊強(qiáng)強(qiáng)聯(lián)手Tune-A-Video:One-Shot微調(diào)圖像擴(kuò)散模型用于文本到圖像的生成!_嗶哩嗶哩_bilibili 【Diffusion Models】新加坡國(guó)立大學(xué)、騰訊強(qiáng)強(qiáng)聯(lián)手Tune-A-Video:One-Shot微調(diào)圖像擴(kuò)散模型用于文本到圖像的生成!共計(jì)2條視頻,包括:[論文代碼閱讀]T

    2023年04月11日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包