国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

這篇具有很好參考價(jià)值的文章主要介紹了DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-502633.html

一、導(dǎo)讀

論文信息

DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

  • 論文標(biāo)題: 《Hierarchical Text-Conditional Image Generation with CLIP Latents》
  • 作者/單位:Aditya Ramesh et al. / Open AI
  • 論文鏈接:?http://arxiv.org/abs/2204.06125
  • 論文中文對(duì)照版:論文筆記:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents詳解_nocol.的博客-CSDN博客
  • 代碼鏈接: 非官方實(shí)現(xiàn)?https://github.com/lucidrains/DALLE2-pytorch?(OpenAI官方實(shí)現(xiàn)待更新)
  • 項(xiàng)目主頁(yè): 待更新

?

CLIP(打通文本-圖像模型)相關(guān)講解:

  • 詳解CLIP (一) | 打通文本-圖像預(yù)訓(xùn)練實(shí)現(xiàn)ImageNet的zero-shot分類(lèi),比肩全監(jiān)督訓(xùn)練的ResNet50/101
  • 詳解CLIP (二) | 簡(jiǎn)易使用CLIP-PyTorch預(yù)訓(xùn)練模型進(jìn)行圖像預(yù)測(cè)
  • 小小將:神器CLIP:連接文本和圖像,打造可遷移的視覺(jué)模型
  • 徐土豆:CLIP-對(duì)比圖文多模態(tài)預(yù)訓(xùn)練的讀后感
  • 如何評(píng)價(jià)OpenAI最新的工作CLIP:連接文本和圖像,zero shot效果堪比ResNet50?

?

?論文筆記:CLIP:Learning Transferable Visual Models From Natural Language Supervision詳解_nocol.的博客-CSDN博客

clip預(yù)訓(xùn)練模型綜述_nocol.的博客-CSDN博客

?

擴(kuò)散模型Diffusion Model相關(guān)講解:

  • Jonathan Ho et al.“Denoising diffusion probabilistic models.” arxiv Preprint arxiv:2006.11239 (2020).
  • xjtupanda:DDPM:Denoising Diffusion Probabiblistic Model 去噪擴(kuò)散概率模型學(xué)習(xí)筆記
  • 理想主義者:生成模型(四):擴(kuò)散模型

通俗理解DDPM:生成擴(kuò)散模型_nocol.的博客-CSDN博客

二、DALL·E 2 模型解讀

DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

?

DALL·E 2 模型總覽

DALL·E 2 這個(gè)模型的任務(wù)很簡(jiǎn)單:輸入文本text,生成與文本高度對(duì)應(yīng)的圖片。

它主要包括三個(gè)部分:CLIP,先驗(yàn)?zāi)Kprior和img decoder。其中CLIP又包含text encoder和img encoder。(在看DALL·E 2之前強(qiáng)烈建議先搞懂CLIP模型的訓(xùn)練和運(yùn)作機(jī)制)

DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

?

DALL·E 2 訓(xùn)練過(guò)程

DALL·E 2是將其子模塊分開(kāi)訓(xùn)練的,最后將這些訓(xùn)練好的子模塊拼接在一起,最后實(shí)現(xiàn)由文本生成圖像的功能。

1. 訓(xùn)練CLIP,使其能夠編碼文本和對(duì)應(yīng)圖像

這一步是與CLIP模型的訓(xùn)練方式完全一樣的,目的是能夠得到訓(xùn)練好的text encoder和img encoder。這么一來(lái),文本和圖像都可以被編碼到相應(yīng)的特征空間。對(duì)應(yīng)上圖中的虛線以上部分。

2. 訓(xùn)練prior,使文本編碼可以轉(zhuǎn)換為圖像編碼

論文中對(duì)于該步驟作用的解釋為:

A prior?P(zi|y)?that produces CLIP image embeddings?zi?conditioned on captions?y?.

?

實(shí)際的訓(xùn)練過(guò)程為:將CLIP中訓(xùn)練好的text encoder拿出來(lái),輸入文本y,得到文本編碼zt。同樣的,將CLIP中訓(xùn)練好的img encoder拿出來(lái),輸入圖像?x?得到圖像編碼zi。我們希望prior能從zt獲取相對(duì)應(yīng)的zi。假設(shè)zt經(jīng)過(guò)prior輸出的特征為zi′,那么我們自然希望zi′與zi越接近越好,這樣來(lái)更新我們的prior模塊。最終訓(xùn)練好的prior,將與CLIP的text encoder串聯(lián)起來(lái),它們可以根據(jù)我們的輸入文本y生成對(duì)應(yīng)的圖像編碼特征zi了。關(guān)于具體如何訓(xùn)練prior,有興趣的小伙伴可以精度一下原文,作者使用了主成分分析法PCA來(lái)提升訓(xùn)練的穩(wěn)定性。

DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

?

在DALL·E 2 模型中,作者團(tuán)隊(duì)嘗試了兩種先驗(yàn)?zāi)P停鹤曰貧w式Autoregressive (AR) prior 和擴(kuò)散模型Diffusion prior [1]。實(shí)驗(yàn)效果上發(fā)現(xiàn)兩種模型的性能相似,而因?yàn)閿U(kuò)散模型效率較高,因此最終選擇了擴(kuò)散模型作為prior模塊。本文不具體解釋擴(kuò)散模型,大家可以查閱參考博文,或者我后期再整理相關(guān)知識(shí)。

3. 訓(xùn)練decoder生成最終的圖像

論文中對(duì)于該步驟作用的解釋為:

A decoder?P(x|zi,y)?that produces images?x?conditioned on CLIP image embeddingszi?(and optionally text captions?y?).

?

也就是說(shuō)我們要訓(xùn)練decoder模塊,從圖像特征zi還原出真實(shí)的圖像?x?,如下圖左邊所示。這個(gè)過(guò)程與自編碼器類(lèi)似,從中間特征層還原出輸入圖像,但又不完全一樣。我們需要生成出的圖像,只需要保持原始圖像的顯著特征就可以了,這樣以便于多樣化生成,例如下圖右邊的示例。

?

DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

?

?

左:訓(xùn)練decoder的過(guò)程。右:圖像經(jīng)過(guò)img encoder再經(jīng)decoder得到重建圖像。頂部圖像為輸入。

DALL-E 2使用的是改進(jìn)的GLIDE模型 [2]。這個(gè)模型可以根據(jù)CLIP圖像編碼的zi,還原出具有相同與?x?有相同語(yǔ)義,而又不是與?x?完全一致的圖像。

?

?

DALL·E 2 推理過(guò)程(由文本生成圖像過(guò)程)

經(jīng)過(guò)以上三個(gè)步驟的訓(xùn)練,已經(jīng)可以完成DALL·E 2預(yù)訓(xùn)練模型的搭建了。我們這事丟掉CLIP中的img encoder,留下CLIP中的text encoder,以及新訓(xùn)練好的prior和decoder。這么一來(lái)流程自然很清晰了:由text encoder將文本進(jìn)行編碼,再由prior將文本編碼轉(zhuǎn)換為圖像編碼,最后由decoder進(jìn)行解碼生成圖像。

DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

?

DALL·E 2 推理過(guò)程?

三、DALL·E 2實(shí)驗(yàn)效果和不足之處

實(shí)驗(yàn)效果

看下DALL·E 2 在MS-COCO prompts上的生成效果:

DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

?

不足之處

本文作者提到了DALL·E 2的三個(gè)不足之處:

  1. DALL·E 2 容易將物體和屬性混淆,比如下圖 DALL·E 2(unCLIP) 與GLIDE的對(duì)比。提示的文字為:“a red cube on top of a blue cube”。

DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

?

DALL·E 2與GLIDE由“a red cube on top of a blue cube”生成的圖像

DALL·E 2 不容易將紅色和藍(lán)色分辨出來(lái)。這可能來(lái)源于CLIP的embedding過(guò)程沒(méi)有將屬性綁定到物體上;并且decoder的重建過(guò)程也經(jīng)?;煜龑傩院臀矬w,如下圖所示,例如中間的柯基圖片,有的重建結(jié)果將其帽子和領(lǐng)結(jié)的顏色搞反了。

DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

?

decoder經(jīng)?;煜龑傩院臀矬w

2. DALL·E 2對(duì)于將文本放入圖像中的能力不足,如下圖所示,我們希望得到一個(gè)寫(xiě)著deep learning的標(biāo)志,而標(biāo)志卻將單詞/詞組拼寫(xiě)得很離譜。這個(gè)問(wèn)題可能來(lái)源于CLIP embedding不能精確地從輸入地文本提取出“拼寫(xiě)”信息。

DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

?

DALL·E 2由“A sign that says deep learning.”生成的圖像

3.DALL·E 2 在生成復(fù)雜場(chǎng)景圖片時(shí),對(duì)細(xì)節(jié)處理有缺陷,如下圖所示生成Times Square的高質(zhì)量圖片。這個(gè)可能來(lái)源于decoder的分層(hierarchy)結(jié)構(gòu),先生成64 × 64的圖像,再逐步上采樣得到最終結(jié)果的。如果將decoder先生成的圖像分辨率提高,比如從64 × 64提升到128 × 128,那么這個(gè)問(wèn)題可能可以緩解,但要付出更大計(jì)算量和訓(xùn)練成本的代價(jià)。

?DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

?

DALL·E 2由“A high quality photo of Times Square.”生成的圖像

待更新內(nèi)容:代碼實(shí)現(xiàn)以及上手使用(OpenAI仍未開(kāi)源,目前可先使用非官方實(shí)現(xiàn)代碼)

?原文鏈接:DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成-pudn.com

?

?

?

到了這里,關(guān)于DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 李沐論文精讀系列五:DALL·E2(生成模型串講,從GANs、VE/VAE/VQ-VAE/DALL·E到擴(kuò)散模型DDPM/ADM)

    李沐論文精讀系列五:DALL·E2(生成模型串講,從GANs、VE/VAE/VQ-VAE/DALL·E到擴(kuò)散模型DDPM/ADM)

    傳送門(mén): 李沐論文精讀系列一: ResNet、Transformer、GAN、BERT 李沐論文精讀系列二:Vision Transformer、MAE、Swin-Transformer 李沐論文精讀系列三:MoCo、對(duì)比學(xué)習(xí)綜述(MoCov1/v2/v3、SimCLR v1/v2、DINO等) 李沐論文精讀系列四:CLIP和改進(jìn)工作串講(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPas

    2024年02月10日
    瀏覽(14)
  • CLIP原理解讀——大模型論文閱讀筆記一

    CLIP原理解讀——大模型論文閱讀筆記一

    通過(guò)自然語(yǔ)言處理來(lái)的一些監(jiān)督信號(hào),可以去訓(xùn)練一個(gè)遷移效果很好的視覺(jué)模型。 論文的作者團(tuán)隊(duì)收集了一個(gè)超級(jí)大的圖像文本配對(duì)的數(shù)據(jù)集,有400 million個(gè)圖片文本的配對(duì), 模型最大用了ViT-large,提出了CLIP(Contrastive Language-Image Pre-training),是一種從自然語(yǔ)言監(jiān)督中學(xué)習(xí)

    2024年02月08日
    瀏覽(35)
  • DALL-E2原理解讀——大模型論文閱讀筆記五

    DALL-E2原理解讀——大模型論文閱讀筆記五

    論文:https://cdn.openai.com/papers/dall-e-2.pdf 項(xiàng)目:https://openai.com/dall-e-2 利用CLIP提取的文本特征,級(jí)聯(lián)式的生成圖片。第一階段通過(guò)prior將文本特征與圖像特征進(jìn)行對(duì)齊,第二階段用擴(kuò)散模型將視覺(jué)特征轉(zhuǎn)化為生成圖片。整體來(lái)看,DALL-E2就是CLIP與擴(kuò)散模型的結(jié)合,因此作者也將其

    2024年02月11日
    瀏覽(21)
  • 擴(kuò)散模型(Diffusion model)代碼詳細(xì)解讀

    擴(kuò)散模型(Diffusion model)代碼詳細(xì)解讀

    代碼地址:denoising-diffusion-pytorch/denoising_diffusion_pytorch.py at main · lucidrains/denoising-diffusion-pytorch (github.com) 前向過(guò)程和后向過(guò)程的代碼都在 GaussianDiffusion ?這個(gè)類(lèi)中。? 有問(wèn)題可以一起討論! Why self-conditioning? · Issue #94 · lucidrains/denoising-diffusion-pytorch (github.com) \\\"pred_x0\\\" preforms

    2024年01月25日
    瀏覽(26)
  • 文本引導(dǎo)的圖像生成模型一:DALL·E 2

    文本引導(dǎo)的圖像生成模型一:DALL·E 2

    可以參考模型:https://zhuanlan.zhihu.com/p/526438544

    2024年02月05日
    瀏覽(20)
  • LLMs之llama_7b_qlora:源代碼解讀inference_qlora.py(模型推理)使用LORA權(quán)重來(lái)初始化預(yù)訓(xùn)練的LLAMA模型來(lái)進(jìn)行文本生成(基于用戶交互輸入的上下文生成新文本)

    LLMs之llama_7b_qlora:源碼解讀inference_qlora.py(模型推理)使用LORA權(quán)重來(lái)初始化預(yù)訓(xùn)練的LLAMA模型來(lái)進(jìn)行文本生成(基于用戶交互輸入的上下文生成新文本) 目錄

    2024年02月15日
    瀏覽(34)
  • 多模態(tài)模型學(xué)習(xí)1——CLIP對(duì)比學(xué)習(xí) 語(yǔ)言-圖像預(yù)訓(xùn)練模型

    多模態(tài)模型學(xué)習(xí)1——CLIP對(duì)比學(xué)習(xí) 語(yǔ)言-圖像預(yù)訓(xùn)練模型

    學(xué)了一些多模態(tài)的知識(shí),CLIP算是其中最重要也是最通用的一環(huán),一起來(lái)看一下吧。 CLIP的全稱是Contrastive Language-Image Pre-Training,中文是對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練,是一個(gè)預(yù)訓(xùn)練模型,簡(jiǎn)稱為CLIP。 該模型是 OpenAI 在 2021 年發(fā)布的,最初用于匹配圖像和文本的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,

    2023年04月13日
    瀏覽(25)
  • 擴(kuò)散模型實(shí)戰(zhàn)(十):Stable Diffusion文本條件生成圖像大模型

    擴(kuò)散模型實(shí)戰(zhàn)(十):Stable Diffusion文本條件生成圖像大模型

    ?擴(kuò)散模型實(shí)戰(zhàn)(一):基本原理介紹 擴(kuò)散模型實(shí)戰(zhàn)(二):擴(kuò)散模型的發(fā)展 擴(kuò)散模型實(shí)戰(zhàn)(三):擴(kuò)散模型的應(yīng)用 擴(kuò)散模型實(shí)戰(zhàn)(四):從零構(gòu)建擴(kuò)散模型 擴(kuò)散模型實(shí)戰(zhàn)(五):采樣過(guò)程 擴(kuò)散模型實(shí)戰(zhàn)(六):Diffusers DDPM初探 擴(kuò)散模型實(shí)戰(zhàn)(七):Diffusers蝴蝶圖像生成實(shí)

    2024年02月03日
    瀏覽(23)
  • 使用預(yù)訓(xùn)練的2D擴(kuò)散模型改進(jìn)3D成像

    使用預(yù)訓(xùn)練的2D擴(kuò)散模型改進(jìn)3D成像

    擴(kuò)散模型已經(jīng)成為一種新的生成高質(zhì)量樣本的生成模型,也被作為有效的逆問(wèn)題求解器。然而,由于生成過(guò)程仍然處于相同的高維(即與數(shù)據(jù)維相同)空間中,極高的內(nèi)存和計(jì)算成本導(dǎo)致模型尚未擴(kuò)展到3D逆問(wèn)題。在本文中,作者將傳統(tǒng)的基于模型的迭代重建的思想與擴(kuò)散模

    2024年02月16日
    瀏覽(19)
  • 【AIGC】手把手使用擴(kuò)散模型從文本生成圖像

    【AIGC】手把手使用擴(kuò)散模型從文本生成圖像

    在這篇文章中,我們將手把手展示如何使用Hugging Face的diffusers包通過(guò)文本生成圖像。 DALLE2是收費(fèi)的,用戶只有一些免費(fèi)的額度,如果免費(fèi)額度使用完畢就需要付費(fèi)了,所以必須尋找替代方案,并發(fā)現(xiàn)了Hugging Face,他們發(fā)布了一個(gè)擴(kuò)散模型的包diffusers ,可以讓我們直接使用。

    2024年02月09日
    瀏覽(29)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包