国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Latent Diffusion Models

這篇具有很好參考價(jià)值的文章主要介紹了Latent Diffusion Models。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022)

https://arxiv.org/abs/2112.10752

GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models

GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model


貢獻(xiàn)大大減少計(jì)算復(fù)雜度、提出了cross-attention的方法來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練,使得條件圖片生成任務(wù)也可以實(shí)現(xiàn)


論文貢獻(xiàn)

  • Diffusion model相比GAN可以取得更好的圖片生成效果,然而該模型是一種自回歸模型,需要反復(fù)迭代計(jì)算,因此訓(xùn)練和推理代價(jià)都很高。論文提出一種在潛在表示空間(latent space)上進(jìn)行diffusion過(guò)程的方法,從而能夠大大減少計(jì)算復(fù)雜度,同時(shí)也能達(dá)到十分不錯(cuò)的圖片生成效果。
  • 相比于其它空間壓縮方法,論文提出的方法可以生成更細(xì)致的圖像,并且在高分辨率圖片生成任務(wù)(如風(fēng)景圖生成,百萬(wàn)像素圖像)上表現(xiàn)得也很好。
  • 論文將該模型在無(wú)條件圖片生成(unconditional image synthesis), 圖片修復(fù)(inpainting),圖片超分(super-resolution)任務(wù)上進(jìn)行了實(shí)驗(yàn),都取得了不錯(cuò)的效果。
  • 論文還提出了cross-attention的方法來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練,使得條件圖片生成任務(wù)也可以實(shí)現(xiàn)。論文中提到的條件圖片生成任務(wù)包括類(lèi)別條件圖片生成(class-condition), 文圖生成(text-to-image), 布局條件圖片生成(layout-to-image)。這也為日后Stable Diffusion的開(kāi)發(fā)奠定了基礎(chǔ)。

方法

Latent Diffusion Models
整體流程圖

Latent Diffusion Models整體流程如圖:

  1. 首先需要訓(xùn)練好一個(gè)自編碼模型(AutoEncoder,包括一個(gè)編碼器 E?和一個(gè)解碼器?D?)。
  2. 這樣一來(lái),我們就可以利用?Encoder 對(duì)圖片進(jìn)行壓縮,
  3. 然后在潛在表示空間上做diffusion操作,
  4. 最后我們?cè)儆?Decoder 恢復(fù)到原始像素空間即可,

論文將這個(gè)方法稱(chēng)之為感知壓縮(Perceptual Compression)。個(gè)人認(rèn)為這種將高維特征壓縮到低維,然后在低維空間上進(jìn)行操作的方法具有普適性,可以很容易推廣到文本、音頻、視頻等領(lǐng)域。

在潛在表示空間上做diffusion操作其主要過(guò)程和標(biāo)準(zhǔn)的擴(kuò)散模型沒(méi)有太大的區(qū)別,所用到的擴(kuò)散模型的具體實(shí)現(xiàn)為 time-conditional UNet。但是有一個(gè)重要的地方是論文為diffusion操作引入了條件機(jī)制(Conditioning Mechanisms),通過(guò)cross-attention的方式來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練,使得條件圖片生成任務(wù)也可以實(shí)現(xiàn)。

下面我們針對(duì)感知壓縮、擴(kuò)散模型、條件機(jī)制的具體細(xì)節(jié)進(jìn)行展開(kāi)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-432741.html

到了這里,關(guān)于Latent Diffusion Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

    論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

    論文鏈接 代碼鏈接 背景:Stable Diffusion在合成高分辨率圖片方面表現(xiàn)出色,但是仍然需要提高 本文提出了SD XL,使用了更大的UNet網(wǎng)絡(luò),以及增加了一個(gè)Refinement Model,以進(jìn)一步提高圖片質(zhì)量。 用戶(hù)偏好調(diào)查比較 可以看到,在不增加Refiner模型的情況下,SD XL的效果已經(jīng)比SD 1.

    2024年03月11日
    瀏覽(25)
  • 【論文簡(jiǎn)介】Stable Diffusion的基礎(chǔ)論文:2112.High-Resolution Image Synthesis with Latent Diffusion Models

    【論文簡(jiǎn)介】Stable Diffusion的基礎(chǔ)論文:2112.High-Resolution Image Synthesis with Latent Diffusion Models

    穩(wěn)定擴(kuò)散生成模型(Stable Diffusion)是一種潛在的文本到圖像擴(kuò)散模型,能夠在給定任何文本輸入的情況下生成照片般逼真的圖像 Stable Diffusion 是基于 latent-diffusion 并與 Stability AI and Runway合作實(shí)現(xiàn)的 paper: High-Resolution Image Synthesis with Latent Diffusion Models 本論文代碼 :https://github.co

    2024年02月08日
    瀏覽(21)
  • High-resolution image reconstruction with latent diffusion models from human brain activity

    High-resolution image reconstruction with latent diffusion models from human brain activity

    論文地址:https://doi.org/10.1101/2022.11.18.517004 項(xiàng)目地址:https://sites.google.com/view/stablediffusion-with-brain/ 從人類(lèi)大腦活動(dòng)中重建視覺(jué)體驗(yàn),為理解大腦如何代表世界,以及解釋計(jì)算機(jī)視覺(jué)模型和我們的視覺(jué)系統(tǒng)之間的聯(lián)系提供了獨(dú)特的方法。雖然深度生成模型最近被用于這一任務(wù),

    2023年04月25日
    瀏覽(20)
  • 論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer應(yīng)用到low-level任務(wù) low-level task 如deblurringdenoisingdehazing等任務(wù)多是基于CNN做的,這樣的局限性有二: 第一是卷積操作的感受野受限,很難建立起全局依賴(lài), 第二就是卷積操作的卷積核初始化是固定的,而attention的設(shè)計(jì)可以通過(guò)像素之間的關(guān)系自適

    2024年02月05日
    瀏覽(32)
  • CVPR2021 | VQGAN+:Taming Transformers for High-Resolution Image Synthesis

    CVPR2021 | VQGAN+:Taming Transformers for High-Resolution Image Synthesis

    原文標(biāo)題:Taming Transformers for High-Resolution Image Synthesis 主頁(yè): Taming Transformers for High-Resolution Image Synthesis 代碼: https://github.com/CompVis/taming-transformers transformer比CNN缺少了歸納偏置和局部性,但是更具表現(xiàn)力,但對(duì)于長(zhǎng)序列(高分辨率圖像),在計(jì)算上是不可性的。作者就是解決

    2023年04月08日
    瀏覽(27)
  • 85、Magic3D: High-Resolution Text-to-3D Content Creation

    85、Magic3D: High-Resolution Text-to-3D Content Creation

    主頁(yè):https://research.nvidia.com/labs/dir/magic3d/ DreamFusion 實(shí)現(xiàn)了文本指導(dǎo)2D擴(kuò)散模型生成3D場(chǎng)景,但是其有以下兩個(gè)缺點(diǎn): 對(duì)NeRF的優(yōu)化極其緩慢; 對(duì)NeRF的圖像空間監(jiān)督分辨率低,導(dǎo)致3D模型質(zhì)量低,處理時(shí)間長(zhǎng) 論文為此提出兩階段優(yōu)化框架 使用低分辨率擴(kuò)散先驗(yàn)和稀疏三維哈希網(wǎng)

    2024年02月11日
    瀏覽(58)
  • 【圖像修復(fù)】AOT-GAN《Aggregated Contextual Transformations for High-Resolution Image Inpainting》

    【圖像修復(fù)】AOT-GAN《Aggregated Contextual Transformations for High-Resolution Image Inpainting》

    提出用于高分辨率圖像修復(fù)的aggregated contextual transformations(AOT),它允許捕獲信息豐富的遠(yuǎn)程上下文和豐富的感興趣模式,以進(jìn)行上下文推理。 設(shè)計(jì)了一個(gè)新的掩模預(yù)測(cè)任務(wù)來(lái)訓(xùn)練用于圖像修復(fù)的判別器,使判別器可以區(qū)分真實(shí)patch和合成patch,從而有助于生成器合成細(xì)粒度紋

    2023年04月08日
    瀏覽(19)
  • [CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation

    [CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation

    目錄 Abstract Background: DreamFusion High-Resolution 3D Generation Coarse-to-fine Diffusion Priors Scene Models Coarse-to-fine Optimization NeRF optimization Mesh optimization Experiments Controllable 3D Generation Personalized text-to-3D Prompt-based editing through fine-tuning DreamFusion是目前基于文本的3D生成任務(wù)的主流方法,但它有兩

    2024年02月13日
    瀏覽(20)
  • 英偉達(dá)文本生成3D模型論文:Magic3D: High-Resolution Text-to-3D Content Creation解讀

    英偉達(dá)文本生成3D模型論文:Magic3D: High-Resolution Text-to-3D Content Creation解讀

    摘要:DreamFusion 最近展示了使用預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型來(lái)優(yōu)化神經(jīng)輻射場(chǎng) (NeRF) 的實(shí)用性,實(shí)現(xiàn)了顯著的文本到 3D 合成結(jié)果。然而,該方法有兩個(gè)固有的局限性:(a)NeRF 的優(yōu)化極慢和(b)NeRF 上的低分辨率圖像空間監(jiān)督,導(dǎo)致處理時(shí)間長(zhǎng)的低質(zhì)量 3D 模型。在本文中,

    2024年04月17日
    瀏覽(47)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包