国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

High-Resolution Image Synthesis with Latent Diffusion Models 穩(wěn)定擴散模型論文筆記

這篇具有很好參考價值的文章主要介紹了High-Resolution Image Synthesis with Latent Diffusion Models 穩(wěn)定擴散模型論文筆記。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一、研究現(xiàn)狀

? ? ? ?早期圖像生成方法主要是變分自動編碼器(Variational Autoencoders, VAEs),該算法利用編碼器和解碼器以及變分推斷的方法學習隱空間到真實圖像空間的映射從而完成圖像的生成。其優(yōu)勢是特征空間可遷移并且訓練較為穩(wěn)定,但是不容易進行模型評估,當輸入的圖像數(shù)據(jù)的分布情況復(fù)雜時,其學習到的特征泛化能力不足,而且生成的圖像模糊。

? ? ? ?生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)通過生成器與判別器的動態(tài)博弈來優(yōu)化模型,允許以良好的感知質(zhì)量對高分辨率圖像進行有效采樣,生成的圖像比較清晰。但該方法模型訓練不穩(wěn)定并難以捕捉完整的數(shù)據(jù)分布。

? ? ? ?最近,擴散模型(Diffusion Model, DM)在分布估計和生成樣本質(zhì)量方面取得了最先進的結(jié)果。擴散模型一步一步地向原始數(shù)據(jù)中加入高斯噪聲來破壞訓練數(shù)據(jù),隨后訓練神經(jīng)網(wǎng)絡(luò)來扭轉(zhuǎn)整個破壞過程,即通過逐漸去噪過程直至消除掉噪聲,從而將純噪聲轉(zhuǎn)化為高質(zhì)量圖像。但該模型依賴于長的馬爾可夫鏈的擴散步驟來產(chǎn)生樣本,計算資源和時間占用過高。

二、研究出發(fā)點

? ? ? ? 擴散模型屬于基于最大似然估計的生成模型類,容易花費過多的計算資源來學習數(shù)據(jù)中難以察覺的細節(jié)。盡管可以通過對相應(yīng)損失項的低采樣忽略感知上無關(guān)緊要的細節(jié),但這一步仍然需要在像素空間中進行昂貴的函數(shù)計算,這導致了巨大的計算時間和能源需求。

? ? ? ?因此,本文提出將VAE與DM結(jié)合,把壓縮感知信息與生成圖像的過程分離來避免這一缺陷。

三、創(chuàng)新點

1.通過自動編碼器(Autoencoder, AE)壓縮數(shù)據(jù),將擴散過程在隱空間(Latent Space)進行,極大地減小了擴散模型的計算量,并保持生成圖片的質(zhì)量不變。

high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習

? ? ? ?模型結(jié)構(gòu)如上圖所示。在訓練過程中,輸入樣本的x通過AE的Encoder進行壓縮至隱空間。擴散模型的正向擴散和反向生成過程都是在隱空間進行完成的。

? ? ? 具體來說,給定圖像?high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習 ,我們可以先利用一個編碼器high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習 ?來將圖像編碼到潛在表示空間high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習 ?,其中?high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習 ,然后再用解碼器從潛在表示空間重建圖片high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習? 。在感知壓縮壓縮的過程中,下采樣因子的大小?f=H/h=W/whigh-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習 ?。

? ? ? ? 這種方法的另一個顯著優(yōu)勢是,自編碼器只需訓練一次或采用預(yù)訓練的模型,因此可以將其用于訓練多次DM完全不同的任務(wù)。這使得對各種圖像到圖像和文本到圖像任務(wù)的大量擴散模型的有效探索成為可能。

2.設(shè)計了一種基于交叉注意力的通用條件生成控制機制,能夠?qū)崿F(xiàn)多模態(tài)的訓練。

? ? ? ?為了進行有條件的圖片生成,即根據(jù)控制信息來指導反向去噪過程,需要拓展得到一個條件時序去噪自編碼器(conditional denoising autoencoder)high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習 ?,通過?y?來控制圖片合成的過程。

? ? ? ? 具體來說,論文通過在UNet主干網(wǎng)絡(luò)上增加交叉注意力機制來實現(xiàn)high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習 。為了能夠從多個不同的模態(tài)預(yù)處理?y?,論文引入了一個領(lǐng)域?qū)S镁幋a器(domain specific encoder)high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習 ?,它用來將?y?映射為一個中間表示?,以引入各種形態(tài)的條件,如文本、類別等。最終模型就可以通過一個交叉注意力層映射將控制信息融入到UNet的中間層,交叉注意力層的實現(xiàn)如下:

? ? ? ? ? ? ??high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習

? ?high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習? ? ? ? ? ?high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習?? ??high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習

?

四、實驗設(shè)計及驗證?

本文實驗主要驗證了LDMs(Latent Diffusion Models)模型的性能。本文設(shè)計了大量的對比實驗,分別對壓縮比率因子、隱空間有效性、條件擴散進行了驗證。并測試了該模型在超分辨率、圖像修復(fù)等任務(wù)中的表現(xiàn)。

實驗一:感知壓縮權(quán)衡(Perceptual Compression Tradeoffs)

? ? ? 調(diào)整AE中encoder下采樣f,如果f=1那就等于沒有對輸入進行壓縮,本文對比了f在{1,2,4, 8, 16, 32}下的效果,如果f越大,則信息壓縮越嚴重,會造成圖片失真,但是訓練資源則占用越少,反之f約小則訓練的會越慢。對比實驗的結(jié)果如下圖所示。

high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習

? ? ? 可見,f在{4-16}之間可以比較好的平衡效率與視覺感知效果。作者重點推薦了LDM-4和LDM-8。

實驗二:對比生成圖片的質(zhì)量

? ? ? ?本文對LDMs的樣本生成能力從兩方面進行對比實驗,一是生成樣本的質(zhì)量,二是生成樣本的多樣性。實驗數(shù)據(jù)使用的是CelebA-HQ、FFHQ和LSUN-Churches/Bedrooms,實驗結(jié)果如下圖所示。

high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習

? ? ? ?其效果超過了GANs和LSGM,并且對于比同為擴散模型的DDPM效果要好,與ADM的效果接近,說明了隱空間的確保留了主要的特征信息。

?

實驗三:條件擴散

? ? ? 本文通過在Unet模型結(jié)構(gòu)上添加交叉注意力機制的方式可以適配多類條件的圖像生成任務(wù),例如text-to-image任務(wù)上,訓練數(shù)據(jù)為LAION-400M,文章展示了實驗結(jié)果如下:

high-resolution image synthesis with latent diffusion models,論文閱讀,人工智能,深度學習

實驗四:模型的通用性

? ? ? ?作者測試了LDMs在根據(jù)語義信息生成圖像、圖像超分辨率及圖像修復(fù)等應(yīng)用方向上的性能,均取得了極佳的效果。

?

?五、論文結(jié)論

  1. LDMs可以顯著提高去噪擴散模型的訓練和采樣效率,而不降低模型的質(zhì)量。

? ? ? 2. LDMs可以在諸多圖像生成任務(wù)中顯示出優(yōu)于先有方法的性能。

六、不足之處文章來源地址http://www.zghlxwxcb.cn/news/detail-831238.html

  1. 該模型仍是一個大模型,有著高達859M的參數(shù)量。
  2. 模型生成的圖片中存在許多“似是而非”的物體,說明模型并不真正理解各個物體的形態(tài),可以通過更細致的標簽或是引入先驗的物體結(jié)構(gòu)模型解決這一問題。
  3. 生成的圖片中有的并不符合透視法,或在空間結(jié)構(gòu)上不符合客觀規(guī)律。針對這一問題,可以將擴散模型與NeRF相結(jié)合,將二維圖像升維成三維結(jié)構(gòu)后再投影到二維來解決遮擋等空間推理問題。

到了這里,關(guān)于High-Resolution Image Synthesis with Latent Diffusion Models 穩(wěn)定擴散模型論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【論文簡介】Stable Diffusion的基礎(chǔ)論文:2112.High-Resolution Image Synthesis with Latent Diffusion Models

    【論文簡介】Stable Diffusion的基礎(chǔ)論文:2112.High-Resolution Image Synthesis with Latent Diffusion Models

    穩(wěn)定擴散生成模型(Stable Diffusion)是一種潛在的文本到圖像擴散模型,能夠在給定任何文本輸入的情況下生成照片般逼真的圖像 Stable Diffusion 是基于 latent-diffusion 并與 Stability AI and Runway合作實現(xiàn)的 paper: High-Resolution Image Synthesis with Latent Diffusion Models 本論文代碼 :https://github.co

    2024年02月08日
    瀏覽(22)
  • 論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

    論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

    論文鏈接 代碼鏈接 背景:Stable Diffusion在合成高分辨率圖片方面表現(xiàn)出色,但是仍然需要提高 本文提出了SD XL,使用了更大的UNet網(wǎng)絡(luò),以及增加了一個Refinement Model,以進一步提高圖片質(zhì)量。 用戶偏好調(diào)查比較 可以看到,在不增加Refiner模型的情況下,SD XL的效果已經(jīng)比SD 1.

    2024年03月11日
    瀏覽(25)
  • High-resolution image reconstruction with latent diffusion models from human brain activity

    High-resolution image reconstruction with latent diffusion models from human brain activity

    論文地址:https://doi.org/10.1101/2022.11.18.517004 項目地址:https://sites.google.com/view/stablediffusion-with-brain/ 從人類大腦活動中重建視覺體驗,為理解大腦如何代表世界,以及解釋計算機視覺模型和我們的視覺系統(tǒng)之間的聯(lián)系提供了獨特的方法。雖然深度生成模型最近被用于這一任務(wù),

    2023年04月25日
    瀏覽(20)
  • CVPR2021 | VQGAN+:Taming Transformers for High-Resolution Image Synthesis

    CVPR2021 | VQGAN+:Taming Transformers for High-Resolution Image Synthesis

    原文標題:Taming Transformers for High-Resolution Image Synthesis 主頁: Taming Transformers for High-Resolution Image Synthesis 代碼: https://github.com/CompVis/taming-transformers transformer比CNN缺少了歸納偏置和局部性,但是更具表現(xiàn)力,但對于長序列(高分辨率圖像),在計算上是不可性的。作者就是解決

    2023年04月08日
    瀏覽(28)
  • 論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer應(yīng)用到low-level任務(wù) low-level task 如deblurringdenoisingdehazing等任務(wù)多是基于CNN做的,這樣的局限性有二: 第一是卷積操作的感受野受限,很難建立起全局依賴, 第二就是卷積操作的卷積核初始化是固定的,而attention的設(shè)計可以通過像素之間的關(guān)系自適

    2024年02月05日
    瀏覽(32)
  • 【圖像修復(fù)】AOT-GAN《Aggregated Contextual Transformations for High-Resolution Image Inpainting》

    【圖像修復(fù)】AOT-GAN《Aggregated Contextual Transformations for High-Resolution Image Inpainting》

    提出用于高分辨率圖像修復(fù)的aggregated contextual transformations(AOT),它允許捕獲信息豐富的遠程上下文和豐富的感興趣模式,以進行上下文推理。 設(shè)計了一個新的掩模預(yù)測任務(wù)來訓練用于圖像修復(fù)的判別器,使判別器可以區(qū)分真實patch和合成patch,從而有助于生成器合成細粒度紋

    2023年04月08日
    瀏覽(19)
  • 85、Magic3D: High-Resolution Text-to-3D Content Creation

    85、Magic3D: High-Resolution Text-to-3D Content Creation

    主頁:https://research.nvidia.com/labs/dir/magic3d/ DreamFusion 實現(xiàn)了文本指導2D擴散模型生成3D場景,但是其有以下兩個缺點: 對NeRF的優(yōu)化極其緩慢; 對NeRF的圖像空間監(jiān)督分辨率低,導致3D模型質(zhì)量低,處理時間長 論文為此提出兩階段優(yōu)化框架 使用低分辨率擴散先驗和稀疏三維哈希網(wǎng)

    2024年02月11日
    瀏覽(58)
  • SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 論文筆記

    SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 論文筆記

    由于大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)或者Attention機制的超分辨模型大部分都是PSNR主導的,即用PSNR作為損失函數(shù)進行訓練,這會導致超分辨圖像過度平滑的問題,也就是超分辨后的圖像高頻信息不能很好保留,并且超分辨的圖像較為固定,對于超分辨這種不適定問題來說不太合適。

    2024年02月11日
    瀏覽(25)
  • [CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation

    [CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation

    目錄 Abstract Background: DreamFusion High-Resolution 3D Generation Coarse-to-fine Diffusion Priors Scene Models Coarse-to-fine Optimization NeRF optimization Mesh optimization Experiments Controllable 3D Generation Personalized text-to-3D Prompt-based editing through fine-tuning DreamFusion是目前基于文本的3D生成任務(wù)的主流方法,但它有兩

    2024年02月13日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包