国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

這篇具有很好參考價值的文章主要介紹了論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

論文鏈接
代碼鏈接

介紹

  • 背景:Stable Diffusion在合成高分辨率圖片方面表現(xiàn)出色,但是仍然需要提高
  • 本文提出了SD XL,使用了更大的UNet網(wǎng)絡,以及增加了一個Refinement Model,以進一步提高圖片質(zhì)量。

提高SD的措施

  • 用戶偏好調(diào)查比較
    論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,論文閱讀,stable diffusion
    可以看到,在不增加Refiner模型的情況下,SD XL的效果已經(jīng)比SD 1.5和2.1好很多了。
  • SD XL的模型結(jié)構
    論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,論文閱讀,stable diffusion
    可以看到,SD XL由一個SD base模型和一個Refiner模型組成,二者共用一個提示詞輸入,前者的輸出同時也是后者的輸入。Refiner模型其實是一個圖片編輯模型。
  1. Architecture & Scale

    論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,論文閱讀,stable diffusion

    • transformer block方面,忽略高層級的塊,而使用低層級的2和10特征塊(不懂)
    • 使用兩個Text Encoder并將它們的輸出特征拼接到一起
    • 額外使用了Pooled text emb作為條件輸入(不懂)
  2. Micro-Conditioning

    • Conditioning the Model on Image Size:過去的方法要么選擇忽略小于特定尺寸的圖片,要么選擇放縮圖片,前者忽略了大量的圖片,后者可能造成圖片模糊。SD XL中,將圖片尺寸也當做條件輸入,這樣在推理階段,用戶就可以指定生成圖片的尺寸,如圖5所示。
      論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,論文閱讀,stable diffusion

    • Conditioning the Model on Cropping Parameters

      由于SD 1和2系列使用了圖片裁剪的方式進行數(shù)據(jù)增強,導致了生成的圖片中有些物體只展現(xiàn)了一部分,如圖4所示。SD XL通過將左上方 的裁剪坐標當做條件輸入,讓模型學到了裁剪坐標的信息。在推理的過程中,將裁剪坐標條件輸入設置為(0,0)即可輸出物體在圖片中間的圖片。
      論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,論文閱讀,stable diffusion
      論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,論文閱讀,stable diffusion

  3. Multi-Aspect Training
    常見情況下SD模型的輸出是一個方形的圖片,但是在實際應用中,圖片的尺寸比例會有不同的要求。為了適應這一需求,SD XL將訓練圖片按照長寬比劃分為不同的數(shù)據(jù)桶。在訓練過程中,每個batch中的圖片都來自同一個桶,每個訓練步數(shù)中的數(shù)據(jù)在不同桶中之間交替選擇。此外,桶的中數(shù)據(jù)的尺寸也被作為條件輸入。

  4. Improved Autoencoder
    SD XL重新訓練了一個更大的autoencoder,可以提高生成圖片的局部高頻細節(jié)。從表3中可以看到,使用提升后的autoencoder后,SD XL的重構性能在多個方面都比SD 1和2有所提高。
    論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis,# Stable Diffusion,論文閱讀,stable diffusion

  5. Putting Everything Together
    最終的SD XL是使用前面的所有策略共同訓練得到的。
    Refinement Stage:使用上述方法訓練的模型有些時候仍然會生成低質(zhì)量的圖片,因此為了提高生成高分辨率的圖片的能力,SD XL使用圖片編輯技術,添加了一個Refiner模型,這個模型是可選的。

未來的工作

作者認為未來還值得研究方向如下:文章來源地址http://www.zghlxwxcb.cn/news/detail-838653.html

  • 單階段:SD XL是一個兩階段的模型,時間和空間開銷更大。研究一個同樣效果或更好效果的單階段模型很有必要。
  • 文本合成:SD XL中采用了更多和更大的text encoder,也取得了更好的效果。使用byte-level tokenizers [52, 27]或者只是使用更大規(guī)模的文本編碼器是提高SD XL文本處理能力的可能途徑。
  • 結(jié)構:作者們嘗試過一些Transformer-based的模型,比如UViT [16] and DiT [33],但是沒有發(fā)現(xiàn)好的效果。然而,作者們?nèi)匀徽J為,Transformer為主的模型是一個方向。(新的Stable Diffusion 3正是采用了DiT [33]的技術,說明作者們堅持的優(yōu)化方向是正確的)
  • 蒸餾:使用模型蒸餾技術,減小模型的體積,減少空間和時間開銷。事實上,SD系列一直有蒸餾版本的模型,比如SD XL Turbo。
  • SD XL是在離散時間模式下訓練的,需要偏移噪聲預測以生成美觀的圖片。EDM-framework是一個很有潛力的工作,其支持連續(xù)時間,可以提高采樣靈活性而不需要噪音校對。(不是很懂)

其它

  • 重要的相關工作
    • 圖片編輯模型:SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations

到了這里,關于論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • high-resolution image synthesis with latent diffusion models

    high-resolution image synthesis with latent diffusion models

    如何通俗理解擴散模型? - 知乎 瀉藥。實驗室最近人人都在做擴散,從連續(xù)到離散,從CV到NLP,基本上都被diffusion洗了一遍。但是觀察發(fā)現(xiàn),里面的數(shù)學基礎并不是模型應用的必須。其實大部分的研究者都不需要理解擴散模型的數(shù)學本質(zhì),更需要的是對… https://zhuanlan.zhihu.

    2023年04月19日
    瀏覽(28)
  • 4、High-Resolution Image Synthesis with Latent Diffusion Models

    4、High-Resolution Image Synthesis with Latent Diffusion Models

    github地址 diffusion model明顯的缺點是耗費大量的時間、計算資源,為此,論文將其應用于強大的預訓練自編碼器的潛在空間 ,這是首次允許在復雜性降低和細節(jié)保存之間達到一個近乎最佳的點,極大地提高了視覺保真度。通過在模型架構中引入交叉注意層,將擴散模型轉(zhuǎn)化為

    2024年02月12日
    瀏覽(27)
  • 【AIGC】5、Stable Diffusion 原型 | High-Resolution Image Synthesis with Latent Diffusion Models

    【AIGC】5、Stable Diffusion 原型 | High-Resolution Image Synthesis with Latent Diffusion Models

    論文:High-Resolution Image Synthesis with Latent Diffusion Models 代碼:https://github.com/CompVis/latent-diffusion 出處:CVPR2022 | 慕尼黑大學 貢獻: 提出了潛在擴散模型,通過將像素空間轉(zhuǎn)換到潛在空間,能夠在保持圖像生成效果的同時降低計算量 相比純粹的 transformer-based 方法,本文提出的方

    2024年02月09日
    瀏覽(26)
  • High-resolution image reconstruction with latent diffusion models from human brain activity

    High-resolution image reconstruction with latent diffusion models from human brain activity

    論文地址:https://doi.org/10.1101/2022.11.18.517004 項目地址:https://sites.google.com/view/stablediffusion-with-brain/ 從人類大腦活動中重建視覺體驗,為理解大腦如何代表世界,以及解釋計算機視覺模型和我們的視覺系統(tǒng)之間的聯(lián)系提供了獨特的方法。雖然深度生成模型最近被用于這一任務,

    2023年04月25日
    瀏覽(20)
  • 論文閱讀--Diffusion Models for Reinforcement Learning: A Survey

    一、論文概述 本文主要內(nèi)容是關于在強化學習中應用擴散模型的綜述。文章首先介紹了強化學習面臨的挑戰(zhàn),以及擴散模型如何解決這些挑戰(zhàn)。接著介紹了擴散模型的基礎知識和在強化學習中的應用方法。然后討論了擴散模型在強化學習中的不同角色,并對其在多個應用領域

    2024年03月20日
    瀏覽(29)
  • 【論文閱讀】Latent Consistency Models (LDMs)、LCM-LoRa

    【論文閱讀】Latent Consistency Models (LDMs)、LCM-LoRa

    提出 Latent Consistency Models (LCMs) ,圖像生成速度更快、質(zhì)量更好. 提出一種簡單高效的 one-stage guided consistency distillation 方法,用極少的采樣步數(shù)蒸餾 Stable Diffusion ,進一步提出 skipping-step 技術加快收斂過程. 介紹針對 LCMs 的微調(diào)方法. 使用 empirical PF-ODE 表示模型的逆擴散過程:

    2024年01月16日
    瀏覽(23)
  • Latent Diffusion(CVPR2022 oral)-論文閱讀

    Latent Diffusion(CVPR2022 oral)-論文閱讀

    論文: 《High-Resolution Image Synthesis with Latent Diffusion Models》 github: https://github.com/CompVis/latent-diffusion 為了使得DM在有限計算資源下訓練,同時保留其生成質(zhì)量及靈活性,作者將其應用于預訓練編解碼器的隱空間?;诒碚饔柧殧U散模型達到降低計算量及細節(jié)保留的最優(yōu)點。作者

    2024年02月11日
    瀏覽(95)
  • 【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    這篇文章提出了一個高效的用于文本到圖像生成模型架構,整體思路比較直白,在不損失圖像生成質(zhì)量的情況下,相比于現(xiàn)有T2I模型(SD1.4,SD2.1等)大大節(jié)約了成本。附錄部分給了一些有趣的東西,比如FID的魯棒性 整篇文章還有點疑惑,比如階段B的訓練,使用的模型;節(jié)省

    2024年02月21日
    瀏覽(24)
  • 擴散模型相關論文閱讀,擴散模型和知識蒸餾的結(jié)合提升預測速度:Progressive Distillation for Fast Sampling of Diffusion Models

    擴散模型相關論文閱讀,擴散模型和知識蒸餾的結(jié)合提升預測速度:Progressive Distillation for Fast Sampling of Diffusion Models

    谷歌research的成果,ICLR 2022 https://arxiv.org/abs/2202.00512 tenserflow官方開源代碼: https://github.com/google-research/google-research/tree/master/diffusion_distillation pytorch非官方代碼:https://github.com/lucidrains/imagen-pytorch 1.擴散模型雖然取得了很好的效果,但是預測速度慢。 2.作者提出了一種逐步蒸餾

    2024年02月16日
    瀏覽(20)
  • 論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer應用到low-level任務 low-level task 如deblurringdenoisingdehazing等任務多是基于CNN做的,這樣的局限性有二: 第一是卷積操作的感受野受限,很難建立起全局依賴, 第二就是卷積操作的卷積核初始化是固定的,而attention的設計可以通過像素之間的關系自適

    2024年02月05日
    瀏覽(33)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包