国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

high-resolution image synthesis with latent diffusion models

這篇具有很好參考價(jià)值的文章主要介紹了high-resolution image synthesis with latent diffusion models。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

如何通俗理解擴(kuò)散模型? - 知乎瀉藥。實(shí)驗(yàn)室最近人人都在做擴(kuò)散,從連續(xù)到離散,從CV到NLP,基本上都被diffusion洗了一遍。但是觀察發(fā)現(xiàn),里面的數(shù)學(xué)基礎(chǔ)并不是模型應(yīng)用的必須。其實(shí)大部分的研究者都不需要理解擴(kuò)散模型的數(shù)學(xué)本質(zhì),更需要的是對(duì)…https://zhuanlan.zhihu.com/p/563543020Stable Diffusion原理解讀 - 知乎引言最近大火的AI作畫(huà)吸引了很多人的目光,AI作畫(huà)近期取得如此巨大進(jìn)展的原因個(gè)人認(rèn)為有很大的功勞歸屬于Stable Diffusion的開(kāi)源。Stable diffusion是一個(gè)基于Latent Diffusion Models(潛在擴(kuò)散模型,LDMs)的文…https://zhuanlan.zhihu.com/p/583124756

??????Jay Alammar 再發(fā)新作:超高質(zhì)量圖解 Stable Diffusion ,看完徹底搞懂「圖像生成」原理 - IT之家還記得火爆全網(wǎng)的圖解 Transformer 嗎?最近這位大佬博主 Jay Alammar 在博客上對(duì)大火的 Stable Diffusion 模型也撰寫(xiě)了一篇圖解,讓你從零開(kāi)始徹底搞懂圖像生成模型的原理,還配有超詳細(xì)的視頻講解!https://www.ithome.com/0/668/981.htm

【生成模型】Stable Diffusion原理+代碼_殺生丸學(xué)AI的博客-CSDN博客Stable diffusion是一個(gè)基于(潛在擴(kuò)散模型,LDMs)的文圖生成(text-to-image)模型。具體來(lái)說(shuō),得益于的計(jì)算資源支持和在LAION-5B的一個(gè)子集數(shù)據(jù)支持訓(xùn)練,用于文圖生成。通過(guò)在一個(gè)潛在表示空間中迭代“去噪”數(shù)據(jù)來(lái)生成圖像,然后將表示結(jié)果解碼為完整的圖像,讓文圖生成能夠在消費(fèi)級(jí)GPU上,在10秒級(jí)別時(shí)間生成圖片。目前,Stable Diffusion發(fā)布了v2版本。https://blog.csdn.net/qq_45752541/article/details/129082742?stable diffusion的出現(xiàn)極大的推動(dòng)了文生圖,圖生圖等領(lǐng)域的進(jìn)展,我之前也解析過(guò)dalle2,文生圖領(lǐng)域目前的論文還是非常多的,stable diffusion整體上最大的貢獻(xiàn)還是極大的加速了diffusion的落地,擴(kuò)散模型,是vae的延續(xù),ae中的v其實(shí)就是通過(guò)kl散度來(lái)向ae中添加噪聲,擴(kuò)散則是就這個(gè)加噪的過(guò)程和馬爾科夫過(guò)程關(guān)聯(lián)起來(lái),將加噪分步了。stable diffusion基于latent diffusion model,首先需要訓(xùn)練一個(gè)自編碼器,包括一個(gè)編碼器和一個(gè)解碼器,利用編碼器對(duì)圖片進(jìn)行壓縮,然后在潛在表示空間上做diffusion操作,最后利用解碼器恢復(fù)到原始像素空間即可。稱(chēng)之為感知壓縮perceptual compression。在潛在表示空間上做diffusion操作其主要過(guò)程和標(biāo)準(zhǔn)的擴(kuò)散模型沒(méi)有太大的區(qū)別,所用到的擴(kuò)散模型具體實(shí)現(xiàn)為time-conditional unet。論文為diffusion操作引入了條件機(jī)制,通過(guò)cross-attention的方式來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練,使條件圖片生成也可以實(shí)現(xiàn)。

結(jié)合上面的材料稍微解析一些diffusion。

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

上面這個(gè)是vae,vae的最大問(wèn)題是變分后驗(yàn),在vae中,我們先定義了右邊藍(lán)色的生成器,再學(xué)一個(gè)變分后驗(yàn)來(lái)適配這個(gè)生成器,先驗(yàn)分布是標(biāo)準(zhǔn)高斯分布。vae的生成器,是將標(biāo)準(zhǔn)高斯映射到數(shù)據(jù)樣本,vae的后驗(yàn)是將數(shù)據(jù)樣本映射到標(biāo)準(zhǔn)高斯(學(xué)出來(lái)的)。我現(xiàn)在想要設(shè)計(jì)一種方法A,使得A用一種簡(jiǎn)單的變分后驗(yàn)將數(shù)據(jù)樣本映射到標(biāo)準(zhǔn)高斯,并且使得A的生成器,將標(biāo)準(zhǔn)高斯映射到數(shù)據(jù)樣本,注意,因?yàn)樯善鞯乃阉骺臻g大于變分后驗(yàn),vae的效率遠(yuǎn)不及A方法,因?yàn)锳是學(xué)一個(gè)生成器(搜索空間大),所以可以直接模仿這個(gè)后驗(yàn)分布的一小步,A方法就是括但模型核心思路:定義一個(gè)類(lèi)似于變分后驗(yàn)的從數(shù)據(jù)樣本到高斯分布的映射,然后學(xué)一個(gè)生成器,這個(gè)生成器模仿我們定義的這個(gè)映射的每一小步。vae是數(shù)據(jù)樣本->高斯->數(shù)據(jù)樣本,擴(kuò)散是數(shù)據(jù)樣本->一小步一小步的擴(kuò)散->高斯->去噪->數(shù)據(jù)樣本。

abstract:通過(guò)將圖片合成過(guò)程分解為順序去噪自編碼器(a sequential application of denosing autoencoders),diffusion models實(shí)現(xiàn)了廣泛的應(yīng)用。此外,dms允許一種引導(dǎo)機(jī)制來(lái)控制圖像生成過(guò)程無(wú)須訓(xùn)練。但是在像素空間中運(yùn)行對(duì)算力要求過(guò)高。

1.introduction

????????高分辨率,復(fù)雜自然場(chǎng)景下的圖像合成目前是被scaling up likelihood-based models所主導(dǎo),這些模型可能在自回歸transformer中有上億參數(shù)量。對(duì)比Gans已被證明主要局限于具有相對(duì)有限可變性的數(shù)據(jù),他們的對(duì)抗學(xué)習(xí)過(guò)程不容易擴(kuò)展到建模復(fù)雜的多模態(tài)分布。dms屬于基于似然的模型類(lèi)別。訓(xùn)練一個(gè)dms通常需要數(shù)百個(gè)gpu days,150-1000 V100 days。

? ? ? ? 任何一個(gè)基于似然的模型,學(xué)習(xí)大致可以分為兩個(gè)階段。1.是感知壓縮階段,它會(huì)去除高頻細(xì)節(jié),但仍然學(xué)習(xí)很少的語(yǔ)義變化,2.實(shí)際生成模型學(xué)習(xí)數(shù)據(jù)的語(yǔ)義和概念組成(語(yǔ)義壓縮)。我們將訓(xùn)練分為兩個(gè)階段,首先訓(xùn)練一個(gè)自動(dòng)編碼器,它提供一個(gè)低維的表示空間,在感知上等同于數(shù)據(jù)空間,其次在學(xué)習(xí)的潛在空間上訓(xùn)練dm,將生成模型成為潛在擴(kuò)散模型ldm。這種方式的優(yōu)點(diǎn)在于我們只需要訓(xùn)練通用的自動(dòng)編碼器一次,就可以重復(fù)用于多次dm訓(xùn)練。

2.methods

2.1 perceptual image compression

????????由此可知,基于感知壓縮的擴(kuò)散模型的訓(xùn)練本質(zhì)上是一個(gè)兩階段訓(xùn)練的過(guò)程,第一階段需要訓(xùn)練一個(gè)自編碼器,第二階段才需要訓(xùn)練擴(kuò)散模型本身。在第一階段訓(xùn)練自編碼器時(shí),為了避免潛在表示空間出現(xiàn)高度的異化,作者使用了兩種正則化方法,一種是KL-reg,另一種是VQ-reg,因此在官方發(fā)布的一階段預(yù)訓(xùn)練模型中,會(huì)看到KL和VQ兩種實(shí)現(xiàn)。在Stable Diffusion中主要采用AutoencoderKL這種實(shí)現(xiàn)。

high-resolution image synthesis with latent diffusion models

2.2 latent diffusion models

擴(kuò)散模型是一個(gè)時(shí)序去噪自編碼器,其目標(biāo)是根據(jù)輸入xt去預(yù)測(cè)一個(gè)對(duì)應(yīng)去噪后的變體,xt是輸入x的噪聲版本。而潛在擴(kuò)散模型中引入了預(yù)訓(xùn)練的感知壓縮模型,它包括一個(gè)編碼器和一個(gè)解碼器,這樣在訓(xùn)練時(shí)就可以用編碼器得到zt,從而讓模型在潛在表示空間中學(xué)習(xí)。與高維空間比,降維空間更適合基于似然的生成模型,因?yàn)?.可以專(zhuān)注于數(shù)據(jù)的重要語(yǔ)義,低維空間中高頻的細(xì)節(jié)被抽象掉了,2.在低維空間中可以進(jìn)行更有效的計(jì)算。

high-resolution image synthesis with latent diffusion models

2.3 條件機(jī)制

high-resolution image synthesis with latent diffusion models

后續(xù)就是作者的一系列實(shí)驗(yàn)了,整體來(lái)說(shuō)作者基于latent的先驗(yàn)自編碼器,訓(xùn)練一個(gè)dm,發(fā)現(xiàn)這樣做的效果也非常好。

3.圖示

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-418190.html

到了這里,關(guān)于high-resolution image synthesis with latent diffusion models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文簡(jiǎn)介】Stable Diffusion的基礎(chǔ)論文:2112.High-Resolution Image Synthesis with Latent Diffusion Models

    【論文簡(jiǎn)介】Stable Diffusion的基礎(chǔ)論文:2112.High-Resolution Image Synthesis with Latent Diffusion Models

    穩(wěn)定擴(kuò)散生成模型(Stable Diffusion)是一種潛在的文本到圖像擴(kuò)散模型,能夠在給定任何文本輸入的情況下生成照片般逼真的圖像 Stable Diffusion 是基于 latent-diffusion 并與 Stability AI and Runway合作實(shí)現(xiàn)的 paper: High-Resolution Image Synthesis with Latent Diffusion Models 本論文代碼 :https://github.co

    2024年02月08日
    瀏覽(21)
  • 論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

    論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

    論文鏈接 代碼鏈接 背景:Stable Diffusion在合成高分辨率圖片方面表現(xiàn)出色,但是仍然需要提高 本文提出了SD XL,使用了更大的UNet網(wǎng)絡(luò),以及增加了一個(gè)Refinement Model,以進(jìn)一步提高圖片質(zhì)量。 用戶(hù)偏好調(diào)查比較 可以看到,在不增加Refiner模型的情況下,SD XL的效果已經(jīng)比SD 1.

    2024年03月11日
    瀏覽(25)
  • High-resolution image reconstruction with latent diffusion models from human brain activity

    High-resolution image reconstruction with latent diffusion models from human brain activity

    論文地址:https://doi.org/10.1101/2022.11.18.517004 項(xiàng)目地址:https://sites.google.com/view/stablediffusion-with-brain/ 從人類(lèi)大腦活動(dòng)中重建視覺(jué)體驗(yàn),為理解大腦如何代表世界,以及解釋計(jì)算機(jī)視覺(jué)模型和我們的視覺(jué)系統(tǒng)之間的聯(lián)系提供了獨(dú)特的方法。雖然深度生成模型最近被用于這一任務(wù),

    2023年04月25日
    瀏覽(20)
  • CVPR2021 | VQGAN+:Taming Transformers for High-Resolution Image Synthesis

    CVPR2021 | VQGAN+:Taming Transformers for High-Resolution Image Synthesis

    原文標(biāo)題:Taming Transformers for High-Resolution Image Synthesis 主頁(yè): Taming Transformers for High-Resolution Image Synthesis 代碼: https://github.com/CompVis/taming-transformers transformer比CNN缺少了歸納偏置和局部性,但是更具表現(xiàn)力,但對(duì)于長(zhǎng)序列(高分辨率圖像),在計(jì)算上是不可性的。作者就是解決

    2023年04月08日
    瀏覽(27)
  • 論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer應(yīng)用到low-level任務(wù) low-level task 如deblurringdenoisingdehazing等任務(wù)多是基于CNN做的,這樣的局限性有二: 第一是卷積操作的感受野受限,很難建立起全局依賴(lài), 第二就是卷積操作的卷積核初始化是固定的,而attention的設(shè)計(jì)可以通過(guò)像素之間的關(guān)系自適

    2024年02月05日
    瀏覽(32)
  • 【圖像修復(fù)】AOT-GAN《Aggregated Contextual Transformations for High-Resolution Image Inpainting》

    【圖像修復(fù)】AOT-GAN《Aggregated Contextual Transformations for High-Resolution Image Inpainting》

    提出用于高分辨率圖像修復(fù)的aggregated contextual transformations(AOT),它允許捕獲信息豐富的遠(yuǎn)程上下文和豐富的感興趣模式,以進(jìn)行上下文推理。 設(shè)計(jì)了一個(gè)新的掩模預(yù)測(cè)任務(wù)來(lái)訓(xùn)練用于圖像修復(fù)的判別器,使判別器可以區(qū)分真實(shí)patch和合成patch,從而有助于生成器合成細(xì)粒度紋

    2023年04月08日
    瀏覽(19)
  • 85、Magic3D: High-Resolution Text-to-3D Content Creation

    85、Magic3D: High-Resolution Text-to-3D Content Creation

    主頁(yè):https://research.nvidia.com/labs/dir/magic3d/ DreamFusion 實(shí)現(xiàn)了文本指導(dǎo)2D擴(kuò)散模型生成3D場(chǎng)景,但是其有以下兩個(gè)缺點(diǎn): 對(duì)NeRF的優(yōu)化極其緩慢; 對(duì)NeRF的圖像空間監(jiān)督分辨率低,導(dǎo)致3D模型質(zhì)量低,處理時(shí)間長(zhǎng) 論文為此提出兩階段優(yōu)化框架 使用低分辨率擴(kuò)散先驗(yàn)和稀疏三維哈希網(wǎng)

    2024年02月11日
    瀏覽(58)
  • SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 論文筆記

    SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 論文筆記

    由于大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)或者Attention機(jī)制的超分辨模型大部分都是PSNR主導(dǎo)的,即用PSNR作為損失函數(shù)進(jìn)行訓(xùn)練,這會(huì)導(dǎo)致超分辨圖像過(guò)度平滑的問(wèn)題,也就是超分辨后的圖像高頻信息不能很好保留,并且超分辨的圖像較為固定,對(duì)于超分辨這種不適定問(wèn)題來(lái)說(shuō)不太合適。

    2024年02月11日
    瀏覽(25)
  • [CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation

    [CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation

    目錄 Abstract Background: DreamFusion High-Resolution 3D Generation Coarse-to-fine Diffusion Priors Scene Models Coarse-to-fine Optimization NeRF optimization Mesh optimization Experiments Controllable 3D Generation Personalized text-to-3D Prompt-based editing through fine-tuning DreamFusion是目前基于文本的3D生成任務(wù)的主流方法,但它有兩

    2024年02月13日
    瀏覽(20)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包