国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<tbody id="qq4qw"></tbody>

<button id="qq4qw"><center id="qq4qw"></center></button>

<code id="qq4qw"></code>

<noframes id="qq4qw"></noframes>

high-resolution image synthesis with latent diffusion models

2年前作者：Kun Li分類(lèi)：Toy博客閱讀(27)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了high-resolution image synthesis with latent diffusion models。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

如何通俗理解擴(kuò)散模型？ - 知乎瀉藥。實(shí)驗(yàn)室最近人人都在做擴(kuò)散，從連續(xù)到離散，從CV到NLP，基本上都被diffusion洗了一遍。但是觀察發(fā)現(xiàn)，里面的數(shù)學(xué)基礎(chǔ)并不是模型應(yīng)用的必須。其實(shí)大部分的研究者都不需要理解擴(kuò)散模型的數(shù)學(xué)本質(zhì)，更需要的是對(duì)…https://zhuanlan.zhihu.com/p/563543020Stable Diffusion原理解讀 - 知乎引言最近大火的AI作畫(huà)吸引了很多人的目光，AI作畫(huà)近期取得如此巨大進(jìn)展的原因個(gè)人認(rèn)為有很大的功勞歸屬于Stable Diffusion的開(kāi)源。Stable diffusion是一個(gè)基于Latent Diffusion Models（潛在擴(kuò)散模型，LDMs）的文…https://zhuanlan.zhihu.com/p/583124756

??????Jay Alammar 再發(fā)新作：超高質(zhì)量圖解 Stable Diffusion ，看完徹底搞懂「圖像生成」原理 - IT之家還記得火爆全網(wǎng)的圖解 Transformer 嗎？最近這位大佬博主 Jay Alammar 在博客上對(duì)大火的 Stable Diffusion 模型也撰寫(xiě)了一篇圖解，讓你從零開(kāi)始徹底搞懂圖像生成模型的原理，還配有超詳細(xì)的視頻講解！https://www.ithome.com/0/668/981.htm

【生成模型】Stable Diffusion原理+代碼_殺生丸學(xué)AI的博客-CSDN博客Stable diffusion是一個(gè)基于（潛在擴(kuò)散模型，LDMs）的文圖生成（text-to-image）模型。具體來(lái)說(shuō)，得益于的計(jì)算資源支持和在LAION-5B的一個(gè)子集數(shù)據(jù)支持訓(xùn)練，用于文圖生成。通過(guò)在一個(gè)潛在表示空間中迭代“去噪”數(shù)據(jù)來(lái)生成圖像，然后將表示結(jié)果解碼為完整的圖像，讓文圖生成能夠在消費(fèi)級(jí)GPU上，在10秒級(jí)別時(shí)間生成圖片。目前，Stable Diffusion發(fā)布了v2版本。https://blog.csdn.net/qq_45752541/article/details/129082742?stable diffusion的出現(xiàn)極大的推動(dòng)了文生圖，圖生圖等領(lǐng)域的進(jìn)展，我之前也解析過(guò)dalle2，文生圖領(lǐng)域目前的論文還是非常多的，stable diffusion整體上最大的貢獻(xiàn)還是極大的加速了diffusion的落地，擴(kuò)散模型，是vae的延續(xù)，ae中的v其實(shí)就是通過(guò)kl散度來(lái)向ae中添加噪聲，擴(kuò)散則是就這個(gè)加噪的過(guò)程和馬爾科夫過(guò)程關(guān)聯(lián)起來(lái)，將加噪分步了。stable diffusion基于latent diffusion model，首先需要訓(xùn)練一個(gè)自編碼器，包括一個(gè)編碼器和一個(gè)解碼器，利用編碼器對(duì)圖片進(jìn)行壓縮，然后在潛在表示空間上做diffusion操作，最后利用解碼器恢復(fù)到原始像素空間即可。稱(chēng)之為感知壓縮perceptual compression。在潛在表示空間上做diffusion操作其主要過(guò)程和標(biāo)準(zhǔn)的擴(kuò)散模型沒(méi)有太大的區(qū)別，所用到的擴(kuò)散模型具體實(shí)現(xiàn)為time-conditional unet。論文為diffusion操作引入了條件機(jī)制，通過(guò)cross-attention的方式來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練，使條件圖片生成也可以實(shí)現(xiàn)。

結(jié)合上面的材料稍微解析一些diffusion。

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

上面這個(gè)是vae，vae的最大問(wèn)題是變分后驗(yàn)，在vae中，我們先定義了右邊藍(lán)色的生成器，再學(xué)一個(gè)變分后驗(yàn)來(lái)適配這個(gè)生成器，先驗(yàn)分布是標(biāo)準(zhǔn)高斯分布。vae的生成器，是將標(biāo)準(zhǔn)高斯映射到數(shù)據(jù)樣本，vae的后驗(yàn)是將數(shù)據(jù)樣本映射到標(biāo)準(zhǔn)高斯（學(xué)出來(lái)的）。我現(xiàn)在想要設(shè)計(jì)一種方法A，使得A用一種簡(jiǎn)單的變分后驗(yàn)將數(shù)據(jù)樣本映射到標(biāo)準(zhǔn)高斯，并且使得A的生成器，將標(biāo)準(zhǔn)高斯映射到數(shù)據(jù)樣本，注意，因?yàn)樯善鞯乃阉骺臻g大于變分后驗(yàn)，vae的效率遠(yuǎn)不及A方法，因?yàn)锳是學(xué)一個(gè)生成器（搜索空間大），所以可以直接模仿這個(gè)后驗(yàn)分布的一小步，A方法就是括但模型核心思路：定義一個(gè)類(lèi)似于變分后驗(yàn)的從數(shù)據(jù)樣本到高斯分布的映射，然后學(xué)一個(gè)生成器，這個(gè)生成器模仿我們定義的這個(gè)映射的每一小步。vae是數(shù)據(jù)樣本->高斯->數(shù)據(jù)樣本，擴(kuò)散是數(shù)據(jù)樣本->一小步一小步的擴(kuò)散->高斯->去噪->數(shù)據(jù)樣本。

abstract：通過(guò)將圖片合成過(guò)程分解為順序去噪自編碼器（a sequential application of denosing autoencoders），diffusion models實(shí)現(xiàn)了廣泛的應(yīng)用。此外，dms允許一種引導(dǎo)機(jī)制來(lái)控制圖像生成過(guò)程無(wú)須訓(xùn)練。但是在像素空間中運(yùn)行對(duì)算力要求過(guò)高。

1.introduction

????????高分辨率，復(fù)雜自然場(chǎng)景下的圖像合成目前是被scaling up likelihood-based models所主導(dǎo)，這些模型可能在自回歸transformer中有上億參數(shù)量。對(duì)比Gans已被證明主要局限于具有相對(duì)有限可變性的數(shù)據(jù)，他們的對(duì)抗學(xué)習(xí)過(guò)程不容易擴(kuò)展到建模復(fù)雜的多模態(tài)分布。dms屬于基于似然的模型類(lèi)別。訓(xùn)練一個(gè)dms通常需要數(shù)百個(gè)gpu days，150-1000 V100 days。

? ? ? ? 任何一個(gè)基于似然的模型，學(xué)習(xí)大致可以分為兩個(gè)階段。1.是感知壓縮階段，它會(huì)去除高頻細(xì)節(jié)，但仍然學(xué)習(xí)很少的語(yǔ)義變化，2.實(shí)際生成模型學(xué)習(xí)數(shù)據(jù)的語(yǔ)義和概念組成（語(yǔ)義壓縮）。我們將訓(xùn)練分為兩個(gè)階段，首先訓(xùn)練一個(gè)自動(dòng)編碼器，它提供一個(gè)低維的表示空間，在感知上等同于數(shù)據(jù)空間，其次在學(xué)習(xí)的潛在空間上訓(xùn)練dm，將生成模型成為潛在擴(kuò)散模型ldm。這種方式的優(yōu)點(diǎn)在于我們只需要訓(xùn)練通用的自動(dòng)編碼器一次，就可以重復(fù)用于多次dm訓(xùn)練。

2.methods

2.1 perceptual image compression

????????由此可知，基于感知壓縮的擴(kuò)散模型的訓(xùn)練本質(zhì)上是一個(gè)兩階段訓(xùn)練的過(guò)程，第一階段需要訓(xùn)練一個(gè)自編碼器，第二階段才需要訓(xùn)練擴(kuò)散模型本身。在第一階段訓(xùn)練自編碼器時(shí)，為了避免潛在表示空間出現(xiàn)高度的異化，作者使用了兩種正則化方法，一種是KL-reg，另一種是VQ-reg，因此在官方發(fā)布的一階段預(yù)訓(xùn)練模型中，會(huì)看到KL和VQ兩種實(shí)現(xiàn)。在Stable Diffusion中主要采用AutoencoderKL這種實(shí)現(xiàn)。

high-resolution image synthesis with latent diffusion models

2.2 latent diffusion models

擴(kuò)散模型是一個(gè)時(shí)序去噪自編碼器，其目標(biāo)是根據(jù)輸入xt去預(yù)測(cè)一個(gè)對(duì)應(yīng)去噪后的變體，xt是輸入x的噪聲版本。而潛在擴(kuò)散模型中引入了預(yù)訓(xùn)練的感知壓縮模型，它包括一個(gè)編碼器和一個(gè)解碼器，這樣在訓(xùn)練時(shí)就可以用編碼器得到zt，從而讓模型在潛在表示空間中學(xué)習(xí)。與高維空間比，降維空間更適合基于似然的生成模型，因?yàn)?.可以專(zhuān)注于數(shù)據(jù)的重要語(yǔ)義，低維空間中高頻的細(xì)節(jié)被抽象掉了，2.在低維空間中可以進(jìn)行更有效的計(jì)算。

high-resolution image synthesis with latent diffusion models

2.3 條件機(jī)制

high-resolution image synthesis with latent diffusion models

后續(xù)就是作者的一系列實(shí)驗(yàn)了，整體來(lái)說(shuō)作者基于latent的先驗(yàn)自編碼器，訓(xùn)練一個(gè)dm，發(fā)現(xiàn)這樣做的效果也非常好。

3.圖示

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models

high-resolution image synthesis with latent diffusion models 文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-418190.html

到了這里，關(guān)于high-resolution image synthesis with latent diffusion models的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【論文簡(jiǎn)介】Stable Diffusion的基礎(chǔ)論文:2112.High-Resolution Image Synthesis with Latent Diffusion Models
穩(wěn)定擴(kuò)散生成模型(Stable Diffusion)是一種潛在的文本到圖像擴(kuò)散模型，能夠在給定任何文本輸入的情況下生成照片般逼真的圖像 Stable Diffusion 是基于 latent-diffusion 并與 Stability AI and Runway合作實(shí)現(xiàn)的 paper: High-Resolution Image Synthesis with Latent Diffusion Models 本論文代碼：https://github.co
2024年02月08日
瀏覽(21)
【Stable Diffusion論文精讀】High-Resolution Image Synthesis with Latent Diffusion Models（主打詳細(xì)和易懂）
2023年06月20日
瀏覽(21)
論文閱讀：SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis
論文鏈接代碼鏈接背景：Stable Diffusion在合成高分辨率圖片方面表現(xiàn)出色，但是仍然需要提高本文提出了SD XL，使用了更大的UNet網(wǎng)絡(luò)，以及增加了一個(gè)Refinement Model，以進(jìn)一步提高圖片質(zhì)量。用戶(hù)偏好調(diào)查比較可以看到，在不增加Refiner模型的情況下，SD XL的效果已經(jīng)比SD 1.
2024年03月11日
瀏覽(25)
High-resolution image reconstruction with latent diffusion models from human brain activity
論文地址：https://doi.org/10.1101/2022.11.18.517004 項(xiàng)目地址：https://sites.google.com/view/stablediffusion-with-brain/ 從人類(lèi)大腦活動(dòng)中重建視覺(jué)體驗(yàn)，為理解大腦如何代表世界，以及解釋計(jì)算機(jī)視覺(jué)模型和我們的視覺(jué)系統(tǒng)之間的聯(lián)系提供了獨(dú)特的方法。雖然深度生成模型最近被用于這一任務(wù)，
2023年04月25日
瀏覽(20)
CVPR2021 | VQGAN+：Taming Transformers for High-Resolution Image Synthesis
原文標(biāo)題：Taming Transformers for High-Resolution Image Synthesis 主頁(yè)： Taming Transformers for High-Resolution Image Synthesis 代碼： https://github.com/CompVis/taming-transformers transformer比CNN缺少了歸納偏置和局部性，但是更具表現(xiàn)力，但對(duì)于長(zhǎng)序列（高分辨率圖像），在計(jì)算上是不可性的。作者就是解決
2023年04月08日
瀏覽(27)
論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration
前言：CVPR2022oral 用transformer應(yīng)用到low-level任務(wù) low-level task 如deblurringdenoisingdehazing等任務(wù)多是基于CNN做的，這樣的局限性有二：第一是卷積操作的感受野受限，很難建立起全局依賴(lài)，第二就是卷積操作的卷積核初始化是固定的，而attention的設(shè)計(jì)可以通過(guò)像素之間的關(guān)系自適
2024年02月05日
瀏覽(32)
【圖像修復(fù)】AOT-GAN《Aggregated Contextual Transformations for High-Resolution Image Inpainting》
提出用于高分辨率圖像修復(fù)的aggregated contextual transformations(AOT)，它允許捕獲信息豐富的遠(yuǎn)程上下文和豐富的感興趣模式，以進(jìn)行上下文推理。設(shè)計(jì)了一個(gè)新的掩模預(yù)測(cè)任務(wù)來(lái)訓(xùn)練用于圖像修復(fù)的判別器，使判別器可以區(qū)分真實(shí)patch和合成patch，從而有助于生成器合成細(xì)粒度紋
2023年04月08日
瀏覽(19)
85、Magic3D: High-Resolution Text-to-3D Content Creation
主頁(yè)：https://research.nvidia.com/labs/dir/magic3d/ DreamFusion 實(shí)現(xiàn)了文本指導(dǎo)2D擴(kuò)散模型生成3D場(chǎng)景，但是其有以下兩個(gè)缺點(diǎn)：對(duì)NeRF的優(yōu)化極其緩慢; 對(duì)NeRF的圖像空間監(jiān)督分辨率低，導(dǎo)致3D模型質(zhì)量低，處理時(shí)間長(zhǎng) 論文為此提出兩階段優(yōu)化框架使用低分辨率擴(kuò)散先驗(yàn)和稀疏三維哈希網(wǎng)
2024年02月11日
瀏覽(58)
SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 論文筆記
由于大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)或者Attention機(jī)制的超分辨模型大部分都是PSNR主導(dǎo)的，即用PSNR作為損失函數(shù)進(jìn)行訓(xùn)練，這會(huì)導(dǎo)致超分辨圖像過(guò)度平滑的問(wèn)題，也就是超分辨后的圖像高頻信息不能很好保留，并且超分辨的圖像較為固定，對(duì)于超分辨這種不適定問(wèn)題來(lái)說(shuō)不太合適。
2024年02月11日
瀏覽(25)
[CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation
目錄 Abstract Background: DreamFusion High-Resolution 3D Generation Coarse-to-fine Diffusion Priors Scene Models Coarse-to-fine Optimization NeRF optimization Mesh optimization Experiments Controllable 3D Generation Personalized text-to-3D Prompt-based editing through fine-tuning DreamFusion是目前基于文本的3D生成任務(wù)的主流方法，但它有兩
2024年02月13日
瀏覽(20)

<small id="6cgc4"></small>

<table id="6cgc4"></table>