国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

4、High-Resolution Image Synthesis with Latent Diffusion Models

這篇具有很好參考價(jià)值的文章主要介紹了4、High-Resolution Image Synthesis with Latent Diffusion Models。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

簡(jiǎn)介

github地址

diffusion model明顯的缺點(diǎn)是耗費(fèi)大量的時(shí)間、計(jì)算資源,為此,論文將其應(yīng)用于強(qiáng)大的預(yù)訓(xùn)練自編碼器的潛在空間 ,這是首次允許在復(fù)雜性降低和細(xì)節(jié)保存之間達(dá)到一個(gè)近乎最佳的點(diǎn),極大地提高了視覺保真度。通過在模型架構(gòu)中引入交叉注意層,將擴(kuò)散模型轉(zhuǎn)化為強(qiáng)大而靈活的生成器,用于一般條件輸入,如文本或包圍框,并以卷積方式實(shí)現(xiàn)高分辨率合成。

這種潛在擴(kuò)散模型(LDMs)在圖像修補(bǔ)和類條件圖像合成方面取得了新的最先進(jìn)的分?jǐn)?shù),并在各種任務(wù)上獲得了極具競(jìng)爭(zhēng)力的性能,包括文本到圖像合成,無條件圖像生成和超分辨率,同時(shí)與基于像素的DMs相比,大大降低了計(jì)算需求。

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

由于擴(kuò)散模型為空間數(shù)據(jù)提供了極好的歸納偏差,不需要在潛在空間中對(duì)相關(guān)生成模型進(jìn)行大量的空間下采樣,但仍然可以通過合適的自動(dòng)編碼模型大大降低數(shù)據(jù)的維數(shù)

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

數(shù)字圖像的大多數(shù)位對(duì)應(yīng)于難以察覺的細(xì)節(jié)。雖然 DM 允許通過最小化 responsible loss 來抑制這些語義上無意義的信息,但梯度(在訓(xùn)練期間)和神經(jīng)網(wǎng)絡(luò)主干(訓(xùn)練和推理)仍然需要在所有像素上進(jìn)行評(píng)估,導(dǎo)致多余的計(jì)算和不必要的昂貴優(yōu)化和推理。提出潛在擴(kuò)散模型(DLMs)作為一個(gè)有效的生成模型和一個(gè)單獨(dú)的溫和壓縮階段,只消除不可察覺的細(xì)節(jié)

貢獻(xiàn)點(diǎn):

  • 與純粹基于變壓器的方法相比,LDMs更適合于高維數(shù)據(jù) 。首先,可以在壓縮級(jí)別上工作,比以前的工作提供更忠實(shí)和詳細(xì)的重建,其次,可有效應(yīng)用于百萬像素圖像的高分辨率合成。

  • LDMs在多個(gè)任務(wù)(無條件圖像合成,修補(bǔ),隨機(jī)超分辨率)和數(shù)據(jù)集上實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能,同時(shí)顯著降低了計(jì)算成本。與基于像素的擴(kuò)散方法相比,還顯著降低了推理成本。

  • 與之前同時(shí)學(xué)習(xí)編碼器/解碼器架構(gòu)和基于分?jǐn)?shù)的先驗(yàn)的工作相比,LDMs不需要對(duì)重建和生成能力進(jìn)行微妙的加權(quán)。這確保了非常忠實(shí)的重建和需要很少的正則化的潛在空間。

  • 對(duì)于超分辨率、修補(bǔ)和語義合成等條件密集的任務(wù),LDMs可以以卷積方式應(yīng)用,并呈現(xiàn)大而一致的~ 4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔 px圖像。

  • 設(shè)計(jì)了一種基于交叉注意的通用條件反射機(jī)制,實(shí)現(xiàn)了多模態(tài)訓(xùn)練。用它來訓(xùn)練類條件模型、文本到圖像模型和布局到圖像模型

實(shí)現(xiàn)流程

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

盡管擴(kuò)散模型允許通過對(duì)相應(yīng)的損失項(xiàng)進(jìn)行欠采樣來忽略感知上不相關(guān)的細(xì)節(jié),但它們?nèi)匀恍枰谙袼乜臻g中進(jìn)行昂貴的函數(shù)評(píng)估,這導(dǎo)致了對(duì)計(jì)算時(shí)間和能量資源的巨大需求。論文引入壓縮與生成學(xué)習(xí)階段的顯式分離來規(guī)避這一缺點(diǎn) ,使用了一種自動(dòng)編碼模型,該模型學(xué)習(xí)的空間在感知上與圖像空間等效,但大大降低了計(jì)算復(fù)雜度 。有以下幾個(gè)優(yōu)點(diǎn):

  • 通過離開高維圖像空間,獲得的 DMs 在計(jì)算上更有效,因?yàn)椴蓸邮窃诘途S空間上執(zhí)行的

  • 利用了繼承自其UNet架構(gòu)的 DMs 的歸納偏差,這使得它們對(duì)于具有空間結(jié)構(gòu)的數(shù)據(jù)特別有效 ,減輕了以往方法所要求的激進(jìn)的、降低質(zhì)量的壓縮級(jí)別的需要

  • 得到通用壓縮模型,其潛在空間可用于訓(xùn)練多個(gè)生成模型,也可用于其他下游應(yīng)用,如單幅圖像CLIP指導(dǎo)生成

Perceptual Image Compression

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

感知圖像壓縮 模塊由一個(gè)結(jié)合感知損失和基于補(bǔ)丁的對(duì)抗目標(biāo)訓(xùn)練的自編碼器組成 ,其通過加強(qiáng)局部真實(shí)感來確保重建被限制在圖像流形中,并避免僅依靠像素空間損失(如L2或L1目標(biāo))而引入的模糊。

輸入圖像 4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔,編碼器 4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔編碼為潛變量4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔,解碼器從潛變量中重構(gòu)圖像,即4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔,其中4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔,編碼器按因子4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔下采樣,論文研究不同的下采樣因子f = 2m, m∈N

為了避免任意高方差的潛在空間,嘗試了兩種不同的正則化

  • KL-reg 對(duì)習(xí)得潛變量的標(biāo)準(zhǔn)normal施加輕微的kl懲罰,類似于VAE

  • VQ-reg在解碼器中使用矢量量化層,可以解釋為一個(gè)VQGAN,但量化層被解碼器吸收 。后續(xù)DM設(shè)計(jì)用于學(xué)習(xí)的潛在空間 4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔 的二維結(jié)構(gòu),所以可以使用相對(duì)溫和的壓縮率并實(shí)現(xiàn)非常好的重建

之前的工作依賴于學(xué)習(xí)空間z的任意1D順序來對(duì)其分布進(jìn)行自回歸建模,從而忽略了z的大部分固有結(jié)構(gòu),而壓縮模型更好地保留了x的細(xì)節(jié)

Latent Diffusion Models

原始DM為:

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

通過訓(xùn)練過的由4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔 和D組成的感知壓縮模型,現(xiàn)在可以獲得一個(gè)有效的、低維的潛在空間,其中高頻的、難以察覺的細(xì)節(jié)被抽象掉了 。

與高維像素空間相比,這個(gè)空間更適合基于可能性的生成模型,因?yàn)樗鼈儸F(xiàn)在可以

  • 專注于數(shù)據(jù)的重要語義位

  • 在低維、計(jì)算效率更高的空間中訓(xùn)練。

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔是時(shí)間條件的UNet ,由于正向過程是固定的,所以在訓(xùn)練過程中可以有效地從4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔 中獲得 4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔,并且 p(z) 中的樣本可以通過D一次解碼到圖像空間。

Conditioning Mechanisms

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

使用交叉注意機(jī)制(cross-attention mechanism)增強(qiáng)DMs的底層UNet主干,將其轉(zhuǎn)變?yōu)楦`活的條件圖像生成器,這對(duì)于學(xué)習(xí)各種輸入模式的基于注意的模型是有效的

為了從各種模式(如語言提示)對(duì)y進(jìn)行預(yù)處理,引入了領(lǐng)域特定的編碼器 4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔,將y投影到中間表示 4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔,然后通過實(shí)現(xiàn)注意力 4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔 的交叉注意層映射到UNet的中間層

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔表示實(shí)現(xiàn) 4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔 的UNet的一個(gè)(扁平)中間表示,4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔是可學(xué)習(xí)的投影矩陣

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

論文使用BERT-tokenizer 實(shí)現(xiàn) 4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔 作為轉(zhuǎn)換器來推斷一個(gè)潛在代碼,該代碼通過(多頭)交叉注意映射到UNet 。這種學(xué)習(xí)語言表示和視覺合成的領(lǐng)域特定專家的結(jié)合產(chǎn)生了一個(gè)強(qiáng)大的模型,它很好地概括了復(fù)雜的、用戶定義的文本提示

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

用戶定義的文本提示樣本來自文本到圖像合成模型LDM-8 (KL),該模型是在LAION數(shù)據(jù)庫上訓(xùn)練的。以200個(gè)DDIM步驟生成樣品,η = 1.0。使用無條件引導(dǎo),s = 10.0。

Experiments

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

在OpenImages上訓(xùn)練的完整的自編碼器,在ImageNet-Val上評(píng)估。?表示無需注意的自動(dòng)編碼器

在 VQ正則化潛在空間中訓(xùn)練的 LDMs 有時(shí)可以獲得更好的樣本質(zhì)量,盡管VQ正則化第一階段模型的重構(gòu)能力略低于連續(xù)模型cf

編碼器下采樣因子4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

LDM-{1,2}的小下采樣因素導(dǎo)致訓(xùn)練進(jìn)展緩慢 。

過大的f值導(dǎo)致在相對(duì)較少的訓(xùn)練步驟后保真度停滯 。原因可以歸結(jié)為:

  • 將大部分感知壓縮留給擴(kuò)散模型

  • 太強(qiáng)的第一階段壓縮導(dǎo)致信息丟失,從而限制了可實(shí)現(xiàn)的質(zhì)量

LDM-{4-16}在效率和感知忠實(shí)結(jié)果之間取得了良好的平衡,這體現(xiàn)在2M訓(xùn)練步驟后,基于像素的擴(kuò)散(LDM-1)和LDM-8之間的FID差距為38

Frechet Inception 距離得分(Frechet Inception Distance score,F(xiàn)ID)是計(jì)算真實(shí)圖像和生成圖像的特征向量之間距離的一種度量。

FID 從原始圖像的計(jì)算機(jī)視覺特征的統(tǒng)計(jì)方面的相似度來衡量?jī)山M圖像的相似度,這種視覺特征是使用 Inception v3 圖像分類模型計(jì)算的得到的。分?jǐn)?shù)越低代表兩組圖像越相似,或者說二者的統(tǒng)計(jì)量越相似,F(xiàn)ID 在最佳情況下的得分為 0.0,表示兩組圖像相同。

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

分析了ImageNet數(shù)據(jù)集上2M以上訓(xùn)練步具有不同下采樣因子的類條件 LDMs 的訓(xùn)練。與具有較大下采樣因子(LDM-{4-16})的模型相比,基于像素的LDM-1需要更大的訓(xùn)練時(shí)間。LDM-32中過多的感知壓縮限制了整體樣本質(zhì)量。所有模型都在一臺(tái)NVIDIA A100上訓(xùn)練,計(jì)算預(yù)算相同。100個(gè)DDIM步驟[84],且κ = 0。

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

在CelebA-HQ(左)和ImageNet(右)數(shù)據(jù)集上比較不同壓縮的 LDMs。不同的標(biāo)記表示使用DDIM的{10,20,50,100,200} 采樣步驟,沿著每條線從右向左。虛線顯示了200步的FID分?jǐn)?shù),表明LDM{4-8}的強(qiáng)大性能。對(duì)5000個(gè)樣本進(jìn)行FID評(píng)分。在A100上對(duì)所有模型進(jìn)行500k (CelebA) / 2M (ImageNet)步長(zhǎng)訓(xùn)練。

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

無條件圖像合成的評(píng)價(jià)指標(biāo)。CelebA-HQ,F(xiàn)FHQ,?:N -s指的是DDIM采樣器的N個(gè)采樣步驟。*:在kl正則化潛空間中訓(xùn)練。

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

在256 × 256大小的MS-COCO 數(shù)據(jù)集上評(píng)估文本條件圖像合成:模型有250個(gè)DDIM步,盡管使用了明顯較少的參數(shù),但與最新的擴(kuò)散和自回歸[26]方法相當(dāng)。?/ *:Numbers from

超分辨率

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

遮擋

4、High-Resolution Image Synthesis with Latent Diffusion Models,# 擴(kuò)散模型,人工智能,Powered by 金山文檔

Limitations & Societal Impact&Conclusion

Limitations

雖然與基于像素的方法相比,LDMs 顯著降低了計(jì)算需求,但其順序采樣過程仍然比GANs慢。此外,當(dāng)需要高精度時(shí),LDMs的使用可能是有問題的:盡管在f = 4自動(dòng)編碼模型中圖像質(zhì)量的損失非常小,但它們的重建能力可能成為在像素空間中需要細(xì)粒度精度的任務(wù)的瓶頸。超分辨率模型在這方面已經(jīng)有些局限。

Societal Impact

圖像等媒體的生成模型是一把雙刃劍:一方面,它們使各種創(chuàng)造性應(yīng)用成為可能,特別是像我們這樣降低訓(xùn)練和推理成本的方法,有可能促進(jìn)這種技術(shù)的使用,并使其探索民主化。另一方面,這也意味著創(chuàng)建和傳播被操縱的數(shù)據(jù)或傳播虛假信息和垃圾郵件變得更加容易。特別是,故意操縱圖像(“深度造假”)是這一背景下的一個(gè)常見問題,女性尤其受其影響較大

生成模型還可以顯示他們的訓(xùn)練數(shù)據(jù),當(dāng)數(shù)據(jù)包含敏感或個(gè)人信息并且未經(jīng)明確同意收集時(shí),這是非常值得關(guān)注的。然而,這在多大程度上也適用于圖像的 DMs 還沒有完全理解。

最后,深度學(xué)習(xí)模塊傾向于重現(xiàn)或加劇數(shù)據(jù)中已經(jīng)存在的偏見。雖然擴(kuò)散模型比基于GANs的方法更好地覆蓋了數(shù)據(jù)分布,但結(jié)合了對(duì)抗性訓(xùn)練和基于可能性的目標(biāo)的兩階段方法在多大程度上歪曲了數(shù)據(jù)仍然是一個(gè)重要的研究問題。

Conclusion

提出了潛在擴(kuò)散模型,這是一種簡(jiǎn)單有效的方法,可以在不降低擴(kuò)散模型質(zhì)量的情況下顯著提高去噪擴(kuò)散模型的訓(xùn)練和采樣效率?;谶@一點(diǎn)和交叉注意調(diào)節(jié)機(jī)制,實(shí)驗(yàn)可以在沒有任務(wù)特定架構(gòu)的情況下,在廣泛的條件圖像合成任務(wù)中,與最先進(jìn)的方法相比,展示出良好的結(jié)果。 文章來源地址http://www.zghlxwxcb.cn/news/detail-653033.html

到了這里,關(guān)于4、High-Resolution Image Synthesis with Latent Diffusion Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文簡(jiǎn)介】Stable Diffusion的基礎(chǔ)論文:2112.High-Resolution Image Synthesis with Latent Diffusion Models

    【論文簡(jiǎn)介】Stable Diffusion的基礎(chǔ)論文:2112.High-Resolution Image Synthesis with Latent Diffusion Models

    穩(wěn)定擴(kuò)散生成模型(Stable Diffusion)是一種潛在的文本到圖像擴(kuò)散模型,能夠在給定任何文本輸入的情況下生成照片般逼真的圖像 Stable Diffusion 是基于 latent-diffusion 并與 Stability AI and Runway合作實(shí)現(xiàn)的 paper: High-Resolution Image Synthesis with Latent Diffusion Models 本論文代碼 :https://github.co

    2024年02月08日
    瀏覽(21)
  • 論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

    論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

    論文鏈接 代碼鏈接 背景:Stable Diffusion在合成高分辨率圖片方面表現(xiàn)出色,但是仍然需要提高 本文提出了SD XL,使用了更大的UNet網(wǎng)絡(luò),以及增加了一個(gè)Refinement Model,以進(jìn)一步提高圖片質(zhì)量。 用戶偏好調(diào)查比較 可以看到,在不增加Refiner模型的情況下,SD XL的效果已經(jīng)比SD 1.

    2024年03月11日
    瀏覽(25)
  • High-resolution image reconstruction with latent diffusion models from human brain activity

    High-resolution image reconstruction with latent diffusion models from human brain activity

    論文地址:https://doi.org/10.1101/2022.11.18.517004 項(xiàng)目地址:https://sites.google.com/view/stablediffusion-with-brain/ 從人類大腦活動(dòng)中重建視覺體驗(yàn),為理解大腦如何代表世界,以及解釋計(jì)算機(jī)視覺模型和我們的視覺系統(tǒng)之間的聯(lián)系提供了獨(dú)特的方法。雖然深度生成模型最近被用于這一任務(wù),

    2023年04月25日
    瀏覽(20)
  • CVPR2021 | VQGAN+:Taming Transformers for High-Resolution Image Synthesis

    CVPR2021 | VQGAN+:Taming Transformers for High-Resolution Image Synthesis

    原文標(biāo)題:Taming Transformers for High-Resolution Image Synthesis 主頁: Taming Transformers for High-Resolution Image Synthesis 代碼: https://github.com/CompVis/taming-transformers transformer比CNN缺少了歸納偏置和局部性,但是更具表現(xiàn)力,但對(duì)于長(zhǎng)序列(高分辨率圖像),在計(jì)算上是不可性的。作者就是解決

    2023年04月08日
    瀏覽(27)
  • 論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer應(yīng)用到low-level任務(wù) low-level task 如deblurringdenoisingdehazing等任務(wù)多是基于CNN做的,這樣的局限性有二: 第一是卷積操作的感受野受限,很難建立起全局依賴, 第二就是卷積操作的卷積核初始化是固定的,而attention的設(shè)計(jì)可以通過像素之間的關(guān)系自適

    2024年02月05日
    瀏覽(32)
  • 【圖像修復(fù)】AOT-GAN《Aggregated Contextual Transformations for High-Resolution Image Inpainting》

    【圖像修復(fù)】AOT-GAN《Aggregated Contextual Transformations for High-Resolution Image Inpainting》

    提出用于高分辨率圖像修復(fù)的aggregated contextual transformations(AOT),它允許捕獲信息豐富的遠(yuǎn)程上下文和豐富的感興趣模式,以進(jìn)行上下文推理。 設(shè)計(jì)了一個(gè)新的掩模預(yù)測(cè)任務(wù)來訓(xùn)練用于圖像修復(fù)的判別器,使判別器可以區(qū)分真實(shí)patch和合成patch,從而有助于生成器合成細(xì)粒度紋

    2023年04月08日
    瀏覽(19)
  • 85、Magic3D: High-Resolution Text-to-3D Content Creation

    85、Magic3D: High-Resolution Text-to-3D Content Creation

    主頁:https://research.nvidia.com/labs/dir/magic3d/ DreamFusion 實(shí)現(xiàn)了文本指導(dǎo)2D擴(kuò)散模型生成3D場(chǎng)景,但是其有以下兩個(gè)缺點(diǎn): 對(duì)NeRF的優(yōu)化極其緩慢; 對(duì)NeRF的圖像空間監(jiān)督分辨率低,導(dǎo)致3D模型質(zhì)量低,處理時(shí)間長(zhǎng) 論文為此提出兩階段優(yōu)化框架 使用低分辨率擴(kuò)散先驗(yàn)和稀疏三維哈希網(wǎng)

    2024年02月11日
    瀏覽(58)
  • SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 論文筆記

    SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 論文筆記

    由于大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)或者Attention機(jī)制的超分辨模型大部分都是PSNR主導(dǎo)的,即用PSNR作為損失函數(shù)進(jìn)行訓(xùn)練,這會(huì)導(dǎo)致超分辨圖像過度平滑的問題,也就是超分辨后的圖像高頻信息不能很好保留,并且超分辨的圖像較為固定,對(duì)于超分辨這種不適定問題來說不太合適。

    2024年02月11日
    瀏覽(25)
  • [CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation

    [CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation

    目錄 Abstract Background: DreamFusion High-Resolution 3D Generation Coarse-to-fine Diffusion Priors Scene Models Coarse-to-fine Optimization NeRF optimization Mesh optimization Experiments Controllable 3D Generation Personalized text-to-3D Prompt-based editing through fine-tuning DreamFusion是目前基于文本的3D生成任務(wù)的主流方法,但它有兩

    2024年02月13日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包