国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【深度學(xué)習(xí)】Collage Diffusion,拼接擴(kuò)散,論文,實(shí)戰(zhàn)

這篇具有很好參考價(jià)值的文章主要介紹了【深度學(xué)習(xí)】Collage Diffusion,拼接擴(kuò)散,論文,實(shí)戰(zhàn)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文:https://arxiv.org/abs/2303.00262

代碼:https://github.com/VSAnimator/collage-diffusion

Abstract

基于文本條件的擴(kuò)散模型能夠生成高質(zhì)量、多樣化的圖像。然而,文本通常對(duì)于所需的目標(biāo)圖像來說是一個(gè)模糊的說明,因此需要額外用戶友好的控制來進(jìn)行基于擴(kuò)散的圖像生成。在本文中,我們關(guān)注對(duì)于具有多個(gè)物體的場景,實(shí)現(xiàn)對(duì)圖像輸出的精確控制。用戶通過定義一個(gè)拼貼來控制圖像生成:一個(gè)文本提示與有序的圖層序列相配對(duì),其中每個(gè)圖層被定義為一個(gè)RGBA圖像和一個(gè)相應(yīng)的文本提示。我們引入了拼貼擴(kuò)散,一種拼貼條件的擴(kuò)散算法,使用戶能夠同時(shí)控制場景中物體的空間排列和視覺屬性,并且還能夠編輯生成圖像的個(gè)別組件。為了確保輸入文本的不同部分對(duì)應(yīng)于輸入拼貼圖層中指定的不同位置,拼貼擴(kuò)散通過使用圖層的阿爾法遮罩修改了文本-圖像交叉注意力。為了保持文本中未指定的單個(gè)拼貼圖層的特性,拼貼擴(kuò)散為每個(gè)圖層學(xué)習(xí)了專門的文本表示。

拼貼輸入還能夠?qū)崿F(xiàn)基于圖層的獨(dú)特控制,使用戶可以對(duì)最終輸出進(jìn)行精細(xì)的控制:用戶可以逐層控制圖像的協(xié)調(diào),還可以在保持其他物體固定的同時(shí)編輯生成圖像中的單個(gè)物體。拼貼條件的圖像生成需要對(duì)輸入的拼貼進(jìn)行協(xié)調(diào),使物體能夠相互配合。關(guān)鍵挑戰(zhàn)在于在協(xié)調(diào)過程中最小化更改輸入拼貼中物體的位置和關(guān)鍵視覺屬性,同時(shí)允許拼貼的其他屬性在協(xié)調(diào)過程中發(fā)生變化。通過充分利用圖層輸入中的豐富信息,拼貼擴(kuò)散生成的圖像在全局上更好地保持所需的物體位置和視覺特征,優(yōu)于先前的方法。

【深度學(xué)習(xí)】Collage Diffusion,拼接擴(kuò)散,論文,實(shí)戰(zhàn),深度學(xué)習(xí)機(jī)器學(xué)習(xí),深度學(xué)習(xí),人工智能

圖1:拼貼擴(kuò)散從包含多個(gè)物體的復(fù)雜構(gòu)圖中創(chuàng)建全局協(xié)調(diào)的圖像。拼貼被定義為一系列圖層,其中每個(gè)圖層是一個(gè)圖像-文本對(duì)。以拼貼作為輸入,拼貼擴(kuò)散生成一個(gè)輸出圖像,該圖像在全局上協(xié)調(diào)一致,同時(shí)保留每個(gè)輸入圖層中物體的位置和關(guān)鍵視覺特征。

Introduction

基于擴(kuò)散的文本條件圖像生成[6, 9, 17, 18, 21, 22]以其看似神奇的能力,從簡單的文本提示中生成逼真的圖像,引起了廣泛的興趣。然而,文本對(duì)于目標(biāo)圖像來說是一個(gè)高度模糊的說明,迫使使用流行的文本條件工具的用戶花費(fèi)大量時(shí)間來調(diào)整提示字符串以獲得所需的輸出。對(duì)于基于擴(kuò)散的圖像生成,提供更精確的控制需求迫切,最近的大量工作提供了新的方式來指定所需的輸出:通過草圖控制場景構(gòu)圖[3],通過填充用戶提供的分割掩模[2, 23],提供用作生成目標(biāo)的參考圖像[14]等。同樣,精確規(guī)定場景中對(duì)象的外觀,例如“這個(gè)參考照片中的壽司”,而不僅僅是“壽司”,已經(jīng)導(dǎo)致了基于示例圖像進(jìn)行生成的方法[7, 11, 19]。

在本文中,我們旨在在創(chuàng)建具有特定所需空間排列的物體集合的場景時(shí),為用戶提供對(duì)圖像輸出的精確控制。例如,在圖1中,“一個(gè)裝有米飯、毛豆、姜和壽司的便當(dāng)盒”既沒有描述哪些物品放在哪個(gè)便當(dāng)盒中,也沒有暗示每個(gè)物品的外觀。我們的方法很簡單:不再依賴于模糊的文本提示,或者強(qiáng)迫用戶草繪粗糙的場景形式,而是回歸到一種傳統(tǒng)且易于創(chuàng)建的表達(dá)藝術(shù)意圖的方式:制作圖像拼貼,以同時(shí)表達(dá)所需的場景布局和場景中物體的外觀。

制作拼貼在概念上很簡單。用戶只需獲取所需場景物體的參考圖像(例如通過圖像搜索或現(xiàn)有生成模型的輸出),從這些源圖像中分割出物體,使用傳統(tǒng)的基于圖層的圖像編輯界面將它們排列在畫布上,并將每個(gè)物體與一個(gè)文本提示配對(duì)。在給定了這個(gè)拼貼之后,我們引入了拼貼擴(kuò)散,一種拼貼條件的擴(kuò)散算法,生成新穎的、高質(zhì)量的圖像,這些圖像既在空間構(gòu)圖和個(gè)體物體外觀方面忠實(shí)于輸入拼貼,又在全局協(xié)調(diào)性和視覺一致性方面展現(xiàn)出代表“合理”現(xiàn)實(shí)世界圖像的特征。在協(xié)調(diào)和忠實(shí)之間存在固有的權(quán)衡:協(xié)調(diào)涉及更改輸入拼貼圖層的屬性,以便在一致的圖像中使物體“配合在一起”,而忠實(shí)則涉及保留輸入拼貼圖層的屬性。拼貼擴(kuò)散中的關(guān)鍵挑戰(zhàn)在于在協(xié)調(diào)輸入拼貼的同時(shí)限制某些物體屬性的變化(空間位置、視覺特征),同時(shí)允許其他物體屬性的變化(方向、光照、透視、遮擋)。我們通過利用拼貼輸入中存在的豐富信息來解決這一挑戰(zhàn),借鑒了以前基于擴(kuò)散的圖像協(xié)調(diào)、空間控制和外觀控制的技術(shù),擴(kuò)展了每種方法以適應(yīng)拼貼輸入的性能,特別關(guān)注逐層控制的機(jī)制。

具體而言,我們做出了以下貢獻(xiàn):

? 我們引入了拼貼條件的擴(kuò)散,其中生成的條件是一組阿爾法合成的RGBA圖層,以及描述每個(gè)圖層內(nèi)容的文本提示。用戶可以在幾分鐘內(nèi)創(chuàng)建拼貼,拼貼擴(kuò)散生成高質(zhì)量的圖像,這些圖像既尊重拼貼所描述的場景構(gòu)圖,又尊重拼貼中所包含的對(duì)象的外觀,即使拼貼由許多圖層組成,描述了具有許多對(duì)象的復(fù)雜場景。

? 我們將先前的基于擴(kuò)散的控制機(jī)制[3, 7]擴(kuò)展到拼貼條件的擴(kuò)散背景中,以確保輸出圖像遵循拼貼所描述的構(gòu)圖(交叉注意力),并保留拼貼每個(gè)圖層中物體的顯著視覺特征(文本反轉(zhuǎn))。

? 我們說明了拼貼輸入如何實(shí)現(xiàn)逐層控制機(jī)制,使用戶可以逐層控制協(xié)調(diào)-忠實(shí)權(quán)衡,并使用戶能夠迭代地優(yōu)化拼貼擴(kuò)散生成的圖像。

Problem Definition and Goals

我們的目標(biāo)是生成高質(zhì)量的、全局協(xié)調(diào)的圖像,以滿足用戶所需的場景構(gòu)圖,無論是在空間保真度方面(即保留所需物體的位置和大?。?,還是在外觀保真度方面(即保留物體的視覺特征)。在本文中,我們提出用戶可以通過拼貼來描述他們的意圖。我們首先定義了一個(gè)拼貼,然后介紹了基于拼貼的場景構(gòu)圖生成圖像的目標(biāo)。

如圖3所示,我們將拼貼C定義如下:1. 完整拼貼文本字符串c,描述要生成的整個(gè)圖像(例如“一個(gè)裝有米飯、毛豆、姜和壽司的便當(dāng)盒”)2. 由n個(gè)拼貼“圖層”l1、l2、…、ln組成的序列,從后到前排序,每個(gè)li具有以下屬性:(a) 一個(gè)RGBA圖像xi(壽司的Alpha掩膜輸入圖像),帶有alpha圖層xαi (b) 描述該圖層的文本字符串ci,它是c的一個(gè)子字符串(例如“壽司”) 給定拼貼C作為輸入,我們尋求生成具有以下屬性的輸出圖像x?c: 1. 全局協(xié)調(diào):x?c是一個(gè)全局協(xié)調(diào)的圖像:x?c具有真實(shí)圖像的一致性。例如,圖1中的輸出圖像具有場景物體之間一致的透視、光照和遮擋。

空間保真度:x?c尊重拼貼中指定的場景構(gòu)圖。對(duì)于所有圖層li,由圖層文本ci描述的物體在x?c的適當(dāng)區(qū)域生成。例如,在圖1左側(cè),“毛豆”、“姜”等都在與輸入拼貼中的相同區(qū)域的便當(dāng)盒內(nèi)生成。

外觀保真度:對(duì)于所有圖層li,除了與圖層文本ci匹配之外,x?c中描繪圖層內(nèi)容的區(qū)域與xi共享視覺特征。在圖1中,注意輸出圖像中的“姜”保持切片壽司姜的外觀(而不是整個(gè)姜),“米飯”呈米飯層相應(yīng)區(qū)域的類似乳白色顏色,而“壽司”有鮭魚等。

為了實(shí)現(xiàn)真實(shí)圖像的一致性,我們借鑒了以前基于擴(kuò)散的技術(shù),以限制生成圖像的空間布局和單個(gè)物體的外觀,允許圖像的所有其他屬性在協(xié)調(diào)過程中變化。

論文其他內(nèi)容

實(shí)戰(zhàn)

https://github.com/xddun/collage-diffusion-main

程序本身會(huì)檢測是否有l(wèi)ora反推的Textual Inversion Embedding文件,沒有的話這里ftc就是None。我這里手動(dòng)全部給了None,但失去這個(gè),這個(gè)拼接就不太像話了,效果不太好。

【深度學(xué)習(xí)】Collage Diffusion,拼接擴(kuò)散,論文,實(shí)戰(zhàn),深度學(xué)習(xí)機(jī)器學(xué)習(xí),深度學(xué)習(xí),人工智能

【深度學(xué)習(xí)】Collage Diffusion,拼接擴(kuò)散,論文,實(shí)戰(zhàn),深度學(xué)習(xí)機(jī)器學(xué)習(xí),深度學(xué)習(xí),人工智能文章來源地址http://www.zghlxwxcb.cn/news/detail-635245.html

到了這里,關(guān)于【深度學(xué)習(xí)】Collage Diffusion,拼接擴(kuò)散,論文,實(shí)戰(zhàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包