国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<rp id="dqk8o"><tbody id="dqk8o"></tbody></rp>

<style id="dqk8o"></style>

【深度學(xué)習(xí)】Collage Diffusion，拼接擴(kuò)散，論文，實(shí)戰(zhàn)

2年前作者：XD742971636分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【深度學(xué)習(xí)】Collage Diffusion，拼接擴(kuò)散，論文，實(shí)戰(zhàn)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文：https://arxiv.org/abs/2303.00262

代碼：https://github.com/VSAnimator/collage-diffusion

Abstract

基于文本條件的擴(kuò)散模型能夠生成高質(zhì)量、多樣化的圖像。然而，文本通常對(duì)于所需的目標(biāo)圖像來說是一個(gè)模糊的說明，因此需要額外用戶友好的控制來進(jìn)行基于擴(kuò)散的圖像生成。在本文中，我們關(guān)注對(duì)于具有多個(gè)物體的場景，實(shí)現(xiàn)對(duì)圖像輸出的精確控制。用戶通過定義一個(gè)拼貼來控制圖像生成：一個(gè)文本提示與有序的圖層序列相配對(duì)，其中每個(gè)圖層被定義為一個(gè)RGBA圖像和一個(gè)相應(yīng)的文本提示。我們引入了拼貼擴(kuò)散，一種拼貼條件的擴(kuò)散算法，使用戶能夠同時(shí)控制場景中物體的空間排列和視覺屬性，并且還能夠編輯生成圖像的個(gè)別組件。為了確保輸入文本的不同部分對(duì)應(yīng)于輸入拼貼圖層中指定的不同位置，拼貼擴(kuò)散通過使用圖層的阿爾法遮罩修改了文本-圖像交叉注意力。為了保持文本中未指定的單個(gè)拼貼圖層的特性，拼貼擴(kuò)散為每個(gè)圖層學(xué)習(xí)了專門的文本表示。

拼貼輸入還能夠?qū)崿F(xiàn)基于圖層的獨(dú)特控制，使用戶可以對(duì)最終輸出進(jìn)行精細(xì)的控制：用戶可以逐層控制圖像的協(xié)調(diào)，還可以在保持其他物體固定的同時(shí)編輯生成圖像中的單個(gè)物體。拼貼條件的圖像生成需要對(duì)輸入的拼貼進(jìn)行協(xié)調(diào)，使物體能夠相互配合。關(guān)鍵挑戰(zhàn)在于在協(xié)調(diào)過程中最小化更改輸入拼貼中物體的位置和關(guān)鍵視覺屬性，同時(shí)允許拼貼的其他屬性在協(xié)調(diào)過程中發(fā)生變化。通過充分利用圖層輸入中的豐富信息，拼貼擴(kuò)散生成的圖像在全局上更好地保持所需的物體位置和視覺特征，優(yōu)于先前的方法。

【深度學(xué)習(xí)】Collage Diffusion，拼接擴(kuò)散，論文，實(shí)戰(zhàn),深度學(xué)習(xí)機(jī)器學(xué)習(xí),深度學(xué)習(xí),人工智能

圖1：拼貼擴(kuò)散從包含多個(gè)物體的復(fù)雜構(gòu)圖中創(chuàng)建全局協(xié)調(diào)的圖像。拼貼被定義為一系列圖層，其中每個(gè)圖層是一個(gè)圖像-文本對(duì)。以拼貼作為輸入，拼貼擴(kuò)散生成一個(gè)輸出圖像，該圖像在全局上協(xié)調(diào)一致，同時(shí)保留每個(gè)輸入圖層中物體的位置和關(guān)鍵視覺特征。

Introduction

基于擴(kuò)散的文本條件圖像生成[6, 9, 17, 18, 21, 22]以其看似神奇的能力，從簡單的文本提示中生成逼真的圖像，引起了廣泛的興趣。然而，文本對(duì)于目標(biāo)圖像來說是一個(gè)高度模糊的說明，迫使使用流行的文本條件工具的用戶花費(fèi)大量時(shí)間來調(diào)整提示字符串以獲得所需的輸出。對(duì)于基于擴(kuò)散的圖像生成，提供更精確的控制需求迫切，最近的大量工作提供了新的方式來指定所需的輸出：通過草圖控制場景構(gòu)圖[3]，通過填充用戶提供的分割掩模[2, 23]，提供用作生成目標(biāo)的參考圖像[14]等。同樣，精確規(guī)定場景中對(duì)象的外觀，例如“這個(gè)參考照片中的壽司”，而不僅僅是“壽司”，已經(jīng)導(dǎo)致了基于示例圖像進(jìn)行生成的方法[7, 11, 19]。

在本文中，我們旨在在創(chuàng)建具有特定所需空間排列的物體集合的場景時(shí)，為用戶提供對(duì)圖像輸出的精確控制。例如，在圖1中，“一個(gè)裝有米飯、毛豆、姜和壽司的便當(dāng)盒”既沒有描述哪些物品放在哪個(gè)便當(dāng)盒中，也沒有暗示每個(gè)物品的外觀。我們的方法很簡單：不再依賴于模糊的文本提示，或者強(qiáng)迫用戶草繪粗糙的場景形式，而是回歸到一種傳統(tǒng)且易于創(chuàng)建的表達(dá)藝術(shù)意圖的方式：制作圖像拼貼，以同時(shí)表達(dá)所需的場景布局和場景中物體的外觀。

制作拼貼在概念上很簡單。用戶只需獲取所需場景物體的參考圖像（例如通過圖像搜索或現(xiàn)有生成模型的輸出），從這些源圖像中分割出物體，使用傳統(tǒng)的基于圖層的圖像編輯界面將它們排列在畫布上，并將每個(gè)物體與一個(gè)文本提示配對(duì)。在給定了這個(gè)拼貼之后，我們引入了拼貼擴(kuò)散，一種拼貼條件的擴(kuò)散算法，生成新穎的、高質(zhì)量的圖像，這些圖像既在空間構(gòu)圖和個(gè)體物體外觀方面忠實(shí)于輸入拼貼，又在全局協(xié)調(diào)性和視覺一致性方面展現(xiàn)出代表“合理”現(xiàn)實(shí)世界圖像的特征。在協(xié)調(diào)和忠實(shí)之間存在固有的權(quán)衡：協(xié)調(diào)涉及更改輸入拼貼圖層的屬性，以便在一致的圖像中使物體“配合在一起”，而忠實(shí)則涉及保留輸入拼貼圖層的屬性。拼貼擴(kuò)散中的關(guān)鍵挑戰(zhàn)在于在協(xié)調(diào)輸入拼貼的同時(shí)限制某些物體屬性的變化（空間位置、視覺特征），同時(shí)允許其他物體屬性的變化（方向、光照、透視、遮擋）。我們通過利用拼貼輸入中存在的豐富信息來解決這一挑戰(zhàn)，借鑒了以前基于擴(kuò)散的圖像協(xié)調(diào)、空間控制和外觀控制的技術(shù)，擴(kuò)展了每種方法以適應(yīng)拼貼輸入的性能，特別關(guān)注逐層控制的機(jī)制。

具體而言，我們做出了以下貢獻(xiàn)：

? 我們引入了拼貼條件的擴(kuò)散，其中生成的條件是一組阿爾法合成的RGBA圖層，以及描述每個(gè)圖層內(nèi)容的文本提示。用戶可以在幾分鐘內(nèi)創(chuàng)建拼貼，拼貼擴(kuò)散生成高質(zhì)量的圖像，這些圖像既尊重拼貼所描述的場景構(gòu)圖，又尊重拼貼中所包含的對(duì)象的外觀，即使拼貼由許多圖層組成，描述了具有許多對(duì)象的復(fù)雜場景。

? 我們將先前的基于擴(kuò)散的控制機(jī)制[3, 7]擴(kuò)展到拼貼條件的擴(kuò)散背景中，以確保輸出圖像遵循拼貼所描述的構(gòu)圖（交叉注意力），并保留拼貼每個(gè)圖層中物體的顯著視覺特征（文本反轉(zhuǎn)）。

? 我們說明了拼貼輸入如何實(shí)現(xiàn)逐層控制機(jī)制，使用戶可以逐層控制協(xié)調(diào)-忠實(shí)權(quán)衡，并使用戶能夠迭代地優(yōu)化拼貼擴(kuò)散生成的圖像。

Problem Definition and Goals

我們的目標(biāo)是生成高質(zhì)量的、全局協(xié)調(diào)的圖像，以滿足用戶所需的場景構(gòu)圖，無論是在空間保真度方面（即保留所需物體的位置和大?。?，還是在外觀保真度方面（即保留物體的視覺特征）。在本文中，我們提出用戶可以通過拼貼來描述他們的意圖。我們首先定義了一個(gè)拼貼，然后介紹了基于拼貼的場景構(gòu)圖生成圖像的目標(biāo)。

如圖3所示，我們將拼貼C定義如下：1. 完整拼貼文本字符串c，描述要生成的整個(gè)圖像（例如“一個(gè)裝有米飯、毛豆、姜和壽司的便當(dāng)盒”）2. 由n個(gè)拼貼“圖層”l1、l2、…、ln組成的序列，從后到前排序，每個(gè)li具有以下屬性：(a) 一個(gè)RGBA圖像xi（壽司的Alpha掩膜輸入圖像），帶有alpha圖層xαi (b) 描述該圖層的文本字符串ci，它是c的一個(gè)子字符串（例如“壽司”）給定拼貼C作為輸入，我們尋求生成具有以下屬性的輸出圖像x?c： 1. 全局協(xié)調(diào)：x?c是一個(gè)全局協(xié)調(diào)的圖像：x?c具有真實(shí)圖像的一致性。例如，圖1中的輸出圖像具有場景物體之間一致的透視、光照和遮擋。

空間保真度：x?c尊重拼貼中指定的場景構(gòu)圖。對(duì)于所有圖層li，由圖層文本ci描述的物體在x?c的適當(dāng)區(qū)域生成。例如，在圖1左側(cè)，“毛豆”、“姜”等都在與輸入拼貼中的相同區(qū)域的便當(dāng)盒內(nèi)生成。

外觀保真度：對(duì)于所有圖層li，除了與圖層文本ci匹配之外，x?c中描繪圖層內(nèi)容的區(qū)域與xi共享視覺特征。在圖1中，注意輸出圖像中的“姜”保持切片壽司姜的外觀（而不是整個(gè)姜），“米飯”呈米飯層相應(yīng)區(qū)域的類似乳白色顏色，而“壽司”有鮭魚等。

為了實(shí)現(xiàn)真實(shí)圖像的一致性，我們借鑒了以前基于擴(kuò)散的技術(shù)，以限制生成圖像的空間布局和單個(gè)物體的外觀，允許圖像的所有其他屬性在協(xié)調(diào)過程中變化。

論文其他內(nèi)容

略

實(shí)戰(zhàn)

https://github.com/xddun/collage-diffusion-main

程序本身會(huì)檢測是否有l(wèi)ora反推的Textual Inversion Embedding文件，沒有的話這里ftc就是None。我這里手動(dòng)全部給了None，但失去這個(gè)，這個(gè)拼接就不太像話了，效果不太好。

【深度學(xué)習(xí)】Collage Diffusion，拼接擴(kuò)散，論文，實(shí)戰(zhàn),深度學(xué)習(xí)機(jī)器學(xué)習(xí),深度學(xué)習(xí),人工智能

【深度學(xué)習(xí)】Collage Diffusion，拼接擴(kuò)散，論文，實(shí)戰(zhàn),深度學(xué)習(xí)機(jī)器學(xué)習(xí),深度學(xué)習(xí),人工智能文章來源地址http://www.zghlxwxcb.cn/news/detail-635245.html

到了這里，關(guān)于【深度學(xué)習(xí)】Collage Diffusion，拼接擴(kuò)散，論文，實(shí)戰(zhàn)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

深度學(xué)習(xí)中的圖像融合:圖像融合論文閱讀與實(shí)戰(zhàn)
個(gè)人博客 :Sekyoro的博客小屋個(gè)人網(wǎng)站 :Proanimer的個(gè)人網(wǎng)站介紹圖像融合概念，回顧sota模型，其中包括數(shù)字?jǐn)z像圖像融合，多模態(tài)圖像融合，接著評(píng)估一些代表方法介紹一些常見應(yīng)用，比如RGBT目標(biāo)跟蹤，醫(yī)學(xué)圖像檢查，遙感監(jiān)測動(dòng)機(jī)：由于硬件設(shè)備的理論和技術(shù)限制，單一
2024年02月02日
瀏覽(30)
【深度學(xué)習(xí)】AIGC ，ControlNet 論文，原理，訓(xùn)練，部署，實(shí)戰(zhàn)，教程（三）
第一篇：https://qq742971636.blog.csdn.net/article/details/131531168 目前 ControlNet 1.1 還在建設(shè)，本文這里使用源碼 https://github.com/lllyasviel/ControlNet/tree/main。此外還需要下載模型文件：https://huggingface.co/lllyasviel/ControlNet 發(fā)布在huggingface了，如何下載huggingface的模型文件，使用指令：詳細(xì)lo
2024年02月12日
瀏覽(44)
【深度學(xué)習(xí)】AIGC ，ControlNet 論文，原理，訓(xùn)練，部署，實(shí)戰(zhàn)，教程（一）
論文：https://arxiv.53yu.com/pdf/2302.05543 代碼：https://github.com/lllyasviel/ControlNet 得分幾個(gè)博客完成這個(gè)事情的記錄了，此篇是第一篇，摘錄了一些論文內(nèi)容。ControlNet 的原理極為樸實(shí)無華（對(duì)每個(gè)block添加zero conv連接），但卻非常有效地減少了訓(xùn)練資源和訓(xùn)練時(shí)間，針對(duì)不同領(lǐng)域任
2024年02月15日
瀏覽(25)
[學(xué)習(xí)筆記] 擴(kuò)散模型 Diffusion
機(jī)器學(xué)習(xí)是人工智能的一種，它是一種通過利用數(shù)據(jù)，訓(xùn)練出模型，然后使用模型預(yù)測的一種方法。機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，這是根據(jù)數(shù)據(jù)訓(xùn)練方式分類的，通俗來說，監(jiān)督學(xué)習(xí)是基于已知結(jié)果的數(shù)據(jù)集進(jìn)行訓(xùn)練，而無監(jiān)督學(xué)習(xí)的數(shù)據(jù)集沒有明確的已
2024年02月12日
瀏覽(19)
云計(jì)算實(shí)戰(zhàn)應(yīng)用案例精講-【深度學(xué)習(xí)】多模態(tài)融合（論文篇三）
目錄面向視覺問答的多模態(tài)融合研究深度學(xué)習(xí)與視覺問答技術(shù) 2.1 深度神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)
2024年02月07日
瀏覽(23)
云計(jì)算實(shí)戰(zhàn)應(yīng)用案例精講-【深度學(xué)習(xí)】多模態(tài)融合（論文篇一）
目錄基于多模態(tài)信息融合的社交媒體謠言檢測理論基礎(chǔ)及相關(guān)技術(shù) 2.1 特征學(xué)習(xí)
2024年02月05日
瀏覽(50)
High-Resolution Image Synthesis with Latent Diffusion Models 穩(wěn)定擴(kuò)散模型論文筆記
一、研究現(xiàn)狀 ? ? ? ?早期圖像生成方法主要是變分自動(dòng)編碼器（Variational Autoencoders, VAEs)，該算法利用編碼器和解碼器以及變分推斷的方法學(xué)習(xí)隱空間到真實(shí)圖像空間的映射從而完成圖像的生成。其優(yōu)勢(shì)是特征空間可遷移并且訓(xùn)練較為穩(wěn)定，但是不容易進(jìn)行模型評(píng)估，當(dāng)輸入
2024年02月20日
瀏覽(26)
Diffusion擴(kuò)散模型學(xué)習(xí)2——Stable Diffusion結(jié)構(gòu)解析-以文本生成圖像為例
用了很久的Stable Diffusion，但從來沒有好好解析過它內(nèi)部的結(jié)構(gòu)，寫個(gè)博客記錄一下，嘿嘿。 https://github.com/bubbliiiing/stable-diffusion 喜歡的可以點(diǎn)個(gè)star噢。 Stable Diffusion是比較新的一個(gè)擴(kuò)散模型，翻譯過來是穩(wěn)定擴(kuò)散，雖然名字叫穩(wěn)定擴(kuò)散，但實(shí)際上換個(gè)seed生成的結(jié)果就完全不
2024年02月08日
瀏覽(32)
Diffusion擴(kuò)散模型學(xué)習(xí)4——Stable Diffusion原理解析-inpaint修復(fù)圖片為例
Inpaint是Stable Diffusion中的常用方法，一起簡單學(xué)習(xí)一下。 https://github.com/bubbliiiing/stable-diffusion 喜歡的可以點(diǎn)個(gè)star噢。 txt2img的原理如博文 Diffusion擴(kuò)散模型學(xué)習(xí)2——Stable Diffusion結(jié)構(gòu)解析-以文本生成圖像（文生圖，txt2img）為例 img2img的原理如博文 Diffusion擴(kuò)散模型學(xué)習(xí)3——Sta
2024年02月14日
瀏覽(24)
目標(biāo)檢測YOLO實(shí)戰(zhàn)應(yīng)用案例100講-基于深度學(xué)習(xí)的航拍圖像YOLOv5目標(biāo)檢測(論文篇)（續(xù)）
目錄基礎(chǔ)理論及相關(guān)技術(shù)? 2.1 深度學(xué)習(xí)基礎(chǔ)理論?
2024年04月16日
瀏覽(27)

<abbr id="8h0yy"><track id="8h0yy"><dfn id="8h0yy"></dfn></track></abbr>

<style id="8h0yy"></style>

<style id="8h0yy"><strike id="8h0yy"></strike></style>