国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<rp id="m8hve"></rp><style id="m8hve"></style>

<form id="m8hve"></form>

^{<form id="m8hve"></form>}

IP-Adapter：用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器

2年前作者：丁希希哇分類：Toy博客閱讀(32)違法舉報(bào)

這篇具有很好參考價值的文章主要介紹了IP-Adapter：用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、IP-Adapter簡介

IP-Adapter是圖像提示適配器，用于預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型，以實(shí)現(xiàn)使用圖像提示生成圖像的能力；
IP-Adapter的關(guān)鍵設(shè)計(jì)是解耦的交叉注意力機(jī)制，將交叉注意力層分離為文本特征和圖像特征，實(shí)現(xiàn)了圖像提示的能力。

二、IP-Adapter與img2img的區(qū)分

（一）結(jié)構(gòu)上的區(qū)別

img2img使用unet架構(gòu)，包括一個編碼器（下采樣）和一個解碼器（上采樣）
IP-Adapter包括一個圖像編碼器和包含解耦交叉注意力機(jī)制的適配器

（二）流程上的區(qū)別

img2img通過編碼/解碼器，需要通過一系列上采樣、下采樣
IP-Adapter通過圖像編碼器，文本提示和圖像特征通過適配模塊與預(yù)訓(xùn)練的文本到圖像模型進(jìn)行交互

（三）輸出上的區(qū)別

現(xiàn)在給出prompt要求在圖1一個男人的基礎(chǔ)上加上參考圖2：
IP-Adapter：用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器,AIGC閱讀學(xué)習(xí),計(jì)算機(jī)視覺,AIGC,算法,人工智能

img2img是輸出一個轉(zhuǎn)換后的圖像：相當(dāng)于直接蓋在參考圖上開始臨摹，畫出一些強(qiáng)行混合不知所謂的圖來。
IP-Adapter是根據(jù)文本和圖像提示生成的圖片：IP-Adapter則不是臨摹，而是真正的自己去畫，將參考圖與原圖榮威一體

（四）原理上的區(qū)別

stable diffustion是擴(kuò)散模型，它的核心作用機(jī)制就是對噪音的處理，prompt可以看做是我們的目標(biāo)，通過不斷的去噪過程，向著目標(biāo)越來越靠近，最終生成出預(yù)期的圖片。
IP-Adapter將圖片單獨(dú)提出作為一種提示特征，相比SD模型把圖像特征和文本特征抽取后拼接在一起的方法，IP-Adapter通過帶有解耦交叉注意力的適配模塊，將文本特征的Cross-Attention 和圖像特征的Cross-Attention區(qū)分開來，在Unet的模塊中新增了一路Cross-Attention模塊，用于引入圖像特征。
img2img是直接將參考圖傳入unet，去替換了原始的隨機(jī)噪音，這樣所有的生成結(jié)果都是建立在它的基礎(chǔ)上，于是有了前面人和老虎混雜的現(xiàn)象就比較好理解了。

三、IP-Adapter的網(wǎng)絡(luò)架構(gòu)

當(dāng)前adapter很難達(dá)到微調(diào)圖像提示模型或從頭訓(xùn)練的模型性能，主要原因是圖像特征無法有效的嵌入預(yù)訓(xùn)練模型中。大多數(shù)方法只是將拼接的特征輸入到凍結(jié)的cross-attention中，阻止了擴(kuò)散模型捕捉圖像圖像提示的細(xì)粒度特征。
為了解決這個問題，我們提出了一種解耦交叉注意力策略，即通過新添加的交叉注意力層嵌入圖像特征。提議的IP-adapter包含兩個部分：
- 圖像編碼器用于從圖像提示中提取圖像特征；
- 具有解耦的cross-attention的適配模塊，用于將圖像特征嵌入預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型中。

（一）圖像編碼器

與大多數(shù)方法一樣，我們使用預(yù)訓(xùn)練好的 CLIP 圖像編碼器模型從圖像提示中提取圖像特征；
我們利用 CLIP 圖像編碼器中的全局圖像嵌入，它與圖像字幕非常吻合，能代表圖像的豐富內(nèi)容和風(fēng)格；
在訓(xùn)練階段，CLIP 圖像編碼器被凍結(jié)。

（二）解耦交叉注意力

圖像特征由具有解耦交叉注意力的適配模塊集成到預(yù)訓(xùn)練的UNet模型中。
IP-Adapter：用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器,AIGC閱讀學(xué)習(xí),計(jì)算機(jī)視覺,AIGC,算法,人工智能把文本特征和圖像特征分開cross-attention再相加，之前的想法大多數(shù)先將圖像特征和文本特征拼接后再cross。

（三）訓(xùn)練和推理

在訓(xùn)練過程中，我們只對 IP 適配器進(jìn)行優(yōu)化，同時保持預(yù)訓(xùn)練擴(kuò)散模型的參數(shù)不變，訓(xùn)練目標(biāo)與原始 SD 相同：
我們還在訓(xùn)練階段隨機(jī)放棄圖像條件，以便在推理階段實(shí)現(xiàn)無分類器指導(dǎo)：
如果丟棄了圖像條件，可以將clip圖像embedding歸0。由于文本cross-attention和圖像cross-attention是分離的，在推理階段還可以調(diào)整圖像條件的權(quán)重：

參考：
圖像作為prompt#IP-Adapter
新一代“墊圖”神器，IP-Adapter的完整應(yīng)用解讀
IP-Adapter:text compatible image prompt adapter for text-to-image diffusion models
IP-Adapter：用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器文章來源地址http://www.zghlxwxcb.cn/news/detail-789802.html

到了這里，關(guān)于IP-Adapter：用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Tune-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning
Project：https://tuneavideo.github.io 原文鏈接：Tnue-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning （by 小樣本視覺與智能前沿）目錄為了復(fù)制文本到圖像(T2I)生成的成功，最近的工作使用大規(guī)模視頻數(shù)據(jù)集來訓(xùn)練文本到視頻(T2V)生成器。盡管他們的結(jié)果很有希望，但這種
2024年01月15日
瀏覽(52)
【轉(zhuǎn)繪】IP-Adapter 畫風(fēng)重繪
?其他方法參考：【商業(yè)案例】tile 轉(zhuǎn)繪-CSDN博客模型下載地址： https://huggingface.co/lllyasviel/sd_control_collection/tree/7cf256327b341fedc82e00b0d7fb5481ad693210 https://huggingface.co/lllyasviel/sd_control_collection/tree/7cf256327b341fedc82e00b0d7fb5481ad693210 模型存放目錄： sd-webui-akimodelsControlNet 單獨(dú)使用IP-A
2024年02月01日
瀏覽(27)
diffusion model(十五) : IP-Adapter技術(shù)小結(jié)
info paper https://arxiv.org/pdf/2308.06721.pdf code https://github.com/tencent-ailab/IP-Adapter org. Tencent AI Lab 個人博客地址 http://myhz0606.com/article/ip_adapter 為了對文生圖 diffusion model 進(jìn)行特定概念的定制，常用 LoRA [1]、 textual inversion [2]等inference before fine-tune的方法。此類方法有一個弊端：每一個新
2024年04月09日
瀏覽(20)
webUI下使用IP-adapter的簡要說明
IP-adapter是一個最近比較火的模型，但是在webUI下使用，經(jīng)常會報(bào)各種各樣的錯誤，這里簡單講一下模型匹配問題的處理方式，希望對你有幫助。錯誤案例說明：比如說選擇了sdxl的模型，并且選擇了ip-adapter_clip_sdxl_plus_vith預(yù)處理器后，模型選擇ip-adapter_xl [4209e9f7]，可能會遇到
2024年04月12日
瀏覽(28)
新一代“墊圖”神器，IP-Adapter的完整應(yīng)用解讀
導(dǎo)讀不用訓(xùn)練lora，一張圖就能實(shí)現(xiàn)風(fēng)格遷移，還支持多圖多特征提取，同時強(qiáng)大的拓展能力還可接入動態(tài)prompt矩陣、controlnet等等，這就是IP-Adapter，一種全新的“墊圖”方式，讓你的AIGC之旅更加高效輕松。都是“墊圖”，誰能還原你心中的圖 “墊圖”這個概念大家肯定都不
2024年02月20日
瀏覽(19)
Stable Diffusion使用ControlNet:IP-Adapter實(shí)現(xiàn)圖片風(fēng)格遷移
IP-Adapter 全稱是 Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models（文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器），是騰訊研究院出品的一個新的ControlNet模型，旨在使預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型能夠生成具有圖像提示的圖像。 IP-Adapter是一種有效的輕量級適配器，
2024年04月28日
瀏覽(21)
[Stable Diffusion]ip-adapter：SD也可以墊圖了，一張圖復(fù)刻lora效果
Controlnet更新的v1.1.4版本新預(yù)處理ip-adapter，這項(xiàng)新能力簡直讓stablediffusion的實(shí)用性再上一個臺階。這些更新將改變sd的使用流程。 ? ip-adapter是騰訊Ai工作室發(fā)布的一個controlnet模型，可以通過stable diffusion的webui使用，這個新的功能簡單來說，他可以識別參考圖的藝術(shù)風(fēng)格和內(nèi)容
2024年02月04日
瀏覽(15)
擴(kuò)散模型實(shí)戰(zhàn)（十）：Stable Diffusion文本條件生成圖像大模型
?擴(kuò)散模型實(shí)戰(zhàn)（一）：基本原理介紹擴(kuò)散模型實(shí)戰(zhàn)（二）：擴(kuò)散模型的發(fā)展擴(kuò)散模型實(shí)戰(zhàn)（三）：擴(kuò)散模型的應(yīng)用擴(kuò)散模型實(shí)戰(zhàn)（四）：從零構(gòu)建擴(kuò)散模型擴(kuò)散模型實(shí)戰(zhàn)（五）：采樣過程擴(kuò)散模型實(shí)戰(zhàn)（六）：Diffusers DDPM初探擴(kuò)散模型實(shí)戰(zhàn)（七）：Diffusers蝴蝶圖像生成實(shí)
2024年02月03日
瀏覽(23)
【AIGC】手把手使用擴(kuò)散模型從文本生成圖像
在這篇文章中，我們將手把手展示如何使用Hugging Face的diffusers包通過文本生成圖像。 DALLE2是收費(fèi)的，用戶只有一些免費(fèi)的額度，如果免費(fèi)額度使用完畢就需要付費(fèi)了，所以必須尋找替代方案，并發(fā)現(xiàn)了Hugging Face，他們發(fā)布了一個擴(kuò)散模型的包diffusers ，可以讓我們直接使用。
2024年02月09日
瀏覽(29)
擴(kuò)散模型diffusion model用于圖像恢復(fù)任務(wù)詳細(xì)原理 (去雨，去霧等皆可)，附實(shí)現(xiàn)代碼
話不多說，先上代碼：擴(kuò)散模型diffusion model用于圖像恢復(fù)完整可運(yùn)行代碼，附詳細(xì)實(shí)驗(yàn)操作流程令外一篇簡化超分?jǐn)U散模型SR3來實(shí)現(xiàn)圖像恢復(fù)的博客見：超分?jǐn)U散模型 SR3 可以做圖像去雨、去霧等恢復(fù)任務(wù)嗎？ 1. 去噪擴(kuò)散概率模型擴(kuò)散模型是一類生成模型, 和生成對抗網(wǎng)絡(luò)
2024年02月03日
瀏覽(26)