国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器

這篇具有很好參考價值的文章主要介紹了IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。


一、IP-Adapter簡介

  1. IP-Adapter是圖像提示適配器,用于預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型,以實(shí)現(xiàn)使用圖像提示生成圖像的能力;
  2. IP-Adapter的關(guān)鍵設(shè)計(jì)是解耦的交叉注意力機(jī)制,將交叉注意力層分離為文本特征和圖像特征,實(shí)現(xiàn)了圖像提示的能力。

二、IP-Adapter與img2img的區(qū)分

(一)結(jié)構(gòu)上的區(qū)別

  • img2img使用unet架構(gòu),包括一個編碼器(下采樣)和一個解碼器(上采樣)
  • IP-Adapter包括一個圖像編碼器和包含解耦交叉注意力機(jī)制的適配器

(二)流程上的區(qū)別

  • img2img通過編碼/解碼器,需要通過一系列上采樣、下采樣
  • IP-Adapter通過圖像編碼器,文本提示和圖像特征通過適配模塊與預(yù)訓(xùn)練的文本到圖像模型進(jìn)行交互

(三)輸出上的區(qū)別

現(xiàn)在給出prompt要求在圖1一個男人的基礎(chǔ)上加上參考圖2:
IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器,AIGC閱讀學(xué)習(xí),計(jì)算機(jī)視覺,AIGC,算法,人工智能

  • img2img是輸出一個轉(zhuǎn)換后的圖像:相當(dāng)于直接蓋在參考圖上開始臨摹,畫出一些強(qiáng)行混合不知所謂的圖來。IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器,AIGC閱讀學(xué)習(xí),計(jì)算機(jī)視覺,AIGC,算法,人工智能
  • IP-Adapter是根據(jù)文本和圖像提示生成的圖片:IP-Adapter則不是臨摹,而是真正的自己去畫,將參考圖與原圖榮威一體
    IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器,AIGC閱讀學(xué)習(xí),計(jì)算機(jī)視覺,AIGC,算法,人工智能

(四)原理上的區(qū)別

  1. stable diffustion是擴(kuò)散模型,它的核心作用機(jī)制就是對噪音的處理,prompt可以看做是我們的目標(biāo),通過不斷的去噪過程,向著目標(biāo)越來越靠近,最終生成出預(yù)期的圖片。
    IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器,AIGC閱讀學(xué)習(xí),計(jì)算機(jī)視覺,AIGC,算法,人工智能

  2. IP-Adapter將圖片單獨(dú)提出作為一種提示特征,相比SD模型把圖像特征和文本特征抽取后拼接在一起的方法,IP-Adapter通過帶有解耦交叉注意力的適配模塊,將文本特征的Cross-Attention 和圖像特征的Cross-Attention區(qū)分開來,在Unet的模塊中新增了一路Cross-Attention模塊,用于引入圖像特征。

  3. img2img是直接將參考圖傳入unet,去替換了原始的隨機(jī)噪音,這樣所有的生成結(jié)果都是建立在它的基礎(chǔ)上,于是有了前面人和老虎混雜的現(xiàn)象就比較好理解了。
    IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器,AIGC閱讀學(xué)習(xí),計(jì)算機(jī)視覺,AIGC,算法,人工智能

三、IP-Adapter的網(wǎng)絡(luò)架構(gòu)

  1. 當(dāng)前adapter很難達(dá)到微調(diào)圖像提示模型或從頭訓(xùn)練的模型性能,主要原因是圖像特征無法有效的嵌入預(yù)訓(xùn)練模型中。大多數(shù)方法只是將拼接的特征輸入到凍結(jié)的cross-attention中,阻止了擴(kuò)散模型捕捉圖像圖像提示的細(xì)粒度特征。
  2. 為了解決這個問題,我們提出了一種解耦交叉注意力策略,即通過新添加的交叉注意力層嵌入圖像特征。提議的IP-adapter包含兩個部分:
    • 圖像編碼器用于從圖像提示中提取圖像特征;
    • 具有解耦的cross-attention的適配模塊,用于將圖像特征嵌入預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型中。
      IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器,AIGC閱讀學(xué)習(xí),計(jì)算機(jī)視覺,AIGC,算法,人工智能

(一)圖像編碼器

  1. 與大多數(shù)方法一樣,我們使用預(yù)訓(xùn)練好的 CLIP 圖像編碼器模型從圖像提示中提取圖像特征;
  2. 我們利用 CLIP 圖像編碼器中的全局圖像嵌入,它與圖像字幕非常吻合,能代表圖像的豐富內(nèi)容和風(fēng)格;
  3. 在訓(xùn)練階段,CLIP 圖像編碼器被凍結(jié)。

(二)解耦交叉注意力

圖像特征由具有解耦交叉注意力的適配模塊集成到預(yù)訓(xùn)練的UNet模型中。
IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器,AIGC閱讀學(xué)習(xí),計(jì)算機(jī)視覺,AIGC,算法,人工智能把文本特征和圖像特征分開cross-attention再相加,之前的想法大多數(shù)先將圖像特征和文本特征拼接后再cross。

(三)訓(xùn)練和推理

  1. 在訓(xùn)練過程中,我們只對 IP 適配器進(jìn)行優(yōu)化,同時保持預(yù)訓(xùn)練擴(kuò)散模型的參數(shù)不變,訓(xùn)練目標(biāo)與原始 SD 相同:
    IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器,AIGC閱讀學(xué)習(xí),計(jì)算機(jī)視覺,AIGC,算法,人工智能
  2. 我們還在訓(xùn)練階段隨機(jī)放棄圖像條件,以便在推理階段實(shí)現(xiàn)無分類器指導(dǎo):
    IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器,AIGC閱讀學(xué)習(xí),計(jì)算機(jī)視覺,AIGC,算法,人工智能
  3. 如果丟棄了圖像條件,可以將clip圖像embedding歸0。由于文本cross-attention和圖像cross-attention是分離的,在推理階段還可以調(diào)整圖像條件的權(quán)重:
    IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器,AIGC閱讀學(xué)習(xí),計(jì)算機(jī)視覺,AIGC,算法,人工智能

參考:
圖像作為prompt#IP-Adapter
新一代“墊圖”神器,IP-Adapter的完整應(yīng)用解讀
IP-Adapter:text compatible image prompt adapter for text-to-image diffusion models
IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器文章來源地址http://www.zghlxwxcb.cn/news/detail-789802.html

到了這里,關(guān)于IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Tune-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning

    Tune-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning

    Project:https://tuneavideo.github.io 原文鏈接:Tnue-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning (by 小樣本視覺與智能前沿) 目錄 為了復(fù)制文本到圖像(T2I)生成的成功,最近的工作使用大規(guī)模視頻數(shù)據(jù)集來訓(xùn)練文本到視頻(T2V)生成器。盡管他們的結(jié)果很有希望,但這種

    2024年01月15日
    瀏覽(52)
  • 【轉(zhuǎn)繪】IP-Adapter 畫風(fēng)重繪

    【轉(zhuǎn)繪】IP-Adapter 畫風(fēng)重繪

    ?其他方法參考: 【商業(yè)案例】tile 轉(zhuǎn)繪-CSDN博客 模型下載地址: https://huggingface.co/lllyasviel/sd_control_collection/tree/7cf256327b341fedc82e00b0d7fb5481ad693210 https://huggingface.co/lllyasviel/sd_control_collection/tree/7cf256327b341fedc82e00b0d7fb5481ad693210 模型存放目錄: sd-webui-akimodelsControlNet 單獨(dú)使用IP-A

    2024年02月01日
    瀏覽(27)
  • diffusion model(十五) : IP-Adapter技術(shù)小結(jié)

    diffusion model(十五) : IP-Adapter技術(shù)小結(jié)

    info paper https://arxiv.org/pdf/2308.06721.pdf code https://github.com/tencent-ailab/IP-Adapter org. Tencent AI Lab 個人博客地址 http://myhz0606.com/article/ip_adapter 為了對文生圖 diffusion model 進(jìn)行特定概念的定制,常用 LoRA [1]、 textual inversion [2]等inference before fine-tune的方法。此類方法有一個弊端:每一個新

    2024年04月09日
    瀏覽(20)
  • webUI下使用IP-adapter的簡要說明

    webUI下使用IP-adapter的簡要說明

    IP-adapter是一個最近比較火的模型,但是在webUI下使用,經(jīng)常會報(bào)各種各樣的錯誤,這里簡單講一下模型匹配問題的處理方式,希望對你有幫助。 錯誤案例說明: 比如說選擇了sdxl的模型,并且選擇了ip-adapter_clip_sdxl_plus_vith預(yù)處理器后,模型選擇ip-adapter_xl [4209e9f7], 可能會遇到

    2024年04月12日
    瀏覽(28)
  • 新一代“墊圖”神器,IP-Adapter的完整應(yīng)用解讀

    新一代“墊圖”神器,IP-Adapter的完整應(yīng)用解讀

    導(dǎo)讀 不用訓(xùn)練lora,一張圖就能實(shí)現(xiàn)風(fēng)格遷移,還支持多圖多特征提取,同時強(qiáng)大的拓展能力還可接入動態(tài)prompt矩陣、controlnet等等,這就是IP-Adapter,一種全新的“墊圖”方式,讓你的AIGC之旅更加高效輕松。 都是“墊圖”,誰能還原你心中的圖 “墊圖”這個概念大家肯定都不

    2024年02月20日
    瀏覽(19)
  • Stable Diffusion使用ControlNet:IP-Adapter實(shí)現(xiàn)圖片風(fēng)格遷移

    Stable Diffusion使用ControlNet:IP-Adapter實(shí)現(xiàn)圖片風(fēng)格遷移

    IP-Adapter 全稱是 Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models(文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器),是騰訊研究院出品的一個新的ControlNet模型,旨在使預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型能夠生成具有圖像提示的圖像。 IP-Adapter是一種有效的輕量級適配器,

    2024年04月28日
    瀏覽(21)
  • [Stable Diffusion]ip-adapter:SD也可以墊圖了,一張圖復(fù)刻lora效果

    [Stable Diffusion]ip-adapter:SD也可以墊圖了,一張圖復(fù)刻lora效果

    Controlnet更新的v1.1.4版本新預(yù)處理ip-adapter,這項(xiàng)新能力簡直讓stablediffusion的實(shí)用性再上一個臺階。這些更新將改變sd的使用流程。 ? ip-adapter是騰訊Ai工作室發(fā)布的一個controlnet模型,可以通過stable diffusion的webui使用,這個新的功能簡單來說,他可以識別參考圖的藝術(shù)風(fēng)格和內(nèi)容

    2024年02月04日
    瀏覽(15)
  • 擴(kuò)散模型實(shí)戰(zhàn)(十):Stable Diffusion文本條件生成圖像大模型

    擴(kuò)散模型實(shí)戰(zhàn)(十):Stable Diffusion文本條件生成圖像大模型

    ?擴(kuò)散模型實(shí)戰(zhàn)(一):基本原理介紹 擴(kuò)散模型實(shí)戰(zhàn)(二):擴(kuò)散模型的發(fā)展 擴(kuò)散模型實(shí)戰(zhàn)(三):擴(kuò)散模型的應(yīng)用 擴(kuò)散模型實(shí)戰(zhàn)(四):從零構(gòu)建擴(kuò)散模型 擴(kuò)散模型實(shí)戰(zhàn)(五):采樣過程 擴(kuò)散模型實(shí)戰(zhàn)(六):Diffusers DDPM初探 擴(kuò)散模型實(shí)戰(zhàn)(七):Diffusers蝴蝶圖像生成實(shí)

    2024年02月03日
    瀏覽(23)
  • 【AIGC】手把手使用擴(kuò)散模型從文本生成圖像

    【AIGC】手把手使用擴(kuò)散模型從文本生成圖像

    在這篇文章中,我們將手把手展示如何使用Hugging Face的diffusers包通過文本生成圖像。 DALLE2是收費(fèi)的,用戶只有一些免費(fèi)的額度,如果免費(fèi)額度使用完畢就需要付費(fèi)了,所以必須尋找替代方案,并發(fā)現(xiàn)了Hugging Face,他們發(fā)布了一個擴(kuò)散模型的包diffusers ,可以讓我們直接使用。

    2024年02月09日
    瀏覽(29)
  • 擴(kuò)散模型diffusion model用于圖像恢復(fù)任務(wù)詳細(xì)原理 (去雨,去霧等皆可),附實(shí)現(xiàn)代碼

    擴(kuò)散模型diffusion model用于圖像恢復(fù)任務(wù)詳細(xì)原理 (去雨,去霧等皆可),附實(shí)現(xiàn)代碼

    話不多說,先上代碼: 擴(kuò)散模型diffusion model用于圖像恢復(fù)完整可運(yùn)行代碼,附詳細(xì)實(shí)驗(yàn)操作流程 令外一篇簡化超分?jǐn)U散模型SR3來實(shí)現(xiàn)圖像恢復(fù)的博客見: 超分?jǐn)U散模型 SR3 可以做圖像去雨、去霧等恢復(fù)任務(wù)嗎? 1. 去噪擴(kuò)散概率模型 擴(kuò)散模型是一類生成模型, 和生成對抗網(wǎng)絡(luò)

    2024年02月03日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包