国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

diffusion model(十五) : IP-Adapter技術(shù)小結(jié)

這篇具有很好參考價(jià)值的文章主要介紹了diffusion model(十五) : IP-Adapter技術(shù)小結(jié)。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

info
paper https://arxiv.org/pdf/2308.06721.pdf
code https://github.com/tencent-ailab/IP-Adapter
org. Tencent AI Lab
個(gè)人博客地址 http://myhz0606.com/article/ip_adapter

1 Motivation

為了對文生圖diffusion model進(jìn)行特定概念的定制,常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此類方法有一個(gè)弊端:每一個(gè)新的概念都需要重新訓(xùn)練一個(gè)權(quán)重,比較麻煩。那么,能不能有一個(gè)方法inference前無須微調(diào),只需給一張reference image,就能將該圖片的概念融入到生成過程中?這就是IP-adapter想要解決的問題。

2 Method

IP-adapterLoRA等工作類似,也是一個(gè)PEFT(parameter efficient fine-tuning)的方法。區(qū)別在于,一般LoRA等方法只須定制特定概念,訓(xùn)練數(shù)據(jù)只需少量(一般只需數(shù)十張)、高質(zhì)量特定概念的圖片。而IP-adapter希望diffusion model能夠理解開放式的圖片特征,并依此生成圖片,故為了保證泛化性,需要在大量數(shù)據(jù)上進(jìn)行訓(xùn)練。

2.1 模型架構(gòu)

為了降低訓(xùn)練成本,作者引入了預(yù)訓(xùn)練的CLIP[3] image encoder來初步提取reference image的圖片特征,隨后接了一個(gè)Linear+layer norm層來調(diào)整特征的維度。隨后設(shè)計(jì)了一個(gè)decoupled cross-attention 模塊,將image feature融入到diffusion model的生成過程中。通過訓(xùn)練讓diffusion model能夠理解image prompt。(pipeline中只有 ??的module更新權(quán)重,其它module freeze。)

diffusion model(十五) : IP-Adapter技術(shù)小結(jié),diffusion model,diffusion model,stable diffusion,ip-adapter

2.2 decoupled cross-attention

decoupled cross-attention相比文生圖的cross attention多了兩個(gè)訓(xùn)練參數(shù) W i k ′ , W i v ′ W_{i}^{k'},W_{i}^{v'} Wik?,Wiv?,起始階段用text分支的 W i k , W i v W_{i}^{k},W_{i}^{v} Wik?,Wiv?進(jìn)行初始化。(下標(biāo) i i i代表第 i i icross-attention)。

可以通過調(diào)整image embedding的權(quán)重 λ \lambda λ來決定image condition的影響程度。

diffusion model(十五) : IP-Adapter技術(shù)小結(jié),diffusion model,diffusion model,stable diffusion,ip-adapter

2.3 模型訓(xùn)練

模型的訓(xùn)練數(shù)據(jù)采用LAION-2BCOYO-700M的子集,總計(jì)10M左右。訓(xùn)練目標(biāo)和經(jīng)典的diffusion model[4]一致。

L s i m p l e = E x 0 , ? , c t , c t , t ∣ ∣ ? ? ? θ ( x t , c t , c i , t ) ∣ ∣ 2 . { \mathcal L } _ { \mathrm { s i m p l e } } = { \mathbb E } _ { { \boldsymbol { x } } _ { 0 } , \epsilon , c _ { t } , c _ { t } , t } \vert \vert \epsilon - \epsilon _ { \theta } ( { \boldsymbol { x } } _ { t } , c _ { t } , c _ { i } , t ) \vert \vert ^ { 2 } . Lsimple?=Ex0?,?,ct?,ct?,t?∣∣???θ?(xt?,ct?,ci?,t)2.

同樣為了classifier-free guidance訓(xùn)練時(shí)隨機(jī)drop condition。

3 Result

IP-Adapter的一大優(yōu)勢是他能結(jié)合其它c(diǎn)ondition tool。

diffusion model(十五) : IP-Adapter技術(shù)小結(jié),diffusion model,diffusion model,stable diffusion,ip-adapter

下圖展示了IP-Adapter和其它方法的對比結(jié)果

diffusion model(十五) : IP-Adapter技術(shù)小結(jié),diffusion model,diffusion model,stable diffusion,ip-adapter

diffusion model(十五) : IP-Adapter技術(shù)小結(jié),diffusion model,diffusion model,stable diffusion,ip-adapter

IP-adapter還能做instruction editing

diffusion model(十五) : IP-Adapter技術(shù)小結(jié),diffusion model,diffusion model,stable diffusion,ip-adapter

(更多結(jié)果請見原論文)

4 summary

IP-Adapter能接受image作為prompt,實(shí)現(xiàn)inference without fine-tune的定制生成。雖然在單一概念比不上精心微調(diào)的LoRA等定制方法,但在一些精細(xì)化要求沒那么高的場景,IP-Adapter是一個(gè)非常有用的工具。

Reference

[1] LoRA: Low-Rank Adaptation of Large Language Models

[2] An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

[3] Learning Transferable Visual Models From Natural Language Supervision

[4] Denoising Diffusion Probabilistic Models文章來源地址http://www.zghlxwxcb.cn/news/detail-845454.html

到了這里,關(guān)于diffusion model(十五) : IP-Adapter技術(shù)小結(jié)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 新一代“墊圖”神器,IP-Adapter的完整應(yīng)用解讀

    新一代“墊圖”神器,IP-Adapter的完整應(yīng)用解讀

    導(dǎo)讀 不用訓(xùn)練lora,一張圖就能實(shí)現(xiàn)風(fēng)格遷移,還支持多圖多特征提取,同時(shí)強(qiáng)大的拓展能力還可接入動(dòng)態(tài)prompt矩陣、controlnet等等,這就是IP-Adapter,一種全新的“墊圖”方式,讓你的AIGC之旅更加高效輕松。 都是“墊圖”,誰能還原你心中的圖 “墊圖”這個(gè)概念大家肯定都不

    2024年02月20日
    瀏覽(16)
  • 關(guān)于IP-Adapter的十幾個(gè)模型,到底是干啥用的?

    關(guān)于IP-Adapter的十幾個(gè)模型,到底是干啥用的?

    IP-Adapter的一系列模型在stable diffusion的實(shí)際應(yīng)用中,越來越被頻繁的使用到,用于“換臉”或者“保證角色的一致性”,但是很多朋友在安裝或者使用別人的工作流的時(shí)候,經(jīng)常會(huì)遇到各種各樣的問題,同時(shí)因?yàn)橘Y源在各種群里轉(zhuǎn)來轉(zhuǎn)去的,發(fā)現(xiàn)有很多個(gè)版本,所以有些時(shí)候

    2024年04月09日
    瀏覽(19)
  • IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴(kuò)散模型

    IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴(kuò)散模型

    IP-Adapter這是一種有效且輕量級的適配器,用于實(shí)現(xiàn)預(yù)訓(xùn)練文本到圖像擴(kuò)散模型的圖像提示功能。只有 22M 參數(shù)的 IP 適配器可以實(shí)現(xiàn)與微調(diào)圖像提示模型相當(dāng)甚至更好的性能。IP-Adapter 不僅可以推廣到從同一基本模型微調(diào)的其他自定義模型,還可以推廣到使用現(xiàn)有可控工具的可

    2024年01月18日
    瀏覽(24)
  • IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器

    IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器

    IP-Adapter是圖像提示適配器,用于預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型,以實(shí)現(xiàn)使用圖像提示生成圖像的能力; IP-Adapter的關(guān)鍵設(shè)計(jì)是解耦的交叉注意力機(jī)制,將交叉注意力層分離為文本特征和圖像特征,實(shí)現(xiàn)了圖像提示的能力。 img2img使用unet架構(gòu),包括一個(gè)編碼器(下采樣)和一個(gè)

    2024年02月01日
    瀏覽(31)
  • 【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴(kuò)散模型

    【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴(kuò)散模型

    ????????IPAdapter能夠通過圖像給Stable Diffusion模型以內(nèi)容提示,讓其生成參考該圖像畫風(fēng),可以免去Lora的訓(xùn)練,達(dá)到參考畫風(fēng)人物的生成效果。 ????????通過文本提示詞生成的圖像,往往需要設(shè)置復(fù)雜的提示詞,通常設(shè)計(jì)提示詞變得很復(fù)雜。文本提示可以由圖像來替代

    2024年01月16日
    瀏覽(22)
  • diffusion model(五)stable diffusion底層原理(latent diffusion model, LDM)

    diffusion model(五)stable diffusion底層原理(latent diffusion model, LDM)

    [論文地址] High-Resolution Image Synthesis with Latent Diffusion Models [github] https://github.com/compvis/latent-diffusion diffusion model(一)DDPM技術(shù)小結(jié) (denoising diffusion probabilistic) diffusion model(二)—— DDIM技術(shù)小結(jié) diffusion model(三)—— classifier guided diffusion model diffusion model(四)文生圖diffusio

    2024年02月15日
    瀏覽(49)
  • Latent Diffusion Models / Stable Diffusion(LDM)

    Latent Diffusion Models / Stable Diffusion(LDM)

    High-Resolution Image Synthesis with Latent Diffusion Models (CVPR 2022) https://arxiv.org/abs/2112.10752 latent-diffusion stable-diffusion cross-attention(用于多模態(tài)任務(wù)) Cross-attention vs Self-attention: Cross-attention的輸入來自不同的序列,Self-attention的輸入來自同序列,也就是所謂的輸入不同,但是除此之外

    2024年02月21日
    瀏覽(22)
  • Stable Diffusion背后原理(Latent Diffusion Models)

    Stable Diffusion背后原理(Latent Diffusion Models)

    2023年第一篇博客,大家新年好呀~ 這次來關(guān)注一下Stable Diffusion背后的原理,即 High-Resolution Image Synthesis with Latent Diffusion Models 這篇論文。 之前關(guān)注的那些工作只能工作到 256 × 256 256 times 256 256 × 256 像素(resize成這個(gè)后才輸入模型),甚至更低。 然而這篇 Latent Diffusion Models 可以

    2024年01月18日
    瀏覽(22)
  • 十五)Stable Diffusion使用教程:另一個(gè)線稿出3D例子

    案例:黃金首飾出圖 1)線稿,可以進(jìn)行色階加深,不易丟失細(xì)節(jié); 2)文生圖,精確材質(zhì)、光澤、工藝(拋光、拉絲等)、形狀(包括深度等,比如鏤空)和渲染方式(3D、素描、線稿等)提示詞,負(fù)面提示詞; 3)seed調(diào)-1,讓ai隨機(jī)出圖; 4)開啟controlnet,上傳線稿圖,選擇

    2024年02月07日
    瀏覽(28)
  • AI 繪畫Stable Diffusion 研究(十五)SD Embedding詳解

    AI 繪畫Stable Diffusion 研究(十五)SD Embedding詳解

    大家好,我是風(fēng)雨無阻。 本期內(nèi)容: Embedding是什么? Embedding有什么作用? Embedding如何下載安裝? 如何使用Embedding? 大家還記得 AI 繪畫Stable Diffusion 研究(七) 一文讀懂 Stable Diffusion 工作原理 這篇文章中,曾提到過詞嵌入(Embedding)嗎? 我們來簡單回顧一下:Embedding 將輸

    2024年02月11日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包