国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

diffusion model(十五) : IP-Adapter技術(shù)小結(jié)

1年前作者：莫葉何竹分類：Toy博客閱讀(17)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了diffusion model(十五) : IP-Adapter技術(shù)小結(jié)。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

	info
paper	https://arxiv.org/pdf/2308.06721.pdf
code	https://github.com/tencent-ailab/IP-Adapter
org.	Tencent AI Lab
個(gè)人博客地址	http://myhz0606.com/article/ip_adapter

1 Motivation

為了對文生圖diffusion model進(jìn)行特定概念的定制，常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此類方法有一個(gè)弊端：每一個(gè)新的概念都需要重新訓(xùn)練一個(gè)權(quán)重，比較麻煩。那么，能不能有一個(gè)方法inference前無須微調(diào)，只需給一張reference image，就能將該圖片的概念融入到生成過程中？這就是IP-adapter想要解決的問題。

2 Method

IP-adapter和LoRA等工作類似，也是一個(gè)PEFT（parameter efficient fine-tuning）的方法。區(qū)別在于，一般LoRA等方法只須定制特定概念，訓(xùn)練數(shù)據(jù)只需少量（一般只需數(shù)十張）、高質(zhì)量特定概念的圖片。而IP-adapter希望diffusion model能夠理解開放式的圖片特征，并依此生成圖片，故為了保證泛化性，需要在大量數(shù)據(jù)上進(jìn)行訓(xùn)練。

2.1 模型架構(gòu)

為了降低訓(xùn)練成本，作者引入了預(yù)訓(xùn)練的CLIP[3] image encoder來初步提取reference image的圖片特征，隨后接了一個(gè)Linear+layer norm層來調(diào)整特征的維度。隨后設(shè)計(jì)了一個(gè)decoupled cross-attention 模塊，將image feature融入到diffusion model的生成過程中。通過訓(xùn)練讓diffusion model能夠理解image prompt。（pipeline中只有 ??的module更新權(quán)重，其它module freeze。）

diffusion model(十五) : IP-Adapter技術(shù)小結(jié),diffusion model,diffusion model,stable diffusion,ip-adapter

2.2 decoupled cross-attention

decoupled cross-attention相比文生圖的cross attention多了兩個(gè)訓(xùn)練參數(shù) $W_{i}^{k'},W_{i}^{v'}$ ，起始階段用text分支的 $W_{i}^{k},W_{i}^{v}$ 進(jìn)行初始化。（下標(biāo) $i$ 代表第 $i$ 層cross-attention）。

可以通過調(diào)整image embedding的權(quán)重 $\lambda$ 來決定image condition的影響程度。

diffusion model(十五) : IP-Adapter技術(shù)小結(jié),diffusion model,diffusion model,stable diffusion,ip-adapter

2.3 模型訓(xùn)練

模型的訓(xùn)練數(shù)據(jù)采用LAION-2B和COYO-700M的子集，總計(jì)10M左右。訓(xùn)練目標(biāo)和經(jīng)典的diffusion model[4]一致。

$\mathcal L } _ { \mathrm { s i m p l e } } = { \mathbb E } _ { { \boldsymbol { x } } _ { 0 } , \epsilon , c _ { t } , c _ { t } , t } \vert \vert \epsilon - \epsilon _ { \theta } ( { \boldsymbol { x } } _ { t } , c _ { t } , c _ { i } , t ) \vert \vert ^ { 2 } .$

同樣為了classifier-free guidance訓(xùn)練時(shí)隨機(jī)drop condition。

3 Result

IP-Adapter的一大優(yōu)勢是他能結(jié)合其它c(diǎn)ondition tool。

diffusion model(十五) : IP-Adapter技術(shù)小結(jié),diffusion model,diffusion model,stable diffusion,ip-adapter

下圖展示了IP-Adapter和其它方法的對比結(jié)果

diffusion model(十五) : IP-Adapter技術(shù)小結(jié),diffusion model,diffusion model,stable diffusion,ip-adapter

IP-adapter還能做instruction editing

diffusion model(十五) : IP-Adapter技術(shù)小結(jié),diffusion model,diffusion model,stable diffusion,ip-adapter

(更多結(jié)果請見原論文)

4 summary

IP-Adapter能接受image作為prompt，實(shí)現(xiàn)inference without fine-tune的定制生成。雖然在單一概念比不上精心微調(diào)的LoRA等定制方法，但在一些精細(xì)化要求沒那么高的場景，IP-Adapter是一個(gè)非常有用的工具。

Reference

[1] LoRA: Low-Rank Adaptation of Large Language Models

[2] An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

[3] Learning Transferable Visual Models From Natural Language Supervision

[4] Denoising Diffusion Probabilistic Models文章來源地址http://www.zghlxwxcb.cn/news/detail-845454.html

到了這里，關(guān)于diffusion model(十五) : IP-Adapter技術(shù)小結(jié)的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

新一代“墊圖”神器，IP-Adapter的完整應(yīng)用解讀
導(dǎo)讀不用訓(xùn)練lora，一張圖就能實(shí)現(xiàn)風(fēng)格遷移，還支持多圖多特征提取，同時(shí)強(qiáng)大的拓展能力還可接入動(dòng)態(tài)prompt矩陣、controlnet等等，這就是IP-Adapter，一種全新的“墊圖”方式，讓你的AIGC之旅更加高效輕松。都是“墊圖”，誰能還原你心中的圖 “墊圖”這個(gè)概念大家肯定都不
2024年02月20日
瀏覽(16)
關(guān)于IP-Adapter的十幾個(gè)模型，到底是干啥用的？
IP-Adapter的一系列模型在stable diffusion的實(shí)際應(yīng)用中，越來越被頻繁的使用到，用于“換臉”或者“保證角色的一致性”，但是很多朋友在安裝或者使用別人的工作流的時(shí)候，經(jīng)常會(huì)遇到各種各樣的問題，同時(shí)因?yàn)橘Y源在各種群里轉(zhuǎn)來轉(zhuǎn)去的，發(fā)現(xiàn)有很多個(gè)版本，所以有些時(shí)候
2024年04月09日
瀏覽(19)
IP-Adapter：文本兼容圖像提示適配器，用于文本到圖像擴(kuò)散模型
IP-Adapter這是一種有效且輕量級的適配器，用于實(shí)現(xiàn)預(yù)訓(xùn)練文本到圖像擴(kuò)散模型的圖像提示功能。只有 22M 參數(shù)的 IP 適配器可以實(shí)現(xiàn)與微調(diào)圖像提示模型相當(dāng)甚至更好的性能。IP-Adapter 不僅可以推廣到從同一基本模型微調(diào)的其他自定義模型，還可以推廣到使用現(xiàn)有可控工具的可
2024年01月18日
瀏覽(24)
IP-Adapter：用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器
IP-Adapter是圖像提示適配器，用于預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型，以實(shí)現(xiàn)使用圖像提示生成圖像的能力； IP-Adapter的關(guān)鍵設(shè)計(jì)是解耦的交叉注意力機(jī)制，將交叉注意力層分離為文本特征和圖像特征，實(shí)現(xiàn)了圖像提示的能力。 img2img使用unet架構(gòu)，包括一個(gè)編碼器（下采樣）和一個(gè)
2024年02月01日
瀏覽(31)
【AIGC】IP-Adapter：文本兼容圖像提示適配器，用于文本到圖像擴(kuò)散模型
????????IPAdapter能夠通過圖像給Stable Diffusion模型以內(nèi)容提示，讓其生成參考該圖像畫風(fēng)，可以免去Lora的訓(xùn)練，達(dá)到參考畫風(fēng)人物的生成效果。 ????????通過文本提示詞生成的圖像，往往需要設(shè)置復(fù)雜的提示詞，通常設(shè)計(jì)提示詞變得很復(fù)雜。文本提示可以由圖像來替代
2024年01月16日
瀏覽(22)
diffusion model（五）stable diffusion底層原理（latent diffusion model， LDM）
[論文地址] High-Resolution Image Synthesis with Latent Diffusion Models [github] https://github.com/compvis/latent-diffusion diffusion model（一）DDPM技術(shù)小結(jié) (denoising diffusion probabilistic) diffusion model（二）—— DDIM技術(shù)小結(jié) diffusion model（三）—— classifier guided diffusion model diffusion model（四）文生圖diffusio
2024年02月15日
瀏覽(49)
Latent Diffusion Models / Stable Diffusion（LDM）
High-Resolution Image Synthesis with Latent Diffusion Models （CVPR 2022） https://arxiv.org/abs/2112.10752 latent-diffusion stable-diffusion cross-attention（用于多模態(tài)任務(wù)） Cross-attention vs Self-attention： Cross-attention的輸入來自不同的序列，Self-attention的輸入來自同序列，也就是所謂的輸入不同，但是除此之外
2024年02月21日
瀏覽(22)
Stable Diffusion背后原理(Latent Diffusion Models)
2023年第一篇博客，大家新年好呀~ 這次來關(guān)注一下Stable Diffusion背后的原理，即 High-Resolution Image Synthesis with Latent Diffusion Models 這篇論文。之前關(guān)注的那些工作只能工作到 256 × 256 256 times 256 256 × 256 像素(resize成這個(gè)后才輸入模型)，甚至更低。然而這篇 Latent Diffusion Models 可以
2024年01月18日
瀏覽(22)
十五）Stable Diffusion使用教程：另一個(gè)線稿出3D例子
案例：黃金首飾出圖 1）線稿，可以進(jìn)行色階加深，不易丟失細(xì)節(jié)； 2）文生圖，精確材質(zhì)、光澤、工藝（拋光、拉絲等）、形狀（包括深度等，比如鏤空）和渲染方式（3D、素描、線稿等）提示詞，負(fù)面提示詞； 3）seed調(diào)-1，讓ai隨機(jī)出圖； 4）開啟controlnet，上傳線稿圖，選擇
2024年02月07日
瀏覽(28)
AI 繪畫Stable Diffusion 研究（十五）SD Embedding詳解
大家好，我是風(fēng)雨無阻。本期內(nèi)容： Embedding是什么？ Embedding有什么作用？ Embedding如何下載安裝？如何使用Embedding？大家還記得 AI 繪畫Stable Diffusion 研究（七）一文讀懂 Stable Diffusion 工作原理這篇文章中，曾提到過詞嵌入（Embedding）嗎？我們來簡單回顧一下：Embedding 將輸
2024年02月11日
瀏覽(26)