一、IP-Adapter簡介
- IP-Adapter是圖像提示適配器,用于預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型,以實(shí)現(xiàn)使用圖像提示生成圖像的能力;
- IP-Adapter的關(guān)鍵設(shè)計(jì)是解耦的交叉注意力機(jī)制,將交叉注意力層分離為文本特征和圖像特征,實(shí)現(xiàn)了圖像提示的能力。
二、IP-Adapter與img2img的區(qū)分
(一)結(jié)構(gòu)上的區(qū)別
- img2img使用unet架構(gòu),包括一個編碼器(下采樣)和一個解碼器(上采樣)
- IP-Adapter包括一個圖像編碼器和包含解耦交叉注意力機(jī)制的適配器
(二)流程上的區(qū)別
- img2img通過編碼/解碼器,需要通過一系列上采樣、下采樣
- IP-Adapter通過圖像編碼器,文本提示和圖像特征通過適配模塊與預(yù)訓(xùn)練的文本到圖像模型進(jìn)行交互
(三)輸出上的區(qū)別
現(xiàn)在給出prompt要求在圖1一個男人的基礎(chǔ)上加上參考圖2:
- img2img是輸出一個轉(zhuǎn)換后的圖像:相當(dāng)于直接蓋在參考圖上開始臨摹,畫出一些強(qiáng)行混合不知所謂的圖來。
- IP-Adapter是根據(jù)文本和圖像提示生成的圖片:IP-Adapter則不是臨摹,而是真正的自己去畫,將參考圖與原圖榮威一體
(四)原理上的區(qū)別
-
stable diffustion是擴(kuò)散模型,它的核心作用機(jī)制就是對噪音的處理,prompt可以看做是我們的目標(biāo),通過不斷的去噪過程,向著目標(biāo)越來越靠近,最終生成出預(yù)期的圖片。
-
IP-Adapter將圖片單獨(dú)提出作為一種提示特征,相比SD模型把圖像特征和文本特征抽取后拼接在一起的方法,IP-Adapter通過帶有解耦交叉注意力的適配模塊,將文本特征的Cross-Attention 和圖像特征的Cross-Attention區(qū)分開來,在Unet的模塊中新增了一路Cross-Attention模塊,用于引入圖像特征。
-
img2img是直接將參考圖傳入unet,去替換了原始的隨機(jī)噪音,這樣所有的生成結(jié)果都是建立在它的基礎(chǔ)上,于是有了前面人和老虎混雜的現(xiàn)象就比較好理解了。
三、IP-Adapter的網(wǎng)絡(luò)架構(gòu)
- 當(dāng)前adapter很難達(dá)到微調(diào)圖像提示模型或從頭訓(xùn)練的模型性能,主要原因是圖像特征無法有效的嵌入預(yù)訓(xùn)練模型中。大多數(shù)方法只是將拼接的特征輸入到凍結(jié)的cross-attention中,阻止了擴(kuò)散模型捕捉圖像圖像提示的細(xì)粒度特征。
- 為了解決這個問題,我們提出了一種解耦交叉注意力策略,即通過新添加的交叉注意力層嵌入圖像特征。提議的IP-adapter包含兩個部分:
- 圖像編碼器用于從圖像提示中提取圖像特征;
- 具有解耦的cross-attention的適配模塊,用于將圖像特征嵌入預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型中。
(一)圖像編碼器
- 與大多數(shù)方法一樣,我們使用預(yù)訓(xùn)練好的 CLIP 圖像編碼器模型從圖像提示中提取圖像特征;
- 我們利用 CLIP 圖像編碼器中的全局圖像嵌入,它與圖像字幕非常吻合,能代表圖像的豐富內(nèi)容和風(fēng)格;
- 在訓(xùn)練階段,CLIP 圖像編碼器被凍結(jié)。
(二)解耦交叉注意力
圖像特征由具有解耦交叉注意力的適配模塊集成到預(yù)訓(xùn)練的UNet模型中。把文本特征和圖像特征分開cross-attention再相加,之前的想法大多數(shù)先將圖像特征和文本特征拼接后再cross。文章來源:http://www.zghlxwxcb.cn/news/detail-789802.html
(三)訓(xùn)練和推理
- 在訓(xùn)練過程中,我們只對 IP 適配器進(jìn)行優(yōu)化,同時保持預(yù)訓(xùn)練擴(kuò)散模型的參數(shù)不變,訓(xùn)練目標(biāo)與原始 SD 相同:
- 我們還在訓(xùn)練階段隨機(jī)放棄圖像條件,以便在推理階段實(shí)現(xiàn)無分類器指導(dǎo):
- 如果丟棄了圖像條件,可以將clip圖像embedding歸0。由于文本cross-attention和圖像cross-attention是分離的,在推理階段還可以調(diào)整圖像條件的權(quán)重:
參考:
圖像作為prompt#IP-Adapter
新一代“墊圖”神器,IP-Adapter的完整應(yīng)用解讀
IP-Adapter:text compatible image prompt adapter for text-to-image diffusion models
IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器文章來源地址http://www.zghlxwxcb.cn/news/detail-789802.html
到了這里,關(guān)于IP-Adapter:用于文本到圖像擴(kuò)散模型的文本兼容圖像提示適配器的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!