本文發(fā)表于CVPR 2023
論文地址:CVPR 2023 Open Access Repository (thecvf.com)
Github官方代碼地址:?github.com
?一、Intorduction
最近的文本到圖像模型能夠根據(jù)文本提示生成高質(zhì)量的圖像,可以覆蓋廣泛的物體、風(fēng)格和場(chǎng)景。盡管這些模型具有多樣的通用功能,但用戶通常希望從他們自己的個(gè)人生活中綜合特定的概念。例如,親人,如家人,朋友,寵物,或個(gè)人物品和地方,如新沙發(fā)或最近參觀的花園,都是有趣的概念。用戶往往希望生成與個(gè)人生活緊密相關(guān)的內(nèi)容,而這些通常不會(huì)出現(xiàn)在大規(guī)模訓(xùn)練數(shù)據(jù)中。
所以產(chǎn)生了對(duì)模型進(jìn)行定制化的需求,當(dāng)前個(gè)性化模型主要存在以下一些挑戰(zhàn):
-
遺忘問題: 微調(diào)模型時(shí),存在著它可能會(huì)忘記或改變已有知識(shí)的風(fēng)險(xiǎn)。
-
過擬合問題: 由于訓(xùn)練樣本的數(shù)量有限,模型可能會(huì)過擬合這些樣本,并導(dǎo)致生成的內(nèi)容缺乏多樣性。
-
復(fù)合微調(diào): 如何將多個(gè)新概念融入模型,以便可以自由組合它們,比如在圖像中合成“月門”前的寵物狗。
本文提出了一種微調(diào)擴(kuò)散模型的方法,自定義擴(kuò)散的文本到圖像的擴(kuò)散模型。此方法在計(jì)算和存儲(chǔ)效率上都進(jìn)行了優(yōu)化。為了克服上述挑戰(zhàn),我們確定了模型權(quán)重的一個(gè)小子集,即從文本到交叉注意層中潛在特征的鍵和值映射。微調(diào)這些就足以用新概念更新模型。為了防止模型遺忘,我們使用一小組具有相似字幕的真實(shí)的圖像作為目標(biāo)圖像。我們還在微調(diào)過程中引入了增強(qiáng),這導(dǎo)致了更快的收斂和更好的結(jié)果。為了注入多個(gè)概念,我們的方法支持同時(shí)訓(xùn)練兩者,或者分別訓(xùn)練它們,然后合并。
二、Related Work
深度生成模型:
主流的生成模型包括GAN(生成對(duì)抗網(wǎng)絡(luò)),VAE(變分自編碼器),自回歸模型,基于流量的模型和擴(kuò)散模型。這些模型可以以不同類型的條件作為輸入,如類別標(biāo)簽,圖像或文本提示,以增強(qiáng)生成結(jié)果的可控性。
文本條件合成:
之前的研究?jī)H局限于有限的類別。最近的模型在超大規(guī)模數(shù)據(jù)上訓(xùn)練,顯示出了顯著的泛化能力,但在對(duì)特定實(shí)例(如個(gè)人玩具或稀有類別)的生成上仍有限。
圖像編輯和模型微調(diào):
用戶常常希望編輯特定的單個(gè)圖像,而不是隨機(jī)生成新圖像。與預(yù)訓(xùn)練模型的表示編輯相關(guān)的挑戰(zhàn)在于:如何通過逐圖像或逐編輯優(yōu)化來實(shí)現(xiàn)。
遷移學(xué)習(xí):
預(yù)訓(xùn)練模型可以通過遷移學(xué)習(xí)適應(yīng)新的數(shù)據(jù)分布,有研究專注于將模型從一個(gè)域調(diào)整到另一個(gè)域,但這常常導(dǎo)致原有概念的災(zāi)難性遺忘。
調(diào)整文本到圖像模型的特點(diǎn):
與類似的工作(如DreamBooth和Textual Inversion)相比,本研究關(guān)注在不遺忘既有概念的情況下微調(diào)模型以獲取多個(gè)新概念。并且本研究只微調(diào)交叉注意層參數(shù)的一個(gè)子集,減少了微調(diào)所需時(shí)間。
我們提出了一種面對(duì)多個(gè)概念組合微調(diào)的挑戰(zhàn)性場(chǎng)景的解決方案,實(shí)現(xiàn)了減少微調(diào)參數(shù)數(shù)量,從而加快微調(diào)過程,通過自動(dòng)度量和人類偏好研究驗(yàn)證了所提方法的效果。
三、Method
給定一個(gè)預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型,我們的目標(biāo)是在模型中嵌入一個(gè)新的概念,只要給出四張圖像和相應(yīng)的文本描述。微調(diào)后的模型應(yīng)該保留其先驗(yàn)知識(shí),允許基于文本提示的新概念的新一代,這篇文章主要還是在Stable-Diffusion的基礎(chǔ)上進(jìn)行微調(diào)的,關(guān)于Stable-Diffusion這里就不過多介紹。
我們提出的模型微調(diào)方法,如下圖所示,只更新模型交叉注意層中的一小部分權(quán)重。此外,我們使用一個(gè)正則化集的真實(shí)的圖像,以防止過度擬合的目標(biāo)概念的幾個(gè)訓(xùn)練樣本。
權(quán)重的變化率
作者通過分析目標(biāo)數(shù)據(jù)集上的微調(diào)模型中每一層的參數(shù)變化,發(fā)現(xiàn)更新的參數(shù)主要來源于以下三類:
這些參數(shù)來自三種類型的層-(1)交叉注意(文本和圖像之間),(2)自我注意(圖像本身),以及(3)其余參數(shù),包括擴(kuò)散模型U-Net中的卷積塊和歸一化層。
正如我們所看到的,交叉注意層參數(shù)與其他參數(shù)相比具有相對(duì)較高的Δ。此外,交叉注意層僅占模型中總參數(shù)計(jì)數(shù)的5%。這表明它在微調(diào)過程中起著重要作用,我們?cè)谖覀兊姆椒ㄖ欣昧诉@一點(diǎn)。
?模型微調(diào):
交叉注意塊根據(jù)條件特征修改網(wǎng)絡(luò)的潛在特征,即,在文本到圖像擴(kuò)散模型的情況下的文本特征。給定文本特征c和潛在圖像特征f,Q=Wqf,K=Wkc,V=Wvc。
其中Wq、Wk和Wv分別將輸入映射到查詢、鍵和值特征,d是鍵和查詢特征的輸出維度。潛在特征然后用注意力塊輸出更新。微調(diào)的任務(wù)是更新從給定的文本到圖像分布的映射,文本特征僅輸入到交叉注意塊中的Wk和Wv投影矩陣。因此,我們建議在微調(diào)過程中僅更新擴(kuò)散模型的Wk和Wv參數(shù)。
?
多概念組合微調(diào)
其實(shí)實(shí)現(xiàn)多個(gè)概念組合微調(diào)的基本原理和單個(gè)沒有太大區(qū)別。為了對(duì)多個(gè)概念進(jìn)行微調(diào),我們將每個(gè)概念的訓(xùn)練數(shù)據(jù)集組合起來,并使用我們的方法聯(lián)合訓(xùn)練它們。為了表示目標(biāo)概念,我們使用不同的修飾符標(biāo)記V_i,用不同的罕見標(biāo)記初始化,并使用每層的交叉注意鍵和值矩陣沿著對(duì)其進(jìn)行優(yōu)化。
四、Experiments
數(shù)據(jù)集: 我們?cè)谑畟€(gè)目標(biāo)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),這些數(shù)據(jù)集涵蓋了各種類別和不同的訓(xùn)練樣本。它由兩個(gè)場(chǎng)景類別、兩個(gè)寵物和六個(gè)對(duì)象組成。
評(píng)價(jià)指標(biāo):
(1)Image-alignment(圖像對(duì)齊),即,使用CLIP圖像特征空間中的相似性,生成的圖像與目標(biāo)概念的視覺相似。
(2)Text-alignment,使用CLIP特征空間中的文本-圖像相似性,生成的圖像與給定提示的文本對(duì)齊。
(3)KID ,用于從LAION-400 M檢索的類似概念的500幅真實(shí)的圖像的驗(yàn)證集,以測(cè)量目標(biāo)概念上的過擬合(例如,在一個(gè)實(shí)施例中,V dog)和忘記現(xiàn)有的相關(guān)概念(例如,狗)。
? (4)人類偏好研究。
與Dreambooth、Textual Inversion進(jìn)行比較:
單一概念微調(diào):
論文中提到:第一行:代表水彩畫藝術(shù)風(fēng)格的概念。我們的方法還可以在背景中生成山脈,DreamBooth和Textual Inversion忽略了這些山脈。第二行:改變背景場(chǎng)景。我們的方法和DreamBooth執(zhí)行類似,比文本反轉(zhuǎn)更好。第三行:添加另一個(gè)對(duì)象,例如,一張帶目標(biāo)桌子的橙子沙發(fā)我們的方法成功地添加了另一個(gè)對(duì)象。我們?cè)谖覀兊木W(wǎng)站上展示更多的樣品。
多概念微調(diào):
論文中提到:第一行:我們的方法在遵循文本條件的同時(shí)與個(gè)人貓和椅子具有更高的視覺相似性。第二行:DreamBooth有時(shí)會(huì)忽略貓,而我們的方法會(huì)同時(shí)生成貓和木盆。第三行:我們的方法更好地保持了與目標(biāo)圖像的視覺相似性。第四排:目標(biāo)桌子和椅子一起在花園里。
如此相比之下,相對(duì)于Dreambooth、Textual Inversion而言,論文所提出的方法是相對(duì)優(yōu)異的。
?
上圖是基于文本和圖像對(duì)齊所作的比較,左邊的圖是單個(gè)概念微調(diào),右邊則是多個(gè)概念的微調(diào)。與其他方法相比,論文所提的方法位于更沿著右上角(方差較小)??紤]到圖像對(duì)齊與文本對(duì)齊之間的權(quán)衡,我們的方法與baselines相當(dāng)或更好。?文章來源:http://www.zghlxwxcb.cn/news/detail-813987.html
五、Discussion
這篇論文的主要?jiǎng)?chuàng)新點(diǎn)在于它僅僅通過改變交叉注意力層的一小部分參數(shù)(K、V)以實(shí)現(xiàn)個(gè)性化微調(diào)Stable-Diffuison。相對(duì)于Dreambooth微調(diào)整個(gè)模型的做法而言,無疑是大大減小了訓(xùn)練時(shí)間以及微調(diào)后的權(quán)重模型(3GB——75MB),并且實(shí)現(xiàn)了多個(gè)概念的個(gè)性化微調(diào)。文章來源地址http://www.zghlxwxcb.cn/news/detail-813987.html
到了這里,關(guān)于Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!