目錄
一. 項目概述
問題:
解決:
二.?方法詳解
a) 整體結(jié)構(gòu)
b) 自主題注意力
三. 文本控制的動漫角色驅(qū)動圖像生成的結(jié)果
四. 文本控制的自然圖像驅(qū)動圖像生成的結(jié)果
五. 姿勢控制角色驅(qū)動圖像生成的結(jié)果
2023年的最后一天,發(fā)個文記錄下。馬上就要迎來新的一年,在這里預(yù)祝各位讀者新年新氣象!
今天要介紹的是字節(jié)的DreamTuner: Single Image is Enough for Subject-Driven Generation,可以通過單張圖像實現(xiàn)特定主題的驅(qū)動生成。
一. 項目概述
什么是主題驅(qū)動生成?使用一張或幾張參考圖像生成定制概念的個性化應(yīng)用。
問題:
-
現(xiàn)有的基于微調(diào)的方法需要在主題學(xué)習(xí)和維護(hù)預(yù)訓(xùn)練模型的生成能力之間進(jìn)行權(quán)衡,個人理解是模型特化和泛化的權(quán)衡。
-
基于附加圖像編碼器的其他方法往往由于編碼壓縮而丟失主題的一些重要細(xì)節(jié)。
解決:
文中提出了?DreamTurner,這是一種從粗到細(xì)注入定制主題的參考信息的新穎方法。
-
首先提出了一種用于粗略主題身份保留的主題編碼器,其中在視覺文本交叉注意之前通過附加注意層引入壓縮的一般主題特征。
-
然后,我們將預(yù)訓(xùn)練的文本到圖像模型中的self-attention修改為self-subject-attention層,以細(xì)化目標(biāo)主體的細(xì)節(jié)。值得強(qiáng)調(diào)的是,self-subject-attention是一種優(yōu)雅、有效、免訓(xùn)練的方法,用于維護(hù)定制概念的詳細(xì)特征,可以在推理過程中用作即插即用的解決方案。
-
最后,通過僅對單個圖像進(jìn)行額外的微調(diào),DreamTurner 在由文本或姿勢等其他條件控制的主題驅(qū)動圖像生成方面取得了卓越的性能。
二.?方法詳解
DreamTuner 作為一種基于微調(diào)和圖像編碼器的主題驅(qū)動圖像生成的新穎框架,它保持從粗到細(xì)的主題身份。
DreamTuner由三個階段組成:主題編碼器預(yù)訓(xùn)練、主題驅(qū)動微調(diào)和主題驅(qū)動推理。
-
首先,訓(xùn)練主題編碼器以進(jìn)行粗略的身份保留。主題編碼器是一種圖像編碼器,為生成模型提供壓縮圖像特征。凍結(jié)的 ControlNet 用于解耦內(nèi)容和布局。
-
然后我們在參考圖像和一些生成的常規(guī)圖像上微調(diào)整個模型,如 DreamBooth 中一樣。請注意,主題編碼器和自主題注意力用于常規(guī)圖像生成以細(xì)化常規(guī)數(shù)據(jù)。
-
在推理階段,通過微調(diào)獲得的主題編碼器、自身主題注意力和主題詞[S*]用于從粗到細(xì)地進(jìn)行主題身份保留。預(yù)訓(xùn)練的 ControlNet 還可用于布局控制生成。
a) 整體結(jié)構(gòu)
-
提出的主題編碼器作為一種圖像編碼器,為主題驅(qū)動生成提供粗略參考。使用凍結(jié)的 CLIP 圖像編碼器來提取參考圖像的壓縮特征。使用顯著對象檢測(SOD)模型或分割模型來去除輸入圖像的背景并強(qiáng)調(diào)主題。
-
然后引入一些殘差塊(ResBlock)進(jìn)行域移位。CLIP提取的多層特征在通道維度上cat操作,然后通過殘差塊調(diào)整到與生成特征相同的維度。使用附加的主題編碼器注意(SEA)層將主題編碼器的編碼參考特征注入到文本到圖像模型中。主題編碼器注意層添加在視覺文本交叉注意之前,因為交叉注意層是控制生成圖像的總體外觀的模塊。
-
根據(jù)與交叉注意力相同的設(shè)置構(gòu)建主題編碼器注意力,并將輸出層初始化為零。附加系數(shù)β引入來調(diào)整主題編碼器的影響。
-
此外,進(jìn)一步引入ControlNet來幫助解耦內(nèi)容和布局。具體來說,我們訓(xùn)練主題編碼器和凍結(jié)深度 ControlNet。由于ControlNet提供了參考圖像的布局,主題編碼器可以更加關(guān)注主題內(nèi)容。
b) 自主題注意力
-
由于主題編碼器為生成過程提供了特定主題的一般外觀,因此進(jìn)一步提出基于原始自注意力層的自主題注意力,以實現(xiàn)良好的主題身份保存。
-
將預(yù)訓(xùn)練的文本到圖像 U-Net 模型提取的參考圖像的特征注入到自注意力層中。
-
參考特征可以提供精細(xì)且詳細(xì)的參考,因為它們與生成圖像的特征共享相同的分辨率。具體來說,在每個時間步長通過擴(kuò)散前向過程對參考圖像進(jìn)行噪聲處理t。
-
然后從噪聲參考圖像中提取每個自注意力層之前的參考特征,這些特征與時間步長生成的圖像特征共享相同的數(shù)據(jù)分布。
-
利用參考特征將原始的自注意力層修改為自主題注意力層。將生成圖像的特征作為查詢,并將生成圖像特征和參考圖像特征的進(jìn)行cat操作作為鍵和值。
-
為了消除參考圖像背景的影響,使用顯著對象檢測(SOD)模型創(chuàng)建前景掩模,其中使用0和1來指示背景和前景。
-
此外,掩模還可以通過權(quán)重策略來調(diào)整參考圖像影響的大小,即掩模乘以調(diào)整系數(shù), 起到注意偏差的作用,因此使用對數(shù)函數(shù)作為預(yù)處理。
將原來的分類器免引導(dǎo)方法也修改為:
第一個方程強(qiáng)調(diào)參考圖像的引導(dǎo),第二個方程強(qiáng)調(diào)條件的引導(dǎo),用概率控制選擇第一個或者第二個的可能性。
三. 文本控制的動漫角色驅(qū)動圖像生成的結(jié)果
結(jié)果顯示了專注于動漫角色的文本控制的主題驅(qū)動圖像生成的輸出。
局部編輯結(jié)果(例如第一行的表達(dá)式編輯)和全局編輯結(jié)果(包括后續(xù)五行的場景和動作編輯),即使輸入復(fù)雜的文本也能產(chǎn)生高度詳細(xì)的圖像。值得注意的是,圖像準(zhǔn)確地保留了參考圖像的細(xì)節(jié)。
四. 文本控制的自然圖像驅(qū)動圖像生成的結(jié)果
該方法在 DreamBooth 數(shù)據(jù)集上進(jìn)行評估,其中每個主題的一張圖像用作參考圖像。通過使用主題編碼器和自我主題注意力,生成精確的參考。
這使得 DreamTuner 能夠成功生成與文本輸入一致的高保真圖像,同時還保留關(guān)鍵的主題細(xì)節(jié),包括但不限于、小狗頭上的白色條紋、包上的徽標(biāo)、罐頭上的圖案和文字。
五. 姿勢控制角色驅(qū)動圖像生成的結(jié)果
該方法可以與 ControlNet 相結(jié)合,將其適用性擴(kuò)展到各種條件,例如姿勢。在下面的示例中,僅使用一張圖像進(jìn)行 DreamTuner 微調(diào),并使用參考圖像的姿態(tài)作為參考條件。為了保證幀間的一致性,參考圖像和生成圖像的前一幀都用于自我注意力,參考權(quán)重分別為10和1。?
關(guān)注公眾號【AI杰克王】
1. 回復(fù)“資源”,獲取AIGC 博客教程,頂級大學(xué)PPT知識干貨;
2. 回復(fù)“星球”,獲取AIGC 免費知識星球入口,有前沿資深算法工程師分享討論。
歡迎加入AI杰克王的免費知識星球,海量干貨等著你,一起探討學(xué)習(xí)AIGC!文章來源:http://www.zghlxwxcb.cn/news/detail-770391.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-770391.html
到了這里,關(guān)于【AIGC-圖片生成視頻系列-4】DreamTuner:單張圖像足以進(jìn)行主題驅(qū)動生成的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!