隨著文本到圖像擴(kuò)散模型的發(fā)展,很多模型已經(jīng)可以合成各種新的概念和場景。然而,它們?nèi)匀浑y以生成結(jié)構(gòu)化、不常見的概念、組合圖像。今年4月巴伊蘭大學(xué)和OriginAI發(fā)表《It’s all about where you start: Text-to-image generation with seed selection》一文,提出了一種SeedSelect技術(shù),微調(diào)Diffusion Model來改進(jìn)該問題,獲得了不錯(cuò)的效果:
原文地址:https://arxiv.org/abs/2304.14530
一、原文摘要
文本到圖像的擴(kuò)散模型可以在新的組合和場景中綜合各種各樣的概念。然而,他們?nèi)匀缓茈y產(chǎn)生不尋常的概念,罕見的不尋常的組合,或者像手掌這樣的結(jié)構(gòu)化概念。它們的局限性部分是由于其訓(xùn)練數(shù)據(jù)的長尾特性:網(wǎng)絡(luò)抓取的數(shù)據(jù)集非常不平衡,導(dǎo)致模型對分布尾部的概念表示不足。在這里,我們描述了不平衡訓(xùn)練數(shù)據(jù)對文本到圖像模型的影響,并提供了補(bǔ)救措施。我們表明,通過在噪聲空間中仔細(xì)選擇合適的生成種子,我們將這種技術(shù)稱為SeedSelect,可以正確地生成稀有概念。
SeedSelect是高效的,不需要重新訓(xùn)練擴(kuò)散模型。我們評估了SeedSelect在一系列問題上的效益。首先,在少量語義數(shù)據(jù)增強(qiáng)中,我們?yōu)樯倭亢烷L尾基準(zhǔn)生成語義正確的圖像。我們從擴(kuò)散模型的訓(xùn)練數(shù)據(jù)的頭部和尾部顯示了所有類別的分類改進(jìn)。我們進(jìn)一步評估了SeedSelect在校正手的圖像上的效果,這是當(dāng)前擴(kuò)散模型的一個(gè)眾所周知的缺陷,結(jié)果表明它大大改善了手的生成。
二、為什么提出SeedSelect?
眾所周知,擴(kuò)散模型在文本-圖像生成方面無論是在視覺效果還是在指標(biāo)上面,均取得了令人驚訝的成果,但仍然在生成罕見的概念短語、結(jié)構(gòu)化的對象等結(jié)果上存在局限性。
例如,當(dāng)提示輸入“Pine-Warbler”(一種鳥類)時(shí),“穩(wěn)定擴(kuò)散”系統(tǒng)會(huì)生成松樹球果的圖像。
深度學(xué)習(xí)中的長尾效應(yīng)
:深度學(xué)習(xí)的長尾問題指的是在大規(guī)模數(shù)據(jù)集中,存在一些類別的樣本數(shù)量非常少,而大部分樣本都屬于少數(shù)幾個(gè)常見類別的情況。這些少數(shù)類別被稱為“長尾類別”,而大部分樣本屬于的常見類別則被稱為“頭部類別”。
數(shù)據(jù)分布的不平衡特性導(dǎo)致模型傾向于頭部類。深度學(xué)習(xí)模型在訓(xùn)練時(shí)通常會(huì)傾向于學(xué)習(xí)頭部類別,因?yàn)檫@些類別的樣本數(shù)量多,模型可以更好地學(xué)習(xí)它們的特征。而對于長尾類別,由于樣本數(shù)量少,模型很難學(xué)習(xí)到它們的特征,導(dǎo)致預(yù)測準(zhǔn)確率較低。
當(dāng)前擴(kuò)散模型的長尾效應(yīng)
:同樣,擴(kuò)散模型對于初始隨機(jī)噪聲及其文本提示的輸入非常敏感。當(dāng)一個(gè)擴(kuò)散模型被訓(xùn)練為頻繁出現(xiàn)的概念(例如“一只狗”)時(shí),訓(xùn)練過程中使用了大量的輸入空間學(xué)習(xí)將該空間映射到可行圖像的方法。相比之下,對于罕見概念,模型僅使用了少量輸入空間進(jìn)行訓(xùn)練。這就導(dǎo)致了擴(kuò)散模型的長尾效應(yīng)。
基于此問題,作者假設(shè):如果仔細(xì)選擇噪聲,擴(kuò)散模型可以產(chǎn)生罕見的實(shí)例,而無需對模型進(jìn)行任何過多的微調(diào)。
在此假設(shè)上,作者開發(fā)了一種有效的方法SeedSelect,用于少量種子選擇,在初始噪聲分布中找到那些可以從期望的概念生成圖像的區(qū)域。
全文做出如下貢獻(xiàn):
- 量化了文本到圖像擴(kuò)散模型如何無法生成罕見概念的圖像。
- 提出了一種新的方法SeedSelect,用于改進(jìn)擴(kuò)散模型中不常見概念的生成。它通過從幾個(gè)訓(xùn)練樣本中學(xué)習(xí)一代種子來運(yùn)行。
- 提出了一種有效的bootapping技術(shù)來加速SeedSelect圖像的生成。
- 在長尾學(xué)習(xí)和少量學(xué)習(xí)基準(zhǔn)上獲得了許多新的SoTA結(jié)果,包括細(xì)粒度基準(zhǔn),比其他語義數(shù)據(jù)增強(qiáng)方法有所改進(jìn)。
- 最終實(shí)驗(yàn)結(jié)果表明SeedSelect比vanilla Stable Diffusion改進(jìn)了手掌等結(jié)構(gòu)化概念的生成。
三、Stable Diffusion基本原理
Stable Diffusion (SD)結(jié)構(gòu)圖如下圖所示。
紅色部分Pixel Space:訓(xùn)練編碼器E將給定圖像x映射到空間潛碼z = E(x)。隨后,解碼器D負(fù)責(zé)重建輸入圖像,使D(E(x))≈x,從而確保潛在表示準(zhǔn)確捕獲原始圖像。
綠色部分Latent Space:主體是一個(gè)去噪擴(kuò)散概率模型(DDPM),其對學(xué)習(xí)到的潛空間進(jìn)行操作,其在每個(gè)時(shí)間步長t產(chǎn)生一個(gè)去噪版本的輸入潛zt。在去噪過程中,擴(kuò)散模型可以以一個(gè)額外的輸入向量為條件。
白色部分:條件信息。在Stable Diffusion中,額外的條件輸入通常是由預(yù)訓(xùn)練的CLIP文本編碼器產(chǎn)生的文本編碼。給定條件提示y,條件向量記為c(y)。
損失函數(shù)為:
L
=
E
z
~
E
(
x
)
,
y
,
ε
~
N
(
0
,
1
)
,
t
[
∥
ε
?
ε
θ
(
z
t
,
t
,
c
(
y
)
)
∥
2
2
]
\mathcal{L}=\mathbb{E}_{z \sim \mathcal{E}(x), y, \varepsilon \sim \mathcal{N}(0,1), t}\left[\left\|\varepsilon-\varepsilon_{\theta}\left(z_{t}, t, c(y)\right)\right\|_{2}^{2}\right]
L=Ez~E(x),y,ε~N(0,1),t?[∥ε?εθ?(zt?,t,c(y))∥22?]
其中,z表示噪聲,zt表示噪聲的潛在編碼向量,c(y)表示條件編碼,t表示時(shí)間步長, ε \varepsilon ε是一個(gè)包含自注意力層和交叉注意力層的UNet網(wǎng)絡(luò)。
四、Few-shot Seed Selection
4.1、目標(biāo)
主要想法是使用少數(shù)訓(xùn)練圖像: I 1 I^1 I1、 I 2 I^2 I2、 I 3 I^3 I3… I n I^n In,n為3~5,目標(biāo)是找到一個(gè)初始張量 z T G z^G_T zTG?,其生成的圖像與訓(xùn)練圖像相似,這種一致包括語義一致性和表現(xiàn)一致性:
- 語義一致性: L S e m a n t i c = dist ? v ( μ v , v G ) \mathcal{L}_{S e m a n t i c}=\operatorname{dist}_{v}\left(\mu_{v}, v^{G}\right) LSemantic?=distv?(μv?,vG),其中 μ v \mu_{v} μv?為真實(shí)圖像集使用CLIP編碼后的質(zhì)心, v G v^{G} vG為生成圖像使用CLIP編碼后的特征,dist為歐幾里得距離。
- 表現(xiàn)一致性: L A p p e a r a n c e = dist ? z ( μ z , z 0 G ) \mathcal{L}_{Appearance}=\operatorname{dist}_{z}\left(\mu_{z}, z^{G}_0\right) LAppearance?=distz?(μz?,z0G?),其中 μ z \mu_{z} μz?為真實(shí)圖像集使用VAE編碼后的質(zhì)心, z G z^{G} zG為生成圖像使用VAE編碼后的特征,dist為歐幾里得距離。
最終 L T o t a l = λ L S e m a n t i c + ( 1 ? λ ) L A p p e a r a n c e c \mathcal{L}_{Total}=λ\mathcal{L}_{S e m a n t i c} + (1-λ)\mathcal{L}_{Appearancec} LTotal?=λLSemantic?+(1?λ)LAppearancec?
4.2、Seed Select
當(dāng)用頭部類訓(xùn)練時(shí),模型學(xué)習(xí)將高斯分布的大部分映射到正確類的圖像中。然而,對于尾部類,模型只能為該分布的有限區(qū)域生成正確的類。
那么如果可以定位分布的這些區(qū)域,就仍然可以從尾部類生成圖像?;诖?,提出通過在噪聲空間中對種子進(jìn)行優(yōu)化來發(fā)現(xiàn)這些區(qū)域,從而提高與目標(biāo)稀有概念的一小組訓(xùn)練圖像的語義和外觀一致性。
方法這一小節(jié),我感覺作者并沒有說的很清楚,下面是我結(jié)合圖像的一些理解,如有錯(cuò)誤,敬請指出:
如上圖所示,固定VAE編碼器、CLIP編碼器、DDPM主擴(kuò)散過程。選取部分罕見樣本圖像使用VAE和CLIP分別編碼,然后選取罕見樣本的文本c(y)作為輸入,然后使用初始噪聲生成圖像
I
G
I^G
IG,然后將其與真實(shí)圖像編碼后的特征分別相比,利用語義損失和表現(xiàn)損失來微調(diào),以找到合適的隨機(jī)種子
z
T
G
z^G_T
zTG?。
4.3、提高選取速度和質(zhì)量
Contrasting classes:當(dāng)從一組C類生成圖像時(shí),作者通過使用監(jiān)督對比損失進(jìn)一步提高訓(xùn)練收斂性和圖像質(zhì)量。這種損失發(fā)生在語義空間;它使語義向量vG更接近其類的質(zhì)心μcv,并使其遠(yuǎn)離其他類的質(zhì)心。更新后的語義損失為:
L Semantic? = ? log ? e ? dist ? ( μ v c , v G ) ∑ c ′ ∈ C e ? dist ? ( μ v c ′ , v G ) \mathcal{L}_{\text {Semantic }}=-\log \frac{e^{-\operatorname{dist}\left(\mu_{v}^{c}, v^{G}\right)}}{\sum_{c^{\prime} \in C} e^{-\operatorname{dist}\left(\mu_{v}^{c^{\prime}, v^{G}}\right)}} LSemantic??=?log∑c′∈C?e?dist(μvc′,vG?)e?dist(μvc?,vG)?
穩(wěn)定訓(xùn)練:最后幾個(gè)去噪步驟往往能夠生成高質(zhì)量的圖像,為了加快收斂速度,作者計(jì)算了最后k步的所有圖像語義一致性損失: L Semantic? = ∑ i = 0 k L Semantic? i \mathcal{L}_{\text {Semantic }}=\sum_{i=0}^{k} \mathcal{L}_{\text {Semantic }}^{i} LSemantic??=∑i=0k?LSemantic?i?,通過實(shí)驗(yàn),最終選取了最后2步,即k=2。
使用bootstrap加快速度:首先,使用較少的迭代次數(shù)找到完整訓(xùn)練集的最優(yōu)zGT。然后,使用自助法對訓(xùn)練圖像的子集進(jìn)行采樣,并為子集找到最優(yōu)的zGST,但是從zGT開始優(yōu)化并生成圖像。這個(gè)過程可以重復(fù)多次,以獲得多樣化的圖像集。這種方法的優(yōu)點(diǎn)是可以將單個(gè)圖像的優(yōu)化持續(xù)時(shí)間從幾分鐘縮短到幾秒鐘。
五、實(shí)驗(yàn)
5.1、數(shù)據(jù)集
作者在三個(gè)常見的幾次分類基準(zhǔn)上評估了SeedSelect:
- CUB-200:由200種鳥類的11,788張圖像組成的細(xì)粒度數(shù)據(jù)集。200種數(shù)據(jù)被分成:100類作為訓(xùn)練集,50類作為驗(yàn)證集、50類作為測試集。
- miniImageNet:源自標(biāo)準(zhǔn)ImageNet數(shù)據(jù)集,由50000張訓(xùn)練圖像和10000張測試圖像組成,均勻分布在所有100個(gè)類,其中64個(gè)類用于訓(xùn)練,16個(gè)類用于驗(yàn)證,20個(gè)類用于測試。
- CIFAR-FS:從CIFAR-100數(shù)據(jù)集[33]中獲得,使用與miniImageNet采樣相同的標(biāo)準(zhǔn)。64個(gè)類用于元訓(xùn)練,16個(gè)類用于元驗(yàn)證,20個(gè)類用于元測試。每個(gè)類包含600個(gè)圖像。
5.2、定量結(jié)果
Few-shot識別:
長尾分析:
主觀評價(jià)(基于手掌):
5.3、視覺效果
六、討論
盡管現(xiàn)代文本到圖像生成模型非常強(qiáng)大,但其仍然存在一些缺點(diǎn)。特別是當(dāng)擴(kuò)散模型的訓(xùn)練集中頻繁出現(xiàn)一個(gè)密切相關(guān)的概念時(shí),它們往往會(huì)產(chǎn)生不正確的圖像。
SeedSelect方法通過在噪聲空間中仔細(xì)選擇合適的生成種子進(jìn)行微調(diào),可以正確地生成稀有概念,準(zhǔn)確意義上來講,其主要在于微調(diào)Diffusion Model的種子選擇機(jī)制,通過有效選擇一個(gè)生成種子,驅(qū)動(dòng)擴(kuò)散模型生成語義一致性強(qiáng)、視覺效果好的合理圖像。
但其仍然存在以下局限:
- 很難模仿訓(xùn)練圖像的風(fēng)格;
- 優(yōu)化的zT是特定于提示符的,不會(huì)直接泛化到其他提示符;
- 仍然不能為非常罕見的概念生成圖像
?? 最后
我們已經(jīng)建立了??T2I研學(xué)社群,如果你還有其他疑問或者對??文本生成圖像很感興趣,可以私信我加入社群。
?? 加入社群 抱團(tuán)學(xué)習(xí):中杯可樂多加冰-深度學(xué)習(xí)T2I研習(xí)群
?? 限時(shí)免費(fèi)訂閱:文本生成圖像T2I專欄文章來源:http://www.zghlxwxcb.cn/news/detail-468345.html
?? 支持我:點(diǎn)贊??+收藏??+留言??文章來源地址http://www.zghlxwxcb.cn/news/detail-468345.html
到了這里,關(guān)于Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!