国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<track id="c6rgi"></track>

Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start

2年前作者：中杯可樂多加冰分類：Toy博客閱讀(24)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

隨著文本到圖像擴(kuò)散模型的發(fā)展，很多模型已經(jīng)可以合成各種新的概念和場景。然而，它們?nèi)匀浑y以生成結(jié)構(gòu)化、不常見的概念、組合圖像。今年4月巴伊蘭大學(xué)和OriginAI發(fā)表《It’s all about where you start: Text-to-image generation with seed selection》一文，提出了一種SeedSelect技術(shù)，微調(diào)Diffusion Model來改進(jìn)該問題，獲得了不錯(cuò)的效果：

原文地址：https://arxiv.org/abs/2304.14530

Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start

一、原文摘要

文本到圖像的擴(kuò)散模型可以在新的組合和場景中綜合各種各樣的概念。然而，他們?nèi)匀缓茈y產(chǎn)生不尋常的概念，罕見的不尋常的組合，或者像手掌這樣的結(jié)構(gòu)化概念。它們的局限性部分是由于其訓(xùn)練數(shù)據(jù)的長尾特性:網(wǎng)絡(luò)抓取的數(shù)據(jù)集非常不平衡，導(dǎo)致模型對分布尾部的概念表示不足。在這里，我們描述了不平衡訓(xùn)練數(shù)據(jù)對文本到圖像模型的影響，并提供了補(bǔ)救措施。我們表明，通過在噪聲空間中仔細(xì)選擇合適的生成種子，我們將這種技術(shù)稱為SeedSelect，可以正確地生成稀有概念。

SeedSelect是高效的，不需要重新訓(xùn)練擴(kuò)散模型。我們評估了SeedSelect在一系列問題上的效益。首先，在少量語義數(shù)據(jù)增強(qiáng)中，我們?yōu)樯倭亢烷L尾基準(zhǔn)生成語義正確的圖像。我們從擴(kuò)散模型的訓(xùn)練數(shù)據(jù)的頭部和尾部顯示了所有類別的分類改進(jìn)。我們進(jìn)一步評估了SeedSelect在校正手的圖像上的效果，這是當(dāng)前擴(kuò)散模型的一個(gè)眾所周知的缺陷，結(jié)果表明它大大改善了手的生成。

二、為什么提出SeedSelect？

眾所周知，擴(kuò)散模型在文本-圖像生成方面無論是在視覺效果還是在指標(biāo)上面，均取得了令人驚訝的成果，但仍然在生成罕見的概念短語、結(jié)構(gòu)化的對象等結(jié)果上存在局限性。

例如，當(dāng)提示輸入“Pine-Warbler”(一種鳥類)時(shí)，“穩(wěn)定擴(kuò)散”系統(tǒng)會(huì)生成松樹球果的圖像。

深度學(xué)習(xí)中的長尾效應(yīng)：深度學(xué)習(xí)的長尾問題指的是在大規(guī)模數(shù)據(jù)集中，存在一些類別的樣本數(shù)量非常少，而大部分樣本都屬于少數(shù)幾個(gè)常見類別的情況。這些少數(shù)類別被稱為“長尾類別”，而大部分樣本屬于的常見類別則被稱為“頭部類別”。

數(shù)據(jù)分布的不平衡特性導(dǎo)致模型傾向于頭部類。深度學(xué)習(xí)模型在訓(xùn)練時(shí)通常會(huì)傾向于學(xué)習(xí)頭部類別，因?yàn)檫@些類別的樣本數(shù)量多，模型可以更好地學(xué)習(xí)它們的特征。而對于長尾類別，由于樣本數(shù)量少，模型很難學(xué)習(xí)到它們的特征，導(dǎo)致預(yù)測準(zhǔn)確率較低。

當(dāng)前擴(kuò)散模型的長尾效應(yīng)：同樣，擴(kuò)散模型對于初始隨機(jī)噪聲及其文本提示的輸入非常敏感。當(dāng)一個(gè)擴(kuò)散模型被訓(xùn)練為頻繁出現(xiàn)的概念（例如“一只狗”）時(shí)，訓(xùn)練過程中使用了大量的輸入空間學(xué)習(xí)將該空間映射到可行圖像的方法。相比之下，對于罕見概念，模型僅使用了少量輸入空間進(jìn)行訓(xùn)練。這就導(dǎo)致了擴(kuò)散模型的長尾效應(yīng)。

基于此問題，作者假設(shè)：如果仔細(xì)選擇噪聲，擴(kuò)散模型可以產(chǎn)生罕見的實(shí)例，而無需對模型進(jìn)行任何過多的微調(diào)。

Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start

在此假設(shè)上，作者開發(fā)了一種有效的方法SeedSelect，用于少量種子選擇，在初始噪聲分布中找到那些可以從期望的概念生成圖像的區(qū)域。

全文做出如下貢獻(xiàn)：

量化了文本到圖像擴(kuò)散模型如何無法生成罕見概念的圖像。
提出了一種新的方法SeedSelect，用于改進(jìn)擴(kuò)散模型中不常見概念的生成。它通過從幾個(gè)訓(xùn)練樣本中學(xué)習(xí)一代種子來運(yùn)行。
提出了一種有效的bootapping技術(shù)來加速SeedSelect圖像的生成。
在長尾學(xué)習(xí)和少量學(xué)習(xí)基準(zhǔn)上獲得了許多新的SoTA結(jié)果，包括細(xì)粒度基準(zhǔn)，比其他語義數(shù)據(jù)增強(qiáng)方法有所改進(jìn)。
最終實(shí)驗(yàn)結(jié)果表明SeedSelect比vanilla Stable Diffusion改進(jìn)了手掌等結(jié)構(gòu)化概念的生成。

三、Stable Diffusion基本原理

Stable Diffusion (SD)結(jié)構(gòu)圖如下圖所示。

紅色部分Pixel Space：訓(xùn)練編碼器E將給定圖像x映射到空間潛碼z = E(x)。隨后，解碼器D負(fù)責(zé)重建輸入圖像，使D(E(x))≈x，從而確保潛在表示準(zhǔn)確捕獲原始圖像。

綠色部分Latent Space：主體是一個(gè)去噪擴(kuò)散概率模型（DDPM），其對學(xué)習(xí)到的潛空間進(jìn)行操作，其在每個(gè)時(shí)間步長t產(chǎn)生一個(gè)去噪版本的輸入潛zt。在去噪過程中，擴(kuò)散模型可以以一個(gè)額外的輸入向量為條件。

白色部分：條件信息。在Stable Diffusion中，額外的條件輸入通常是由預(yù)訓(xùn)練的CLIP文本編碼器產(chǎn)生的文本編碼。給定條件提示y，條件向量記為c(y)。
Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start
損失函數(shù)為：
$\mathcal{L}=\mathbb{E}_{z \sim \mathcal{E}(x), y, \varepsilon \sim \mathcal{N}(0,1), t}\left[\left\|\varepsilon-\varepsilon_{\theta}\left(z_{t}, t, c(y)\right)\right\|_{2}^{2}\right]$

其中,z表示噪聲，zt表示噪聲的潛在編碼向量，c(y)表示條件編碼，t表示時(shí)間步長， $\varepsilon$ 是一個(gè)包含自注意力層和交叉注意力層的UNet網(wǎng)絡(luò)。

四、Few-shot Seed Selection

4.1、目標(biāo)

主要想法是使用少數(shù)訓(xùn)練圖像： $I^1$ 、 $I^2$ 、 $I^3$ … $I^n$ ，n為3~5,目標(biāo)是找到一個(gè)初始張量 $z^G_T$ ,其生成的圖像與訓(xùn)練圖像相似，這種一致包括語義一致性和表現(xiàn)一致性：

語義一致性： $\mathcal{L}_{S e m a n t i c}=\operatorname{dist}_{v}\left(\mu_{v}, v^{G}\right)$ ,其中 $\mu_{v}$ 為真實(shí)圖像集使用CLIP編碼后的質(zhì)心， $v^{G}$ 為生成圖像使用CLIP編碼后的特征，dist為歐幾里得距離。
表現(xiàn)一致性： $\mathcal{L}_{Appearance}=\operatorname{dist}_{z}\left(\mu_{z}, z^{G}_0\right)$ ,其中 $\mu_{z}$ 為真實(shí)圖像集使用VAE編碼后的質(zhì)心， $z^{G}$ 為生成圖像使用VAE編碼后的特征，dist為歐幾里得距離。

最終 $\mathcal{L}_{Total}=λ\mathcal{L}_{S e m a n t i c} + (1-λ)\mathcal{L}_{Appearancec}$

4.2、Seed Select

當(dāng)用頭部類訓(xùn)練時(shí)，模型學(xué)習(xí)將高斯分布的大部分映射到正確類的圖像中。然而，對于尾部類，模型只能為該分布的有限區(qū)域生成正確的類。

那么如果可以定位分布的這些區(qū)域，就仍然可以從尾部類生成圖像?；诖?，提出通過在噪聲空間中對種子進(jìn)行優(yōu)化來發(fā)現(xiàn)這些區(qū)域，從而提高與目標(biāo)稀有概念的一小組訓(xùn)練圖像的語義和外觀一致性。

Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start
方法這一小節(jié)，我感覺作者并沒有說的很清楚，下面是我結(jié)合圖像的一些理解，如有錯(cuò)誤，敬請指出：
如上圖所示，固定VAE編碼器、CLIP編碼器、DDPM主擴(kuò)散過程。選取部分罕見樣本圖像使用VAE和CLIP分別編碼，然后選取罕見樣本的文本c(y)作為輸入，然后使用初始噪聲生成圖像 $I^G$ ,然后將其與真實(shí)圖像編碼后的特征分別相比，利用語義損失和表現(xiàn)損失來微調(diào)，以找到合適的隨機(jī)種子 $z^G_T$ 。

4.3、提高選取速度和質(zhì)量

Contrasting classes：當(dāng)從一組C類生成圖像時(shí)，作者通過使用監(jiān)督對比損失進(jìn)一步提高訓(xùn)練收斂性和圖像質(zhì)量。這種損失發(fā)生在語義空間;它使語義向量vG更接近其類的質(zhì)心μcv，并使其遠(yuǎn)離其他類的質(zhì)心。更新后的語義損失為：

$\mathcal{L}_{\text {Semantic }}=-\log \frac{e^{-\operatorname{dist}\left(\mu_{v}^{c}, v^{G}\right)}}{\sum_{c^{\prime} \in C} e^{-\operatorname{dist}\left(\mu_{v}^{c^{\prime}, v^{G}}\right)}}$

穩(wěn)定訓(xùn)練：最后幾個(gè)去噪步驟往往能夠生成高質(zhì)量的圖像，為了加快收斂速度，作者計(jì)算了最后k步的所有圖像語義一致性損失： $\mathcal{L}_{\text {Semantic }}=\sum_{i=0}^{k} \mathcal{L}_{\text {Semantic }}^{i}$ ，通過實(shí)驗(yàn)，最終選取了最后2步，即k=2。

使用bootstrap加快速度：首先，使用較少的迭代次數(shù)找到完整訓(xùn)練集的最優(yōu)zGT。然后，使用自助法對訓(xùn)練圖像的子集進(jìn)行采樣，并為子集找到最優(yōu)的zGST，但是從zGT開始優(yōu)化并生成圖像。這個(gè)過程可以重復(fù)多次，以獲得多樣化的圖像集。這種方法的優(yōu)點(diǎn)是可以將單個(gè)圖像的優(yōu)化持續(xù)時(shí)間從幾分鐘縮短到幾秒鐘。

五、實(shí)驗(yàn)

5.1、數(shù)據(jù)集

作者在三個(gè)常見的幾次分類基準(zhǔn)上評估了SeedSelect:

CUB-200:由200種鳥類的11,788張圖像組成的細(xì)粒度數(shù)據(jù)集。200種數(shù)據(jù)被分成：100類作為訓(xùn)練集，50類作為驗(yàn)證集、50類作為測試集。
miniImageNet:源自標(biāo)準(zhǔn)ImageNet數(shù)據(jù)集，由50000張訓(xùn)練圖像和10000張測試圖像組成，均勻分布在所有100個(gè)類，其中64個(gè)類用于訓(xùn)練，16個(gè)類用于驗(yàn)證，20個(gè)類用于測試。
CIFAR-FS：從CIFAR-100數(shù)據(jù)集[33]中獲得，使用與miniImageNet采樣相同的標(biāo)準(zhǔn)。64個(gè)類用于元訓(xùn)練，16個(gè)類用于元驗(yàn)證，20個(gè)類用于元測試。每個(gè)類包含600個(gè)圖像。

5.2、定量結(jié)果

Few-shot識別：
Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start
長尾分析：

主觀評價(jià)（基于手掌）：
Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start

5.3、視覺效果

Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start

六、討論

盡管現(xiàn)代文本到圖像生成模型非常強(qiáng)大，但其仍然存在一些缺點(diǎn)。特別是當(dāng)擴(kuò)散模型的訓(xùn)練集中頻繁出現(xiàn)一個(gè)密切相關(guān)的概念時(shí)，它們往往會(huì)產(chǎn)生不正確的圖像。

SeedSelect方法通過在噪聲空間中仔細(xì)選擇合適的生成種子進(jìn)行微調(diào)，可以正確地生成稀有概念，準(zhǔn)確意義上來講，其主要在于微調(diào)Diffusion Model的種子選擇機(jī)制，通過有效選擇一個(gè)生成種子，驅(qū)動(dòng)擴(kuò)散模型生成語義一致性強(qiáng)、視覺效果好的合理圖像。

但其仍然存在以下局限：

很難模仿訓(xùn)練圖像的風(fēng)格；
優(yōu)化的zT是特定于提示符的，不會(huì)直接泛化到其他提示符；
仍然不能為非常罕見的概念生成圖像

?? 最后

我們已經(jīng)建立了??T2I研學(xué)社群，如果你還有其他疑問或者對??文本生成圖像很感興趣，可以私信我加入社群。

?? 加入社群抱團(tuán)學(xué)習(xí)：中杯可樂多加冰-深度學(xué)習(xí)T2I研習(xí)群

?? 限時(shí)免費(fèi)訂閱：文本生成圖像T2I專欄

?? 支持我：點(diǎn)贊??+收藏??+留言??文章來源地址http://www.zghlxwxcb.cn/news/detail-468345.html

到了這里，關(guān)于Text to image論文精讀SeedSelect: 使用SeedSelect微調(diào)擴(kuò)散模型It’s all about where you start的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Text2Video-Zero:Text-to-Image擴(kuò)散模型是Zero-Shot視頻生成器
Paper: https://arxiv.org/abs/2303.13439 Project: https://github.com/Picsart-AI-Research/Text2Video-Zero 原文鏈接：Text2Video-Zero:Text-to-Image擴(kuò)散模型是Zero-Shot視頻生成器（by 小樣本視覺與智能前沿）目錄最近的text-to-video生成方法依賴于計(jì)算量大的訓(xùn)練，并且需要大規(guī)模的視頻數(shù)據(jù)集。在本文中，我
2024年02月11日
瀏覽(44)
Adding Conditional Control to Text-to-Image Diffusion Models——【論文筆記】
本文發(fā)表于ICCV2023? 論文地址：ICCV 2023 Open Access Repository (thecvf.com) 官方實(shí)現(xiàn)代碼：lllyasviel/ControlNet: Let us control diffusion models! (github.com)? 論文提出了一種神經(jīng)網(wǎng)絡(luò)架構(gòu)ControlNet,可以將空間條件控制添加到大型的預(yù)訓(xùn)練文本到圖像擴(kuò)散模型中。ControlNet將預(yù)訓(xùn)練好的大型擴(kuò)散模型
2024年02月01日
瀏覽(21)
【論文筆記】SINE: SINgle Image Editing with Text-to-Image Diffusion Models
聲明不定期更新自己精度論文，通俗易懂，初級小白也可以理解涉及范圍：深度學(xué)習(xí)方向，包括 CV、NLP 論文標(biāo)題：SINE: SINgle Image Editing with Text-to-Image Diffusion Models 論文鏈接： https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00
2024年02月13日
瀏覽(23)
[論文精讀] 使用擴(kuò)散模型生成真實(shí)感視頻 - 【李飛飛團(tuán)隊(duì)新作，文生視頻新基準(zhǔn)】
論文導(dǎo)讀: 論文背景:2023年12月11日，AI科學(xué)家李飛飛團(tuán)隊(duì)與谷歌合作，推出了視頻生成模型W.A.L.T（Window Attention Latent Transformer）——一個(gè)在共享潛在空間中訓(xùn)練圖像和視頻生成的、基于Transformer架構(gòu)的擴(kuò)散模型。李飛飛是華裔女科學(xué)家、世界頂尖的AI專家，現(xiàn)為美國國家工程院
2024年02月03日
瀏覽(33)
【論文解讀】(如何微調(diào)BERT？) How to Fine-Tune BERT for Text Classification?
論文地址：https://arxiv.org/pdf/1905.05583.pdf 論文年份：2019年05月論文代碼: https://github.com/xuyige/BERT4doc-Classification 論文引用量：1191 （截止2023-04-28）論文閱讀前提：熟悉NLP、深度學(xué)習(xí)、Transformer、BERT、多任務(wù)學(xué)習(xí)等。現(xiàn)在NLP任務(wù)方式大多都是對BERT進(jìn)行微調(diào)。例如：我們要做一個(gè)
2024年02月07日
瀏覽(24)
Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】
本文發(fā)表于CVPR 2023 論文地址：CVPR 2023 Open Access Repository (thecvf.com) Github官方代碼地址：?github.com 最近的文本到圖像模型能夠根據(jù)文本提示生成高質(zhì)量的圖像，可以覆蓋廣泛的物體、風(fēng)格和場景。盡管這些模型具有多樣的通用功能，但用戶通常希望從他們自己的個(gè)人生活中綜合
2024年01月22日
瀏覽(53)
AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
代碼：lllyasviel/ControlNet: Let us control diffusion models! (github.com) 論文地址最近AI繪畫又雙叒叕進(jìn)化了，前一次還只能生成二次元，這次三次元都能生成了。這次AI繪畫這么火爆的原因跟下面這篇文章脫不開關(guān)系，它將AI繪畫帶到了一個(gè)新的高度。我們提出了一個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)cont
2024年02月11日
瀏覽(23)
論文精讀：《BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective 》
本文工作：提出了一種具有透視監(jiān)督（perspective supervision）的新型鳥瞰(BEV)檢測器，該檢測器收斂速度更快，更適合現(xiàn)代圖像骨干。現(xiàn)有的最先進(jìn)的BEV檢測器通常與VovNet等特定深度預(yù)訓(xùn)練的主干相連，阻礙了蓬勃發(fā)展的圖像主干和BEV檢測器之間的協(xié)同作用。為了解決這一限制
2024年02月04日
瀏覽(20)
LLM微調(diào)（四）| 微調(diào)Llama 2實(shí)現(xiàn)Text-to-SQL，并使用LlamaIndex在數(shù)據(jù)庫上進(jìn)行推理
? ? ? ? Llama 2是開源LLM發(fā)展的一個(gè)巨大里程碑。最大模型及其經(jīng)過微調(diào)的變體位居Hugging Face Open LLM排行榜（https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard）前列。多個(gè)基準(zhǔn)測試表明，就性能而言，它正在接近GPT-3.5（在某些情況下甚至超過它）。所有這些都意味著，對于從
2024年02月03日
瀏覽(17)
【圖像拼接】論文精讀：Image Stitching Based on Semantic Planar Region Consensus（PRCS）
第一次來請先看這篇文章：【圖像拼接（Image Stitching）】關(guān)于【圖像拼接論文精讀】專欄的相關(guān)說明，包含專欄使用說明、創(chuàng)新思路分享等（不定期更新） Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half
2024年02月03日
瀏覽(22)

<ruby id="91f96"></ruby>