国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】

這篇具有很好參考價(jià)值的文章主要介紹了Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

本文發(fā)表于CVPR 2023

論文地址:CVPR 2023 Open Access Repository (thecvf.com)

Github官方代碼地址:?github.com

Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】,論文筆記,論文閱讀,人工智能,stable diffusion,圖像處理,深度學(xué)習(xí)

?一、Intorduction

最近的文本到圖像模型能夠根據(jù)文本提示生成高質(zhì)量的圖像,可以覆蓋廣泛的物體、風(fēng)格和場(chǎng)景。盡管這些模型具有多樣的通用功能,但用戶通常希望從他們自己的個(gè)人生活中綜合特定的概念。例如,親人,如家人,朋友,寵物,或個(gè)人物品和地方,如新沙發(fā)或最近參觀的花園,都是有趣的概念。用戶往往希望生成與個(gè)人生活緊密相關(guān)的內(nèi)容,而這些通常不會(huì)出現(xiàn)在大規(guī)模訓(xùn)練數(shù)據(jù)中。

所以產(chǎn)生了對(duì)模型進(jìn)行定制化的需求,當(dāng)前個(gè)性化模型主要存在以下一些挑戰(zhàn):

  • 遺忘問題: 微調(diào)模型時(shí),存在著它可能會(huì)忘記或改變已有知識(shí)的風(fēng)險(xiǎn)。

  • 過擬合問題: 由于訓(xùn)練樣本的數(shù)量有限,模型可能會(huì)過擬合這些樣本,并導(dǎo)致生成的內(nèi)容缺乏多樣性。

  • 復(fù)合微調(diào): 如何將多個(gè)新概念融入模型,以便可以自由組合它們,比如在圖像中合成“月門”前的寵物狗。

本文提出了一種微調(diào)擴(kuò)散模型的方法,自定義擴(kuò)散的文本到圖像的擴(kuò)散模型。此方法在計(jì)算和存儲(chǔ)效率上都進(jìn)行了優(yōu)化。為了克服上述挑戰(zhàn),我們確定了模型權(quán)重的一個(gè)小子集,即從文本到交叉注意層中潛在特征的鍵和值映射。微調(diào)這些就足以用新概念更新模型。為了防止模型遺忘,我們使用一小組具有相似字幕的真實(shí)的圖像作為目標(biāo)圖像。我們還在微調(diào)過程中引入了增強(qiáng),這導(dǎo)致了更快的收斂和更好的結(jié)果。為了注入多個(gè)概念,我們的方法支持同時(shí)訓(xùn)練兩者,或者分別訓(xùn)練它們,然后合并。

二、Related Work

深度生成模型:

主流的生成模型包括GAN(生成對(duì)抗網(wǎng)絡(luò)),VAE(變分自編碼器),自回歸模型,基于流量的模型和擴(kuò)散模型。這些模型可以以不同類型的條件作為輸入,如類別標(biāo)簽,圖像或文本提示,以增強(qiáng)生成結(jié)果的可控性。

文本條件合成:

之前的研究?jī)H局限于有限的類別。最近的模型在超大規(guī)模數(shù)據(jù)上訓(xùn)練,顯示出了顯著的泛化能力,但在對(duì)特定實(shí)例(如個(gè)人玩具或稀有類別)的生成上仍有限。

圖像編輯和模型微調(diào):

用戶常常希望編輯特定的單個(gè)圖像,而不是隨機(jī)生成新圖像。與預(yù)訓(xùn)練模型的表示編輯相關(guān)的挑戰(zhàn)在于:如何通過逐圖像或逐編輯優(yōu)化來實(shí)現(xiàn)。

遷移學(xué)習(xí):

預(yù)訓(xùn)練模型可以通過遷移學(xué)習(xí)適應(yīng)新的數(shù)據(jù)分布,有研究專注于將模型從一個(gè)域調(diào)整到另一個(gè)域,但這常常導(dǎo)致原有概念的災(zāi)難性遺忘。

調(diào)整文本到圖像模型的特點(diǎn):

與類似的工作(如DreamBooth和Textual Inversion)相比,本研究關(guān)注在不遺忘既有概念的情況下微調(diào)模型以獲取多個(gè)新概念。并且本研究只微調(diào)交叉注意層參數(shù)的一個(gè)子集,減少了微調(diào)所需時(shí)間。

我們提出了一種面對(duì)多個(gè)概念組合微調(diào)的挑戰(zhàn)性場(chǎng)景的解決方案,實(shí)現(xiàn)了減少微調(diào)參數(shù)數(shù)量,從而加快微調(diào)過程,通過自動(dòng)度量和人類偏好研究驗(yàn)證了所提方法的效果。

三、Method

給定一個(gè)預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型,我們的目標(biāo)是在模型中嵌入一個(gè)新的概念,只要給出四張圖像和相應(yīng)的文本描述。微調(diào)后的模型應(yīng)該保留其先驗(yàn)知識(shí),允許基于文本提示的新概念的新一代,這篇文章主要還是在Stable-Diffusion的基礎(chǔ)上進(jìn)行微調(diào)的,關(guān)于Stable-Diffusion這里就不過多介紹。

我們提出的模型微調(diào)方法,如下圖所示,只更新模型交叉注意層中的一小部分權(quán)重。此外,我們使用一個(gè)正則化集的真實(shí)的圖像,以防止過度擬合的目標(biāo)概念的幾個(gè)訓(xùn)練樣本。

Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】,論文筆記,論文閱讀,人工智能,stable diffusion,圖像處理,深度學(xué)習(xí)

權(quán)重的變化率

作者通過分析目標(biāo)數(shù)據(jù)集上的微調(diào)模型中每一層的參數(shù)變化,發(fā)現(xiàn)更新的參數(shù)主要來源于以下三類:

這些參數(shù)來自三種類型的層-(1)交叉注意(文本和圖像之間),(2)自我注意(圖像本身),以及(3)其余參數(shù),包括擴(kuò)散模型U-Net中的卷積塊和歸一化層。

正如我們所看到的,交叉注意層參數(shù)與其他參數(shù)相比具有相對(duì)較高的Δ。此外,交叉注意層僅占模型中總參數(shù)計(jì)數(shù)的5%。這表明它在微調(diào)過程中起著重要作用,我們?cè)谖覀兊姆椒ㄖ欣昧诉@一點(diǎn)。

Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】,論文筆記,論文閱讀,人工智能,stable diffusion,圖像處理,深度學(xué)習(xí)

?模型微調(diào):

交叉注意塊根據(jù)條件特征修改網(wǎng)絡(luò)的潛在特征,即,在文本到圖像擴(kuò)散模型的情況下的文本特征。給定文本特征c和潛在圖像特征f,Q=Wqf,K=Wkc,V=Wvc。

其中Wq、Wk和Wv分別將輸入映射到查詢、鍵和值特征,d是鍵和查詢特征的輸出維度。潛在特征然后用注意力塊輸出更新。微調(diào)的任務(wù)是更新從給定的文本到圖像分布的映射,文本特征僅輸入到交叉注意塊中的Wk和Wv投影矩陣。因此,我們建議在微調(diào)過程中僅更新擴(kuò)散模型的Wk和Wv參數(shù)。

Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】,論文筆記,論文閱讀,人工智能,stable diffusion,圖像處理,深度學(xué)習(xí)

Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】,論文筆記,論文閱讀,人工智能,stable diffusion,圖像處理,深度學(xué)習(xí)

?

多概念組合微調(diào)

其實(shí)實(shí)現(xiàn)多個(gè)概念組合微調(diào)的基本原理和單個(gè)沒有太大區(qū)別。為了對(duì)多個(gè)概念進(jìn)行微調(diào),我們將每個(gè)概念的訓(xùn)練數(shù)據(jù)集組合起來,并使用我們的方法聯(lián)合訓(xùn)練它們。為了表示目標(biāo)概念,我們使用不同的修飾符標(biāo)記V_i,用不同的罕見標(biāo)記初始化,并使用每層的交叉注意鍵和值矩陣沿著對(duì)其進(jìn)行優(yōu)化。

四、Experiments

數(shù)據(jù)集: 我們?cè)谑畟€(gè)目標(biāo)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),這些數(shù)據(jù)集涵蓋了各種類別和不同的訓(xùn)練樣本。它由兩個(gè)場(chǎng)景類別、兩個(gè)寵物和六個(gè)對(duì)象組成。

評(píng)價(jià)指標(biāo):

(1)Image-alignment(圖像對(duì)齊),即,使用CLIP圖像特征空間中的相似性,生成的圖像與目標(biāo)概念的視覺相似。

(2)Text-alignment,使用CLIP特征空間中的文本-圖像相似性,生成的圖像與給定提示的文本對(duì)齊。

(3)KID ,用于從LAION-400 M檢索的類似概念的500幅真實(shí)的圖像的驗(yàn)證集,以測(cè)量目標(biāo)概念上的過擬合(例如,在一個(gè)實(shí)施例中,V dog)和忘記現(xiàn)有的相關(guān)概念(例如,狗)。

? (4)人類偏好研究。

與Dreambooth、Textual Inversion進(jìn)行比較:

單一概念微調(diào):

Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】,論文筆記,論文閱讀,人工智能,stable diffusion,圖像處理,深度學(xué)習(xí)

論文中提到:第一行:代表水彩畫藝術(shù)風(fēng)格的概念。我們的方法還可以在背景中生成山脈,DreamBooth和Textual Inversion忽略了這些山脈。第二行:改變背景場(chǎng)景。我們的方法和DreamBooth執(zhí)行類似,比文本反轉(zhuǎn)更好。第三行:添加另一個(gè)對(duì)象,例如,一張帶目標(biāo)桌子的橙子沙發(fā)我們的方法成功地添加了另一個(gè)對(duì)象。我們?cè)谖覀兊木W(wǎng)站上展示更多的樣品。

多概念微調(diào):

Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】,論文筆記,論文閱讀,人工智能,stable diffusion,圖像處理,深度學(xué)習(xí)

論文中提到:第一行:我們的方法在遵循文本條件的同時(shí)與個(gè)人貓和椅子具有更高的視覺相似性。第二行:DreamBooth有時(shí)會(huì)忽略貓,而我們的方法會(huì)同時(shí)生成貓和木盆。第三行:我們的方法更好地保持了與目標(biāo)圖像的視覺相似性。第四排:目標(biāo)桌子和椅子一起在花園里。

如此相比之下,相對(duì)于Dreambooth、Textual Inversion而言,論文所提出的方法是相對(duì)優(yōu)異的。

Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】,論文筆記,論文閱讀,人工智能,stable diffusion,圖像處理,深度學(xué)習(xí)

Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】,論文筆記,論文閱讀,人工智能,stable diffusion,圖像處理,深度學(xué)習(xí)?

上圖是基于文本和圖像對(duì)齊所作的比較,左邊的圖是單個(gè)概念微調(diào),右邊則是多個(gè)概念的微調(diào)。與其他方法相比,論文所提的方法位于更沿著右上角(方差較小)??紤]到圖像對(duì)齊與文本對(duì)齊之間的權(quán)衡,我們的方法與baselines相當(dāng)或更好。?

五、Discussion

這篇論文的主要?jiǎng)?chuàng)新點(diǎn)在于它僅僅通過改變交叉注意力層的一小部分參數(shù)(K、V)以實(shí)現(xiàn)個(gè)性化微調(diào)Stable-Diffuison。相對(duì)于Dreambooth微調(diào)整個(gè)模型的做法而言,無疑是大大減小了訓(xùn)練時(shí)間以及微調(diào)后的權(quán)重模型(3GB——75MB),并且實(shí)現(xiàn)了多個(gè)概念的個(gè)性化微調(diào)。文章來源地址http://www.zghlxwxcb.cn/news/detail-813987.html

到了這里,關(guān)于Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Adding Conditional Control to Text-to-Image Diffusion Models——【論文筆記】

    Adding Conditional Control to Text-to-Image Diffusion Models——【論文筆記】

    本文發(fā)表于ICCV2023? 論文地址:ICCV 2023 Open Access Repository (thecvf.com) 官方實(shí)現(xiàn)代碼:lllyasviel/ControlNet: Let us control diffusion models! (github.com)? 論文提出了一種神經(jīng)網(wǎng)絡(luò)架構(gòu)ControlNet,可以將空間條件控制添加到大型的預(yù)訓(xùn)練文本到圖像擴(kuò)散模型中。ControlNet將預(yù)訓(xùn)練好的大型擴(kuò)散模型

    2024年02月01日
    瀏覽(21)
  • AI作畫:十分鐘快速搭建自己的text-to-image diffusion models

    Diffusion Models專欄文章匯總:入門與實(shí)戰(zhàn) 前言: 最近AI作畫徹底火出圈,diffusion models的研究者也越來越多,就連搞推薦算法、搞目標(biāo)檢測(cè)的同學(xué)都來問我擴(kuò)散模型的事情。這篇博客作為一個(gè)科普博客,手把手教大家如何用十分鐘搭建一個(gè)屬于自己的text-to-image stable diffusion mo

    2024年02月12日
    瀏覽(100)
  • Text2Video-Zero:Text-to-Image擴(kuò)散模型是Zero-Shot視頻生成器

    Text2Video-Zero:Text-to-Image擴(kuò)散模型是Zero-Shot視頻生成器

    Paper: https://arxiv.org/abs/2303.13439 Project: https://github.com/Picsart-AI-Research/Text2Video-Zero 原文鏈接:Text2Video-Zero:Text-to-Image擴(kuò)散模型是Zero-Shot視頻生成器(by 小樣本視覺與智能前沿) 目錄 最近的text-to-video生成方法依賴于計(jì)算量大的訓(xùn)練,并且需要大規(guī)模的視頻數(shù)據(jù)集。 在本文中,我

    2024年02月11日
    瀏覽(44)
  • 【論文筆記】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    【論文筆記】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    聲明 不定期更新自己精度論文,通俗易懂,初級(jí)小白也可以理解 涉及范圍:深度學(xué)習(xí)方向,包括 CV、NLP 論文標(biāo)題:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 論文鏈接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    瀏覽(23)
  • Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    論文連接: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models 論文代碼: Code 摘要 Text-to-image diffusion 以文本嵌入作為輸入能生成高質(zhì)量的圖像,這表明 diffusion model 的表征與高級(jí)語義概念高度關(guān)聯(lián)。此外, CLIP 能夠賦予圖像準(zhǔn)確地開集預(yù)測(cè)(即zero-shot 分類能力),因此

    2024年02月15日
    瀏覽(19)
  • [PMLR 2021] Zero-Shot Text-to-Image Generation:零樣本文本到圖像生成

    [PMLR 2021] Zero-Shot Text-to-Image Generation:零樣本文本到圖像生成

    Fig 1. 原始圖像(上)和離散VAE重建圖像(下)的比較。編碼器對(duì)空間分辨率進(jìn)行8倍的下采樣。雖然細(xì)節(jié)(例如,貓毛的紋理、店面上的文字和插圖中的細(xì)線)有時(shí)會(huì)丟失或扭曲,但圖像的主要特征通常仍然是可識(shí)別的。我們使用8192的大詞匯量來減輕信息的丟失 原文鏈接:[PMLR 2021]Ze

    2024年02月11日
    瀏覽(19)
  • Text-to-Image with Diffusion models的巔峰之作:深入解讀? DALL·E 2?

    Diffusion Models專欄文章匯總:入門與實(shí)戰(zhàn) ? 前言: DALL·E 2、imagen、GLIDE是最著名的三個(gè)text-to-image的擴(kuò)散模型,是diffusion models第一個(gè)火出圈的任務(wù)。這篇博客將會(huì)詳細(xì)解讀DALL·E 2《Hierarchical Text-Conditional Image Generation with CLIP Latents》的原理。 目錄 背景知識(shí):CLIP簡(jiǎn)介 方法概述

    2024年02月13日
    瀏覽(22)
  • 條件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models

    條件控制生成——diffusion模型——Adding Conditional Control to Text-to-Image Diffusion Models

    ??在之前的擴(kuò)散模型介紹中,入門-1,主要考慮的是無條件下的圖片生成,涉及到的問題主要是如何保證圖片的質(zhì)量,這個(gè)過程需要考慮很多的參數(shù)項(xiàng),參數(shù)設(shè)定的不同會(huì)對(duì)圖片的質(zhì)量和多樣性產(chǎn)生很大的影響。 ?? 能夠讓diffusion模型在工業(yè)界中大放異彩的模型,比如條件

    2024年02月16日
    瀏覽(25)
  • AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    代碼:lllyasviel/ControlNet: Let us control diffusion models! (github.com) 論文地址 最近AI繪畫又雙叒叕進(jìn)化了,前一次還只能生成二次元,這次三次元都能生成了。這次AI繪畫這么火爆的原因跟下面這篇文章脫不開關(guān)系,它將AI繪畫帶到了一個(gè)新的高度。 我們提出了一個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)cont

    2024年02月11日
    瀏覽(23)
  • dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

    dreambooth:fine-tuning text-to-image diffusion models for subject-driven generation

    【筆記】Stable Diffusion模型優(yōu)化入門級(jí)介紹 - LoRA vs Dreambooth vs Textural Inversion vs Hypernetworks - 知乎 22年9月份一個(gè)獲獎(jiǎng)作品使AI繪畫引爆全網(wǎng),10月我在本地部署了一個(gè)StableDiffusionWebUI程序,然后,就沒有然后了??粗冶镜厣傻囊粡垙埨鴪D,從小就喜歡畫畫又沒有天賦的我心

    2024年02月10日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包