国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【文生圖】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

這篇具有很好參考價值的文章主要介紹了【文生圖】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

【文生圖】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

論文地址:https://arxiv.org/abs/2208.12242v1
項目地址:https://dreambooth.github.io/

【文生圖】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
DreamBooth 主要的工作目的是實現(xiàn)保留主體的細(xì)致特征的情況下使用文本對其進行環(huán)境等編輯。整體方法為給定一個主體的3-5個圖像和文本提示作為輸入,微調(diào)預(yù)訓(xùn)練的文生圖模型(Imagen,但不限于特定模型)用于合成主體在不同場景中的全新照片級圖像。

【文生圖】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

該框架分兩步操作(見上圖);

1)從文本生成低分辨率圖像(64×64)

利用3-5張輸入圖像文本提示微調(diào)低分辨率文生圖模型,并且為了防止過度擬合和語言漂移提出了自發(fā)性的**類別區(qū)分的先驗保留損失(Class-specific Prior Preservation Loss)**來鼓勵生成與主體相同的類的不同實例。

對于文本提示,本文使用“a [identifier] [class noun]”的形式,其中[identifier]是與主體關(guān)聯(lián)的唯一標(biāo)識符,[class noun]表示主體類別,如cat、dog等。對于[identifier]作者嘗試使用描述性詞匯,如“藍色的”、“特別的”等,以及隨機字符數(shù)字組合,如“xxy5sy00”,但是都會混雜有語言模型對這些詞匯或字母的先驗知識。最終,作者的方法是在詞匯表中找到相對罕見的tokens,然后將這些tokens利用de-tokenizer反轉(zhuǎn)到文本空間中成為唯一標(biāo)識符的候選。

作者使用T5-XXL語言模型生成文本提示P的條件嵌入c。首先使用SentencePiece標(biāo)記器f使用學(xué)習(xí)的詞匯表將文本tokenize,獲得固定長度的向量f§,語言模型以f§為條件,以產(chǎn)生嵌入c=Γ(f§)。最后,文生圖擴散模型直接以c為條件。

語言漂移是語言模型常在fine-tuning時遇到的問題,即在較少樣本上fine-tuning時,導(dǎo)致某個詞匯失去其原有的語義。類別區(qū)分的先驗保留損失即利用原本預(yù)訓(xùn)練的模型根據(jù)無identifier的文本提示生成的圖像作為Ground Truth訓(xùn)練來保留其原本預(yù)訓(xùn)練模型對于類別的先驗知識。下面兩幅圖可以看到該損失對于防止過度擬合(上圖)和語言漂移(下圖)的效果。

【文生圖】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

【文生圖】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

2)應(yīng)用超分辨率(SR)擴散模型(1024×1024)
沒有微調(diào)的超分網(wǎng)絡(luò),由于對主體實例的紋理細(xì)節(jié)不熟悉或缺少信息,會導(dǎo)致生成偽影。作者發(fā)現(xiàn)將64×64->256×256的超分網(wǎng)絡(luò)fine-tuneng對于大部分主體是必不可少的,而256×256->1024×1024的超分網(wǎng)絡(luò)的fine-tuneng對于有一些極細(xì)細(xì)節(jié)的例子是有用的。同時作者發(fā)現(xiàn)噪聲增強的水平太高會導(dǎo)致主體和環(huán)境的高頻圖案的模糊。因此在微調(diào)256×256 SR模型期間作者將噪聲增強水平從10-3降低到10-5。下圖可以看出噪聲強度和fintunig的效果。

【文生圖】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation文章來源地址http://www.zghlxwxcb.cn/news/detail-445728.html

到了這里,關(guān)于【文生圖】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【論文筆記】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    【論文筆記】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

    聲明 不定期更新自己精度論文,通俗易懂,初級小白也可以理解 涉及范圍:深度學(xué)習(xí)方向,包括 CV、NLP 論文標(biāo)題:SINE: SINgle Image Editing with Text-to-Image Diffusion Models 論文鏈接: https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00

    2024年02月13日
    瀏覽(23)
  • AI作畫:十分鐘快速搭建自己的text-to-image diffusion models

    Diffusion Models專欄文章匯總:入門與實戰(zhàn) 前言: 最近AI作畫徹底火出圈,diffusion models的研究者也越來越多,就連搞推薦算法、搞目標(biāo)檢測的同學(xué)都來問我擴散模型的事情。這篇博客作為一個科普博客,手把手教大家如何用十分鐘搭建一個屬于自己的text-to-image stable diffusion mo

    2024年02月12日
    瀏覽(100)
  • Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】

    Multi-Concept Customization of Text-to-Image Diffusion——【論文筆記】

    本文發(fā)表于CVPR 2023 論文地址:CVPR 2023 Open Access Repository (thecvf.com) Github官方代碼地址:?github.com 最近的文本到圖像模型能夠根據(jù)文本提示生成高質(zhì)量的圖像,可以覆蓋廣泛的物體、風(fēng)格和場景。盡管這些模型具有多樣的通用功能,但用戶通常希望從他們自己的個人生活中綜合

    2024年01月22日
    瀏覽(50)
  • Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    論文連接: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models 論文代碼: Code 摘要 Text-to-image diffusion 以文本嵌入作為輸入能生成高質(zhì)量的圖像,這表明 diffusion model 的表征與高級語義概念高度關(guān)聯(lián)。此外, CLIP 能夠賦予圖像準(zhǔn)確地開集預(yù)測(即zero-shot 分類能力),因此

    2024年02月15日
    瀏覽(19)
  • AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    AI繪畫后面的論文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

    代碼:lllyasviel/ControlNet: Let us control diffusion models! (github.com) 論文地址 最近AI繪畫又雙叒叕進化了,前一次還只能生成二次元,這次三次元都能生成了。這次AI繪畫這么火爆的原因跟下面這篇文章脫不開關(guān)系,它將AI繪畫帶到了一個新的高度。 我們提出了一個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)cont

    2024年02月11日
    瀏覽(23)
  • Text-to-Image with Diffusion models的巔峰之作:深入解讀? DALL·E 2?

    Diffusion Models專欄文章匯總:入門與實戰(zhàn) ? 前言: DALL·E 2、imagen、GLIDE是最著名的三個text-to-image的擴散模型,是diffusion models第一個火出圈的任務(wù)。這篇博客將會詳細(xì)解讀DALL·E 2《Hierarchical Text-Conditional Image Generation with CLIP Latents》的原理。 目錄 背景知識:CLIP簡介 方法概述

    2024年02月13日
    瀏覽(22)
  • tune a video:one-shot tuning of image diffusion models for text-to-video generation

    tune a video:one-shot tuning of image diffusion models for text-to-video generation

    【Diffusion Models】新加坡國立大學(xué)、騰訊強強聯(lián)手Tune-A-Video:One-Shot微調(diào)圖像擴散模型用于文本到圖像的生成!_嗶哩嗶哩_bilibili 【Diffusion Models】新加坡國立大學(xué)、騰訊強強聯(lián)手Tune-A-Video:One-Shot微調(diào)圖像擴散模型用于文本到圖像的生成!共計2條視頻,包括:[論文代碼閱讀]T

    2023年04月11日
    瀏覽(24)
  • 【文生圖】Stable Diffusion XL 1.0模型Full Fine-tuning指南(U-Net全參微調(diào))

    【文生圖】Stable Diffusion XL 1.0模型Full Fine-tuning指南(U-Net全參微調(diào))

    Stable Diffusion是計算機視覺領(lǐng)域的一個生成式大模型,能夠進行文生圖(txt2img)和圖生圖(img2img)等圖像生成任務(wù)。Stable Diffusion的開源公布,以及隨之而來的一系列借助Stable Diffusion為基礎(chǔ)的工作使得人工智能繪畫領(lǐng)域呈現(xiàn)出前所未有的高品質(zhì)創(chuàng)作與創(chuàng)意。 今年7月Stability A

    2024年02月03日
    瀏覽(48)
  • 文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE

    文本-圖像生成(Text-to-Image Generation)的評價指標(biāo)介紹——CLIPScore、TISE

    論文標(biāo)題:CLIPScore: A Reference-free Evaluation Metric for Image Captioning 這一篇是針對Image Caption領(lǐng)域的評價指標(biāo),但是有些基于條件的Diffusion模型也使用了這個評價指標(biāo)來衡量文本和生成圖像的匹配程度。 本文提出的CLIPScore(下文簡稱CLIPS)是不需要推理的評估指標(biāo),之前常見的基于

    2023年04月08日
    瀏覽(20)
  • 基于Huggingface完成text-to-image的文本生成圖像實例(AIGC)--零基礎(chǔ)

    基于Huggingface完成text-to-image的文本生成圖像實例(AIGC)--零基礎(chǔ)

    AIGC指人工智能生成創(chuàng)造力(Artificial Intelligence Generated Creativity,AIGC),是一個涵蓋多個領(lǐng)域的跨學(xué)科領(lǐng)域,它將人工智能和計算機科學(xué)與創(chuàng)造力和藝術(shù)結(jié)合起來,旨在通過算法生成具有創(chuàng)造力和藝術(shù)性的作品,例如圖像、音樂、文本等。文本到圖像轉(zhuǎn)換就是其中一個重要的方

    2024年02月15日
    瀏覽(14)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包