論文地址:https://arxiv.org/abs/2208.12242v1
項目地址:https://dreambooth.github.io/
DreamBooth 主要的工作目的是實現(xiàn)保留主體的細(xì)致特征的情況下使用文本對其進行環(huán)境等編輯。整體方法為給定一個主體的3-5個圖像和文本提示作為輸入,微調(diào)預(yù)訓(xùn)練的文生圖模型(Imagen,但不限于特定模型)用于合成主體在不同場景中的全新照片級圖像。
該框架分兩步操作(見上圖);
1)從文本生成低分辨率圖像(64×64)
利用3-5張輸入圖像和文本提示微調(diào)低分辨率文生圖模型,并且為了防止過度擬合和語言漂移提出了自發(fā)性的**類別區(qū)分的先驗保留損失(Class-specific Prior Preservation Loss)**來鼓勵生成與主體相同的類的不同實例。
對于文本提示,本文使用“a [identifier] [class noun]”的形式,其中[identifier]是與主體關(guān)聯(lián)的唯一標(biāo)識符,[class noun]表示主體類別,如cat、dog等。對于[identifier]作者嘗試使用描述性詞匯,如“藍色的”、“特別的”等,以及隨機字符數(shù)字組合,如“xxy5sy00”,但是都會混雜有語言模型對這些詞匯或字母的先驗知識。最終,作者的方法是在詞匯表中找到相對罕見的tokens,然后將這些tokens利用de-tokenizer反轉(zhuǎn)到文本空間中成為唯一標(biāo)識符的候選。
作者使用T5-XXL語言模型生成文本提示P的條件嵌入c。首先使用SentencePiece標(biāo)記器f使用學(xué)習(xí)的詞匯表將文本tokenize,獲得固定長度的向量f§,語言模型以f§為條件,以產(chǎn)生嵌入c=Γ(f§)。最后,文生圖擴散模型直接以c為條件。
語言漂移是語言模型常在fine-tuning時遇到的問題,即在較少樣本上fine-tuning時,導(dǎo)致某個詞匯失去其原有的語義。類別區(qū)分的先驗保留損失即利用原本預(yù)訓(xùn)練的模型根據(jù)無identifier的文本提示生成的圖像作為Ground Truth訓(xùn)練來保留其原本預(yù)訓(xùn)練模型對于類別的先驗知識。下面兩幅圖可以看到該損失對于防止過度擬合(上圖)和語言漂移(下圖)的效果。
2)應(yīng)用超分辨率(SR)擴散模型(1024×1024)
沒有微調(diào)的超分網(wǎng)絡(luò),由于對主體實例的紋理細(xì)節(jié)不熟悉或缺少信息,會導(dǎo)致生成偽影。作者發(fā)現(xiàn)將64×64->256×256的超分網(wǎng)絡(luò)fine-tuneng對于大部分主體是必不可少的,而256×256->1024×1024的超分網(wǎng)絡(luò)的fine-tuneng對于有一些極細(xì)細(xì)節(jié)的例子是有用的。同時作者發(fā)現(xiàn)噪聲增強的水平太高會導(dǎo)致主體和環(huán)境的高頻圖案的模糊。因此在微調(diào)256×256 SR模型期間作者將噪聲增強水平從10-3降低到10-5。下圖可以看出噪聲強度和fintunig的效果。文章來源:http://www.zghlxwxcb.cn/news/detail-445728.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-445728.html
到了這里,關(guān)于【文生圖】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!