国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【AIGC】DreamBooth:微調(diào)文本到圖像擴(kuò)散模型用于主題驅(qū)動(dòng)的生成

這篇具有很好參考價(jià)值的文章主要介紹了【AIGC】DreamBooth:微調(diào)文本到圖像擴(kuò)散模型用于主題驅(qū)動(dòng)的生成。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

?前言

DreamBooth可以讓我們使用一個(gè)很小的數(shù)據(jù)集微調(diào)文生圖模型,然后基于文本提示詞為我們訓(xùn)練的的主體替換不同的場(chǎng)景。

【AIGC】DreamBooth:微調(diào)文本到圖像擴(kuò)散模型用于主題驅(qū)動(dòng)的生成,pytorch,深度學(xué)習(xí),AIGC,DreamBooth

摘要?

?大型文本轉(zhuǎn)圖像模型在人工智能的發(fā)展中實(shí)現(xiàn)了顯著的飛躍,能夠從給定的文本提示中高質(zhì)量和多樣化地合成圖像。然而,這些模型缺乏模仿給定參考集中受試者外觀的能力,也缺乏在不同背景下合成它們的新演繹的能力。在這項(xiàng)工作中,我們提出了一種文本到圖像擴(kuò)散模型的“個(gè)性化”新方法。給定一個(gè)主題的幾張圖像作為輸入,我們微調(diào)一個(gè)預(yù)訓(xùn)練的文本到圖像模型,以便它學(xué)會(huì)將唯一標(biāo)識(shí)符與該特定主題綁定。一旦主體嵌入到模型的輸出域中,唯一標(biāo)識(shí)符就可用于合成在不同場(chǎng)景中情境化主體的新穎逼真圖像。通過(guò)利用嵌入在模型中的語(yǔ)義先驗(yàn)和新的自生類特定先驗(yàn)保留損失,我們的技術(shù)能夠在參考圖像中未出現(xiàn)的不同場(chǎng)景、姿勢(shì)、視圖和照明條件下合成主體。我們將我們的技術(shù)應(yīng)用于幾個(gè)以前無(wú)懈可擊的任務(wù),包括主題重新語(yǔ)境化、文本引導(dǎo)視圖合成和藝術(shù)渲染,同時(shí)保留主題的關(guān)鍵特征。我們還為這個(gè)主題驅(qū)動(dòng)的生成新任務(wù)提供了新的數(shù)據(jù)集和評(píng)估協(xié)議。

介紹

最近開(kāi)發(fā)的大型文本到圖像模型顯示出前所未有的能力,它能夠基于自然語(yǔ)言編寫(xiě)的文本提示對(duì)圖像進(jìn)行高質(zhì)量和多樣化的合成[54,61]。這種模型的主要優(yōu)點(diǎn)之一是從大量圖像-標(biāo)題對(duì)中學(xué)習(xí)到的強(qiáng)語(yǔ)義先驗(yàn)。例如,這樣的先驗(yàn)者學(xué)會(huì)了將“狗”這個(gè)詞與各種狗的實(shí)例聯(lián)系起來(lái),這些狗可以在圖像中以不同的姿勢(shì)和上下文出現(xiàn)。雖然這些模型的綜合能力是前所未有的,但它們?nèi)狈δ7陆o定參考集中受試者外觀的能力,以及在不同背景下合成相同受試者的新演繹。主要原因是其輸出域的表現(xiàn)力有限;即使是對(duì)對(duì)象最詳細(xì)的文本描述也可能產(chǎn)生具有不同外觀的實(shí)例。

此外,即使是文本嵌入在共享語(yǔ)言視覺(jué)空間中的模型[52]也無(wú)法準(zhǔn)確地重建給定主體的外觀,而只能創(chuàng)建圖像內(nèi)容的變化(圖2)。

在這項(xiàng)工作中,我們提出了一種“個(gè)性化”文本到圖像擴(kuò)散模型的新方法(使它們適應(yīng)用戶特定的圖像生成需求)。我們的目標(biāo)是擴(kuò)展模型的語(yǔ)言-視覺(jué)詞典,以便它將新單詞與用戶想要生成的特定主題綁定在一起。一旦將新詞典嵌入到模型中,它就可以使用這些單詞來(lái)合成主題的新穎逼真圖像,在不同場(chǎng)景中進(jìn)行上下文化,同時(shí)保留其關(guān)鍵識(shí)別特征。其效果類似于“神奇的照相亭”——一旦拍攝了幾張拍攝對(duì)象的圖像,照相亭就會(huì)在簡(jiǎn)單直觀的文本提示的指導(dǎo)下,在不同的條件和場(chǎng)景中生成拍攝對(duì)象的照片(圖 1)。

更正式地說(shuō),給定一個(gè)主體的幾張圖像(~35),我們的目標(biāo)將主體植入模型的輸出域中,以便可以使用唯一標(biāo)識(shí)符進(jìn)行合成。為此,我們提出了一種技術(shù),用稀有的標(biāo)記標(biāo)識(shí)符來(lái)表示給定的主題,并微調(diào)一個(gè)預(yù)先訓(xùn)練的、基于擴(kuò)散的文本到圖像框架。

我們使用輸入圖像和文本提示來(lái)微調(diào)文本到圖像模型,其中包含一個(gè)唯一標(biāo)識(shí)符,后跟主題的類名(例如,“A [V] dog”)。后者使模型能夠使用其對(duì)主題類的先驗(yàn)知識(shí),而特定于類的實(shí)例與唯一標(biāo)識(shí)符綁定。為了防止導(dǎo)致模型將類名(例如“dog”)與特定實(shí)例相關(guān)聯(lián)的語(yǔ)言漂移[34,40],我們提出了一個(gè)自生的、特定于類的先驗(yàn)保留損失,它利用了嵌入在模型中的類的語(yǔ)義先驗(yàn),并鼓勵(lì)它生成與我們的主題相同的類的不同實(shí)例。

我們將我們的方法應(yīng)用于無(wú)數(shù)基于文本的圖像生成應(yīng)用程序,包括主題的重新語(yǔ)境化、修改其屬性、原創(chuàng)藝術(shù)演繹等,為以前無(wú)懈可擊的新任務(wù)流鋪平了道路。我們通過(guò)消融研究強(qiáng)調(diào)了我們方法中每個(gè)組件的貢獻(xiàn),并與替代基線和相關(guān)工作進(jìn)行了比較。我們還進(jìn)行了一項(xiàng)用戶研究,以評(píng)估我們合成圖像中的主題和提示保真度,與其他方法相比。

據(jù)我們所知,我們的技術(shù)是第一個(gè)解決主題驅(qū)動(dòng)生成這一新的挑戰(zhàn)性問(wèn)題的技術(shù),允許用戶從幾個(gè)隨意捕獲的主題圖像中,在保持其獨(dú)特特征的同時(shí),在不同背景下合成該主題的新穎演繹。

?幾種方法的對(duì)比:1.是否能固定主體生成,2.是否可以隨意切換場(chǎng)景

【AIGC】DreamBooth:微調(diào)文本到圖像擴(kuò)散模型用于主題驅(qū)動(dòng)的生成,pytorch,深度學(xué)習(xí),AIGC,DreamBooth

?相關(guān)工作

圖像合成

  • ?圖像合成技術(shù)[13,38,70]旨在將給定的主體克隆到新的背景中,使主體融入場(chǎng)景。
  • 為了考慮新姿勢(shì)的構(gòu)圖,可以應(yīng)用3D重建技術(shù)[6,8,41,49,68],該技術(shù)通常適用于剛性物體并且需要大量視圖。一些缺點(diǎn)包括場(chǎng)景集成(照明、陰影、接觸)和無(wú)法生成新穎的場(chǎng)景。

文本到圖像的編輯和合成

  • ?使用GANs[9,22,28–30]與CLIP[52]等圖像文本表示相結(jié)合,年齡操縱取得了重大進(jìn)展,從而產(chǎn)生了使用文本[2,7,21,43,48,71]的逼真操作。在結(jié)構(gòu)化場(chǎng)景(如人臉編輯)效果好。
  • Crowson等[14]使用VQ-GAN [18]并訓(xùn)練更多樣化的數(shù)據(jù)來(lái)緩解這種擔(dān)憂。
  • 其他工作[4,31]利用了最近的擴(kuò)散模型[25,25,45,58,60,62–66],這些模型在高度多樣化的數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的生成質(zhì)量,通常超過(guò)GANs[15]。雖然大多數(shù)只需要文本的作品僅限于全局編輯[14,33],但Bar-Tal等[5]提出了一種基于文本的本地化編輯技術(shù),不使用蒙版,顯示出令人印象深刻的效果。雖然這些編輯方法中的大多數(shù)都允許修改全局屬性或?qū)o定圖像進(jìn)行局部編輯,但沒(méi)有一種方法能夠在新的上下文中生成給定主題的新演繹。

    還有關(guān)于文本到圖像合成的工作[14,16,19,24,27,35,36,50,51,55,58,67,74]。最近的大型文本到圖像模型,如Imagen [61]、DALL-E2 [54]、Parti [72]、CogView2 [17]和Stable Diffusion [58],展示了前所未有的語(yǔ)義生成。這些模型不提供對(duì)生成的圖像的精細(xì)控制,僅使用文本指導(dǎo)。具體來(lái)說(shuō),在合成圖像中始終如一地保留主體的身份是具有挑戰(zhàn)性的,或者是不可能的。

方法

?文生圖模型

?擴(kuò)散模型是概率生成模型,通過(guò)對(duì)從高斯分布中采樣的變量進(jìn)行逐漸去噪來(lái)學(xué)習(xí)數(shù)據(jù)分布。具體來(lái)說(shuō),我們對(duì)預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型感興趣,給定初始噪聲圖 ~ N (0, I) 和條件向量 c = Γ(P),使用文本編碼器 Γ 和文本提示 P 生成圖像 。它們使用平方誤差損失進(jìn)行訓(xùn)練,以對(duì)可變?cè)肼晥D像或潛在代碼【AIGC】DreamBooth:微調(diào)文本到圖像擴(kuò)散模型用于主題驅(qū)動(dòng)的生成,pytorch,深度學(xué)習(xí),AIGC,DreamBooth進(jìn)行降噪,如下所示:

【AIGC】DreamBooth:微調(diào)文本到圖像擴(kuò)散模型用于主題驅(qū)動(dòng)的生成,pytorch,深度學(xué)習(xí),AIGC,DreamBooth?

?其中 x 是真值圖像,c 是條件向量(例如,從文本提示中獲得), 是控制噪聲時(shí)間表和樣本質(zhì)量的項(xiàng),是擴(kuò)散過(guò)程時(shí)間 t ~ U([0, 1]) 的函數(shù)。補(bǔ)充材料中給出了更詳細(xì)的描述

個(gè)性化文生圖模型?

?我們的第一個(gè)任務(wù)是將主題實(shí)例植入模型的輸出域中,以便我們可以查詢模型以獲取主題的各種新穎圖像。一個(gè)自然的想法是使用受試者的少數(shù)樣本數(shù)據(jù)集來(lái)微調(diào)模型。在少樣本場(chǎng)景中微調(diào)生成模型(如 GAN)時(shí)必須小心,因?yàn)樗鼤?huì)導(dǎo)致過(guò)擬合和模式崩潰,以及不能很好地捕獲目標(biāo)分布。已經(jīng)研究了避免這些陷阱的技術(shù)[37,42,47,56,69],盡管與我們的工作相反,這一系列的工作主要尋求生成類似于目標(biāo)分布的圖像,但沒(méi)有主體保留的要求。關(guān)于這些陷阱,我們觀察到一個(gè)奇特的發(fā)現(xiàn),即在仔細(xì)微調(diào)設(shè)置的情況下使用方程中的擴(kuò)散損失,大型文本到圖像擴(kuò)散模型似乎擅長(zhǎng)將新信息集成到其域中,而不會(huì)忘記對(duì)一小組訓(xùn)練圖像的先驗(yàn)或過(guò)擬合。

【AIGC】DreamBooth:微調(diào)文本到圖像擴(kuò)散模型用于主題驅(qū)動(dòng)的生成,pytorch,深度學(xué)習(xí),AIGC,DreamBooth

?微調(diào)。給定一個(gè)主題的 ~ 3?5 個(gè)圖像,我們微調(diào)一個(gè)文本到圖像擴(kuò)散模型,將輸入圖像與包含唯一標(biāo)識(shí)符和主題所屬類名稱的文本提示配對(duì)(例如,“A [V] dog”),同時(shí),我們應(yīng)用特定于類的先驗(yàn)保留損失,它利用模型對(duì)類的語(yǔ)義先驗(yàn),并鼓勵(lì)它使用文本提示中的類名(例如,“A dog”)。

?為小樣本個(gè)性化設(shè)計(jì)提示.我們的目標(biāo)是將一個(gè)新的(唯一標(biāo)識(shí)符,主題)對(duì)“植入”到擴(kuò)散模型的“字典”中。為了繞過(guò)為給定圖像集編寫(xiě)詳細(xì)圖像描述的開(kāi)銷,我們選擇了一種更簡(jiǎn)單的方法,并將主題的所有輸入圖像標(biāo)記為“a [標(biāo)識(shí)符] [類名詞]”,其中 [identifier] 是鏈接到主題的唯一標(biāo)識(shí)符,[類名詞] 是主題的粗略類描述符(例如 cat, 狗、手表等)。類描述符可以由用戶提供,也可以使用分類器獲取。我們?cè)诰渥又惺褂妙惷枋龇?,以便將類的先?yàn)與我們獨(dú)特的主題聯(lián)系起來(lái),并發(fā)現(xiàn)使用錯(cuò)誤的類描述符或沒(méi)有類描述符會(huì)增加訓(xùn)練時(shí)間和語(yǔ)言漂移,同時(shí)降低性能。從本質(zhì)上講,我們?cè)噲D利用模型對(duì)特定類的先驗(yàn),并將其與主體唯一標(biāo)識(shí)符的嵌入糾纏在一起,這樣我們就可以在不同上下文中利用視覺(jué)效果生成主體的新姿勢(shì)和場(chǎng)景。

稀有token標(biāo)識(shí)符.,因?yàn)槟P捅仨殞W(xué)會(huì)將它們從它們的原始含義中解脫出來(lái),并重新糾纏它們以引用我們的主題。這促使人們需要在語(yǔ)言模型和擴(kuò)散模型中都具有弱先驗(yàn)的標(biāo)識(shí)符。一種危險(xiǎn)的方法是選擇英語(yǔ)中的隨機(jī)字符并將它們連接起來(lái)以生成一個(gè)罕見(jiàn)的標(biāo)識(shí)符(例如“xxy5syt00”)。實(shí)際上,分詞器可能會(huì)單獨(dú)標(biāo)記每個(gè)字母,而擴(kuò)散模型的先驗(yàn)對(duì)于這些字母來(lái)說(shuō)很強(qiáng)。我們經(jīng)常發(fā)現(xiàn),這些標(biāo)記與使用常見(jiàn)的英語(yǔ)單詞一樣,具有相似的弱點(diǎn)。我們的方法是在詞匯表中找到稀有標(biāo)記,然后將這些標(biāo)記反轉(zhuǎn)到文本空間中,以最小化標(biāo)識(shí)符具有強(qiáng)先驗(yàn)的可能性。我們?cè)谠~匯表中執(zhí)行稀有標(biāo)記查找,并獲取一系列稀有標(biāo)記標(biāo)識(shí)符 f (?V),其中 f 是標(biāo)記器;將字符序列映射到標(biāo)記的函數(shù),?V 是從標(biāo)記 f (?V) 衍生的解碼文本。序列可以是可變長(zhǎng)度的 k,并且發(fā)現(xiàn) k = {1, ..., 3} 的相對(duì)較短的序列效果很好。然后,通過(guò)使用 f (?V) 上的去標(biāo)記器反轉(zhuǎn)詞匯表,我們得到定義我們唯一標(biāo)識(shí)符 ?V 的字符序列。對(duì)于 Imagen,我們發(fā)現(xiàn)對(duì)對(duì)應(yīng)于 3 個(gè)或更少 Unicode 字符(不帶空格)的標(biāo)記進(jìn)行統(tǒng)一隨機(jī)抽樣,并使用 T5-XXL 標(biāo)記器范圍 {5000, ..., 10000} 中的標(biāo)記效果很好。

特定類別的先驗(yàn)保存損失

根據(jù)我們的經(jīng)驗(yàn),通過(guò)微調(diào)模型的所有層,可以實(shí)現(xiàn)最大主體保真度的最佳結(jié)果。這包括以文本嵌入為條件的微調(diào)層,這會(huì)導(dǎo)致語(yǔ)言漂移問(wèn)題。語(yǔ)言漂移是語(yǔ)言模型中觀察到的一個(gè)問(wèn)題[34,40],其中在大型文本語(yǔ)料庫(kù)上預(yù)先訓(xùn)練的模型,然后針對(duì)特定任務(wù)進(jìn)行微調(diào),逐漸失去語(yǔ)言的句法和語(yǔ)義知識(shí)。據(jù)我們所知,我們是第一個(gè)發(fā)現(xiàn)影響擴(kuò)散模型的類似現(xiàn)象的人,其中建模慢慢忘記了如何生成與目標(biāo)對(duì)象相同類別的對(duì)象。

另一個(gè)問(wèn)題輸出多樣性降低的可能性。文本到圖像擴(kuò)散模型自然具有大量的輸出多樣性。在對(duì)一小群圖像進(jìn)行微調(diào)時(shí),我們希望能夠以新穎的視角、姿勢(shì)和表達(dá)方式生成主題。然而,存在減少拍攝對(duì)象輸出姿勢(shì)和視圖的可變性(例如捕捉到少數(shù)鏡頭視圖)的風(fēng)險(xiǎn)。我們觀察到這種情況經(jīng)常發(fā)生,尤其是當(dāng)模型訓(xùn)練時(shí)間過(guò)長(zhǎng)時(shí)。

為了緩解上述兩個(gè)問(wèn)題,我們提出了一種自生的類特定先驗(yàn)保留損失,以鼓勵(lì)多樣性并對(duì)抗語(yǔ)言漂移。從本質(zhì)上講,我們的方法用自己生成的樣本來(lái)監(jiān)督模型,為了讓它在少數(shù)樣本微調(diào)開(kāi)始后保留先驗(yàn)。這允許它生成類先前的各種圖像,并保留有關(guān)類先前的知識(shí),以便與有關(guān)主題實(shí)例的知識(shí)結(jié)合使用。具體來(lái)說(shuō),我們通過(guò)使用凍結(jié)的預(yù)訓(xùn)練模型在具有隨機(jī)初始噪聲和條件向量上采用ancestral采樣器生成數(shù)據(jù)。

這個(gè)損失表示為:?

【AIGC】DreamBooth:微調(diào)文本到圖像擴(kuò)散模型用于主題驅(qū)動(dòng)的生成,pytorch,深度學(xué)習(xí),AIGC,DreamBooth

?其中,第二項(xiàng)是先驗(yàn)保留項(xiàng),它使用自己生成的圖像監(jiān)督模型,λ 控制該項(xiàng)的相對(duì)權(quán)重。圖 3 說(shuō)明了使用類生成的樣本和先驗(yàn)保存損失對(duì)模型進(jìn)行微調(diào)。盡管很簡(jiǎn)單,但我們發(fā)現(xiàn)這種先驗(yàn)保存損失在鼓勵(lì)輸出多樣性和克服語(yǔ)言漂移方面是有效的。我們還發(fā)現(xiàn),我們可以訓(xùn)練模型進(jìn)行更多迭代,而不會(huì)冒過(guò)度擬合的風(fēng)險(xiǎn)。我們發(fā)現(xiàn),Imagen [61] 的 λ = 1 和學(xué)習(xí)率為 10 的 ~ 1000 次迭代和穩(wěn)定擴(kuò)散 [59] 的 5 × 10 次迭代,并且主題數(shù)據(jù)集大小為 3-5 張圖像就足以獲得良好的結(jié)果。在此過(guò)程中,生成了 ~ 1000 個(gè)“a [類名詞]”樣本 - 但可以使用的樣本更少。Imagen 的 TPUv4 訓(xùn)練過(guò)程大約需要 5 分鐘,而 NVIDIA A100 的 Stable Diffusion 訓(xùn)練過(guò)程大約需要 5 分鐘。

不足之處?

第一個(gè)與無(wú)法準(zhǔn)確生成提示的上下文有關(guān)??赡艿脑蚴沁@些上下文的弱先驗(yàn),或者由于訓(xùn)練集中共現(xiàn)的可能性較低而難以同時(shí)生成主題和指定概念?。

第二種是情境-外觀糾纏,其中主體的外觀會(huì)因提示的情境而發(fā)生變化,如圖 9 所示,背包的顏色變化。第三,我們還觀察到,當(dāng)提示與看到主體的原始設(shè)置相似時(shí),會(huì)發(fā)生對(duì)真實(shí)圖像的過(guò)度擬合。

其他限制是某些科目比其他科目更容易學(xué)習(xí)(例如狗和貓)。有時(shí),對(duì)于較為罕見(jiàn)的主題,模型無(wú)法支持盡可能多的主題變體。最后,主體的保真度也存在差異,一些生成的圖像可能包含幻覺(jué)主體特征,這取決于先前模型的強(qiáng)度和語(yǔ)義修改的復(fù)雜性。

結(jié)論

我們提出了一種使用主題的幾張圖像和文本提示的指導(dǎo)來(lái)合成主題的新穎演繹的方法。我們的核心思想通過(guò)將主題綁定到唯一標(biāo)識(shí)符,將給定的主題實(shí)例嵌入到文本到圖像擴(kuò)散模型的輸出域中。值得注意的是,這種微調(diào)過(guò)程只能在給定 3-5 張主題圖像的情況下工作,這使得該技術(shù)特別容易獲得。我們?cè)谏傻谋普鎴?chǎng)景中展示了動(dòng)物和物體的各種應(yīng)用,在大多數(shù)情況下與真實(shí)圖像無(wú)法區(qū)分。

參考鏈接

?https://arxiv.org/pdf/2208.12242.pdf文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-801413.html

到了這里,關(guān)于【AIGC】DreamBooth:微調(diào)文本到圖像擴(kuò)散模型用于主題驅(qū)動(dòng)的生成的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包