這篇文章提出了一個(gè)高效的用于文本到圖像生成模型架構(gòu),整體思路比較直白,在不損失圖像生成質(zhì)量的情況下,相比于現(xiàn)有T2I模型(SD1.4,SD2.1等)大大節(jié)約了成本。附錄部分給了一些有趣的東西,比如FID的魯棒性
整篇文章還有點(diǎn)疑惑,比如階段B的訓(xùn)練,使用的模型;節(jié)省成本主要是在說C階段?那A和B呢;256的潛在空間訓(xùn)練,不應(yīng)該比SD在64的潛在空間訓(xùn)練更加成本高昂?jiǎn)?/strong>?看hf的權(quán)重大小,STAGE-A 296M,STAGE-B 3.4G, STAGE-C 3.97G好像和SD2.1的也差不多
更新1:附錄D提到**“在我們的工作中,我們將階段 C 視為模型的主要工作部分,當(dāng)涉及到從文本中生成圖像時(shí)”**。
更新2:一定要看附錄D!
-
Würstchen是一種通過將計(jì)算成本高昂的文本條件階段移動(dòng)到高度壓縮的潛在空間來訓(xùn)練文本條件模型的新框架。常見的方法使用單級(jí)壓縮,而Würstchen引入了另一個(gè)引入更多壓縮的階段。
-
框架包含負(fù)責(zé)壓縮圖像的階段A和B,以及在低維潛在空間中學(xué)習(xí)文本條件部分的階段C。
-
Würstchen實(shí)現(xiàn)了42倍的壓縮因子,同時(shí)仍然忠實(shí)地重建圖像。這使得階段C的訓(xùn)練能夠快速且計(jì)算成本低廉。
paper:https://arxiv.org/abs/2306.00637
code:https://github.com/dome272/wuerstchen
publication:ICLR 2024 Oral
摘要
開發(fā)了一種潛在的擴(kuò)散技術(shù),其中我們學(xué)習(xí)了一個(gè)用于指導(dǎo)擴(kuò)散過程的詳細(xì)但極其緊湊的語義圖像表示。
與語言的潛在表示相比,圖像的這種高度壓縮的表示提供了更詳細(xì)的指導(dǎo),這顯著減少了實(shí)現(xiàn)最先進(jìn)結(jié)果的計(jì)算要求。(直觀上理解就是文本的表示和圖像的表示tokens一起作為條件引導(dǎo)圖像生成)
基于用戶偏好研究提高了文本條件圖像生成的質(zhì)量。
與穩(wěn)定擴(kuò)散 2.1 的 200,000 GPU 小時(shí)相比,我們方法的訓(xùn)練需求由 24,602 A100-GPU 小時(shí)組成。我們的方法還需要較少的訓(xùn)練數(shù)據(jù)來實(shí)現(xiàn)這些結(jié)果。(C階段的時(shí)間,文本條件和圖像條件的轉(zhuǎn)換?)
此外,我們緊湊的潛在表示允許我們對(duì)最先進(jìn)的 (SOTA) 擴(kuò)散模型的通常成本和碳足跡進(jìn)行兩次推斷,而不會(huì)損害最終性能。
與 SOTA 模型更廣泛的比較中,我們的方法更有效,并且在圖像質(zhì)量方面表現(xiàn)出色。我們相信這項(xiàng)工作更強(qiáng)調(diào)性能和計(jì)算可訪問性的優(yōu)先級(jí)。
貢獻(xiàn)
- 我們提出了一種新的三階段結(jié)構(gòu),用于強(qiáng)壓縮比的文本圖像合成,由兩個(gè)條件潛在擴(kuò)散階段和一個(gè)潛在圖像解碼器組成。
- 我們表明,通過在強(qiáng)壓縮的潛在空間中使用文本條件擴(kuò)散模型,我們可以在顯著降低的訓(xùn)練成本和推理速度的情況下實(shí)現(xiàn)最先進(jìn)的性能。
- 我們提供了基于自動(dòng)化指標(biāo)和人工反饋的模型功效的綜合實(shí)驗(yàn)驗(yàn)證。
- 我們公開發(fā)布源代碼和整套模型權(quán)重。
方法
訓(xùn)練
**Stage A:**最初,訓(xùn)練一個(gè) VQGAN。
**StageB:**階段 B 被訓(xùn)練為階段 A 的潛在空間內(nèi)的擴(kuò)散模型。階段 B 以文本嵌入和語義壓縮器的輸出為條件,它產(chǎn)生同一圖像的強(qiáng)烈下采樣的潛在表示。
**StageC:**階段 C 在語義壓縮器作為文本條件 LDM 的潛在表示上進(jìn)行訓(xùn)練,有效地以 42 : 1 的壓縮比運(yùn)行。(只有這個(gè)階段需要重頭訓(xùn)練)
推理
- 使用文本條件 LDM(階段 C)以強(qiáng)壓縮比生成潛在圖像。(Text conditioning is applied on Stage C using CLIP-H )
- 這種表示通過負(fù)責(zé)這種重建的次要模型轉(zhuǎn)換為壓縮較少的潛在空間(階段 B)。
- 對(duì)該中間分辨率中包含潛在圖像的標(biāo)記被解碼以產(chǎn)生輸出圖像(階段 A)。
實(shí)驗(yàn)
表 2 顯示了與原始 SD 1.4 和 2.1 相比訓(xùn)練 W ?urstchen 的計(jì)算成本?;?4.1 節(jié)中的評(píng)估,可以看出所提出的將高分辨率圖像投影與實(shí)際文本條件生成的解耦設(shè)置可以更多地利用,同時(shí)仍然保持相當(dāng)或優(yōu)于質(zhì)量、保真度和對(duì)齊。與 SD 2.1 的 200,000 個(gè) GPU 小時(shí)相比,階段 C 是從頭開始訓(xùn)練的最昂貴的階段,只需要 24,602 個(gè) GPU 小時(shí),使其成為 8 倍的改進(jìn)。此外,SD 1.4 和 2.1 處理的圖像樣本明顯更多。后一個(gè)指標(biāo)基于所有訓(xùn)練和微調(diào)的步驟總數(shù),并與各自的批量大小相乘。即使考慮到用于訓(xùn)練階段 B 的 11,000 個(gè) GPU 小時(shí)和 318M 訓(xùn)練樣本,W ?urstchen 也比 SD 模型更有效地訓(xùn)練。此外,雖然需要同時(shí)使用階段 A 和 B 進(jìn)行采樣來生成 VQGAN 潛在 ?xq ,但總推理仍然比 SD 2.1 和 XL 快得多(見圖 4)。
使用 PickScore (Kirstain et al., 2023) 評(píng)估 MS-COCO 和本地化敘事 (Pont-Tuset et al., 2020) 上的圖像質(zhì)量,通過兩個(gè)不同的模型從同一字幕生成的圖像。W?urstchen 優(yōu)于所有大小相等的模型,盡管使用明顯更高計(jì)算預(yù)算的穩(wěn)定擴(kuò)散模型。
結(jié)論
在這項(xiàng)工作中,提出了我們的文本條件圖像生成模型 W?urstchen,該模型采用了三個(gè)階段的過程,將文本條件圖像生成與高分辨率空間解耦。該過程能夠有效地訓(xùn)練大規(guī)模模型,大大減少計(jì)算需求,同時(shí)提供高保真圖像。我們訓(xùn)練的模型實(shí)現(xiàn)了與使用更多計(jì)算資源訓(xùn)練的模型相當(dāng)?shù)男阅?,說明了這種方法的可行性,并提出了對(duì)更大模型參數(shù)的潛在有效可擴(kuò)展性。我們希望我們的工作可以作為進(jìn)一步研究生成 AI 的更可持續(xù)和計(jì)算效率更高的領(lǐng)域的起點(diǎn),并為消費(fèi)者硬件上的訓(xùn)練、微調(diào)和部署大規(guī)模模型開辟了更多可能性。
附錄
附錄A
一些額外可視化
附錄B
FID評(píng)價(jià)指標(biāo):盡管在imagenet數(shù)據(jù)集上訓(xùn)練,但能夠泛化到其他數(shù)據(jù)集;并給出了一些常見操作對(duì)FID的影響
附錄C
關(guān)于用戶研究指標(biāo)的設(shè)置描述
附錄D
解決了疑問:
- 在我們的工作中,我們將階段 C 視為模型的主要工作部分,當(dāng)涉及到從文本中生成圖像時(shí)。
-
簡(jiǎn)要討論階段 B 和階段 C 如何共享圖像生成的工作量。通過這樣做,我們證明了階段 C 負(fù)責(zé)圖像的內(nèi)容,而階段 B 充當(dāng)細(xì)化模型,添加細(xì)節(jié)并提高分辨率,但最終不會(huì)以語義上有意義的方式更改圖像。
- 為了研究,我們訓(xùn)練了一個(gè)?。?.9M 參數(shù))解碼器來從階段 C 產(chǎn)生的潛伏期重建圖像,并將重建與以階段 C 為條件的階段 B 的重建進(jìn)行了比較。圖 17, 18, 19 和 20 中的結(jié)果表明,階段 C 生成的圖像與階段 B 和 C 組合生成的圖像非常相似。
- 由此我們得出結(jié)論,階段 C 是將文本轉(zhuǎn)換為圖像時(shí)的主要因素。這進(jìn)一步得到了以下事實(shí)的支持:在替代訓(xùn)練機(jī)制上進(jìn)行的簡(jiǎn)短實(shí)驗(yàn)表明,階段 B 的文本調(diào)節(jié)并不能提高圖像的質(zhì)量,并且可以在未來幾代中丟棄我們的模型。
文章來源:http://www.zghlxwxcb.cn/news/detail-832716.html
附錄E
關(guān)于網(wǎng)絡(luò)架構(gòu)的詳細(xì)描述文章來源地址http://www.zghlxwxcb.cn/news/detail-832716.html
到了這里,關(guān)于【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!