国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

這篇具有很好參考價(jià)值的文章主要介紹了【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

這篇文章提出了一個(gè)高效的用于文本到圖像生成模型架構(gòu),整體思路比較直白,在不損失圖像生成質(zhì)量的情況下,相比于現(xiàn)有T2I模型(SD1.4,SD2.1等)大大節(jié)約了成本。附錄部分給了一些有趣的東西,比如FID的魯棒性

整篇文章還有點(diǎn)疑惑,比如階段B的訓(xùn)練,使用的模型;節(jié)省成本主要是在說C階段?那A和B呢;256的潛在空間訓(xùn)練,不應(yīng)該比SD在64的潛在空間訓(xùn)練更加成本高昂?jiǎn)?/strong>?看hf的權(quán)重大小,STAGE-A 296M,STAGE-B 3.4G, STAGE-C 3.97G好像和SD2.1的也差不多

更新1:附錄D提到**“在我們的工作中,我們將階段 C 視為模型的主要工作部分,當(dāng)涉及到從文本中生成圖像時(shí)”**。
更新2:一定要看附錄D!

  1. Würstchen是一種通過將計(jì)算成本高昂的文本條件階段移動(dòng)到高度壓縮的潛在空間來訓(xùn)練文本條件模型的新框架。常見的方法使用單級(jí)壓縮,而Würstchen引入了另一個(gè)引入更多壓縮的階段。

  2. 框架包含負(fù)責(zé)壓縮圖像的階段A和B,以及在低維潛在空間中學(xué)習(xí)文本條件部分的階段C。

  3. Würstchen實(shí)現(xiàn)了42倍的壓縮因子,同時(shí)仍然忠實(shí)地重建圖像。這使得階段C的訓(xùn)練能夠快速且計(jì)算成本低廉。

paper:https://arxiv.org/abs/2306.00637
code:https://github.com/dome272/wuerstchen
publication:ICLR 2024 Oral

an efficient architecture for large-scale text-to-image diffusion models,論文閱讀筆記,文生圖,論文閱讀,text2img,擴(kuò)散模型

摘要

開發(fā)了一種潛在的擴(kuò)散技術(shù),其中我們學(xué)習(xí)了一個(gè)用于指導(dǎo)擴(kuò)散過程的詳細(xì)但極其緊湊的語義圖像表示
與語言的潛在表示相比,圖像的這種高度壓縮的表示提供了更詳細(xì)的指導(dǎo),這顯著減少了實(shí)現(xiàn)最先進(jìn)結(jié)果的計(jì)算要求。(直觀上理解就是文本的表示和圖像的表示tokens一起作為條件引導(dǎo)圖像生成)
基于用戶偏好研究提高了文本條件圖像生成的質(zhì)量。
與穩(wěn)定擴(kuò)散 2.1 的 200,000 GPU 小時(shí)相比,我們方法的訓(xùn)練需求由 24,602 A100-GPU 小時(shí)組成。我們的方法還需要較少的訓(xùn)練數(shù)據(jù)來實(shí)現(xiàn)這些結(jié)果。(C階段的時(shí)間,文本條件和圖像條件的轉(zhuǎn)換?)
此外,我們緊湊的潛在表示允許我們對(duì)最先進(jìn)的 (SOTA) 擴(kuò)散模型的通常成本和碳足跡進(jìn)行兩次推斷,而不會(huì)損害最終性能
與 SOTA 模型更廣泛的比較中,我們的方法更有效,并且在圖像質(zhì)量方面表現(xiàn)出色。我們相信這項(xiàng)工作更強(qiáng)調(diào)性能和計(jì)算可訪問性的優(yōu)先級(jí)。

貢獻(xiàn)

  1. 我們提出了一種新的三階段結(jié)構(gòu),用于強(qiáng)壓縮比的文本圖像合成,由兩個(gè)條件潛在擴(kuò)散階段和一個(gè)潛在圖像解碼器組成。
  2. 我們表明,通過在強(qiáng)壓縮的潛在空間中使用文本條件擴(kuò)散模型,我們可以在顯著降低的訓(xùn)練成本和推理速度的情況下實(shí)現(xiàn)最先進(jìn)的性能。
  3. 我們提供了基于自動(dòng)化指標(biāo)和人工反饋的模型功效的綜合實(shí)驗(yàn)驗(yàn)證。
  4. 我們公開發(fā)布源代碼和整套模型權(quán)重。

方法

訓(xùn)練

**Stage A:**最初,訓(xùn)練一個(gè) VQGAN。
**StageB:**階段 B 被訓(xùn)練為階段 A 的潛在空間內(nèi)的擴(kuò)散模型。階段 B 以文本嵌入和語義壓縮器的輸出為條件,它產(chǎn)生同一圖像的強(qiáng)烈下采樣的潛在表示。
**StageC:**階段 C 在語義壓縮器作為文本條件 LDM 的潛在表示上進(jìn)行訓(xùn)練,有效地以 42 : 1 的壓縮比運(yùn)行。(只有這個(gè)階段需要重頭訓(xùn)練)
an efficient architecture for large-scale text-to-image diffusion models,論文閱讀筆記,文生圖,論文閱讀,text2img,擴(kuò)散模型

推理

  1. 使用文本條件 LDM(階段 C)以強(qiáng)壓縮比生成潛在圖像。(Text conditioning is applied on Stage C using CLIP-H )
  2. 這種表示通過負(fù)責(zé)這種重建的次要模型轉(zhuǎn)換為壓縮較少的潛在空間(階段 B)。
  3. 對(duì)該中間分辨率中包含潛在圖像的標(biāo)記被解碼以產(chǎn)生輸出圖像(階段 A)。
    an efficient architecture for large-scale text-to-image diffusion models,論文閱讀筆記,文生圖,論文閱讀,text2img,擴(kuò)散模型

實(shí)驗(yàn)

an efficient architecture for large-scale text-to-image diffusion models,論文閱讀筆記,文生圖,論文閱讀,text2img,擴(kuò)散模型
表 2 顯示了與原始 SD 1.4 和 2.1 相比訓(xùn)練 W ?urstchen 的計(jì)算成本?;?4.1 節(jié)中的評(píng)估,可以看出所提出的將高分辨率圖像投影與實(shí)際文本條件生成的解耦設(shè)置可以更多地利用,同時(shí)仍然保持相當(dāng)或優(yōu)于質(zhì)量、保真度和對(duì)齊。與 SD 2.1 的 200,000 個(gè) GPU 小時(shí)相比,階段 C 是從頭開始訓(xùn)練的最昂貴的階段,只需要 24,602 個(gè) GPU 小時(shí),使其成為 8 倍的改進(jìn)。此外,SD 1.4 和 2.1 處理的圖像樣本明顯更多。后一個(gè)指標(biāo)基于所有訓(xùn)練和微調(diào)的步驟總數(shù),并與各自的批量大小相乘。即使考慮到用于訓(xùn)練階段 B 的 11,000 個(gè) GPU 小時(shí)和 318M 訓(xùn)練樣本,W ?urstchen 也比 SD 模型更有效地訓(xùn)練。此外,雖然需要同時(shí)使用階段 A 和 B 進(jìn)行采樣來生成 VQGAN 潛在 ?xq ,但總推理仍然比 SD 2.1 和 XL 快得多(見圖 4)。
an efficient architecture for large-scale text-to-image diffusion models,論文閱讀筆記,文生圖,論文閱讀,text2img,擴(kuò)散模型
使用 PickScore (Kirstain et al., 2023) 評(píng)估 MS-COCO 和本地化敘事 (Pont-Tuset et al., 2020) 上的圖像質(zhì)量,通過兩個(gè)不同的模型從同一字幕生成的圖像。W?urstchen 優(yōu)于所有大小相等的模型,盡管使用明顯更高計(jì)算預(yù)算的穩(wěn)定擴(kuò)散模型。
an efficient architecture for large-scale text-to-image diffusion models,論文閱讀筆記,文生圖,論文閱讀,text2img,擴(kuò)散模型

結(jié)論

在這項(xiàng)工作中,提出了我們的文本條件圖像生成模型 W?urstchen,該模型采用了三個(gè)階段的過程,將文本條件圖像生成與高分辨率空間解耦。該過程能夠有效地訓(xùn)練大規(guī)模模型,大大減少計(jì)算需求,同時(shí)提供高保真圖像。我們訓(xùn)練的模型實(shí)現(xiàn)了與使用更多計(jì)算資源訓(xùn)練的模型相當(dāng)?shù)男阅?,說明了這種方法的可行性,并提出了對(duì)更大模型參數(shù)的潛在有效可擴(kuò)展性。我們希望我們的工作可以作為進(jìn)一步研究生成 AI 的更可持續(xù)和計(jì)算效率更高的領(lǐng)域的起點(diǎn),并為消費(fèi)者硬件上的訓(xùn)練、微調(diào)和部署大規(guī)模模型開辟了更多可能性。

附錄

附錄A

一些額外可視化

附錄B

FID評(píng)價(jià)指標(biāo):盡管在imagenet數(shù)據(jù)集上訓(xùn)練,但能夠泛化到其他數(shù)據(jù)集;并給出了一些常見操作對(duì)FID的影響
an efficient architecture for large-scale text-to-image diffusion models,論文閱讀筆記,文生圖,論文閱讀,text2img,擴(kuò)散模型

附錄C

關(guān)于用戶研究指標(biāo)的設(shè)置描述

附錄D

解決了疑問:

  1. 在我們的工作中,我們將階段 C 視為模型的主要工作部分,當(dāng)涉及到從文本中生成圖像時(shí)。
  2. 簡(jiǎn)要討論階段 B 和階段 C 如何共享圖像生成的工作量。通過這樣做,我們證明了階段 C 負(fù)責(zé)圖像的內(nèi)容,而階段 B 充當(dāng)細(xì)化模型,添加細(xì)節(jié)并提高分辨率,但最終不會(huì)以語義上有意義的方式更改圖像。
    1. 為了研究,我們訓(xùn)練了一個(gè)?。?.9M 參數(shù))解碼器來從階段 C 產(chǎn)生的潛伏期重建圖像,并將重建與以階段 C 為條件的階段 B 的重建進(jìn)行了比較。圖 17, 18, 19 和 20 中的結(jié)果表明,階段 C 生成的圖像與階段 B 和 C 組合生成的圖像非常相似。
    2. 由此我們得出結(jié)論,階段 C 是將文本轉(zhuǎn)換為圖像時(shí)的主要因素。這進(jìn)一步得到了以下事實(shí)的支持:在替代訓(xùn)練機(jī)制上進(jìn)行的簡(jiǎn)短實(shí)驗(yàn)表明,階段 B 的文本調(diào)節(jié)并不能提高圖像的質(zhì)量,并且可以在未來幾代中丟棄我們的模型

an efficient architecture for large-scale text-to-image diffusion models,論文閱讀筆記,文生圖,論文閱讀,text2img,擴(kuò)散模型

附錄E

關(guān)于網(wǎng)絡(luò)架構(gòu)的詳細(xì)描述文章來源地址http://www.zghlxwxcb.cn/news/detail-832716.html

到了這里,關(guān)于【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文閱讀】Dynamic Split Computing for Efficient Deep Edge Intelligence

    【論文閱讀】Dynamic Split Computing for Efficient Deep Edge Intelligence

    作者:Arian Bakhtiarnia, Nemanja Milo?evi?, Qi Zhang, Dragana Bajovi?, Alexandros Iosifidis 發(fā)表會(huì)議: ICML 2022 DyNN Workshop ICASSP 2023 發(fā)表單位: ?DIGIT, Department of Electrical and Computer Engineering, Aarhus University, Denmark. ?Faculty of Sciences, University of Novi Sad, Serbia. ?Faculty of Technical Sciences, University of N

    2024年02月11日
    瀏覽(18)
  • 論文閱讀:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章內(nèi)容閱讀

    論文閱讀:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章內(nèi)容閱讀

    論文標(biāo)題: TinySAM: 極致高效的分割一切模型 論文地址:https://arxiv.org/pdf/2312.13789.pdf 代碼地址(pytorch):https://github.com/xinghaochen/TinySAM 詳細(xì)論文解讀:TinySAM:極致高效壓縮,手機(jī)就能實(shí)時(shí)跑的分割一切模型 - 知乎 (zhihu.com)? 目錄 文章內(nèi)容解析 ?概括 文章的觀點(diǎn) 技術(shù)創(chuàng)新解

    2024年01月17日
    瀏覽(24)
  • 【論文閱讀】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

    【論文閱讀】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

    論文鏈接 :ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org) 作者 :Wei Xu, Yi Wan 單位 :蘭州大學(xué)信息科學(xué)與工程學(xué)院,青海省物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室,青海師范大學(xué) 引用 :Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123,

    2024年04月15日
    瀏覽(27)
  • 論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer應(yīng)用到low-level任務(wù) low-level task 如deblurringdenoisingdehazing等任務(wù)多是基于CNN做的,這樣的局限性有二: 第一是卷積操作的感受野受限,很難建立起全局依賴, 第二就是卷積操作的卷積核初始化是固定的,而attention的設(shè)計(jì)可以通過像素之間的關(guān)系自適

    2024年02月05日
    瀏覽(33)
  • 論文閱讀《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》

    論文閱讀《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》

    論文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Efficient_and_Explicit_Modelling_of_Image_Hierarchies_for_Image_Restoration_CVPR_2023_paper.pdf 源碼地址:https://github.com/ofsoundof/GRL-Image-Restoration ??圖像復(fù)原任務(wù)旨在從低分辨率的圖像(模糊,子采樣,噪聲污染,JPEG壓縮)中恢復(fù)高質(zhì)量的圖

    2024年02月03日
    瀏覽(25)
  • 【論文閱讀】Informer Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

    【論文閱讀】Informer Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

    原始題目:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 中文翻譯:Informer:超越有效變換器進(jìn)行長(zhǎng)序列時(shí)間序列預(yù)測(cè) 發(fā)表時(shí)間:2021-05-18 平臺(tái):Proceedings of the AAAI Conference on Artificial Intelligence 文章鏈接:https://ojs.aaai.org/index.php/AAAI/article/view/17325 開源代碼:htt

    2024年03月12日
    瀏覽(21)
  • 【論文閱讀筆記】MobileSal: Extremely Efficient RGB-D Salient Object Detection

    【論文閱讀筆記】MobileSal: Extremely Efficient RGB-D Salient Object Detection

    MobileSal: Extremely Efficient RGB-D Salient Object Detection MobileSal:極其高效的RGB-D顯著對(duì)象檢測(cè) 2021年發(fā)表在 IEEE Transactions on Pattern Analysis and Machine Intelligence。 Paper Code 神經(jīng)網(wǎng)絡(luò)的高計(jì)算成本阻礙了RGB-D顯著對(duì)象檢測(cè)(SOD)的最新成功,使其無法用于現(xiàn)實(shí)世界的應(yīng)用。因此,本文介紹了

    2024年01月18日
    瀏覽(22)
  • LLaMA模型論文《LLaMA: Open and Efficient Foundation Language Models》閱讀筆記

    LLaMA模型論文《LLaMA: Open and Efficient Foundation Language Models》閱讀筆記

    LLaMA是meta在2023年2月開源的大模型,在這之后,很多開源模型都是基于LLaMA的,比如斯坦福大學(xué)的羊駝模型。 LLaMA的重點(diǎn)是比通常情況下使用更多的語料,來訓(xùn)練一系列可在各種推理預(yù)算下實(shí)現(xiàn)可能的最佳性能的語言模型。 摘要翻譯:我們?cè)诖私榻BLLaMA,這是一個(gè)參數(shù)范圍從

    2024年02月15日
    瀏覽(32)
  • 【論文筆記】CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception

    【論文筆記】CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception

    原文鏈接:https://arxiv.org/abs/2304.00670 ??本文提出兩階段融合方法CRN,能使用相機(jī)和雷達(dá)生成語義豐富且位置精確的BEV特征。具體來說,首先將圖像透視特征轉(zhuǎn)換到BEV下,該步驟依賴?yán)走_(dá),稱為雷達(dá)輔助的視圖變換(RVT)。由于轉(zhuǎn)換得到的BEV特征并非完全精確,接下來的多模

    2024年02月03日
    瀏覽(46)
  • An Architecture for Scalable Conversational Recommendat

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) Conversational recommendation engine is a type of recommender system that allows users to interact with the system through natural language conversations instead of traditional forms such as buttons or menus. The goal of conversational recommendation systems is to provide personalized recommendations based on user p

    2024年02月06日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包