国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Tune-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning

這篇具有很好參考價(jià)值的文章主要介紹了Tune-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video

Project:https://tuneavideo.github.io
原文鏈接:Tnue-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning (by 小樣本視覺(jué)與智能前沿)

目錄

01 現(xiàn)有工作的不足?

為了復(fù)制文本到圖像(T2I)生成的成功,最近的工作使用大規(guī)模視頻數(shù)據(jù)集來(lái)訓(xùn)練文本到視頻(T2V)生成器。盡管他們的結(jié)果很有希望,但這種范式在計(jì)算上是昂貴的。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video

02 文章解決了什么問(wèn)題?

我們提出了一種新的T2V生成設(shè)置-單次視頻調(diào)優(yōu),其中只有一個(gè)文本視頻對(duì)。我們的模型建立在最先進(jìn)的T2I擴(kuò)散模型上,該模型是在大量圖像數(shù)據(jù)上預(yù)訓(xùn)練的。

03 關(guān)鍵的解決方案是什么?

我們引入了Tune-A-Video,它涉及定制的時(shí)空注意機(jī)制和有效的一次性調(diào)整策略。在推理中,我們采用DDIM反演為采樣提供結(jié)構(gòu)指導(dǎo)。

04 主要的貢獻(xiàn)是什么?

  • 我們?yōu)?T2V 生成引入了 One-Shot Video Tuning 的新設(shè)置,消除了使用大規(guī)模視頻數(shù)據(jù)集進(jìn)行訓(xùn)練的負(fù)擔(dān)。
  • 我們提出了 Tune-A-Video,這是第一個(gè)使用預(yù)訓(xùn)練的 T2I 模型生成 T2V 的框架。
  • 我們提出了有效的注意力調(diào)整和結(jié)構(gòu)反轉(zhuǎn),顯著提高了時(shí)間一致性。

05 有哪些相關(guān)的工作?

  • Text-to-Image diffusion models.
  • Text-to-Video generative models.
  • Text-driven video editing.
  • Generation from a single video.

06 方法具體是如何實(shí)現(xiàn)的?

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video

Network Inflation

spatial self-attention mechanism:

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video
其中, z v i z_{v_i} zvi?? 是幀 v i v_i vi?對(duì)應(yīng)的潛碼表示。 W ? W^* W?是將輸入投影到查詢、鍵和值的可學(xué)習(xí)矩陣,d 是鍵和查詢特征的輸出維度。

我們提出使用稀疏版本的因果注意機(jī)制(causal attention mechanism),其中在幀 z v i z_{v_i} zvi?? 和幀 z v 1 z_{v_1} zv1?? z v i ? 1 z_{v_{i-1}} zvi?1?? 之間計(jì)算注意矩陣,保持低計(jì)算復(fù)雜度在 O ( 2 m ( N ) 2 ) O(2m(N)^2) O(2m(N)2)。
我們實(shí)現(xiàn)Attention(Q,k,V)如下:

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video
其中 [ ? ] [\cdot] [?]表示連接操作,視覺(jué)描述見圖5。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video

Fine-Tuning and Inference

1)Model fine-tuning

我們微調(diào)整個(gè)時(shí)間自注意力 (T-Attn) 層,因?yàn)樗鼈兪切绿砑拥?。此外,我們建議通過(guò)更新交叉注意力中的查詢投影來(lái)細(xì)化文本-視頻對(duì)齊(Cross-Attn)。在實(shí)踐中,與完全調(diào)優(yōu)[39]相比,微調(diào)注意塊在計(jì)算上是有效的,同時(shí)保留了預(yù)訓(xùn)練的T2I擴(kuò)散模型的原始特性。我們?cè)跇?biāo)準(zhǔn)ldm[37]中使用相同的訓(xùn)練目標(biāo)。圖4 說(shuō)明了帶有突出顯示可訓(xùn)練參數(shù)的微調(diào)過(guò)程。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video

2)基于DDIM反演的結(jié)構(gòu)指導(dǎo)

通過(guò)沒(méi)有文本條件的DDIM反演得到源視頻V的潛在噪聲。該噪聲作為DDIM采樣的起點(diǎn),由編輯后的提示 T ? \mathcal{T}^* T?指導(dǎo)。輸出視頻 V ? \mathcal{V}^* V? 由下式給出:

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video

07 實(shí)驗(yàn)結(jié)果和對(duì)比效果如何?

Applications

1)Object editing.

我們的方法的主要應(yīng)用之一是通過(guò)編輯文本提示來(lái)修改對(duì)象。這允許輕松替換、添加或刪除對(duì)象。圖 6 顯示了一些示例.

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video

2)Background change.

我們的方法還允許用戶更改視頻背景(即對(duì)象所在的位置),同時(shí)保留對(duì)象運(yùn)動(dòng)的一致性。例如,我們可以通過(guò)添加新位置/時(shí)間描述并將圖 7 中的國(guó)家側(cè)道路視圖更改為海洋視圖,將圖 6 中滑雪人的背景修改為“海灘上”或“太陽(yáng)落下”。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video

3)Style transfer.

由于預(yù)訓(xùn)練 T2I 模型的開放域知識(shí),我們的方法將視頻轉(zhuǎn)換為各種難以僅從視頻數(shù)據(jù)中學(xué)習(xí)的風(fēng)格(12)。例如,我們通過(guò)將全局樣式描述符附加到提示中,將現(xiàn)實(shí)世界的視頻轉(zhuǎn)換為漫畫風(fēng)格(圖 6,或 Van Gogh風(fēng)格(圖 10)。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video

4)個(gè)性化可控生成

我們的方法可以很容易地與個(gè)性化的T2I模型集成(例如,DreamBooth[39],它以3-5張圖像作為輸入,并返回一個(gè)個(gè)性化的T2I模型),直接對(duì)它們進(jìn)行細(xì)化。例如,我們可以使用“現(xiàn)代迪士尼風(fēng)格”或“土豆頭先生”個(gè)性化的DreamBooth來(lái)創(chuàng)建特定風(fēng)格或主題的視頻(圖11)。我們的方法還可以與T2I適配器[29]和ControlNet[52]等條件T2I模型集成,在不需要額外訓(xùn)練成本的情況下對(duì)生成的視頻進(jìn)行不同的控制。例如,我們可以使用一系列人體姿勢(shì)作為控制來(lái)進(jìn)一步編輯運(yùn)動(dòng)(例如,圖1中的舞蹈)。

定性結(jié)果

我們?cè)趫D7中給出了我們的方法與幾個(gè)基線的視覺(jué)比較。 相比之下,我們的方法生成了時(shí)間連貫的視頻,保留了輸入視頻中的結(jié)構(gòu)信息,并與編輯過(guò)的單詞和細(xì)節(jié)保持一致。另外的定性比較可以在圖12中找到。

定量結(jié)果

我們通過(guò)automatic metrics和用戶研究來(lái)根據(jù)基線量化我們的方法,并在表1中報(bào)告框架一致性和文本可信度。

08 消融研究告訴了我們什么?

我們?cè)赥une-A-Video中進(jìn)行了一項(xiàng)消融研究,以評(píng)估時(shí)空注意(ST-Attn)機(jī)制、DDIM反演和微調(diào)的重要性。每個(gè)設(shè)計(jì)都是單獨(dú)的,以分析其影響。結(jié)果如圖8所示。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video
這些結(jié)果表明,我們所有的關(guān)鍵設(shè)計(jì)都有助于我們方法的成功結(jié)果。

09 這個(gè)工作還是可以如何優(yōu)化?

圖9給出了輸入視頻中包含多個(gè)目標(biāo)并出現(xiàn)遮擋時(shí),我們的方法失敗的情況。這可能是由于T2I模型在處理多個(gè)對(duì)象和對(duì)象交互方面的固有局限性。一個(gè)潛在的解決方案是使用附加的條件信息,如深度,使模型能夠區(qū)分不同的對(duì)象及其相互作用。這方面的研究要留待將來(lái)研究。

tune-a-video: one-shot tuning of image diffusion models for text-to-video ge,Diffusion,論文解析,Text-to-Video,Diffusion,擴(kuò)散模型,one-shot,Tuning,Tune-A-Video

10 結(jié)論

在本文中,我們介紹了T2V生成的一項(xiàng)新任務(wù)–one-shot視頻調(diào)優(yōu)。該任務(wù)涉及僅使用單個(gè)文本視頻對(duì)和預(yù)訓(xùn)練的T2I模型來(lái)訓(xùn)練T2V生成器。我們提出Tune-A-Video,一個(gè)簡(jiǎn)單而有效的框架,用于文本驅(qū)動(dòng)的視頻生成和編輯。為了生成連續(xù)視頻,我們提出了一種有效的調(diào)優(yōu)策略和結(jié)構(gòu)反演,可以生成時(shí)間相干視頻。大量的實(shí)驗(yàn)證明了我們的方法在廣泛的應(yīng)用中取得了顯著的效果。

原文鏈接:Tnue-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning (by 小樣本視覺(jué)與智能前沿)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-791596.html

到了這里,關(guān)于Tune-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴(kuò)散模型

    【AIGC】IP-Adapter:文本兼容圖像提示適配器,用于文本到圖像擴(kuò)散模型

    ????????IPAdapter能夠通過(guò)圖像給Stable Diffusion模型以內(nèi)容提示,讓其生成參考該圖像畫風(fēng),可以免去Lora的訓(xùn)練,達(dá)到參考畫風(fēng)人物的生成效果。 ????????通過(guò)文本提示詞生成的圖像,往往需要設(shè)置復(fù)雜的提示詞,通常設(shè)計(jì)提示詞變得很復(fù)雜。文本提示可以由圖像來(lái)替代

    2024年01月16日
    瀏覽(24)
  • 【AIGC-文本/圖片生成視頻系列-10】SparseCtrl:在文本生成視頻的擴(kuò)散模型中添加稀疏控制

    【AIGC-文本/圖片生成視頻系列-10】SparseCtrl:在文本生成視頻的擴(kuò)散模型中添加稀疏控制

    目錄 一. 項(xiàng)目概述 二.?方法詳解 三. 應(yīng)用結(jié)果 四.個(gè)人思考 由于擴(kuò)散模型生成空間的不確定性,僅僅通過(guò)文本生成視頻時(shí),會(huì)導(dǎo)致模糊的視頻幀生成。 今天解析的SparseCtrl,是一種有效解決上述問(wèn)題的方案,通過(guò)帶有附加編碼器的時(shí)間稀疏條件圖來(lái)控制文本到視頻的生成。

    2024年04月15日
    瀏覽(33)
  • 【AIGC】手把手使用擴(kuò)散模型從文本生成圖像

    【AIGC】手把手使用擴(kuò)散模型從文本生成圖像

    在這篇文章中,我們將手把手展示如何使用Hugging Face的diffusers包通過(guò)文本生成圖像。 DALLE2是收費(fèi)的,用戶只有一些免費(fèi)的額度,如果免費(fèi)額度使用完畢就需要付費(fèi)了,所以必須尋找替代方案,并發(fā)現(xiàn)了Hugging Face,他們發(fā)布了一個(gè)擴(kuò)散模型的包diffusers ,可以讓我們直接使用。

    2024年02月09日
    瀏覽(29)
  • 文本生成圖像工作簡(jiǎn)述4--擴(kuò)散模型、自回歸模型、生成對(duì)抗網(wǎng)絡(luò)的對(duì)比調(diào)研

    文本生成圖像工作簡(jiǎn)述4--擴(kuò)散模型、自回歸模型、生成對(duì)抗網(wǎng)絡(luò)的對(duì)比調(diào)研

    基于近年來(lái)圖像處理和語(yǔ)言理解方面的技術(shù)突破,融合圖像和文本處理的多模態(tài)任務(wù)獲得了廣泛的關(guān)注并取得了顯著成功。 文本生成圖像(text-to-image)是圖像和文本處理的多模態(tài)任務(wù)的一項(xiàng)子任務(wù),其根據(jù)給定文本生成符合描述的真實(shí)圖像,具有巨大的應(yīng)用潛力,如 視覺(jué)推

    2023年04月08日
    瀏覽(57)
  • 擴(kuò)散模型實(shí)戰(zhàn)(十):Stable Diffusion文本條件生成圖像大模型

    擴(kuò)散模型實(shí)戰(zhàn)(十):Stable Diffusion文本條件生成圖像大模型

    ?擴(kuò)散模型實(shí)戰(zhàn)(一):基本原理介紹 擴(kuò)散模型實(shí)戰(zhàn)(二):擴(kuò)散模型的發(fā)展 擴(kuò)散模型實(shí)戰(zhàn)(三):擴(kuò)散模型的應(yīng)用 擴(kuò)散模型實(shí)戰(zhàn)(四):從零構(gòu)建擴(kuò)散模型 擴(kuò)散模型實(shí)戰(zhàn)(五):采樣過(guò)程 擴(kuò)散模型實(shí)戰(zhàn)(六):Diffusers DDPM初探 擴(kuò)散模型實(shí)戰(zhàn)(七):Diffusers蝴蝶圖像生成實(shí)

    2024年02月03日
    瀏覽(23)
  • DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

    DALL·E 2 解讀 | 結(jié)合預(yù)訓(xùn)練CLIP和擴(kuò)散模型實(shí)現(xiàn)文本-圖像生成

    ? 論文標(biāo)題: 《Hierarchical Text-Conditional Image Generation with CLIP Latents》 作者/單位:Aditya Ramesh et al. / Open AI 論文鏈接:?http://arxiv.org/abs/2204.06125 論文中文對(duì)照版:論文筆記:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents詳解_nocol.的博客-CSDN博客 代碼鏈接: 非官方實(shí)現(xiàn)?h

    2024年02月11日
    瀏覽(19)
  • stable diffusion為什么能用于文本到圖像的生成

    stable diffusion為什么能用于文本到圖像的生成

    ? 推薦基于穩(wěn)定擴(kuò)散(stable diffusion) AI 模型開發(fā)的自動(dòng)紋理工具: DreamTexture.js自動(dòng)紋理化開發(fā)包 - NSDT 如果你還沒(méi)有看過(guò)它:穩(wěn)定擴(kuò)散是一個(gè)文本到圖像的生成模型,你可以輸入一個(gè)文本提示,比如“一個(gè)人一半尤達(dá)一半甘道夫”,然后接收一個(gè)圖像(512x512像素)作為輸出,

    2024年02月03日
    瀏覽(21)
  • Text2Video-Zero:Text-to-Image擴(kuò)散模型是Zero-Shot視頻生成器

    Text2Video-Zero:Text-to-Image擴(kuò)散模型是Zero-Shot視頻生成器

    Paper: https://arxiv.org/abs/2303.13439 Project: https://github.com/Picsart-AI-Research/Text2Video-Zero 原文鏈接:Text2Video-Zero:Text-to-Image擴(kuò)散模型是Zero-Shot視頻生成器(by 小樣本視覺(jué)與智能前沿) 目錄 最近的text-to-video生成方法依賴于計(jì)算量大的訓(xùn)練,并且需要大規(guī)模的視頻數(shù)據(jù)集。 在本文中,我

    2024年02月11日
    瀏覽(44)
  • 零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā)

    零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā)

    前段時(shí)間,一款A(yù)I視頻應(yīng)用及其創(chuàng)始人刷爆了科技圈,順便還帶火了自家公司的股票。這是一家名為pikaai的初創(chuàng)公司,他們的主打產(chǎn)品是一款文本生成視頻應(yīng)用Pika 1.0。對(duì)于AI生成圖片大多數(shù)人已經(jīng)不陌生了,甚至已經(jīng)用的非常熟練,其中不乏常見的Stable Diffusion以及Midjourney等

    2024年01月20日
    瀏覽(21)
  • 免費(fèi)使用支持離線部署使用的 txt2video 文本生成視頻大模型(Text-to-Video-Synthesis Model)

    免費(fèi)使用支持離線部署使用的 txt2video 文本生成視頻大模型(Text-to-Video-Synthesis Model)

    免費(fèi)使用支持離線部署使用的 txt2video 文本生成視頻大模型(Text-to-Video-Synthesis Model)。 文本生成視頻大模型(Text-to-Video-Synthesis Model)是一種基于深度學(xué)習(xí)技術(shù)的人工智能模型,它可以將自然語(yǔ)言文本描述轉(zhuǎn)換為相應(yīng)的視頻。即通過(guò)輸入文本描述,自動(dòng)生成符合描述內(nèi)容的視頻。

    2024年02月22日
    瀏覽(17)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包