国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文學(xué)習(xí)——Tune-A-Video

這篇具有很好參考價(jià)值的文章主要介紹了論文學(xué)習(xí)——Tune-A-Video。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Abstract

本文提出了一種方法,站在巨人的肩膀上——在大規(guī)模圖像數(shù)據(jù)集上pretrain并表現(xiàn)良好的 text to image 生成模型——加入新結(jié)構(gòu)并進(jìn)行微調(diào),訓(xùn)練出一套 one shot 的 text to video 生成器。這樣做的優(yōu)點(diǎn)在于利用已經(jīng)非常成功、風(fēng)格多樣的圖像擴(kuò)散生成模型,在其基礎(chǔ)上進(jìn)行擴(kuò)展,同時(shí)其訓(xùn)練時(shí)間很短,大大降低了訓(xùn)練開銷。作為one shot 方法,tune a video還需要額外信息,一個(gè)文本-視頻對兒作為demo。

作者對于T2I(text to image)模型得到了兩個(gè)觀察
(1)T2I模型可以生成·展示動(dòng)詞項(xiàng)效果的·靜止圖像
(2)擴(kuò)展T2I模型同時(shí)生成的多張圖像展現(xiàn)出了良好的內(nèi)容一致性。

有了這兩個(gè)觀察作為基礎(chǔ),其實(shí)生成視頻的關(guān)鍵就在于如何保證一致的物體的連續(xù)運(yùn)動(dòng)。

為了更進(jìn)一步,學(xué)習(xí)到連貫的動(dòng)作,作者設(shè)計(jì)出one shot 的 Tune-A-Video模型。這個(gè)模型涉及到一個(gè)定制的時(shí)空注意力機(jī)制,以及一個(gè)高效的one shot 調(diào)整策略(tuning strategy)。在推理階段,使用DDIM的inversion過程(常規(guī)DDIM在逆擴(kuò)散過程中的采樣部分是確定的:將預(yù)測的高斯噪聲~N(μ, σ)中的標(biāo)準(zhǔn)差設(shè)置為0,以此消除逆擴(kuò)散過程中的隨機(jī)性;而DDIM inversion相反,其正向擴(kuò)散過程是確定的。)來為采樣過程提供結(jié)構(gòu)性的引導(dǎo)。

1. Introduction

為在T2V領(lǐng)域賦值T2I生成模型的成果經(jīng)驗(yàn),有許多模型[30,35,6,42,40]也嘗試將空間領(lǐng)域的T2I生成模型拓展到時(shí)空領(lǐng)域。它們通常在大規(guī)模的text-video數(shù)據(jù)集上采取標(biāo)準(zhǔn)的訓(xùn)練范式,效果很好,但計(jì)算開銷太大太耗時(shí)。

本模型的思路:在大規(guī)模text-image數(shù)據(jù)集上完成預(yù)訓(xùn)練的T2I模型以及有了開放域概念的許多知識(shí),那簡單給它一個(gè)視頻樣例,它是否能夠自行推理出其他的視頻呢?

One-Shot Video Tuning,僅使用一個(gè)text-video對兒來訓(xùn)練T2V生成器,這個(gè)生成器從輸入視頻中捕獲基礎(chǔ)的動(dòng)作信息,然后根據(jù)修改提示(edited prompts)生成新穎的視頻。

論文學(xué)習(xí)——Tune-A-Video

上面abstract提到,生成視頻的關(guān)鍵就在于如何保證一致的物體的連續(xù)運(yùn)動(dòng)。下面,作者從sota的T2I擴(kuò)散模型中進(jìn)行如下觀察,并依此激勵(lì)我們的模型。
(1)關(guān)于動(dòng)作:T2I模型能夠很好地根據(jù)包括動(dòng)詞項(xiàng)在內(nèi)的文本生成的圖片。這表明T2I模型在靜態(tài)動(dòng)作生成上,可以通過跨模態(tài)的注意力來考慮到文本中的動(dòng)詞項(xiàng)。
(2)關(guān)于一致的物體:簡單的將T2I模型中的空間自注意力進(jìn)行擴(kuò)展,使之從生成一張圖片變?yōu)樯啥鄰垐D片,足可以生成內(nèi)容一致的不同幀,如圖2第1行是內(nèi)容和背景不同的多張圖像,而圖2第2行是相同的人和沙灘。不過動(dòng)作仍不是連續(xù)的,這表明T2I中的自注意力層只關(guān)注空間相似性而不關(guān)注像素點(diǎn)的位置。

Tune A Video方法是在sota 的T2I模型在時(shí)空維度上的簡單膨脹。為避免計(jì)算量的平方級(jí)增長,對于幀數(shù)不斷增多的任務(wù)來說,這種方案顯然是不可行的。另外,使用原始的微調(diào)方法,更新所有的參數(shù)可能會(huì)破壞T2I模型已有的知識(shí),并阻礙新概念視頻的生成。為解決這個(gè)問題,作者使用稀疏的時(shí)空注意力機(jī)制而非full attention,僅使用視頻的第一幀和前一幀,至于微調(diào)策略,只更新attention 塊兒中的投影矩陣。以上操作只保證視頻幀中的內(nèi)容的一致性,但并不保證動(dòng)作的連續(xù)性。

因此,在推理階段,作者通過DDIM的inversion過程,從輸入視頻中尋求structure guidance。將該過程得到的逆轉(zhuǎn)潛向量作為初始的噪音,這樣來產(chǎn)生時(shí)間上連貫、動(dòng)作平滑的視頻幀。

作者貢獻(xiàn):
(1)為T2V生成任務(wù)提出了一類新的模型One-Shot Video Tuning,這消除了模型在大尺度視頻數(shù)據(jù)集上訓(xùn)練的負(fù)擔(dān)
(2)這是第一個(gè)使用T2I實(shí)現(xiàn)T2V生成任務(wù)的框架
(3)使用高效的attention tuning和structural inversion來顯著提升時(shí)序上的聯(lián)系性

3.2 網(wǎng)絡(luò)膨脹

先說T2I模型,以LDM模型為例,使用U-Net,先使用孔家下采樣再使用上采樣,并保持跳聯(lián)。U-Net由堆疊的2d殘差卷積和transformer塊兒們組成。每個(gè)transformer塊兒都有一個(gè)空間自注意力層,一個(gè)交叉注意力層,一個(gè)前饋網(wǎng)絡(luò)組成??臻g自注意力層利用feature map中的像素位置尋找相似關(guān)系;交叉注意力則考慮像素和條件輸入之間的關(guān)系。

zvi表示video的第vi幀,空間自注意力可以表示為如下形式
論文學(xué)習(xí)——Tune-A-Video
下面講怎么改:

  • 將二維的LDM轉(zhuǎn)換到時(shí)空域上:
    (1)將其中的2d卷積層膨脹為偽3d卷積層,3x3變?yōu)?x3x3這樣;
    (2)對于每個(gè)transformer塊兒加入時(shí)序的自注意力層(,以完成時(shí)間建模);
    (3)(為增強(qiáng)時(shí)序連貫性,)將空間自注意力機(jī)制轉(zhuǎn)為時(shí)空自注意力機(jī)制。轉(zhuǎn)換的方法并不是使用full attention 或者causal attention,它們也能捕獲時(shí)空一致性。但由于在introduction中提到的開銷問題,顯然并不適用。本文采用的是系數(shù)的causal attention,將計(jì)算量從O((mN)2)轉(zhuǎn)為了O(2mN2),其中m為幀數(shù),N為每幀中的squence數(shù)目。需要注意的是,這種自注意力機(jī)制里,計(jì)算query的向量是zvi,計(jì)算key和value使用的向量則是v1和vi-1的拼接。

4.4 微調(diào)和推理

模型微調(diào)

為獲得時(shí)序建模能力,使用輸入視頻微調(diào)網(wǎng)絡(luò)。

由于時(shí)空注意力機(jī)制通過查詢之前幀上的相關(guān)位置來建模其時(shí)序一致性。因此固定ST-Attn layers中的WK和WV,僅更新投影矩陣WQ

而對于新加入的時(shí)序自注意力層,則更新所有參數(shù),因?yàn)樾录尤雽拥膮?shù)不包含先驗(yàn)。

對于交叉注意力Cross-Attn,則通過更新Query的投影矩陣(query projection)來完善text-video的對應(yīng)關(guān)系。

這樣的微調(diào),相對于完全調(diào)整來說更節(jié)約計(jì)算開銷,并且也有助于保持原有T2I預(yù)訓(xùn)練所得到的的原有性質(zhì)。下圖中標(biāo)亮了所有需要更新參數(shù)的模塊。

論文學(xué)習(xí)——Tune-A-Video

通過DDIM的inversion獲得結(jié)構(gòu)上的指導(dǎo)

為了更好地確保不同幀之間的像素移動(dòng),在推理階段,本模型從原視頻中引入結(jié)構(gòu)的指導(dǎo)。具體來說,通過DDIM的inversion過程,從沒有文本條件的原視頻中能夠提取出潛向量噪音。這種噪音作為DDIM采樣過程的起點(diǎn),同時(shí)受到編輯提示edited prompt T*的引導(dǎo),進(jìn)入DDIM的采樣過程,輸出視頻可以表示如下

論文學(xué)習(xí)——Tune-A-Video文章來源地址http://www.zghlxwxcb.cn/news/detail-422853.html

到了這里,關(guān)于論文學(xué)習(xí)——Tune-A-Video的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【計(jì)算機(jī)視覺】Zero-shot, One-shot和Few-shot的理解

    【計(jì)算機(jī)視覺】Zero-shot, One-shot和Few-shot的理解

    機(jī)器學(xué)習(xí)任務(wù)按照對 樣本量 的需求可以分為:傳統(tǒng)監(jiān)督式學(xué)習(xí)、Few-shot Learning、One-shot Learning、Zero-shot Learning。 傳統(tǒng)learning,煉丹模式。傳統(tǒng)深度學(xué)習(xí)的學(xué)習(xí)速度慢,往往需要學(xué)習(xí)海量數(shù)據(jù)和反復(fù)訓(xùn)練后才能使網(wǎng)絡(luò)模型具備不錯(cuò)的泛化能力,傳統(tǒng)learning可以總結(jié)為:海量數(shù)據(jù)

    2024年02月04日
    瀏覽(41)
  • 淺嘗prompt咒語設(shè)計(jì):one-shot微調(diào)chatglm-6b實(shí)踐信息抽取

    近期以chatgpt等文生成LLMS爆火,國內(nèi)也逐漸開源了中文版的chatgpt,本文以清華大學(xué)開源的6b的chatglm為例,實(shí)踐one-shot微調(diào),設(shè)計(jì)prompt咒語在信息抽取領(lǐng)域的實(shí)驗(yàn)效果。 給定一個(gè)JD的職位要求,需要從描述中抽取出相應(yīng)的實(shí)體。 例如: 相應(yīng)的schema的實(shí)體為: prompt設(shè)計(jì)主要點(diǎn):

    2024年02月11日
    瀏覽(28)
  • few-shot / one shot / zero shot object counting論文匯總

    few-shot / one shot / zero shot object counting論文匯總

    code: https://paperswithcode.com/paper/class-agnostic-counting 摘要:幾乎所有現(xiàn)有的計(jì)數(shù)方法都是為一個(gè)特定的對象類而設(shè)計(jì)的。然而,我們的工作旨在創(chuàng)建一個(gè)能夠計(jì)數(shù)任何類對象的計(jì)數(shù)模型。為了實(shí)現(xiàn)這一目標(biāo),我們將計(jì)數(shù)表述為一個(gè)匹配問題,使我們能夠利用對象計(jì)數(shù)問題中自然存

    2024年02月09日
    瀏覽(23)
  • Personalize Segment Anything Model with One Shot【論文翻譯】

    Personalize Segment Anything Model with One Shot【論文翻譯】

    ? https://arxiv.org/pdf/2305.03048.pdf https://github.com/ZrrSkywalker/Personalize-SAM 通過大數(shù)據(jù)預(yù)訓(xùn)練驅(qū)動(dòng),分段任意模型(Segment Anything Model,SAM)已被證明是一個(gè)強(qiáng)大且可提示的框架,革新了分割模型。盡管其具有普遍性,但在沒有人力提示的情況下,定制SAM以適應(yīng)特定的視覺概念仍未得

    2024年02月12日
    瀏覽(25)
  • 【提示學(xué)習(xí)論文七】Visual Prompt Tuning論文原理

    【提示學(xué)習(xí)論文七】Visual Prompt Tuning論文原理

    這篇文章于2022年發(fā)表在ECCV(European Conference on Computer Vision),作者是Menglin Jia, Luming Tang,Bor-Chun Chen, Claire Cardie, Serge Belongie,Bharath Hariharan, Ser-Nam Lim。 VPT是一種有效的用于大規(guī)模Transformer的視覺微調(diào),只需要在輸入空間引入少量可訓(xùn)練參數(shù),同時(shí)凍結(jié)backbone。 目前適應(yīng)預(yù)訓(xùn)練模

    2024年01月17日
    瀏覽(28)
  • 開源模型應(yīng)用落地-qwen模型小試-Zero/One/Few Shot-進(jìn)階篇(九)

    ? ? Zero-Shot、One-Shot和Few-Shot是機(jī)器學(xué)習(xí)領(lǐng)域中重要的概念,特別是在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域。通過Zero-Shot、One-Shot和Few-Shot學(xué)習(xí),模型可以更好地處理未知的情況和新任務(wù),減少對大量標(biāo)注數(shù)據(jù)的依賴,提高模型的適應(yīng)性和靈活性。這對于推動(dòng)人工智能在現(xiàn)實(shí)世界中

    2024年04月10日
    瀏覽(24)
  • 105、Zero-1-to-3: Zero-shot One Image to 3D Object

    105、Zero-1-to-3: Zero-shot One Image to 3D Object

    官網(wǎng) ?使用合成數(shù)據(jù)集來學(xué)習(xí)相對攝像機(jī)視點(diǎn)的控制,這允許在指定的攝像機(jī)變換下生成相同對象的新圖像,用于從單個(gè)圖像進(jìn)行三維重建的任務(wù)。 ?輸入圖像 x ∈ R H × W × 3 x in R^{H times W times 3} x ∈ R H × W × 3 ,所需視點(diǎn)的相對攝像機(jī)旋轉(zhuǎn)和平移 R ∈ R 3 × 3 , T ∈ R

    2024年02月01日
    瀏覽(27)
  • 論文學(xué)習(xí)——Video LDM (Align your Latents)

    論文學(xué)習(xí)——Video LDM (Align your Latents)

    本文是閱讀論文后的個(gè)人筆記,適應(yīng)于個(gè)人水平,敘述順序和細(xì)節(jié)詳略與原論文不盡相同,并不是翻譯原論文。 如果想了解所有細(xì)節(jié),建議移步arxiv。 論文地址:https://arxiv.org/abs/2304.08818 項(xiàng)目地址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/ 本文基于圖像生成領(lǐng)域的典型框架

    2024年02月09日
    瀏覽(20)
  • TOOD Task-aligned One-stage Object Detection 論文學(xué)習(xí)

    TOOD Task-aligned One-stage Object Detection 論文學(xué)習(xí)

    目標(biāo)檢測通過多任務(wù)學(xué)習(xí)的方式,協(xié)同優(yōu)化目標(biāo)的分類和定位。分類任務(wù)會(huì)學(xué)習(xí)目標(biāo)的判別特征,關(guān)注于目標(biāo)的顯著性或關(guān)鍵區(qū)域,而定位任務(wù)則學(xué)習(xí)準(zhǔn)確地定位目標(biāo)的邊界。因?yàn)槎ㄎ缓头诸惖膶W(xué)習(xí)機(jī)制不同,這倆任務(wù)學(xué)到的特征分布也不同。當(dāng)這兩個(gè)分支做預(yù)測時(shí),會(huì)產(chǎn)生

    2024年02月15日
    瀏覽(26)
  • 代碼解讀:Zero-shot 視頻生成任務(wù) Text2Video-Zero

    Diffusion Models視頻生成-博客匯總 前言: 上一篇博客《【ICCV 2023 Oral】解讀Text2Video-Zero:解鎖 Zero-shot 視頻生成任務(wù)》解讀了這篇論文《Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators》。這篇論文的創(chuàng)新點(diǎn)比較多,含金量很高,而且開源了代碼。所以這篇博客結(jié)合

    2024年02月03日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包