国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

tune a video:one-shot tuning of image diffusion models for text-to-video generation

這篇具有很好參考價(jià)值的文章主要介紹了tune a video:one-shot tuning of image diffusion models for text-to-video generation。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

【Diffusion Models】新加坡國(guó)立大學(xué)、騰訊強(qiáng)強(qiáng)聯(lián)手Tune-A-Video:One-Shot微調(diào)圖像擴(kuò)散模型用于文本到圖像的生成!_嗶哩嗶哩_bilibili【Diffusion Models】新加坡國(guó)立大學(xué)、騰訊強(qiáng)強(qiáng)聯(lián)手Tune-A-Video:One-Shot微調(diào)圖像擴(kuò)散模型用于文本到圖像的生成!共計(jì)2條視頻,包括:[論文代碼閱讀]Tune-A-Video_ One-Shot微調(diào)圖像擴(kuò)散模型用于文本到圖像的生成新加坡國(guó)立大學(xué)、騰訊、3連等,UP主更多精彩視頻,請(qǐng)關(guān)注UP賬號(hào)。https://www.bilibili.com/video/BV1q24y1V79k/?spm_id_from=333.337.search-card.all.click&vd_source=4aed82e35f26bb600bc5b46e65e25c22視頻生成和圖像生成最大的不同在于要保證視頻的連續(xù)性,運(yùn)動(dòng)主體不能變且運(yùn)動(dòng)主體的狀態(tài)背景等不能產(chǎn)生突變,因此視頻生成是一定要添加約束信息的,本文是在圖像生成的基礎(chǔ)上(T2I)通過(guò)特定設(shè)計(jì)的finetune來(lái)完成視頻生成(T2V),作者說(shuō)人類可以通過(guò)一個(gè)視頻就能學(xué)習(xí)到新的試卷概念,因此設(shè)計(jì)了one shot video generation。怎么做呢?首先作者升級(jí)了stable diffusion的架構(gòu)將2d卷積換成了3d卷積,并且將self-attention擴(kuò)展到時(shí)空域,但轉(zhuǎn)換之后的計(jì)算量會(huì)飆升,作者提出了sparse-causal attention,每一幀只和第一幀以及前一陣計(jì)算attention,可以極大減少計(jì)算量,在訓(xùn)練時(shí),通過(guò)一段視頻和相應(yīng)的text進(jìn)行微調(diào),在推理時(shí),要保證動(dòng)詞的一致性,可以更換背景和主題,依然能產(chǎn)生很好的連續(xù)性,one shot的視頻實(shí)際上就是讓T2I模型去學(xué)動(dòng)作的。

tune a video:one-shot tuning of image diffusion models for text-to-video generation

如上圖所示,第一行為原始的訓(xùn)練視頻,訓(xùn)練完成之后,第二、三、四行均為推理視頻,可見tune a video產(chǎn)生了主體一致性和動(dòng)作一致性。

abstract:在現(xiàn)實(shí)中沒有足夠的視頻文本對(duì)來(lái)訓(xùn)練T2V,人類可以從一個(gè)樣本中學(xué)習(xí)新的視覺概念,因此本文研究一個(gè)新的方向,one shot視頻生成,僅使用一個(gè)文本-視頻對(duì)來(lái)訓(xùn)練一個(gè)T2V,基于已有的T2I的擴(kuò)散的能力。有兩個(gè)關(guān)鍵點(diǎn),1.T2I模型能夠生成很好的與動(dòng)詞相對(duì)齊的圖像,2.擴(kuò)展T2I模型同時(shí)產(chǎn)生多個(gè)圖像有良好的一致性。為了進(jìn)一步學(xué)習(xí)連續(xù)運(yùn)動(dòng),采用定制的sparse-causal attention來(lái)微調(diào)模型。

1.introduction

tune a video:one-shot tuning of image diffusion models for text-to-video generation

視頻生成的關(guān)鍵是保持一致主體的連續(xù)運(yùn)動(dòng),motion and consistent object,如上圖所示,第一行,給定text,例如一個(gè)男人正在沙灘上跑步,T2I能夠很好的對(duì)齊動(dòng)詞信息,但是背景不同且不是一致的。但證明T2I可以通過(guò)cross-model attention來(lái)注意到動(dòng)詞。第二行作者采用了擴(kuò)展的T2I模型,將T2I模型的中self-attention從一張圖擴(kuò)展到多張圖保持跨幀時(shí)的內(nèi)容一致性,并行的生成幀時(shí)都和第一幀做attention,可以看到盡管動(dòng)作還不是連續(xù)的,但是主體背景等信息是一致的??赏普搒elf-attention層僅由spatial similarities驅(qū)動(dòng)而不是pixel positions(這塊的解釋可以從框架角度理解,因?yàn)樽罱K推理時(shí)是無(wú)法改變one shot時(shí)學(xué)習(xí)的動(dòng)作的,也就是說(shuō)模型最終學(xué)習(xí)到的還是一致的空間相似度)。

? ? ? ? tune a video對(duì)T2I在時(shí)間維度的簡(jiǎn)單膨脹,1.將3x3 conv換成1x3x3(unet中resnet卷積),2.將spatial self-attention 換成spatio-temporal cross-frame attention。提出了一個(gè)簡(jiǎn)單的tune策略,只更新attention block中的投影矩陣,從one-shot視頻中捕獲連續(xù)的運(yùn)動(dòng)狀態(tài),其余參數(shù)均被凍結(jié)。但是spatio-temporal cross-frame attention參數(shù)量很大,提出了一個(gè)新的變體,sparse-causal attention(SC-Attn),它只計(jì)算第一幀和前一幀,自回歸生成視頻。

2.method

tune a video:one-shot tuning of image diffusion models for text-to-video generation

上圖是本文的框架, 在fine-tune之前,現(xiàn)將T2I模型膨脹成T2V,其中T2V中的部分參數(shù)是從T2I中初始化的,然后采用一個(gè)視頻去fine-tune,推理時(shí),給定一個(gè)text即可生成視頻,但是視頻中動(dòng)作是不能變的,one shot的視頻就是一個(gè)動(dòng)作。

tune a video:one-shot tuning of image diffusion models for text-to-video generation

上圖是pipeline,首先輸入視頻和文本,在unet中有三attention,第一個(gè)是SC-Attn,第二個(gè)是cross-Attn(不同模態(tài)之間的attn),第三個(gè)是新增的Temp-Attn,黃色表示不斷更新的,灰色表示不更新的其中Q,query是不斷更新的,KV是不更新。右側(cè)是sparse-causal attention,計(jì)算第i幀,要取到第1幀和i-1幀,之后分別投影得到KV,再計(jì)算softmax。

tune a video:one-shot tuning of image diffusion models for text-to-video generation

上式可以看到Q是第i幀通過(guò)投影矩陣產(chǎn)生,但是K和V就不是了,常規(guī)操作,ldm中text conditional都是加在KV上的。這里,第一幀做attention能夠保證在生成內(nèi)容上的全局一致性,與前一幀計(jì)算attention能夠保持運(yùn)動(dòng)的一致性,連續(xù)性。

network inflation

普通的unet是由多層2d convolution residual blocks構(gòu)成,后續(xù)是attention,每一個(gè)attention是由一個(gè)self-attention、一個(gè)cross-attention和一個(gè)feed-forward network構(gòu)成,spatial self-attention利用特征圖上pixel locations來(lái)實(shí)現(xiàn)similar correlations,cross-attention則考慮pixel和conditional input(text)之間的相關(guān)性。

? ? ? ? 首先對(duì)輸入視頻使用1x3x3的卷積,可以將frame的1轉(zhuǎn)到batch處理,所以2d還是可以的。

sparse-casual attention

tune a video:one-shot tuning of image diffusion models for text-to-video generation

如上圖所示,v表示幀,第一個(gè)是spatial attention,在單幀之間做attention,第二張圖是spatio-temporal attention,每一幀和所有幀之間計(jì)算attention,計(jì)算量是第一張圖的平方,第三張圖是causal attention,第i幀只會(huì)和所有的i-1幀計(jì)算attention,第四張圖就是本文使用的sparse-causal attention,第四幀只與第一幀和第三幀計(jì)算attention,是前一張圖的稀疏版本。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-410085.html

到了這里,關(guān)于tune a video:one-shot tuning of image diffusion models for text-to-video generation的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【計(jì)算機(jī)視覺】Zero-shot, One-shot和Few-shot的理解

    【計(jì)算機(jī)視覺】Zero-shot, One-shot和Few-shot的理解

    機(jī)器學(xué)習(xí)任務(wù)按照對(duì) 樣本量 的需求可以分為:傳統(tǒng)監(jiān)督式學(xué)習(xí)、Few-shot Learning、One-shot Learning、Zero-shot Learning。 傳統(tǒng)learning,煉丹模式。傳統(tǒng)深度學(xué)習(xí)的學(xué)習(xí)速度慢,往往需要學(xué)習(xí)海量數(shù)據(jù)和反復(fù)訓(xùn)練后才能使網(wǎng)絡(luò)模型具備不錯(cuò)的泛化能力,傳統(tǒng)learning可以總結(jié)為:海量數(shù)據(jù)

    2024年02月04日
    瀏覽(41)
  • Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于視頻理解的指令調(diào)諧視聽語(yǔ)言

    Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于視頻理解的指令調(diào)諧視聽語(yǔ)言

    我們提出了一個(gè)多模態(tài)框架Video-LLaMA1,它使 大型語(yǔ)言模型(LLM)能夠理解視頻中的視覺和聽覺內(nèi)容 。視頻-來(lái)自 凍結(jié)的預(yù)訓(xùn)練視頻和音頻編碼器和凍結(jié)的LLM的美洲駝引導(dǎo)跨模式訓(xùn)練 。不像以前的工作, 補(bǔ)充線性最小二乘法只處理視覺或聽覺信號(hào) (朱等,2023;劉等,2023;Huang

    2024年02月03日
    瀏覽(19)
  • 淺嘗prompt咒語(yǔ)設(shè)計(jì):one-shot微調(diào)chatglm-6b實(shí)踐信息抽取

    近期以chatgpt等文生成LLMS爆火,國(guó)內(nèi)也逐漸開源了中文版的chatgpt,本文以清華大學(xué)開源的6b的chatglm為例,實(shí)踐one-shot微調(diào),設(shè)計(jì)prompt咒語(yǔ)在信息抽取領(lǐng)域的實(shí)驗(yàn)效果。 給定一個(gè)JD的職位要求,需要從描述中抽取出相應(yīng)的實(shí)體。 例如: 相應(yīng)的schema的實(shí)體為: prompt設(shè)計(jì)主要點(diǎn):

    2024年02月11日
    瀏覽(28)
  • DENSE: Data-Free One-Shot Federated Learning論文筆記

    DENSE: Data-Free One-Shot Federated Learning論文筆記

    DENSE的主要特點(diǎn) 單輪通信學(xué)習(xí) : DENSE允許中央服務(wù)器在單次通信輪次中學(xué)習(xí)全局模型,有效降低了通信成本。 現(xiàn)有單輪FL方法的局限性 : 大多數(shù)現(xiàn)有的單輪FL方法不切實(shí)際或存在固有限制,例如需要公共數(shù)據(jù)集,客戶端模型同質(zhì)化,以及需要上傳額外的數(shù)據(jù)或模型信息。

    2024年02月02日
    瀏覽(17)
  • LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

    LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

    Paper name LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Paper Reading Note Paper URL: https://arxiv.org/pdf/2303.16199.pdf Code URL: https://github.com/ZrrSkywalker/LLaMA-Adapter 2023 上海人工智能實(shí)驗(yàn)室和 CUHK MMLab 出的文章。提出 LLaMA-Adapter,一種高效的微調(diào)方法,將 LLaMA 調(diào)整為指令跟隨模

    2024年02月09日
    瀏覽(16)
  • 論文學(xué)習(xí)——Tune-A-Video

    論文學(xué)習(xí)——Tune-A-Video

    本文提出了一種方法,站在巨人的肩膀上——在大規(guī)模圖像數(shù)據(jù)集上pretrain并表現(xiàn)良好的 text to image 生成模型——加入新結(jié)構(gòu)并進(jìn)行微調(diào),訓(xùn)練出一套 one shot 的 text to video 生成器。這樣做的優(yōu)點(diǎn)在于利用已經(jīng)非常成功、風(fēng)格多樣的圖像擴(kuò)散生成模型,在其基礎(chǔ)上進(jìn)行擴(kuò)展,同

    2023年04月23日
    瀏覽(19)
  • (FEDCVAE-KD)DATA-FREE ONE-SHOT FEDERATED LEARNING UNDER VERY HIGH STATISTICAL HETEROGENEITY論文筆記

    (FEDCVAE-KD)DATA-FREE ONE-SHOT FEDERATED LEARNING UNDER VERY HIGH STATISTICAL HETEROGENEITY論文筆記

    出于對(duì)擴(kuò)展通信和潛在攻擊的擔(dān)憂,一次性FL將通信限制在單一回合,同時(shí)試圖保持性能。 然而,一次性FL方法在高統(tǒng)計(jì)異質(zhì)性的情況下往往會(huì)退化,無(wú)法提高管道的安全性,或者需要一個(gè)輔助的公共數(shù)據(jù)集。 為了解決這些局限性,我們提出了兩種新的無(wú)數(shù)據(jù)的一次性FL方法

    2024年02月04日
    瀏覽(20)
  • Personalize Segment Anything Model with One Shot【論文翻譯】

    Personalize Segment Anything Model with One Shot【論文翻譯】

    ? https://arxiv.org/pdf/2305.03048.pdf https://github.com/ZrrSkywalker/Personalize-SAM 通過(guò)大數(shù)據(jù)預(yù)訓(xùn)練驅(qū)動(dòng),分段任意模型(Segment Anything Model,SAM)已被證明是一個(gè)強(qiáng)大且可提示的框架,革新了分割模型。盡管其具有普遍性,但在沒有人力提示的情況下,定制SAM以適應(yīng)特定的視覺概念仍未得

    2024年02月12日
    瀏覽(25)
  • 【論文閱讀筆記】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    【論文閱讀筆記】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【開源】 【核心思想】 本文的核心思想是提出了一種用于醫(yī)學(xué)圖像分割的參數(shù)高效的提示調(diào)整(Prompt Tuning)方法。這種方法基于預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),通過(guò)插入可學(xué)習(xí)的

    2024年01月17日
    瀏覽(45)
  • [ICLR 2023] LPT: Long-tailed Prompt Tuning for Image Classification

    [ICLR 2023] LPT: Long-tailed Prompt Tuning for Image Classification

    作者提出 Long-tailed Prompt Tuning (LPT) ,通過(guò) prompt learning 來(lái)解決長(zhǎng)尾問題,包括 (1) 使用 shared prompt 學(xué)習(xí) general features 并將預(yù)訓(xùn)練模型 adapt 到 target domain;(2) 使用 group-specific prompts 學(xué)習(xí) group-specific features 來(lái)提高模型的 fine-grained discriminative ability 作者首先通過(guò)對(duì)比 VPT (Visual Prom

    2024年02月11日
    瀏覽(63)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包