Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
Abstract
本文提出了一種方法,站在巨人的肩膀上——在大規(guī)模圖像數(shù)據(jù)集上pretrain并表現(xiàn)良好的 text to image 生成模型——加入新結(jié)構(gòu)并進(jìn)行微調(diào),訓(xùn)練出一套 one shot 的 text to video 生成器。這樣做的優(yōu)點(diǎn)在于利用已經(jīng)非常成功、風(fēng)格多樣的圖像擴(kuò)散生成模型,在其基礎(chǔ)上進(jìn)行擴(kuò)展,同時(shí)其訓(xùn)練時(shí)間很短,大大降低了訓(xùn)練開銷。作為one shot 方法,tune a video還需要額外信息,一個(gè)文本-視頻對兒作為demo。
作者對于T2I(text to image)模型得到了兩個(gè)觀察:
(1)T2I模型可以生成·展示動(dòng)詞項(xiàng)效果的·靜止圖像
(2)擴(kuò)展T2I模型同時(shí)生成的多張圖像展現(xiàn)出了良好的內(nèi)容一致性。
有了這兩個(gè)觀察作為基礎(chǔ),其實(shí)生成視頻的關(guān)鍵就在于如何保證一致的物體的連續(xù)運(yùn)動(dòng)。
為了更進(jìn)一步,學(xué)習(xí)到連貫的動(dòng)作,作者設(shè)計(jì)出one shot 的 Tune-A-Video模型。這個(gè)模型涉及到一個(gè)定制的時(shí)空注意力機(jī)制,以及一個(gè)高效的one shot 調(diào)整策略(tuning strategy)。在推理階段,使用DDIM的inversion過程(常規(guī)DDIM在逆擴(kuò)散過程中的采樣部分是確定的:將預(yù)測的高斯噪聲~N(μ, σ)中的標(biāo)準(zhǔn)差設(shè)置為0,以此消除逆擴(kuò)散過程中的隨機(jī)性;而DDIM inversion相反,其正向擴(kuò)散過程是確定的。)來為采樣過程提供結(jié)構(gòu)性的引導(dǎo)。
1. Introduction
為在T2V領(lǐng)域賦值T2I生成模型的成果經(jīng)驗(yàn),有許多模型[30,35,6,42,40]也嘗試將空間領(lǐng)域的T2I生成模型拓展到時(shí)空領(lǐng)域。它們通常在大規(guī)模的text-video數(shù)據(jù)集上采取標(biāo)準(zhǔn)的訓(xùn)練范式,效果很好,但計(jì)算開銷太大太耗時(shí)。
本模型的思路:在大規(guī)模text-image數(shù)據(jù)集上完成預(yù)訓(xùn)練的T2I模型以及有了開放域概念的許多知識(shí),那簡單給它一個(gè)視頻樣例,它是否能夠自行推理出其他的視頻呢?
One-Shot Video Tuning,僅使用一個(gè)text-video對兒來訓(xùn)練T2V生成器,這個(gè)生成器從輸入視頻中捕獲基礎(chǔ)的動(dòng)作信息,然后根據(jù)修改提示(edited prompts)生成新穎的視頻。
上面abstract提到,生成視頻的關(guān)鍵就在于如何保證一致的物體的連續(xù)運(yùn)動(dòng)。下面,作者從sota的T2I擴(kuò)散模型中進(jìn)行如下觀察,并依此激勵(lì)我們的模型。
(1)關(guān)于動(dòng)作:T2I模型能夠很好地根據(jù)包括動(dòng)詞項(xiàng)在內(nèi)的文本生成的圖片。這表明T2I模型在靜態(tài)動(dòng)作生成上,可以通過跨模態(tài)的注意力來考慮到文本中的動(dòng)詞項(xiàng)。
(2)關(guān)于一致的物體:簡單的將T2I模型中的空間自注意力進(jìn)行擴(kuò)展,使之從生成一張圖片變?yōu)樯啥鄰垐D片,足可以生成內(nèi)容一致的不同幀,如圖2第1行是內(nèi)容和背景不同的多張圖像,而圖2第2行是相同的人和沙灘。不過動(dòng)作仍不是連續(xù)的,這表明T2I中的自注意力層只關(guān)注空間相似性而不關(guān)注像素點(diǎn)的位置。
Tune A Video方法是在sota 的T2I模型在時(shí)空維度上的簡單膨脹。為避免計(jì)算量的平方級(jí)增長,對于幀數(shù)不斷增多的任務(wù)來說,這種方案顯然是不可行的。另外,使用原始的微調(diào)方法,更新所有的參數(shù)可能會(huì)破壞T2I模型已有的知識(shí),并阻礙新概念視頻的生成。為解決這個(gè)問題,作者使用稀疏的時(shí)空注意力機(jī)制而非full attention,僅使用視頻的第一幀和前一幀,至于微調(diào)策略,只更新attention 塊兒中的投影矩陣。以上操作只保證視頻幀中的內(nèi)容的一致性,但并不保證動(dòng)作的連續(xù)性。
因此,在推理階段,作者通過DDIM的inversion過程,從輸入視頻中尋求structure guidance。將該過程得到的逆轉(zhuǎn)潛向量作為初始的噪音,這樣來產(chǎn)生時(shí)間上連貫、動(dòng)作平滑的視頻幀。
作者貢獻(xiàn):
(1)為T2V生成任務(wù)提出了一類新的模型One-Shot Video Tuning,這消除了模型在大尺度視頻數(shù)據(jù)集上訓(xùn)練的負(fù)擔(dān)
(2)這是第一個(gè)使用T2I實(shí)現(xiàn)T2V生成任務(wù)的框架
(3)使用高效的attention tuning和structural inversion來顯著提升時(shí)序上的聯(lián)系性
3.2 網(wǎng)絡(luò)膨脹
先說T2I模型,以LDM模型為例,使用U-Net,先使用孔家下采樣再使用上采樣,并保持跳聯(lián)。U-Net由堆疊的2d殘差卷積和transformer塊兒們組成。每個(gè)transformer塊兒都有一個(gè)空間自注意力層,一個(gè)交叉注意力層,一個(gè)前饋網(wǎng)絡(luò)組成??臻g自注意力層利用feature map中的像素位置尋找相似關(guān)系;交叉注意力則考慮像素和條件輸入之間的關(guān)系。
zvi表示video的第vi幀,空間自注意力可以表示為如下形式
下面講怎么改:
- 將二維的LDM轉(zhuǎn)換到時(shí)空域上:
(1)將其中的2d卷積層膨脹為偽3d卷積層,3x3變?yōu)?x3x3這樣;
(2)對于每個(gè)transformer塊兒加入時(shí)序的自注意力層(,以完成時(shí)間建模);
(3)(為增強(qiáng)時(shí)序連貫性,)將空間自注意力機(jī)制轉(zhuǎn)為時(shí)空自注意力機(jī)制。轉(zhuǎn)換的方法并不是使用full attention 或者causal attention,它們也能捕獲時(shí)空一致性。但由于在introduction中提到的開銷問題,顯然并不適用。本文采用的是系數(shù)的causal attention,將計(jì)算量從O((mN)2)轉(zhuǎn)為了O(2mN2),其中m為幀數(shù),N為每幀中的squence數(shù)目。需要注意的是,這種自注意力機(jī)制里,計(jì)算query的向量是zvi,計(jì)算key和value使用的向量則是v1和vi-1的拼接。
4.4 微調(diào)和推理
模型微調(diào)
為獲得時(shí)序建模能力,使用輸入視頻微調(diào)網(wǎng)絡(luò)。
由于時(shí)空注意力機(jī)制通過查詢之前幀上的相關(guān)位置來建模其時(shí)序一致性。因此固定ST-Attn layers中的WK和WV,僅更新投影矩陣WQ。
而對于新加入的時(shí)序自注意力層,則更新所有參數(shù),因?yàn)樾录尤雽拥膮?shù)不包含先驗(yàn)。
對于交叉注意力Cross-Attn,則通過更新Query的投影矩陣(query projection)來完善text-video的對應(yīng)關(guān)系。
這樣的微調(diào),相對于完全調(diào)整來說更節(jié)約計(jì)算開銷,并且也有助于保持原有T2I預(yù)訓(xùn)練所得到的的原有性質(zhì)。下圖中標(biāo)亮了所有需要更新參數(shù)的模塊。
通過DDIM的inversion獲得結(jié)構(gòu)上的指導(dǎo)
為了更好地確保不同幀之間的像素移動(dòng),在推理階段,本模型從原視頻中引入結(jié)構(gòu)的指導(dǎo)。具體來說,通過DDIM的inversion過程,從沒有文本條件的原視頻中能夠提取出潛向量噪音。這種噪音作為DDIM采樣過程的起點(diǎn),同時(shí)受到編輯提示edited prompt T*的引導(dǎo),進(jìn)入DDIM的采樣過程,輸出視頻可以表示如下文章來源:http://www.zghlxwxcb.cn/news/detail-422853.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-422853.html
到了這里,關(guān)于論文學(xué)習(xí)——Tune-A-Video的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!