Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
Project:https://tuneavideo.github.io
原文鏈接:Tnue-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning (by 小樣本視覺(jué)與智能前沿)
目錄
01 現(xiàn)有工作的不足?
為了復(fù)制文本到圖像(T2I)生成的成功,最近的工作使用大規(guī)模視頻數(shù)據(jù)集來(lái)訓(xùn)練文本到視頻(T2V)生成器。盡管他們的結(jié)果很有希望,但這種范式在計(jì)算上是昂貴的。
02 文章解決了什么問(wèn)題?
我們提出了一種新的T2V生成設(shè)置-單次視頻調(diào)優(yōu),其中只有一個(gè)文本視頻對(duì)。我們的模型建立在最先進(jìn)的T2I擴(kuò)散模型上,該模型是在大量圖像數(shù)據(jù)上預(yù)訓(xùn)練的。
03 關(guān)鍵的解決方案是什么?
我們引入了Tune-A-Video,它涉及定制的時(shí)空注意機(jī)制和有效的一次性調(diào)整策略。在推理中,我們采用DDIM反演為采樣提供結(jié)構(gòu)指導(dǎo)。
04 主要的貢獻(xiàn)是什么?
- 我們?yōu)?T2V 生成引入了 One-Shot Video Tuning 的新設(shè)置,消除了使用大規(guī)模視頻數(shù)據(jù)集進(jìn)行訓(xùn)練的負(fù)擔(dān)。
- 我們提出了 Tune-A-Video,這是第一個(gè)使用預(yù)訓(xùn)練的 T2I 模型生成 T2V 的框架。
- 我們提出了有效的注意力調(diào)整和結(jié)構(gòu)反轉(zhuǎn),顯著提高了時(shí)間一致性。
05 有哪些相關(guān)的工作?
- Text-to-Image diffusion models.
- Text-to-Video generative models.
- Text-driven video editing.
- Generation from a single video.
06 方法具體是如何實(shí)現(xiàn)的?
Network Inflation
spatial self-attention mechanism:
其中,
z
v
i
z_{v_i}
zvi?? 是幀
v
i
v_i
vi?對(duì)應(yīng)的潛碼表示。
W
?
W^*
W?是將輸入投影到查詢、鍵和值的可學(xué)習(xí)矩陣,d 是鍵和查詢特征的輸出維度。
我們提出使用稀疏版本的因果注意機(jī)制(causal attention mechanism),其中在幀
z
v
i
z_{v_i}
zvi?? 和幀
z
v
1
z_{v_1}
zv1?? 和
z
v
i
?
1
z_{v_{i-1}}
zvi?1?? 之間計(jì)算注意矩陣,保持低計(jì)算復(fù)雜度在
O
(
2
m
(
N
)
2
)
O(2m(N)^2)
O(2m(N)2)。
我們實(shí)現(xiàn)Attention(Q,k,V)如下:
其中
[
?
]
[\cdot]
[?]表示連接操作,視覺(jué)描述見圖5。
Fine-Tuning and Inference
1)Model fine-tuning
我們微調(diào)整個(gè)時(shí)間自注意力 (T-Attn) 層,因?yàn)樗鼈兪切绿砑拥?。此外,我們建議通過(guò)更新交叉注意力中的查詢投影來(lái)細(xì)化文本-視頻對(duì)齊(Cross-Attn)。在實(shí)踐中,與完全調(diào)優(yōu)[39]相比,微調(diào)注意塊在計(jì)算上是有效的,同時(shí)保留了預(yù)訓(xùn)練的T2I擴(kuò)散模型的原始特性。我們?cè)跇?biāo)準(zhǔn)ldm[37]中使用相同的訓(xùn)練目標(biāo)。圖4 說(shuō)明了帶有突出顯示可訓(xùn)練參數(shù)的微調(diào)過(guò)程。
2)基于DDIM反演的結(jié)構(gòu)指導(dǎo)
通過(guò)沒(méi)有文本條件的DDIM反演得到源視頻V的潛在噪聲。該噪聲作為DDIM采樣的起點(diǎn),由編輯后的提示 T ? \mathcal{T}^* T?指導(dǎo)。輸出視頻 V ? \mathcal{V}^* V? 由下式給出:
07 實(shí)驗(yàn)結(jié)果和對(duì)比效果如何?
Applications
1)Object editing.
我們的方法的主要應(yīng)用之一是通過(guò)編輯文本提示來(lái)修改對(duì)象。這允許輕松替換、添加或刪除對(duì)象。圖 6 顯示了一些示例.
2)Background change.
我們的方法還允許用戶更改視頻背景(即對(duì)象所在的位置),同時(shí)保留對(duì)象運(yùn)動(dòng)的一致性。例如,我們可以通過(guò)添加新位置/時(shí)間描述并將圖 7 中的國(guó)家側(cè)道路視圖更改為海洋視圖,將圖 6 中滑雪人的背景修改為“海灘上”或“太陽(yáng)落下”。
3)Style transfer.
由于預(yù)訓(xùn)練 T2I 模型的開放域知識(shí),我們的方法將視頻轉(zhuǎn)換為各種難以僅從視頻數(shù)據(jù)中學(xué)習(xí)的風(fēng)格(12)。例如,我們通過(guò)將全局樣式描述符附加到提示中,將現(xiàn)實(shí)世界的視頻轉(zhuǎn)換為漫畫風(fēng)格(圖 6,或 Van Gogh風(fēng)格(圖 10)。
4)個(gè)性化可控生成
我們的方法可以很容易地與個(gè)性化的T2I模型集成(例如,DreamBooth[39],它以3-5張圖像作為輸入,并返回一個(gè)個(gè)性化的T2I模型),直接對(duì)它們進(jìn)行細(xì)化。例如,我們可以使用“現(xiàn)代迪士尼風(fēng)格”或“土豆頭先生”個(gè)性化的DreamBooth來(lái)創(chuàng)建特定風(fēng)格或主題的視頻(圖11)。我們的方法還可以與T2I適配器[29]和ControlNet[52]等條件T2I模型集成,在不需要額外訓(xùn)練成本的情況下對(duì)生成的視頻進(jìn)行不同的控制。例如,我們可以使用一系列人體姿勢(shì)作為控制來(lái)進(jìn)一步編輯運(yùn)動(dòng)(例如,圖1中的舞蹈)。
定性結(jié)果
我們?cè)趫D7中給出了我們的方法與幾個(gè)基線的視覺(jué)比較。 相比之下,我們的方法生成了時(shí)間連貫的視頻,保留了輸入視頻中的結(jié)構(gòu)信息,并與編輯過(guò)的單詞和細(xì)節(jié)保持一致。另外的定性比較可以在圖12中找到。
定量結(jié)果
我們通過(guò)automatic metrics和用戶研究來(lái)根據(jù)基線量化我們的方法,并在表1中報(bào)告框架一致性和文本可信度。
08 消融研究告訴了我們什么?
我們?cè)赥une-A-Video中進(jìn)行了一項(xiàng)消融研究,以評(píng)估時(shí)空注意(ST-Attn)機(jī)制、DDIM反演和微調(diào)的重要性。每個(gè)設(shè)計(jì)都是單獨(dú)的,以分析其影響。結(jié)果如圖8所示。
這些結(jié)果表明,我們所有的關(guān)鍵設(shè)計(jì)都有助于我們方法的成功結(jié)果。
09 這個(gè)工作還是可以如何優(yōu)化?
圖9給出了輸入視頻中包含多個(gè)目標(biāo)并出現(xiàn)遮擋時(shí),我們的方法失敗的情況。這可能是由于T2I模型在處理多個(gè)對(duì)象和對(duì)象交互方面的固有局限性。一個(gè)潛在的解決方案是使用附加的條件信息,如深度,使模型能夠區(qū)分不同的對(duì)象及其相互作用。這方面的研究要留待將來(lái)研究。
10 結(jié)論
在本文中,我們介紹了T2V生成的一項(xiàng)新任務(wù)–one-shot視頻調(diào)優(yōu)。該任務(wù)涉及僅使用單個(gè)文本視頻對(duì)和預(yù)訓(xùn)練的T2I模型來(lái)訓(xùn)練T2V生成器。我們提出Tune-A-Video,一個(gè)簡(jiǎn)單而有效的框架,用于文本驅(qū)動(dòng)的視頻生成和編輯。為了生成連續(xù)視頻,我們提出了一種有效的調(diào)優(yōu)策略和結(jié)構(gòu)反演,可以生成時(shí)間相干視頻。大量的實(shí)驗(yàn)證明了我們的方法在廣泛的應(yīng)用中取得了顯著的效果。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-791596.html
原文鏈接:Tnue-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning (by 小樣本視覺(jué)與智能前沿)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-791596.html
到了這里,關(guān)于Tune-A-Video:用于文本到視頻生成的圖像擴(kuò)散模型的One-shot Tuning的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!