Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
0. 來(lái)源
本文是閱讀論文后的個(gè)人筆記,適應(yīng)于個(gè)人水平,敘述順序和細(xì)節(jié)詳略與原論文不盡相同,并不是翻譯原論文。
如果想了解所有細(xì)節(jié),建議移步arxiv。
論文地址:https://arxiv.org/abs/2304.08818
項(xiàng)目地址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/
1. 整體結(jié)構(gòu)
本文基于圖像生成領(lǐng)域的典型框架LDM,擴(kuò)展到視頻生成領(lǐng)域,且保留了其以低計(jì)算成本,在壓縮后的低維潛空間內(nèi)生成高質(zhì)量圖片的優(yōu)點(diǎn),最終能夠以低成本生成全局連貫的高分辨率長(zhǎng)視頻。
模型整體訓(xùn)練流程可表述如下:
a. 在圖像數(shù)據(jù)上預(yù)訓(xùn)練LDM,或是使用available的圖像LDM預(yù)訓(xùn)練模型;
b. 通過(guò)在LDM(latent space diffusion model)中引入時(shí)間層,固定空間層(spatial layers)參數(shù),并在視頻數(shù)據(jù)上進(jìn)行微調(diào),以實(shí)現(xiàn)將圖像生成器轉(zhuǎn)換為視頻生成器。分為兩部分,1.將圖像的潛向量生成器轉(zhuǎn)換為視頻的潛向量生成器。2.將自編碼器在像素空間上進(jìn)行時(shí)序?qū)R。
c. 改造為預(yù)測(cè)模型以獲得較長(zhǎng)視頻的生成(Long-Term Generation)
d. 使用時(shí)序的插值以獲得高幀率
e. 在時(shí)間上對(duì)齊 圖像DM 的上采樣器,將其轉(zhuǎn)換為時(shí)序一致的視頻超分模型。(僅在需要合成高分辨率視頻時(shí)選擇進(jìn)行該項(xiàng),video upsampler僅在局部上進(jìn)行操作,以保留較低的計(jì)算成本)
要生成連續(xù)的長(zhǎng)視頻,其流程如下圖所示
1 . 首先生成離散的關(guān)鍵幀;
2+3. 分兩步使用相同的插值模型,在關(guān)鍵幀之間進(jìn)行時(shí)序插值,以實(shí)現(xiàn)較高的幀率;
(以上三步均基于LDM模型,且它們共享相同的image backbone,分別進(jìn)行微調(diào))
4. 將潛向量解碼到像素空間
5. (可選)使用視頻上采樣DM得到更高的分辨率
該模型的訓(xùn)練過(guò)程其實(shí)就是對(duì)同一款預(yù)訓(xùn)練的圖片LDM(及DM上采樣器)的不同微調(diào)過(guò)程,下面將逐步對(duì)以上a,b,c三步進(jìn)行解釋
2. 具體實(shí)現(xiàn)
b.1 將潛向量生成器由圖像領(lǐng)域轉(zhuǎn)到視頻領(lǐng)域
現(xiàn)有的空間LDM能夠高質(zhì)量地生成獨(dú)立幀,但難以生成多張連續(xù)的視頻幀,這是由于其沒(méi)有時(shí)間的概念。
如上左圖所示,在原有LDM的空間層中交錯(cuò)插入時(shí)間層,時(shí)間層包括3d卷積層和時(shí)間注意力層,以時(shí)序一致性的方式對(duì)齊獨(dú)立的幀,而在優(yōu)化過(guò)程中需要固定住空間層,而僅優(yōu)化時(shí)間層。
上右圖,則取出了一套“空間層+時(shí)間層”對(duì)運(yùn)算過(guò)程進(jìn)行了解釋?zhuān)诳臻g層和時(shí)間層,它們對(duì)(TxCxHxW)視頻的理解不一樣,空間層將時(shí)間維度并入batch維度,視頻看做batch里的一小串無(wú)關(guān)的照片,B*T成為了新的batch size而已,故而輸入空間層的張量格式為 (b t) c h w;而時(shí)間層將整個(gè)視頻按時(shí)間維度排列,是一個(gè)整體,輸入時(shí)間層的張量格式為b c t h w。張量通過(guò)時(shí)間層前后需要進(jìn)行如下變形:
在每一步運(yùn)算之后,需要對(duì)輸入時(shí)間層前后的張量z和z’進(jìn)行加權(quán)。
α
?
i
z
+
(
1
?
α
?
i
)
z
′
,
其中
α
?
i
∈
[
0
,
1
]
\alpha ^i_\phi z + (1-\alpha ^i_\phi)z', 其中\(zhòng)alpha ^i_\phi \in [0,1]
α?i?z+(1?α?i?)z′,其中α?i?∈[0,1]
關(guān)于圖中其他可疑的點(diǎn),如cs,表示在訓(xùn)練預(yù)測(cè)模型時(shí)使用的對(duì)上下文幀的掩碼
b.2 自編碼器的時(shí)序微調(diào)
直接將圖像領(lǐng)域的LDM的自編碼器用于時(shí)序上連貫的視頻,會(huì)導(dǎo)致生成的視頻出現(xiàn)閃爍的假象(flickering artifacts)。
為了保證在潛向量空間上預(yù)訓(xùn)練的LDM模型能夠被復(fù)用,故而保留編碼器不變,僅對(duì)解碼器進(jìn)行微調(diào)。
以視頻為微調(diào)數(shù)據(jù)集,微調(diào)采樣的是3d卷積搭建出的(patch-wise的)時(shí)序判別器。
需要注意的是,我們b.1中生成的是圖像或視頻的潛向量,是以特征的形式存在的,如上圖底部,不同的潛特征對(duì)于不同的分布峰值,將通過(guò)decoder解碼到圖像中。而處于不同的區(qū)間上的潛向量將decode出不同的圖像。通過(guò)觀察這個(gè)特性,可以解釋對(duì)framework進(jìn)行視頻微調(diào)時(shí)幀之間的時(shí)序一致性
可以看見(jiàn),不原本散落在不同峰值附近的圖像內(nèi)容各自獨(dú)立,經(jīng)過(guò)視頻微調(diào)之后,它們處于同一峰值附近,而圖像也呈現(xiàn)出內(nèi)容上的連貫性。
c. 改造為預(yù)測(cè)模型以獲得長(zhǎng)期的生成結(jié)果
b章節(jié)中使用的方法難以生成長(zhǎng)視頻序列,故而我們喂入S個(gè)上下文幀,訓(xùn)練模型成為一個(gè)預(yù)測(cè)模型。這是通過(guò)時(shí)序的二進(jìn)制掩碼來(lái)實(shí)現(xiàn)的,在長(zhǎng)度為T(mén)的視頻中,保留S個(gè)視頻幀,而掩蓋住T-S個(gè)要預(yù)測(cè)的視頻幀。將視頻幀編碼后,乘以掩碼,再經(jīng)過(guò)已經(jīng)學(xué)到的下采樣操作(learned downsampling operation:resize+conv2d,不太清楚怎么學(xué)到的下采樣,可以看看代碼)并喂入到時(shí)序?qū)又小?/p>
在推理過(guò)程中,為了生成場(chǎng)視頻可以迭代地進(jìn)行采樣過(guò)程,復(fù)用最新的預(yù)測(cè)作為新的上下文。第一個(gè)初始序列的生成方式:從base image model生成單一的上下文幀并基于此生成初始序列;其余序列的生成辦法:使用兩個(gè)上下文幀來(lái)編碼移動(dòng)。為穩(wěn)定這一過(guò)程,本文使用無(wú)分類(lèi)器的擴(kuò)散引導(dǎo)來(lái)引導(dǎo)采樣過(guò)程,如下式。
本章的目的是生成關(guān)鍵幀,雖然較少的幀節(jié)省了內(nèi)存,但不同幀之間仍然存在較大的語(yǔ)義變化,為實(shí)現(xiàn)高幀率,同時(shí)實(shí)現(xiàn)連貫性,下一章將對(duì)幀之間進(jìn)行時(shí)序的插值。
d. 時(shí)序插值以獲得更高的幀率
沿用c章節(jié)中提到的條件掩碼機(jī)制(masking-conditioning mechanism)在兩兩關(guān)鍵幀之間插值,不過(guò)掩碼的對(duì)象是要被插值的幀,否則就和c章節(jié)一樣了,圖像模型將被細(xì)化為一個(gè)視頻插值模型。在實(shí)驗(yàn)中,單次插值的結(jié)果是視頻長(zhǎng)度從T轉(zhuǎn)為4T,可迭代使用兩次,轉(zhuǎn)為16T。
e. 對(duì)超分模型進(jìn)行時(shí)序微調(diào)
受級(jí)聯(lián)DM的啟發(fā),作者嘗試再使用一層上采樣器如pixel-space DM 或LDM upsampler來(lái)增加單張圖片的分辨率,但對(duì)各幀獨(dú)立地上采樣會(huì)導(dǎo)致時(shí)間一致性很差,所以超分模型也需要具有時(shí)間上的視野,選擇如同b章節(jié)中介紹的方法一樣來(lái)微調(diào)上采樣器。由于上采樣器是僅在聚不上進(jìn)行操作,所以可以高效地在patch上訓(xùn)練所以的上采樣器,然后卷積式地應(yīng)用到模型上。
3. 不同任務(wù)領(lǐng)域及各自細(xì)節(jié)
本模型應(yīng)用于戶外駕駛數(shù)據(jù)的仿真、基于text2video的創(chuàng)造性內(nèi)容生成文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-696736.html
另外,該模型可以對(duì)現(xiàn)有的圖像LDM僅訓(xùn)練出一套在時(shí)間上對(duì)齊的模型,而解鎖不同的(對(duì)image LDM進(jìn)行微調(diào)而得到的變種)LDMs的視頻版本。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-696736.html
到了這里,關(guān)于論文學(xué)習(xí)——Video LDM (Align your Latents)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!