国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文學(xué)習(xí)——Video LDM (Align your Latents)

這篇具有很好參考價(jià)值的文章主要介紹了論文學(xué)習(xí)——Video LDM (Align your Latents)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

0. 來(lái)源

本文是閱讀論文后的個(gè)人筆記,適應(yīng)于個(gè)人水平,敘述順序和細(xì)節(jié)詳略與原論文不盡相同,并不是翻譯原論文。

如果想了解所有細(xì)節(jié),建議移步arxiv。

論文地址:https://arxiv.org/abs/2304.08818
項(xiàng)目地址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

1. 整體結(jié)構(gòu)

本文基于圖像生成領(lǐng)域的典型框架LDM,擴(kuò)展到視頻生成領(lǐng)域,且保留了其以低計(jì)算成本,在壓縮后的低維潛空間內(nèi)生成高質(zhì)量圖片的優(yōu)點(diǎn),最終能夠以低成本生成全局連貫的高分辨率長(zhǎng)視頻。

模型整體訓(xùn)練流程可表述如下:
a. 在圖像數(shù)據(jù)上預(yù)訓(xùn)練LDM,或是使用available的圖像LDM預(yù)訓(xùn)練模型;
b. 通過(guò)在LDM(latent space diffusion model)中引入時(shí)間層,固定空間層(spatial layers)參數(shù),并在視頻數(shù)據(jù)上進(jìn)行微調(diào),以實(shí)現(xiàn)將圖像生成器轉(zhuǎn)換為視頻生成器。分為兩部分,1.將圖像的潛向量生成器轉(zhuǎn)換為視頻的潛向量生成器。2.將自編碼器在像素空間上進(jìn)行時(shí)序?qū)R。
c. 改造為預(yù)測(cè)模型以獲得較長(zhǎng)視頻的生成(Long-Term Generation)
d. 使用時(shí)序的插值以獲得高幀率
e. 在時(shí)間上對(duì)齊 圖像DM 的上采樣器,將其轉(zhuǎn)換為時(shí)序一致的視頻超分模型。(僅在需要合成高分辨率視頻時(shí)選擇進(jìn)行該項(xiàng),video upsampler僅在局部上進(jìn)行操作,以保留較低的計(jì)算成本)

要生成連續(xù)的長(zhǎng)視頻,其流程如下圖所示
論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)

1 . 首先生成離散的關(guān)鍵幀;
2+3. 分兩步使用相同的插值模型,在關(guān)鍵幀之間進(jìn)行時(shí)序插值,以實(shí)現(xiàn)較高的幀率;
(以上三步均基于LDM模型,且它們共享相同的image backbone,分別進(jìn)行微調(diào))
4. 將潛向量解碼到像素空間
5. (可選)使用視頻上采樣DM得到更高的分辨率

該模型的訓(xùn)練過(guò)程其實(shí)就是對(duì)同一款預(yù)訓(xùn)練的圖片LDM(及DM上采樣器)的不同微調(diào)過(guò)程,下面將逐步對(duì)以上a,b,c三步進(jìn)行解釋

2. 具體實(shí)現(xiàn)

b.1 將潛向量生成器由圖像領(lǐng)域轉(zhuǎn)到視頻領(lǐng)域

論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)

現(xiàn)有的空間LDM能夠高質(zhì)量地生成獨(dú)立幀,但難以生成多張連續(xù)的視頻幀,這是由于其沒(méi)有時(shí)間的概念。

如上左圖所示,在原有LDM的空間層中交錯(cuò)插入時(shí)間層,時(shí)間層包括3d卷積層和時(shí)間注意力層,以時(shí)序一致性的方式對(duì)齊獨(dú)立的幀,而在優(yōu)化過(guò)程中需要固定住空間層,而僅優(yōu)化時(shí)間層。

論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)

上右圖,則取出了一套“空間層+時(shí)間層”對(duì)運(yùn)算過(guò)程進(jìn)行了解釋?zhuān)诳臻g層和時(shí)間層,它們對(duì)(TxCxHxW)視頻的理解不一樣,空間層將時(shí)間維度并入batch維度,視頻看做batch里的一小串無(wú)關(guān)的照片,B*T成為了新的batch size而已,故而輸入空間層的張量格式為 (b t) c h w;而時(shí)間層將整個(gè)視頻按時(shí)間維度排列,是一個(gè)整體,輸入時(shí)間層的張量格式為b c t h w。張量通過(guò)時(shí)間層前后需要進(jìn)行如下變形:
論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)

在每一步運(yùn)算之后,需要對(duì)輸入時(shí)間層前后的張量z和z’進(jìn)行加權(quán)。
α ? i z + ( 1 ? α ? i ) z ′ , 其中 α ? i ∈ [ 0 , 1 ] \alpha ^i_\phi z + (1-\alpha ^i_\phi)z', 其中\(zhòng)alpha ^i_\phi \in [0,1] α?i?z+(1?α?i?)z,其中α?i?[0,1]

關(guān)于圖中其他可疑的點(diǎn),如cs,表示在訓(xùn)練預(yù)測(cè)模型時(shí)使用的對(duì)上下文幀的掩碼

b.2 自編碼器的時(shí)序微調(diào)

直接將圖像領(lǐng)域的LDM的自編碼器用于時(shí)序上連貫的視頻,會(huì)導(dǎo)致生成的視頻出現(xiàn)閃爍的假象(flickering artifacts)。

論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)
為了保證在潛向量空間上預(yù)訓(xùn)練的LDM模型能夠被復(fù)用,故而保留編碼器不變,僅對(duì)解碼器進(jìn)行微調(diào)。

以視頻為微調(diào)數(shù)據(jù)集,微調(diào)采樣的是3d卷積搭建出的(patch-wise的)時(shí)序判別器。

需要注意的是,我們b.1中生成的是圖像或視頻的潛向量,是以特征的形式存在的,如上圖底部,不同的潛特征對(duì)于不同的分布峰值,將通過(guò)decoder解碼到圖像中。而處于不同的區(qū)間上的潛向量將decode出不同的圖像。通過(guò)觀察這個(gè)特性,可以解釋對(duì)framework進(jìn)行視頻微調(diào)時(shí)幀之間的時(shí)序一致性
論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)
可以看見(jiàn),不原本散落在不同峰值附近的圖像內(nèi)容各自獨(dú)立,經(jīng)過(guò)視頻微調(diào)之后,它們處于同一峰值附近,而圖像也呈現(xiàn)出內(nèi)容上的連貫性。

c. 改造為預(yù)測(cè)模型以獲得長(zhǎng)期的生成結(jié)果

b章節(jié)中使用的方法難以生成長(zhǎng)視頻序列,故而我們喂入S個(gè)上下文幀,訓(xùn)練模型成為一個(gè)預(yù)測(cè)模型。這是通過(guò)時(shí)序的二進(jìn)制掩碼來(lái)實(shí)現(xiàn)的,在長(zhǎng)度為T(mén)的視頻中,保留S個(gè)視頻幀,而掩蓋住T-S個(gè)要預(yù)測(cè)的視頻幀。將視頻幀編碼后,乘以掩碼,再經(jīng)過(guò)已經(jīng)學(xué)到的下采樣操作(learned downsampling operation:resize+conv2d,不太清楚怎么學(xué)到的下采樣,可以看看代碼)并喂入到時(shí)序?qū)又小?/p>

在推理過(guò)程中,為了生成場(chǎng)視頻可以迭代地進(jìn)行采樣過(guò)程,復(fù)用最新的預(yù)測(cè)作為新的上下文。第一個(gè)初始序列的生成方式:從base image model生成單一的上下文幀并基于此生成初始序列;其余序列的生成辦法:使用兩個(gè)上下文幀來(lái)編碼移動(dòng)。為穩(wěn)定這一過(guò)程,本文使用無(wú)分類(lèi)器的擴(kuò)散引導(dǎo)來(lái)引導(dǎo)采樣過(guò)程,如下式。
論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)
本章的目的是生成關(guān)鍵幀,雖然較少的幀節(jié)省了內(nèi)存,但不同幀之間仍然存在較大的語(yǔ)義變化,為實(shí)現(xiàn)高幀率,同時(shí)實(shí)現(xiàn)連貫性,下一章將對(duì)幀之間進(jìn)行時(shí)序的插值。

d. 時(shí)序插值以獲得更高的幀率

沿用c章節(jié)中提到的條件掩碼機(jī)制(masking-conditioning mechanism)在兩兩關(guān)鍵幀之間插值,不過(guò)掩碼的對(duì)象是要被插值的幀,否則就和c章節(jié)一樣了,圖像模型將被細(xì)化為一個(gè)視頻插值模型。在實(shí)驗(yàn)中,單次插值的結(jié)果是視頻長(zhǎng)度從T轉(zhuǎn)為4T,可迭代使用兩次,轉(zhuǎn)為16T。

e. 對(duì)超分模型進(jìn)行時(shí)序微調(diào)

受級(jí)聯(lián)DM的啟發(fā),作者嘗試再使用一層上采樣器如pixel-space DM 或LDM upsampler來(lái)增加單張圖片的分辨率,但對(duì)各幀獨(dú)立地上采樣會(huì)導(dǎo)致時(shí)間一致性很差,所以超分模型也需要具有時(shí)間上的視野,選擇如同b章節(jié)中介紹的方法一樣來(lái)微調(diào)上采樣器。由于上采樣器是僅在聚不上進(jìn)行操作,所以可以高效地在patch上訓(xùn)練所以的上采樣器,然后卷積式地應(yīng)用到模型上。

3. 不同任務(wù)領(lǐng)域及各自細(xì)節(jié)

本模型應(yīng)用于戶外駕駛數(shù)據(jù)的仿真、基于text2video的創(chuàng)造性內(nèi)容生成

另外,該模型可以對(duì)現(xiàn)有的圖像LDM僅訓(xùn)練出一套在時(shí)間上對(duì)齊的模型,而解鎖不同的(對(duì)image LDM進(jìn)行微調(diào)而得到的變種)LDMs的視頻版本。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-696736.html

到了這里,關(guān)于論文學(xué)習(xí)——Video LDM (Align your Latents)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包