国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<small id="dbgbo"></small>

<ol id="dbgbo"></ol>

<source id="dbgbo"><strong id="dbgbo"></strong></source>

<source id="dbgbo"><strong id="dbgbo"><ul id="dbgbo"></ul></strong></source>

論文學(xué)習(xí)——Video LDM (Align your Latents)

2年前作者：胖虎干嘛了分類(lèi)：Toy博客閱讀(20)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了論文學(xué)習(xí)——Video LDM (Align your Latents)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

0. 來(lái)源

本文是閱讀論文后的個(gè)人筆記，適應(yīng)于個(gè)人水平，敘述順序和細(xì)節(jié)詳略與原論文不盡相同，并不是翻譯原論文。

如果想了解所有細(xì)節(jié)，建議移步arxiv。

論文地址：https://arxiv.org/abs/2304.08818
項(xiàng)目地址：https://research.nvidia.com/labs/toronto-ai/VideoLDM/

1. 整體結(jié)構(gòu)

本文基于圖像生成領(lǐng)域的典型框架LDM，擴(kuò)展到視頻生成領(lǐng)域，且保留了其以低計(jì)算成本，在壓縮后的低維潛空間內(nèi)生成高質(zhì)量圖片的優(yōu)點(diǎn)，最終能夠以低成本生成全局連貫的高分辨率長(zhǎng)視頻。

模型整體訓(xùn)練流程可表述如下：
a. 在圖像數(shù)據(jù)上預(yù)訓(xùn)練LDM，或是使用available的圖像LDM預(yù)訓(xùn)練模型；
b. 通過(guò)在LDM（latent space diffusion model）中引入時(shí)間層，固定空間層（spatial layers）參數(shù)，并在視頻數(shù)據(jù)上進(jìn)行微調(diào)，以實(shí)現(xiàn)將圖像生成器轉(zhuǎn)換為視頻生成器。分為兩部分，1.將圖像的潛向量生成器轉(zhuǎn)換為視頻的潛向量生成器。2.將自編碼器在像素空間上進(jìn)行時(shí)序?qū)R。
c. 改造為預(yù)測(cè)模型以獲得較長(zhǎng)視頻的生成（Long-Term Generation）
d. 使用時(shí)序的插值以獲得高幀率
e. 在時(shí)間上對(duì)齊圖像DM 的上采樣器，將其轉(zhuǎn)換為時(shí)序一致的視頻超分模型。（僅在需要合成高分辨率視頻時(shí)選擇進(jìn)行該項(xiàng)，video upsampler僅在局部上進(jìn)行操作，以保留較低的計(jì)算成本）

要生成連續(xù)的長(zhǎng)視頻，其流程如下圖所示
論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)

1 . 首先生成離散的關(guān)鍵幀；
2+3. 分兩步使用相同的插值模型，在關(guān)鍵幀之間進(jìn)行時(shí)序插值，以實(shí)現(xiàn)較高的幀率；
（以上三步均基于LDM模型，且它們共享相同的image backbone，分別進(jìn)行微調(diào)）
4. 將潛向量解碼到像素空間
5. （可選）使用視頻上采樣DM得到更高的分辨率

該模型的訓(xùn)練過(guò)程其實(shí)就是對(duì)同一款預(yù)訓(xùn)練的圖片LDM（及DM上采樣器）的不同微調(diào)過(guò)程，下面將逐步對(duì)以上a,b,c三步進(jìn)行解釋

2. 具體實(shí)現(xiàn)

b.1 將潛向量生成器由圖像領(lǐng)域轉(zhuǎn)到視頻領(lǐng)域

論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)

現(xiàn)有的空間LDM能夠高質(zhì)量地生成獨(dú)立幀，但難以生成多張連續(xù)的視頻幀，這是由于其沒(méi)有時(shí)間的概念。

如上左圖所示，在原有LDM的空間層中交錯(cuò)插入時(shí)間層，時(shí)間層包括3d卷積層和時(shí)間注意力層，以時(shí)序一致性的方式對(duì)齊獨(dú)立的幀，而在優(yōu)化過(guò)程中需要固定住空間層，而僅優(yōu)化時(shí)間層。

論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)

上右圖，則取出了一套“空間層+時(shí)間層”對(duì)運(yùn)算過(guò)程進(jìn)行了解釋?zhuān)诳臻g層和時(shí)間層，它們對(duì)（TxCxHxW）視頻的理解不一樣，空間層將時(shí)間維度并入batch維度，視頻看做batch里的一小串無(wú)關(guān)的照片，B*T成為了新的batch size而已，故而輸入空間層的張量格式為 (b t) c h w；而時(shí)間層將整個(gè)視頻按時(shí)間維度排列，是一個(gè)整體，輸入時(shí)間層的張量格式為b c t h w。張量通過(guò)時(shí)間層前后需要進(jìn)行如下變形：
論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)

在每一步運(yùn)算之后，需要對(duì)輸入時(shí)間層前后的張量z和z’進(jìn)行加權(quán)。
$\alpha ^i_\phi z + (1-\alpha ^i_\phi)z', 其中\(zhòng)alpha ^i_\phi \in [0,1]$

關(guān)于圖中其他可疑的點(diǎn)，如c_s，表示在訓(xùn)練預(yù)測(cè)模型時(shí)使用的對(duì)上下文幀的掩碼

b.2 自編碼器的時(shí)序微調(diào)

直接將圖像領(lǐng)域的LDM的自編碼器用于時(shí)序上連貫的視頻，會(huì)導(dǎo)致生成的視頻出現(xiàn)閃爍的假象（flickering artifacts）。

論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)
為了保證在潛向量空間上預(yù)訓(xùn)練的LDM模型能夠被復(fù)用，故而保留編碼器不變，僅對(duì)解碼器進(jìn)行微調(diào)。

以視頻為微調(diào)數(shù)據(jù)集，微調(diào)采樣的是3d卷積搭建出的（patch-wise的）時(shí)序判別器。

需要注意的是，我們b.1中生成的是圖像或視頻的潛向量，是以特征的形式存在的，如上圖底部，不同的潛特征對(duì)于不同的分布峰值，將通過(guò)decoder解碼到圖像中。而處于不同的區(qū)間上的潛向量將decode出不同的圖像。通過(guò)觀察這個(gè)特性，可以解釋對(duì)framework進(jìn)行視頻微調(diào)時(shí)幀之間的時(shí)序一致性
論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)
可以看見(jiàn)，不原本散落在不同峰值附近的圖像內(nèi)容各自獨(dú)立，經(jīng)過(guò)視頻微調(diào)之后，它們處于同一峰值附近，而圖像也呈現(xiàn)出內(nèi)容上的連貫性。

c. 改造為預(yù)測(cè)模型以獲得長(zhǎng)期的生成結(jié)果

b章節(jié)中使用的方法難以生成長(zhǎng)視頻序列，故而我們喂入S個(gè)上下文幀，訓(xùn)練模型成為一個(gè)預(yù)測(cè)模型。這是通過(guò)時(shí)序的二進(jìn)制掩碼來(lái)實(shí)現(xiàn)的，在長(zhǎng)度為T(mén)的視頻中，保留S個(gè)視頻幀，而掩蓋住T-S個(gè)要預(yù)測(cè)的視頻幀。將視頻幀編碼后，乘以掩碼，再經(jīng)過(guò)已經(jīng)學(xué)到的下采樣操作（learned downsampling operation：resize+conv2d，不太清楚怎么學(xué)到的下采樣，可以看看代碼）并喂入到時(shí)序?qū)又小?/p>

在推理過(guò)程中，為了生成場(chǎng)視頻可以迭代地進(jìn)行采樣過(guò)程，復(fù)用最新的預(yù)測(cè)作為新的上下文。第一個(gè)初始序列的生成方式：從base image model生成單一的上下文幀并基于此生成初始序列；其余序列的生成辦法：使用兩個(gè)上下文幀來(lái)編碼移動(dòng)。為穩(wěn)定這一過(guò)程，本文使用無(wú)分類(lèi)器的擴(kuò)散引導(dǎo)來(lái)引導(dǎo)采樣過(guò)程，如下式。
論文學(xué)習(xí)——Video LDM (Align your Latents),論文學(xué)習(xí),學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)
本章的目的是生成關(guān)鍵幀，雖然較少的幀節(jié)省了內(nèi)存，但不同幀之間仍然存在較大的語(yǔ)義變化，為實(shí)現(xiàn)高幀率，同時(shí)實(shí)現(xiàn)連貫性，下一章將對(duì)幀之間進(jìn)行時(shí)序的插值。

d. 時(shí)序插值以獲得更高的幀率

沿用c章節(jié)中提到的條件掩碼機(jī)制（masking-conditioning mechanism）在兩兩關(guān)鍵幀之間插值，不過(guò)掩碼的對(duì)象是要被插值的幀，否則就和c章節(jié)一樣了，圖像模型將被細(xì)化為一個(gè)視頻插值模型。在實(shí)驗(yàn)中，單次插值的結(jié)果是視頻長(zhǎng)度從T轉(zhuǎn)為4T，可迭代使用兩次，轉(zhuǎn)為16T。

e. 對(duì)超分模型進(jìn)行時(shí)序微調(diào)

受級(jí)聯(lián)DM的啟發(fā)，作者嘗試再使用一層上采樣器如pixel-space DM 或LDM upsampler來(lái)增加單張圖片的分辨率，但對(duì)各幀獨(dú)立地上采樣會(huì)導(dǎo)致時(shí)間一致性很差，所以超分模型也需要具有時(shí)間上的視野，選擇如同b章節(jié)中介紹的方法一樣來(lái)微調(diào)上采樣器。由于上采樣器是僅在聚不上進(jìn)行操作，所以可以高效地在patch上訓(xùn)練所以的上采樣器，然后卷積式地應(yīng)用到模型上。

3. 不同任務(wù)領(lǐng)域及各自細(xì)節(jié)

本模型應(yīng)用于戶外駕駛數(shù)據(jù)的仿真、基于text2video的創(chuàng)造性內(nèi)容生成

另外，該模型可以對(duì)現(xiàn)有的圖像LDM僅訓(xùn)練出一套在時(shí)間上對(duì)齊的模型，而解鎖不同的（對(duì)image LDM進(jìn)行微調(diào)而得到的變種）LDMs的視頻版本。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-696736.html

到了這里，關(guān)于論文學(xué)習(xí)——Video LDM (Align your Latents)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

手把手寫(xiě)深度學(xué)習(xí)(23)：視頻擴(kuò)散模型之Video DataLoader
手把手寫(xiě)深度學(xué)習(xí)(0)：專(zhuān)欄文章導(dǎo)航前言：訓(xùn)練自己的視頻擴(kuò)散模型的第一步就是準(zhǔn)備數(shù)據(jù)集，而且這個(gè)數(shù)據(jù)集是text-video或者image-video的多模態(tài)數(shù)據(jù)集，這篇博客手把手教讀者如何寫(xiě)一個(gè)這樣擴(kuò)散模型的的Video DataLoader。目錄準(zhǔn)備工作下載數(shù)據(jù)集視頻數(shù)據(jù)打標(biāo)簽
2024年03月21日
瀏覽(26)
【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles
盡管在桌面GPU上取得了視頻目標(biāo)檢測(cè)的最近成功，但其架構(gòu)對(duì)于移動(dòng)設(shè)備來(lái)說(shuō)仍然過(guò)于沉重。目前尚不清楚在非常有限的計(jì)算資源下，稀疏特征傳播和多幀特征聚合的關(guān)鍵原則是否適用。在本文中，我們提出了一種適用于移動(dòng)設(shè)備的輕量級(jí)視頻目標(biāo)檢測(cè)網(wǎng)絡(luò)架構(gòu)。我們?cè)谙∈?/p>
2024年02月13日
瀏覽(20)
【未完待續(xù)】綜述：用于視頻分割（Video Segmentation）的深度學(xué)習(xí)
A Survey on Deep Learning Technique for Video Segmentation 本文回顧視頻分割的兩條基本研究路線：視頻目標(biāo)分割（object segmentation）和視頻語(yǔ)義分割（semantic segmentation）。本文介紹它們各自的task setting、背景概念、感知需求、發(fā)展歷史以及主要挑戰(zhàn)。本文詳細(xì)概述相關(guān)的方法和數(shù)據(jù)集的代
2024年02月02日
瀏覽(25)
DALL·E 2（內(nèi)含擴(kuò)散模型介紹）【論文精讀】Hierarchical Text-ConditionalImage Generation with CLIP Latents
????????大家好，今天我們就一起來(lái)看一下兩個(gè)月之前 OpenAI 剛放出來(lái)的一篇力作。DALL·E 2是 OpenAI 一系列文本圖像生成工作的最新一篇。去年 1 月份他們先推出了Dolly，然后在年底的時(shí)候又推出了glide。然后現(xiàn)在 4 月份剛推出了 DALL·E 2 一出來(lái)其實(shí)網(wǎng)友就已經(jīng)炸開(kāi)了鍋。我
2024年04月27日
瀏覽(22)
深度學(xué)習(xí)｜10.1 深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)的應(yīng)用
圖像中的每一個(gè)像素點(diǎn)都是輸入層的一部分。而最終最后只有一個(gè)輸出點(diǎn)，也就是說(shuō)需要通過(guò)乘上中間層/隱藏層內(nèi)部的矩陣，從而實(shí)現(xiàn)降維。直觀上，信息越多，分析的效果應(yīng)該越好，但也意味著分析的量會(huì)越來(lái)越大，考慮到分析所需要的時(shí)間和空間，往往采用卷積的方式
2024年02月03日
瀏覽(32)
《零基礎(chǔ)實(shí)踐深度學(xué)習(xí)》(第2版)學(xué)習(xí)筆記，（五）深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)
圖像分類(lèi) 目標(biāo)檢測(cè)
2024年02月12日
瀏覽(53)
《計(jì)算機(jī)視覺(jué)度量：從特征描述到深度學(xué)習(xí)》--工業(yè)視覺(jué)深度學(xué)習(xí)方法概述
博主更新了幾期關(guān)于深度學(xué)習(xí)在工業(yè)場(chǎng)景的應(yīng)用文章，本次全面闡述一下深度學(xué)習(xí)方法在整個(gè)應(yīng)用場(chǎng)景的方法和應(yīng)用的局限特性：分類(lèi)：分類(lèi)作為深度學(xué)習(xí)基本的研究方向，這幾年的學(xué)術(shù)研究取得了重大突破?；驹砣缦聢D 原理分析：采用圖片的每個(gè)像素值，通過(guò)深度學(xué)
2024年02月20日
瀏覽(26)
深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)教程(8) | 常見(jiàn)深度學(xué)習(xí)框架介紹（CV通關(guān)指南·完結(jié)）
本系列為斯坦福CS231n 《深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)(Deep Learning for Computer Vision)》的全套學(xué)習(xí)筆記，對(duì)應(yīng)的課程視頻可以在這里查看。更多資料獲取方式見(jiàn)文末。大家在前序文章中學(xué)習(xí)了很多關(guān)于神經(jīng)網(wǎng)絡(luò)的原理知識(shí)和實(shí)戰(zhàn)技巧，在本篇內(nèi)容中ShowMeAI給大家展開(kāi)介紹深度學(xué)習(xí)硬件
2024年02月19日
瀏覽(31)
【學(xué)習(xí)筆記】計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)網(wǎng)絡(luò)模型
這是本人學(xué)習(xí)計(jì)算機(jī)視覺(jué)CV領(lǐng)域深度學(xué)習(xí)模型的學(xué)習(xí)的一點(diǎn)點(diǎn)學(xué)習(xí)筆記，很多片子沒(méi)有完成，可以作為學(xué)習(xí)的參考~
2024年04月10日
瀏覽(43)
深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)
目錄 1 深度學(xué)習(xí) 1.1?人工智能 1.2?機(jī)器學(xué)習(xí) 1.3?深度學(xué)習(xí) 1.3.1 深度學(xué)習(xí)發(fā)展歷程 1.3.2 深度學(xué)習(xí)中的核心因素 1.3.3 深度學(xué)習(xí)模型分類(lèi) 1.3.4?深度學(xué)習(xí)框架 2?計(jì)算機(jī)視覺(jué) 人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)這三者的關(guān)系：在實(shí)現(xiàn)人工智能的眾多算法中，機(jī)器學(xué)習(xí)是發(fā)展較為快速的
2024年02月06日
瀏覽(29)

<source id="xbujm"></source>