国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

[論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】

這篇具有很好參考價值的文章主要介紹了[論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

論文導讀:

  • 論文背景:2023年12月11日,AI科學家李飛飛團隊與谷歌合作,推出了視頻生成模型W.A.L.T(Window Attention Latent Transformer)——一個在共享潛在空間中訓練圖像和視頻生成的、基于Transformer架構的擴散模型。李飛飛是華裔女科學家、世界頂尖的AI專家,現(xiàn)為美國國家工程院院士、美國國家醫(yī)學院院士、美國藝術與科學院院士,斯坦福大學終身教授、斯坦福大學人工智能實驗室主任,曾任谷歌副總裁和谷歌云首席科學家。
  • 面向問題: 視頻生成任務中目前主流的方法依然傾向于使用卷積或U-Net作為骨干網絡,而沒有充分利用Transformer模型的優(yōu)勢。視頻的高維度也給Transformer在這一任務上的應用帶來了計算和內存上的挑戰(zhàn)。
  • 解決方法: 提出了一個視頻自動編碼器,可以將圖像和視頻映射到一個統(tǒng)一的隱空間。在此基礎上,設計了交替使用空間和時空窗口自注意力的Transformer Block,既考慮了計算效率,也允許在圖像和視頻數(shù)據(jù)集上進行聯(lián)合訓練。
  • 技術亮點:
    - 使用了因果3D卷積編碼器,空間和時空窗口自注意力,條件批歸一化等技術手段來實現(xiàn)高效的視頻生成。
    - 該方法提供了一個簡單、可擴展和高效的基于Transformer的框架,用于圖像和視頻的聯(lián)合生成,可以促進這一領域的發(fā)展。需要繼續(xù)擴大模型規(guī)模,提高生成視頻的分辨率和質量。
  • 主要貢獻:
    - 提出了一種聯(lián)合的圖像和視頻編碼器,可以將圖像和視頻映射到一個統(tǒng)一的低維隱空間。這使得可以在圖像和視頻數(shù)據(jù)集上聯(lián)合訓練單個的生成模型。
    - 提出了一種transformer塊的新設計,其中空間自注意力層和時空自注意力層交替,可以高效地捕獲圖像和視頻中的空間關系和視頻中的時序關系。
    - 在公開基準測試集上,沒有使用分類器指導的情況下,在視頻生成和圖像生成任務上都取得了最先進的結果。例如在UCF-101和Kinetics-600視頻生成任務,以及ImageNet圖像生成任務上。
    - 展示了該方法在文本到視頻生成任務上的可擴展性和效率。通過級聯(lián)三個模型,可以生成512 x 896分辨率、每秒8幀的高分辨率、時間一致的照片級真實視頻。在UCF-101基準測試上取得了最先進的零樣本FVD值。
    - 對關鍵設計選擇進行了大量的定量分析,證明了transformer作為視頻擴散模型的backbone的有效性。首次證明了transformer可以在聯(lián)合圖像和視頻Latent 擴散建模任務上取得很好的性能。
  • 項目主頁: https://walt-video-diffusion.github.io/.
  • 論文地址: https://arxiv.org/abs/2312.06662

[論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】,音視頻,人工智能,計算機視覺,深度學習,cnn,神經網絡,AIGC

摘要

我們提出了 W.A.L.T:一種基于 Transformer 的方法,通過擴散建模生成逼真的視頻。 我們的方法有兩個關鍵的設計決策:

  • 首先,我們使用因果編碼器在統(tǒng)一的隱空間內聯(lián)合壓縮圖像和視頻,從而實現(xiàn)跨模態(tài)的訓練和生成。
  • 其次,為了提高記憶和訓練效率,我們使用專為聯(lián)合空間和時空生成建模而定制的窗口注意力架構。

總而言之,這些設計決策使我們能夠在已建立的視頻(UCF-101 和 Kinetics-600)和圖像(ImageNet)生成基準上實現(xiàn)最先進的性能,而無需使用無分類器指導。 最后,我們還訓練了三個用于文本到視頻生成任務的級聯(lián)模型,其中包括一個隱視頻擴散基模型和兩個用于生成文本到視頻的視頻超分辨率擴散模型,以生成分辨率為 512 × 896、每秒 8 幀的視頻。

引言

Transformer [73] 是高度可擴展和可并行的神經網絡架構,旨在贏得“硬件彩票” [39]。 這種理想的特性鼓勵研究界越來越青睞 Transformer,而非針對不同領域來研究特定領域架構,例如語言 [26, 55–57]、音頻 [1]、語音 [58]、視覺 [18, 30] ]和機器人技術[5,7,89]。 這種統(tǒng)一的趨勢使研究人員能夠在共享傳統(tǒng)意義上不同領域進展的基礎上取得進步。 因此,導致有利于Transformer模型設計創(chuàng)新和改進的良性循環(huán)。

這一趨勢的一個顯著例外是視頻的生成建模。 擴散模型 [67, 69] 已成為圖像 [16, 33] 和視頻 [36] 生成建模的領先范例。 然而,由一系列卷積層[46]和自注意力層[73]組成的U-Net架構[33, 62]一直是所有視頻擴散方法的主要支柱[16, 33, 36]。 這種偏好源于這樣一個事實:Transformer中完全注意機制的記憶需求與輸入序列長度呈二次方縮放關系。 在處理視頻等高維信號時,這種縮放會導致成本過高。

隱擴散模型(Latent diffusion models,LDMs)[61]通過在從自編碼器派生的低維隱空間中運行來降低計算要求[20,72,75]。 在這種情況下,一個關鍵的設計選擇是所使用的隱空間的類型:空間壓縮(per frame latents)與時空壓縮。 空間壓縮通常是首選,因為它可以利用預先訓練的圖像自編碼器和 LDMs,這些圖像自編碼器和 LDMs 在大型成對圖像文本數(shù)據(jù)集上進行訓練。 然而,這種選擇增加了網絡復雜性并限制了Transformer作為主干網的使用,特別是由于內存限制而生成高分辨率視頻。 另一方面,雖然時空壓縮可以緩解這些問題,但它妨礙了配對圖像文本數(shù)據(jù)集的使用,這些數(shù)據(jù)集比視頻數(shù)據(jù)集更大、更多樣化。

我們提出了窗口注意力隱Transformer(Window Attention Latent Transformer,W.A.L.T):一種基于Transformer的隱視頻擴散模型(latent video dif- fusion models,LVDMs)方法。 我們的方法由兩個階段組成:

  • 首先,自編碼器將視頻和圖像映射到統(tǒng)一的低維隱空間。 這種設計選擇使得能夠在圖像和視頻數(shù)據(jù)集上聯(lián)合訓練單個生成模型,并顯著減少生成高分辨率視頻的計算負擔。
  • 隨后,我們提出了一種用于隱視頻擴散建模的Transformer blocks的新設計,Transformer blocks由在非重疊、窗口限制的空間和時空注意力之間交替的自注意力層組成。 這種設計有兩個主要好處:首先,使用局部窗口注意力顯著降低了計算需求。 其次,它有利于聯(lián)合訓練,其中空間層獨立處理圖像和視頻幀,而時空層致力于對視頻中的時間關系進行建模。

雖然概念上很簡單,但我們的方法提供了第一個經驗證據(jù),證明 Transformer 在公共基準上的隱視頻擴散中具有卓越的生成質量和參數(shù)效率。 具體來說,我們報告了類條件視頻生成(UCF-101 [70])、幀預測(Kinetics-600 [9])和類條件圖像生成(ImageNet [15])的最新結果,無需使用分類器免費指導。 最后,為了展示可擴展性和效率,我們還展示了真實感文本到視頻生成這一頗具挑戰(zhàn)性的任務的結果。 我們訓練了由一個隱視頻擴散基模型和兩個視頻超分辨率擴散模型組成的級聯(lián)模型,以每秒 8 幀的速度生成 512 × 896 分辨率的視頻,并在 UCF-101 基準測試中給出了最先進的zero-shot FVD 分數(shù)。

相關工作

視頻擴散模型

擴散模型在圖像 [33,38,52,61,67,68] 和視頻生成 [4,24,29,34,36,66] 方面顯示出令人印象深刻的結果。 視頻擴散模型可以分為像素空間[34,36,66]和隱空間[4,24,31,83]方法,后者在視頻建模時帶來了重要的效率優(yōu)勢。 Ho等研究者 [36]證明,通過對圖像和視頻數(shù)據(jù)進行聯(lián)合訓練可以顯著提高文本條件視頻生成的質量。 類似地,為了利用圖像數(shù)據(jù)集,隱視頻擴散模型通過添加時間層并將其初始化為恒等函數(shù)將預先訓練的圖像模型(通常是 U-Net [62])膨脹為視頻模型 [4, 34, 66 ]。 盡管計算效率高,但這種方法將視頻和圖像模型的設計結合在一起,并且排除了時空壓縮。 在本論文中,我們在圖像和視頻的統(tǒng)一隱空間上進行操作,使我們能夠利用大規(guī)模圖像和視頻數(shù)據(jù)集,同時享受視頻時空壓縮帶來的計算效率增益。

用于生成建模的 Transformer

多類生成模型利用 Transformers [73] 作為主干網,例如生成對抗網絡 [42,47,85],自回歸 [10,11,20,21,27,59,74,77,78, 80, 81] 和擴散 [2, 22, 41, 50, 53, 87] 模型。 受到大語言模型自回歸預訓練成功的啟發(fā)[55-57],Ramesh 等[59]通過預測從圖像tokenizer獲得的下一個視覺token來訓練文本到圖像生成模型。 隨后,這種方法被應用于多種應用,包括類條件圖像生成 [20, 79]、文本到圖像 [17, 59, 76, 80] 或圖像到圖像轉換 [21, 77]。 類似地,對于視頻生成,基于 Transformer 的模型被提出使用 VQGAN [23,37,78,81] 的 3D 擴展或使用每幀圖像latents [27] 來預測下一個標記。 考慮到所涉及的序列很長,視頻的自回歸采樣通常是不切實際的。 為了緩解這個問題,非自回歸采樣[10, 11],即并行token預測,已被采用作為基于Transformer的視頻生成的更有效的解決方案[27, 74, 81]。 最近,社區(qū)開始采用 Transformer 作為擴散模型的去噪主干來代替 U-Net [12,38,50,53,87]。 據(jù)我們所知,我們的工作是基于Transformer主干網聯(lián)合訓練圖像和視頻隱擴散模型的首次成功的實證(第5.1節(jié))。

背景

擴散formulation

擴散模型 [33,67,69] 是一類生成模型,它通過迭代地對從噪聲分布中提取的樣本進行去噪來學習生成數(shù)據(jù)。 高斯擴散模型假設一個前向噪聲過程,逐漸將噪聲 ( ? \mathbf{\epsilon} ?) 應用于實際數(shù)據(jù) ( x 0 ~ p d a t a \mathbf{x}_0 ~ p_{data} x0?pdata?)。 具體來說,
x t = γ ( t ) x 0 + 1 ? γ ( t ) ? , (1) \mathbf{x}_t = \sqrt{\gamma(t)}\mathbf{x}_0 + \sqrt{1-\gamma(t)}\mathbf{\epsilon}, \tag{1} xt?=γ(t) ?x0?+1?γ(t) ??,(1)
其中 ? ~ N ( 0 , I ) \mathbf{\epsilon} \sim \mathcal{N}(\mathbf{0},\mathbf{I}) ?N(0,I), t ∈ [ 0 , 1 ] t \in [0,1] t[0,1], 并且 γ ( t ) \gamma(t) γ(t)s 是從 1 到 0 的單調遞減函數(shù)(noise schedule)。擴散模型通過訓練來學習反轉前向corruptions的反向過程:
E x ~ p d a t a , t ~ U ( 0 , 1 ) , ? ~ N ( 0 , I ) [ ∣ ∣ y ? f θ ( x t ; c , t ) ∣ ∣ ] , (2) \mathbb{E}_{\mathbf{x} ~ p_{data}, t \sim \mathcal{U}(0,1), \mathbf{\epsilon} \sim \mathcal{N}(\mathbf{0},\mathbf{I})}[||\mathbf{y} - f_{\theta}(\mathbf{x}_t;\mathbf{c},t)||], \tag{2} Expdata?,tU(0,1),?N(0,I)?[∣∣y?fθ?(xt?;c,t)∣∣],(2)

其中 f θ f_θ fθ? 是由神經網絡參數(shù)化的降噪器模型, c \mathbf{c} c是條件信息,例如類標簽或文本提示,目標 y \mathbf{y} y 可以是隨機噪聲 ? \mathbf{\epsilon} ?、降噪輸入 x 0 \mathbf{x}_0 x0? v = 1 ? γ ( t ) ? ? γ ( t ) x 0 \mathbf{v} = \sqrt{1-\gamma(t)}\mathbf{\epsilon} - \sqrt{\gamma(t)}\mathbf{x}_0 v=1?γ(t) ???γ(t) ?x0?。 遵循 [34, 63],我們在所有實驗中都使用 v 預測。

隱擴散模型(LDMs)

使用原始像素處理高分辨率圖像和視頻需要大量的計算資源。 為了解決這個問題,LDM 在 VQ-VAE 的低維隱空間上運行 [20, 72]。 VQ-VAE 包含編碼器$ E(x)$ ,該編碼器將輸入視頻 x ∈ R T × H × W × 3 x \in \mathbb{R}^{T ×H ×W ×3} xRT×H×W×3 編碼為隱表示 z ∈ R t × h × w × c z ∈ \mathbb{R}^{t×h×w×c} zRt×h×w×c。 編碼器通過因子 f s = H / h = W / w f_s=H/h=W/w fs?=H/h=W/w以及 f t = T / t f_t=T/t ft?=T/t對視頻進行下采樣,其中 T = t = 1 T=t=1 T=t=1對應于使用圖像自編碼器。 與原始 VQ-VAE 的一個重要區(qū)別是缺乏量化嵌入的碼本:擴散模型可以在連續(xù)的隱空間上運行。 解碼器 D D D 被訓練來根據(jù) z z z 預測視頻的重建 x ^ \hat{x} x^。 沿著 VQ-GAN [20]的思路 ,可以通過添加對抗性 [25] 和感知損失 [43, 86] 來進一步提高重建質量。

W.A.L.T

視覺Tokens學習

視頻生成建模中的一個關鍵設計決策是隱空間表示的選擇。 理想情況下,我們想要一個共享且統(tǒng)一的壓縮視覺表示,可用于圖像和視頻的生成建模[74, 82]。 由于有標注視頻數(shù)據(jù)[34](例如文本視頻對)的稀缺,所以聯(lián)合圖像視頻學習更可取,這就決定了統(tǒng)一表示很重要。 具體來說,給定視頻序列 x ∈ R ( 1 + T ) × H × W × C x \in \mathbb{R}^{(1+T )×H ×W ×C} xR(1+T)×H×W×C ,我們的目標是學習執(zhí)行時空壓縮( 空間因子 f s = H / h = W / w f_s=H/h=W/w fs?=H/h=W/w,時間因子 $f_t = T/t $)的低維表示 z ∈ R ( 1 + t ) × h × w × c z \in \mathbb{R}^{(1+t)×h×w×c} zR(1+t)×h×w×c。 為了實現(xiàn)視頻和靜態(tài)圖像的統(tǒng)一表示,第一幀始終獨立于視頻的其余部分進行編碼。 這使得靜態(tài)圖像 x ∈ R 1 × H × W × C x \in \mathbb{R}^{1×H ×W ×C} xR1×H×W×C可以被視為具有單幀的視頻,即 z ∈ R 1 × h × w × c z \in \mathbb{R}^{1×h×w×c} zR1×h×w×c。

我們用MAGVIT-v2 tokenizer [82]的因果 3D CNN 編碼器-解碼器架構實例化這個設計。 通常,編碼器-解碼器由3D卷積層組成,無法獨立處理第一幀[23, 81]。 這種限制源于以下事實: 大小為 ( k t , k h , k w ) (k_t , k_h , k_w ) (kt?,kh?,kw?)的常規(guī)卷積核將在輸入幀之前的 ? k t ? 1 2 ? \lfloor \frac{k_t -1}{2} \rfloor ?2kt??1?? 幀和之后的 ? k t 2 ? \lfloor \frac{k_t}{2} \rfloor ?2kt???幀上運行。 因果 3D 卷積層解決了這個問題,因為卷積核僅對過去的 k t ? 1 k_t ? 1 kt??1幀進行操作。 這確保了每個幀的輸出僅受前面幀的影響,使模型能夠獨立對第一幀進行tokenize。

在此階段之后,我們模型的輸入是一批潛在張量 z ∈ R ( 1 + t ) × h × w × c z \in \mathbb{R}^{(1+t)×h×w×c} zR(1+t)×h×w×c,表示單個視頻或一堆 ( 1 + t 1 + t 1+t) 獨立圖像(圖 2)。 與[82]不同,我們的隱表示是實值且無量化的。 在下面的部分中,我們描述我們的模型如何聯(lián)合處理混合批次的圖像和視頻。

[論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】,音視頻,人工智能,計算機視覺,深度學習,cnn,神經網絡,AIGC

面向圖像及視頻生成的學習

Patchify

遵循原始的 ViT [18],我們通過將每個隱幀轉換為不重疊的 h p × w p h_p ×w_p hp?×wp? patches序列來獨立地“Patchify”每個隱幀,其中 h p = h / p h_p = h/p hp?=h/p, w p = w / p w_p = w/p wp?=w/p, p p p 是patch大小 。 我們使用可學習的位置嵌入[73],它是空間和時間位置嵌入的總和。 位置嵌入被添加到patches的線性投影[18]中。 請注意,對于圖像,我們只需添加與第一個隱幀相對應的時間位置嵌入。

Window attention

完全由全局自注意力模塊組成的 Transformer 模型會產生大量的計算和內存成本,尤其是對于視頻任務。 為了提高效率以及聯(lián)合處理圖像和視頻,我們基于兩種類型的非重疊配置來計算窗口 [27, 73] 中的自注意力:空間(S)和時空(ST),參見圖 2。

  • 空間窗口 (SW) 注意力僅限于大小為 1 × h p × w p 1×h_p ×w_p 1×hp?×wp? 的隱幀內的所有tokens(第一個維度是時間)。 SW 對圖像和視頻中的空間關系進行建模。
  • 時空窗口 (STW) 注意力被限制在大小為 ( 1 + t ) × h p ′ × h w ′ (1 + t) × h^′_p × h^′_w (1+t)×hp?×hw? 的 3D 窗口內,對視頻隱幀之間的時間關系進行建模。 對于圖像,我們只需使用identity attention mask ,確保與圖像幀latents對應的值嵌入按原樣通過該層。 最后,除了絕對位置嵌入之外,我們還使用相對位置嵌入[49]。

我們的設計雖然概念上很簡單,但實現(xiàn)了計算的高效率并能夠對圖像和視頻數(shù)據(jù)集進行聯(lián)合訓練。 與基于幀級自編碼器的方法相比[4,24,27],我們的方法不會受到閃爍artifacts的影響,而閃爍artifacts通常是由獨立編碼和解碼視頻幀造成的。 然而,與 Blattmann 等研究者的工作 [4]類似,我們還可以通過簡單地交錯 STW 層來利用帶有Transformer主干的預訓練圖像 LDM。

條件生成

為了實現(xiàn)可控視頻生成,除了以時間步 t t t 為條件之外,擴散模型通常還以附加條件信息 c \mathbf{c} c 為條件,例如類標簽、自然語言、過去的幀或低分辨率視頻。 在我們的Transformer主干中,我們采用了三種類型的條件機制,如下所述:

交叉注意力

除了窗口Transformer Blocks中的自注意力層之外,我們還添加了一個用于文本條件生成的交叉注意力層。 當僅在視頻上訓練模型時,交叉注意力層采用與自注意力層相同的窗口限制注意力,這意味著 S/ST 塊將具有 SW/STW 交叉注意力層(圖 2)。 然而,對于聯(lián)合訓練,我們僅使用 SW 交叉注意層。 對于交叉注意力,我們將輸入信號(query)與條件信號(key、value)連接起來,因為我們的早期實驗表明這可以提高性能。

AdaLN-LoRA

自適應歸一化層是一系列生成和視覺合成模型的重要組成部分[16,19,44,52-54]。 引入自適應層歸一化(adaptive layer normalization)的一個簡單方法是為每個層 i i i 包含一個 MLP 層,用于回歸條件參數(shù)向量 A i = M L P ( c + t ) A^i = MLP(\mathbf{c} + \mathbf{t}) Ai=MLP(c+t),其中 A i = c o n c a t ( γ 1 , γ 2 , β 1 , β 2 , α 1 , α 2 ) A^i =concat(γ_1,γ_2,β_1, β_2,α_1,α_2) Ai=concat(γ1?,γ2?,β1?,β2?,α1?,α2?), A i ∈ R 6 × d m o d e l A^i \in \mathbb{R}^{6×d_{model}} AiR6×dmodel?, 并且 c ∈ R d m o d e l \mathbf{c} \in \mathbb{R}^{d_{model}} cRdmodel?, t ∈ R d m o d e l \mathbf{t} \in \mathbb{R}^{d_{model}} tRdmodel?是條件嵌入和時間步嵌入。 在Transformer Blocks中, γ γ γ β β β分別縮放和移動多頭注意力層和MLP層的輸入,而 α α α則縮放多頭注意力層和MLP層的輸出。 這些附加 MLP 層的參數(shù)計數(shù)與層數(shù)成線性比例,并與模型的維度大小( n u m _ b l o c k s × d m o d e l × 6 × d m o d e l num\_blocks × d_{model} × 6 × d_{model} num_blocks×dmodel?×6×dmodel?)成二次方。 例如,在具有 1 B 1B 1B 個參數(shù)的 ViT-g 模型中,MLP 層貢獻了額外的 475 M 475M 475M 個參數(shù)。 受[40]的啟發(fā),我們提出了一個名為 AdaLN-LoRA 的簡單解決方案,以減少模型參數(shù)。 對于每一層,我們將調節(jié)參數(shù)回歸為
A 1 = M L P ( c + t ) , A i = A 1 + W b i W a i ( c + t ) ??? ? i ≠ 1 , (3) A^1 =MLP(\mathbf{c} + \mathbf{t}), \\ A^i =A^1 +W_b^iW_a^i(\mathbf{c} + \mathbf{t}) \ \ \ \forall i\neq1 ,\tag{3} A1=MLP(c+t),Ai=A1+Wbi?Wai?(c+t)????i=1,(3)
其中 W b i ∈ R d m o d e l × r W_b^i \in \mathbb{R}^{d_{model} \times r} Wbi?Rdmodel?×r, W a i ∈ R r × ( 6 × d m o d e l ) W_a^i \in \mathbb{R}^{r \times(6×d_{model})} Wai?Rr×(6×dmodel?)。 當 r ? d m o d e l r \ll d_{model} r?dmodel? 時,這會顯著減少可訓練模型參數(shù)的數(shù)量。 例如, r = 2 r = 2 r=2 的 ViT-g 模型將 MLP 參數(shù)從 475 M 475M 475M 減少到 12 M 12M 12M。

Self-conditioning

除了以外部輸入為條件之外,迭代生成算法還可以在推理過程中以自己先前生成的樣本為條件[3,13,65]。 具體來說,陳等人 [13]修改擴散模型的訓練過程,使得模型以一定的概率 p s c p_{sc} psc? 首先生成樣本 z ^ 0 = f θ ( z t ; 0 , c , t ) \hat{z}_0 = f_θ (\mathbf{z}_t ; \mathbf{0}, \mathbf{c}, t) z^0?=fθ?(zt?;0,c,t),然后使用另一個前向傳遞在此初始樣本上條件細化該估計 : f θ ( z t ; s t o p g r a d ( z ^ 0 ) , c , t ) f_θ (\mathbf{z}_t ; stopgrad(\hat{\mathbf{z}}_0 ), \mathbf{c}, t) fθ?(zt?;stopgrad(z^0?),c,t)。 概率為 1 ? p s c 1 ? p_{sc} 1?psc? 時,僅完成一次前向傳遞。 我們將模型估計與輸入在通道維度上連接起來,發(fā)現(xiàn)這種簡單的技術與 v v v 預測結合使用時效果很好。

自回歸生成

為了通過自回歸預測生成長視頻,我們還在幀預測任務上聯(lián)合訓練我們的模型。 這是通過在訓練期間以 p f p p_{fp} pfp? 概率在過去的幀上為模型條件來實現(xiàn)的。 具體來說,該模型使用 c f p = c o n c a t ( m f p ° z t , m f p ) c_{fp} = concat(m_{fp} \circ \mathbf{z}_t , m_{fp}) cfp?=concat(mfp?°zt?,mfp?) 作為條件,其中 m f p m_{fp} mfp? 是二進制掩碼。 二進制掩碼指示用作條件的過往幀數(shù)量。 我們以 1 個隱幀(圖像到視頻生成)或 2 個隱幀(視頻預測)為條件。 通過沿著noisy latent輸入的通道維度連接,這種條件被集成到模型中。 在推理過程中,我們使用標準的無分類器指導,并以 c f p c_{fp} cfp? 作為條件信號。

視頻超分辨

使用單一模型生成高分辨率視頻在計算上是令人望而卻步的。 繼[35]之后,我們使用級聯(lián)方法,三個模型以遞增的分辨率運行。 我們的base模型生成 128 × 128 分辨率的視頻,隨后通過兩個超分辨率階段進行兩次上采樣。 我們首先使用depth-to-space卷積運算對低分辨率輸入 z l r z^{lr} zlr(視頻或圖像)進行空間升級。 請注意,與可獲得ground-truth低分辨率輸入的訓練不同,推理依賴于前一階段產生的隱特征(參見 teaching-force)。 為了減少這種差異并提高超分辨率階段在處理低分辨率階段產生的artifacts時的魯棒性,我們使用噪聲條件增強[35]。 具體來說,通過將噪聲水平采樣為 t s r ~ U ( 0 , t m a x n o i s e ) t_{sr} \sim \mathcal{U}(0, t_{max_noise}) tsr?U(0,tmaxn?oise?),根據(jù) γ ( t ) γ(t) γ(t) 來添加噪聲,并將其作為輸入提供給我們的 AdaLN-LoRA 層。

長寬比精調

為了簡化訓練并利用具有不同長寬比的廣泛數(shù)據(jù)源,我們使用方形長寬比訓練我們的base階段。 我們在數(shù)據(jù)子集上對base階段進行微調,通過插值位置嵌入來生成寬高比為 9:16 的視頻。

實驗

在本節(jié)中,我們在多個任務上評估我們的方法:類條件圖像和視頻生成、幀預測和文本條件視頻生成,并對不同的設計選擇進行廣泛的消融研究。 有關定性結果,請參見圖 1、圖 3、圖 4 以及我們項目網站上的視頻。 請參閱附錄了解更多詳細信息。

[論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】,音視頻,人工智能,計算機視覺,深度學習,cnn,神經網絡,AIGC
[論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】,音視頻,人工智能,計算機視覺,深度學習,cnn,神經網絡,AIGC

視覺生成

視頻生成

我們考慮兩個標準視頻基準,用于類條件生成的 UCF-101 [70] 和用于具有 5 個條件幀的視頻預測的 Kinetics-600 [9]。 我們使用 FVD [71] 作為我們的主要評估指標。 在這兩個數(shù)據(jù)集上,W.A.L.T 顯著優(yōu)于所有先前的工作(表 1)。 與之前的視頻擴散模型相比,我們用更少的模型參數(shù)實現(xiàn)了最先進的性能,并且需要 50 個 DDIM [68] 推理步驟。
[論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】,音視頻,人工智能,計算機視覺,深度學習,cnn,神經網絡,AIGC

圖像生成

為了驗證 W.A.L.T 在圖像域上的建模能力,我們針對標準 ImageNet 類條件設置訓練了 W.A.L.T 版本。 為了進行評估,我們遵循 ADM [16] 并報告根據(jù) 50 個 DDIM 步驟生成的 50K 樣本計算得出的 FID [32] 和 Inception [64] 分數(shù)。 我們將(表 2)W.A.L.T 與最先進的 256 × 256 分辨率圖像生成方法進行比較。 我們的模型優(yōu)于之前的工作,不需要專門的schedules、卷積歸納偏差、改進的擴散損失和無分類器指導。 盡管 VDM++ [45] 的 FID 分數(shù)稍好,但該模型的參數(shù)明顯更多(2B)。
[論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】,音視頻,人工智能,計算機視覺,深度學習,cnn,神經網絡,AIGC

消融研究 (Ablation Studies)

我們消融 W.A.L.T 以了解默認設置下各種設計決策的貢獻:模型 L,patch size 1, 1 × 16 × 16 1 × 16 × 16 1×16×16 空間窗口, 5 × 8 × 8 5 × 8 × 8 5×8×8 時空窗口, p s c = 0.9 p_{sc} = 0.9 psc?=0.9 c = 8 c = 8 c=8 以及 r = 2 r = 2 r=2。
[論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】,音視頻,人工智能,計算機視覺,深度學習,cnn,神經網絡,AIGC

patch size

在利用基于 ViT[18] 的模型的各種計算機視覺任務中,較小的patch size p p p 已被證明可以持續(xù)增強性能 [8,18,28,84]。 同樣,我們的研究結果還表明,減小patch size 可以提高性能(表 3a)。

窗口注意力

我們比較了具有完全自注意力的三種不同的 STW 窗口配置(表 3b)。 我們發(fā)現(xiàn)局部自注意力可以實現(xiàn)有競爭力(或更好)的性能,同時速度顯著加快(高達 2 倍)并且需要更少的加速器內存。

自條件

在表 3c 中,我們研究了改變自條件率 p s c p_{sc} psc? 對生成質量的影響。 我們注意到一個明顯的趨勢:將自條件率從 0.0(無自條件)增加到 0.9,F(xiàn)VD 分數(shù)大幅提高(44%)。

AdaLN-LoRA

擴散模型中的一個重要設計決策是條件機制。 我們研究了在我們提出的 AdaLN-LoRA 層中增加瓶頸維度 r r r 的影響(表 3d)。 該超參數(shù)提供了一種在模型參數(shù)數(shù)量和生成性能之間進行權衡的靈活方法。 如表 3d 所示,增加 r r r 可以提高性能,但也會增加模型參數(shù)。 這凸顯了一個重要的模型設計問題:給定固定的參數(shù)預算,我們應該如何分配參數(shù)——要么使用單獨的 AdaLN 層,要么在使用共享 AdaLN-LoRA 層的同時增加基本模型參數(shù)? 我們通過比較兩種模型配置在表 4 中對此進行探索:具有單獨 AdaLN 層的 W.A.L.T-L 和具有 AdaLN-LoRA 且$ r = 2$ 的 W.A.L.T-XL。雖然兩種配置產生相似的 FVD 和 Inception 分數(shù),但 W.A.L.T-XL 實現(xiàn)了較低的最終損失 值,表明為base模型分配更多參數(shù)并在加速器內存限制內選擇適當?shù)? r r r 值的優(yōu)勢。
[論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】,音視頻,人工智能,計算機視覺,深度學習,cnn,神經網絡,AIGC

Noise schedule

常見的隱Noise schedule [61]通常不能確保最終時間步長處的零信噪比(SNR),即在 t = 1 t = 1 t=1時, γ ( t ) > 0 γ(t) > 0 γ(t)>0 。這會導致訓練和推理階段的不匹配。 在推理過程中,模型預計從純高斯噪聲開始,而在訓練過程中,在 t = 1 t = 1 t=1 時,模型仍然可以訪問少量信號信息。 這對于視頻生成尤其有害,因為視頻具有很高的時間冗余。 即使 t = 1 t = 1 t=1 時的最小信息泄漏也可以向模型揭示大量信息。 通過強制執(zhí)行zero terminal SNR [48] 來解決這種不匹配問題,可顯著提高性能(表 3e)。 請注意,這種方法最初是為了解決圖像生成中的過度曝光問題而提出的,但我們發(fā)現(xiàn)它對于視頻生成也很有效。

自編碼器

最后,我們在模型的第一階段研究了一個關鍵但經常被忽視的超參數(shù):自編碼器latent z z z 的通道維度 c c c。 如表 3f 所示,增加 c c c 可以顯著提高重建質量(較低的 rFVD),同時保持相同的空間 f s f_s fs? 和時間壓縮 f t f_t ft? 比率。 根據(jù)經驗,我們發(fā)現(xiàn)較低和較高的 c c c 值都會導致生成過程中的 FVD 得分較差,其中 c = 8 c = 8 c=8 的最佳點在我們評估的大多數(shù)數(shù)據(jù)集和任務中都表現(xiàn)良好。 我們還在通過Transformer 處理 latents 之前對其進行歸一化,這進一步提高了性能。

在我們的Transformer模型中,我們使用query-key normalization [14],因為它有助于穩(wěn)定較大模型的訓練。 最后,我們注意到,正如消融研究所示,我們的一些默認設置并不是最佳的。 早期選擇這些默認值是為了它們在數(shù)據(jù)集上的穩(wěn)健性,盡管進一步調整可能會提高性能。

文本-視頻生成

我們在文本-圖像和文本-視頻對上聯(lián)合訓練文本到視頻的 W.A.L.T(第 4.2 節(jié))。 我們使用來自公共互聯(lián)網和內部來源的~970M 文本-圖像對和~89M 文本-視頻對的數(shù)據(jù)集。 我們以分辨率 17 × 128 × 128(3B 參數(shù))訓練基本模型,并訓練兩個 2× 級聯(lián)超分辨率模型,分別為 17 × 128 × 224 → 17×256×448(L,1.3B,p = 2) 和 17×256×448 → 17×512×896(L,419M,p = 2)。 我們對 9:16 寬高比的base階段進行微調,以生成分辨率為 128 × 224 的視頻。我們對所有文本到視頻結果使用無分類器指導。

定量評價

科學地評估文本條件視頻生成系統(tǒng)仍然是一個重大挑戰(zhàn),部分原因是缺乏標準化的訓練數(shù)據(jù)集和基準。 到目前為止,我們的實驗和分析主要集中在標準學術基準上,這些基準使用相同的訓練數(shù)據(jù)來確保受控和公平的比較。 盡管如此,為了與之前的文本到視頻工作進行比較,我們還在表 5 中的零樣本評估協(xié)議中報告了 UCF-101 數(shù)據(jù)集的結果[24,37,66]。 參見補充材料。
[論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】,音視頻,人工智能,計算機視覺,深度學習,cnn,神經網絡,AIGC

聯(lián)合訓練。 我們框架的主要優(yōu)勢是它能夠同時在圖像和視頻數(shù)據(jù)集上進行訓練。 在表 5 中,我們消除了這種聯(lián)合訓練方法的影響。 具體來說,我們使用第 5.2 節(jié)中指定的默認設置訓練了兩個版本的 W.A.L.T-L(每個版本有 419M 參數(shù))模型。 我們發(fā)現(xiàn)聯(lián)合訓練可以顯著改善這兩個指標。 我們的結果與 Ho 等人的研究結果一致 [36],該工作展示了使用 U-Net 主干網絡聯(lián)合訓練基于像素的視頻擴散模型的好處。

Scaling。 Transformer 以其在許多任務中有效擴展的能力而聞名 [5,14,55]。 在表 5 中,我們展示了視頻擴散Transformer模型在Scaling方面的好處。Scaling base模型大小可以顯著改進這兩個指標。 然而,值得注意的是,我們的base模型比領先的文本到視頻系統(tǒng)要小得多。 例如,Ho等人 [34]訓練有5.7B參數(shù)的基礎模型。 因此,我們相信進一步Scaling 我們的模型是未來工作的重要方向。

與之前的工作進行比較。 在表 5 中,我們展示了各種文本到視頻生成方法的系統(tǒng)級比較。 我們的結果是有希望的; 我們在 FVD 指標方面超越了之前的所有工作。 就 IS 而言,我們的表現(xiàn)具有競爭力,優(yōu)于除 PYoCo 之外的所有其他工作 [24]。 對于這種差異的一個可能的解釋可能是 PYoCo 使用了更強的文本嵌入。 具體來說,他們同時使用 CLIP [57] 和 T5-XXL [60] 編碼器,而我們僅使用 T5-XL [60] 文本編碼器。

定性結果

正如第 4.4 節(jié)中提到的,我們在以 1 或 2 個隱幀為條件的幀預測任務上聯(lián)合訓練我們的模型。 因此,我們的模型可用于動畫圖像(圖像到視頻)并生成具有一致相機運動的較長視頻(圖 4)。 請參閱我們項目網站上的視頻。

結論

在這項工作中,我們介紹了 W.A.L.T,這是一種簡單、可擴展且高效的基于Transformer的隱視頻擴散模型框架。 我們展示了使用帶有窗口注意力的 Transformer 主干來生成圖像和視頻的最先進結果。 我們還在圖像和視頻數(shù)據(jù)集上聯(lián)合訓練了三個 W.A.L.T 模型的級聯(lián),以根據(jù)自然語言描述合成高分辨率、時間一致的真實感視頻。 雖然生成模型最近在圖像方面取得了巨大進步,但視頻生成方面的進展卻大大滯后了。 我們希望scaling我們的圖像和視頻生成統(tǒng)一框架將有助于縮小這一差距。文章來源地址http://www.zghlxwxcb.cn/news/detail-772295.html

到了這里,關于[論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 【AIGC】手把手使用擴散模型從文本生成圖像

    【AIGC】手把手使用擴散模型從文本生成圖像

    在這篇文章中,我們將手把手展示如何使用Hugging Face的diffusers包通過文本生成圖像。 DALLE2是收費的,用戶只有一些免費的額度,如果免費額度使用完畢就需要付費了,所以必須尋找替代方案,并發(fā)現(xiàn)了Hugging Face,他們發(fā)布了一個擴散模型的包diffusers ,可以讓我們直接使用。

    2024年02月09日
    瀏覽(29)
  • 如何在免費云Colab上使用擴散模型生成圖片?

    如何在免費云Colab上使用擴散模型生成圖片?

    在人工智能技術的迅猛發(fā)展下,內容生成領域也迎來了一系列創(chuàng)新的突破。其中,使用擴散模型(如Stable Diffusion)從文字生成圖片的AI技術備受矚目。這一技術的出現(xiàn),為我們創(chuàng)造栩栩如生的圖像提供了全新的可能性。本文將帶領讀者使用免費云Colabt體驗如何使用擴散模型生

    2024年02月01日
    瀏覽(20)
  • 人工智能的優(yōu)勢:使用 GPT 和擴散模型生成圖像

    人工智能的優(yōu)勢:使用 GPT 和擴散模型生成圖像

    推薦:使用 NSDT場景編輯器快速搭建3D應用場景 世界被人工智能 (AI) 所吸引,尤其是自然語言處理 (NLP) 和生成 AI 的最新進展,這是有充分理由的。這些突破性技術有可能提高各種任務的日常生產力。例如,GitHub Copilot幫助開發(fā)人員快速編寫整個算法,OtterPilot自動生成高

    2024年02月09日
    瀏覽(32)
  • Transformer模型原理—論文精讀

    Transformer模型原理—論文精讀

    今天來看一下Transformer模型,由Google團隊提出,論文名為《Attention Is All You Need》。論文地址。 正如標題所說的,注意力是你所需要的一切,該模型摒棄了傳統(tǒng)的RNN和CNN結構,網絡結構幾乎由Attention機制構成,該論文的亮點在于提出了 Multi-head attention 機制,其又包含了 self-a

    2024年02月08日
    瀏覽(16)
  • 生成模型(四):擴散模型02【第一單元:擴散模型簡介】

    生成模型(四):擴散模型02【第一單元:擴散模型簡介】

    歡迎來到 Hugging Face 擴散模型課程第一單元!在本單元中,你將學習有關擴散模型如何工作的基礎知識,以及如何使用 ?? diffusers 庫。 擴散模型是「生成模型」算法家族的新成員通過學習給定的訓練樣本,生成模型可以學會如何? 生成 ?數(shù)據(jù),比如生成圖片或者聲音。一個好

    2024年02月13日
    瀏覽(53)
  • [論文精讀] 自條件圖像生成 - 【愷明大神新作,AIGC 新基準】

    [論文精讀] 自條件圖像生成 - 【愷明大神新作,AIGC 新基準】

    論文導讀: 論文背景: 2023年8月,AI大神何愷明在個人網站宣布,2024年將加入MIT擔任教職,回歸學術界。這篇論文是其官宣加盟MIT后首度與MIT師生合著的公開論文,論文一作本科畢業(yè)于清華姚班,二作為MIT電氣工程與計算機科學系教授,今年的斯隆獎得主,美國科學院院士。

    2024年02月03日
    瀏覽(24)
  • 擴散模型與生成模型詳解

    擴散模型與生成模型詳解

    擴散模型的簡介 生成建模是理解自然數(shù)據(jù)分布的開創(chuàng)性任務之一。VAE、GAN和Flow系列模型因其實用性能而在過去幾年中占據(jù)了該領域的主導地位。盡管取得了商業(yè)上的成功,但它們的理論和設計缺陷(棘手的似然計算、限制性架構、不穩(wěn)定的訓練動力學等)導致了一類名為“

    2024年02月05日
    瀏覽(12)
  • Text to image論文精讀GigaGAN: 生成對抗網絡仍然是文本生成圖像的可行選擇

    Text to image論文精讀GigaGAN: 生成對抗網絡仍然是文本生成圖像的可行選擇

    GigaGAN是Adobe和卡內基梅隆大學學者們提出的一種新的GAN架構,作者設計了一種新的GAN架構,推理速度、合成高分辨率、擴展性都極其有優(yōu)勢,其證明GAN仍然是文本生成圖像的可行選擇之一。 文章鏈接:https://arxiv.org/abs/2303.05511 項目地址:https://mingukkang.github.io/GigaGAN/ 最近,文

    2023年04月09日
    瀏覽(27)
  • 論文閱讀_擴散模型_LDM

    論文閱讀_擴散模型_LDM

    英文名稱: High-Resolution Image Synthesis with Latent Diffusion Models 中文名稱: 使用潛空間擴散模型合成高分辨率圖像 地址: https://ieeexplore.ieee.org/document/9878449/ 代碼: https://github.com/CompVis/latent-diffusion 作者:Robin Rombach 日期: 2022-06-01 引用: 2275 Latent Diffusion Models (LDMs)基于潛空間的擴散模

    2024年02月11日
    瀏覽(28)
  • 論文閱讀_擴散模型_DDPM

    論文閱讀_擴散模型_DDPM

    英文名稱: Denoising Diffusion Probabilistic Models 中文名稱: 去噪擴散概率模型 論文地址: http://arxiv.org/abs/2006.11239 代碼地址1: https://github.com/hojonathanho/diffusion (論文對應代碼 tensorflow) 代碼地址2: https://github.com/AUTOMATIC1111/stable-diffusion-webui stable-diffusion-webui/modules/models/diffusion/ddpm_edi

    2024年02月09日
    瀏覽(28)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包