原作:伊格納西奧·德格雷戈里奧
引言:文本到視頻的新境界
著名商學(xué)教授斯科特·加洛韋 (Scott Galloway) 打賭,2024 年將是谷歌的人工智能年。
現(xiàn)在看起來似乎正在成為現(xiàn)實。
今天,谷歌推出了 Lumiere,這是文本到視頻領(lǐng)域的巨大突破,是當(dāng)今生成人工智能中最艱巨的任務(wù)之一。而且就其實現(xiàn)的影響而言,可能是迄今為止尚未達到的最重要里程碑,因為一旦實現(xiàn),它將永久改變像好萊塢、YouTube或CGI 這樣的行業(yè)。
現(xiàn)在,谷歌已經(jīng)讓我們更進一步,因為它對于人工智能視頻合成的方法不僅是革命性的,而且展示了令人難以置信的視頻質(zhì)量和各種令人驚嘆的技巧,如視頻修補、圖像動畫和視頻風(fēng)格化,使其成為該領(lǐng)域的新標準。
但它是如何生成視頻的呢?
看起來像魔法,但事實并非如此。讓我們揭開它的秘密。
?永恒的難題
在所有數(shù)據(jù)模式中,視頻無疑是最難用人工智能生成的。
然而,考慮到視頻只是圖像(稱為幀)的串聯(lián),以每秒一定的幀速率顯示(fps 越高,視頻越平滑),構(gòu)建文本到視頻(T2V)系統(tǒng)的合理路徑是從一個文本到圖像模型(T2I)出發(fā),比如DALL-e或Stable Diffusion。
然而,T2V增加了一個額外的復(fù)雜維度:時間。
也就是說,僅僅生成多個幀還不夠(你可以使用T2I模型生成所需數(shù)量的幀),它們必須隨著時間的推移保持一致。
換一種說法,如果您要生成有關(guān)獅子的視頻,則必須確保獅子在所有幀上看起來都相似。
事實證明,這是一個巨大的難題,因為在多個幀之間保持結(jié)構(gòu)的復(fù)雜性使得人工智能視頻變得非常短,并且它們往往會展示出瑕疵,例如下面這個由人工智能生成的視頻中突然出現(xiàn)的橙色斑點。
這些不一致的原因在于這些模型的構(gòu)建方式,我們很快將解釋Lumiere如何徹底改變這種方法。
最初,視頻合成過程涉及三個步驟:
- 文本到圖像(T2I)模型生成了一組關(guān)鍵幀,這些幀覆蓋了整個視頻的完整持續(xù)時間。
- 接下來,幾個 TSR(時間超分辨率)模型用一組新幀“填充”了關(guān)鍵幀之間的間隙。例如,如果兩個關(guān)鍵幀分別是一個認真的人和同一個人微笑著,那么TSR模型將生成完整的中間幀,產(chǎn)生微笑的動作。
- 然后,一組 SSR(空間超分辨率)將獲取低分辨率幀并對其進行升級以提高視頻質(zhì)量,因為大多數(shù)文本到視頻模型在低分辨率像素空間(或者在某些情況下,在矢量空間,如Stable Diffusion)中工作,這樣可以實現(xiàn)更高效和更便宜的處理過程。
- 最后,將SSR的輸出進行“拼接”,從而得到視頻。
最重要的是,人工智能視頻只是采用圖像生成器并對其進行訓(xùn)練,使其隨時間批量生成某種程度一致的圖像,并將它們拼湊在一起。
這確實有效……但也存在一些問題。
就像在拍攝一個演員的片段過程中,他突然脫離角色,你試圖通過強迫他保持特定的姿勢來完成剩下的片段,避免失去前半部分一樣,無論你如何編輯,裁剪是會可見的。
此外,由于該過程涉及使用幾種不同類型的模型,這些模型并不總是共享相同的經(jīng)驗和表征(即它們對概念的理解方式),這使得它極易出錯。
考慮到這些限制,視頻生成似乎還不夠完善。但是通過谷歌的Lumiere項目,我們可能正在見證一項重大進展的開始。
空間、時間和多重擴散
就像圖像生成器一樣,文本到視頻(T2V)模型主要是擴散模型。
擴散模型是一種通過去噪過程學(xué)習(xí)將嘈雜的數(shù)據(jù)分布映射到目標分布的AI系統(tǒng)。
通俗地說,他們采用噪聲圖像和文本條件(即你期望的最終結(jié)果),然后逐漸去除圖像中的噪聲,直到得到所需的結(jié)果。
可以將擴散過程類比為將一個大理石塊,就像米開朗基羅一樣,逐漸雕刻出多余的大理石,從而“挖掘”出雕像。
將擴散過程想象為取出一塊大理石塊,就像米開朗基羅一樣,雕刻出多余的大理石以“挖掘”雕像。
然而,Google 沒有遵循我們之前描述的標準程序,而是通過創(chuàng)建 STUnet 找到了替代方案。
那么STUnet是什么呢?
UNet是一種架構(gòu),它對圖像進行下采樣、處理并生成一組新的圖像。
換句話說,它接收一組噪聲樣本(如上圖中顯示的模糊圖像)并生成一組新的高質(zhì)量圖像,這些圖像也彼此一致連貫以生成視頻。
為了做到這一點,在處理圖像時應(yīng)用卷積(以理解圖像所見內(nèi)容)的同時,還能對圖像進行下采樣(使其變?。?/span>
一旦壓縮足夠,就會對其應(yīng)用注意力機制(就像ChatGPT在文本序列上應(yīng)用注意力那樣,但是應(yīng)用在圖像的壓縮表示上,以更好地把握圖像中出現(xiàn)的概念,比如熊貓),然后將它們恢復(fù)成像素空間,從而得到期望的圖像。
然而,STUnet還包括時間卷積和注意力機制,這意味著它壓縮了時間。
換句話說,雖然空間卷積和注意力機制專注于處理和確保生成的圖像符合用戶的要求,但是時間卷積和注意力機制確保整個圖像集在時間上是一致的。
這聽起來很抽象,但STUnet基本上不僅理解每幀代表什么,而且還理解不同幀之間的關(guān)系。
換句話說,不僅要捕捉畫面中描繪的熊貓,還要捕捉熊貓隨著時間的推移應(yīng)該做什么動作。
事實上,生成過程是“時間感知”的,Lumiere 可以一次性創(chuàng)建視頻中的所有幀(而不是我們之前討論的通常的關(guān)鍵幀 + 級聯(lián)幀填充),因此STUnet只需要專注于捕捉幀的語義并將其放大到實際的視頻中。
然而,由于內(nèi)存限制,您仍然需要許多 SSR 模型來放大圖像,這意味著最后仍然需要進行一些“拼接”。
因此,為了避免每個 SSR 的放大輸出之間的不一致,他們應(yīng)用了 MultiDiffusion(Bar-Tal 等人,2023)。
這樣做的目的是通過使用MultiDiffuser確保在不同生成的幀批次之間的一致性。
簡而言之,MultiDiffuser允許同時在一幀上進行多個圖像生成過程。
例如,您可以創(chuàng)建一個“模糊圖像”,同時對圖像的某些區(qū)域應(yīng)用并行生成,比如在圖像的特定部分繪制“一只老鼠”或“一堆書”。
關(guān)鍵的直覺是,MultiDiffuser確保無論你通過單獨的擴散過程在圖像的那些片段中生成什么,它們都與整體作品一致。
技術(shù)提示:這是通過在標準一代“之上”應(yīng)用額外的生成步驟來實現(xiàn)的,并且這些生成步驟必須符合一個額外的目標函數(shù),該函數(shù)測量了并行生成的數(shù)據(jù)分布之間的“差異”。
換句話說,MultiDiffuser 允許您在原始內(nèi)容上“繪制”新內(nèi)容,同時盡可能保留原始結(jié)構(gòu)。
因此,該組件確保對于需要拼接的視頻的多個幀批次,您可以重新創(chuàng)建不同SSR模型輸出之間的邊界,以使它們保持一致,從而確保片段之間的平滑過渡。
您可以將MultiDiffuser想象成使用Photoshop在SSR模型放大的不同補丁之間“平滑處理”邊界,就像視頻編輯器希望確保在批次之間不會出現(xiàn)任何切割一樣。
它可以使圖像的某些部分動起來,
修復(fù)新的對象和概念:
除此之外,您還可以在這里查看其他令人驚嘆的功能:查看由Lumiere生成的視頻。
視頻新時代
借助 Lumiere,我們可以清楚地看到視頻生成、編輯和動畫等領(lǐng)域的未來方向。
很快,任何人都能夠在短時間內(nèi)從零開始創(chuàng)建令人印象深刻的視頻,從而創(chuàng)造一個充滿可能性的新世界。文章來源:http://www.zghlxwxcb.cn/news/detail-825319.html
盡管取得了令人印象深刻的成果,但感覺我們只看到了冰山一角。文章來源地址http://www.zghlxwxcb.cn/news/detail-825319.html
到了這里,關(guān)于【譯】Lumiere,谷歌令人驚嘆的視頻突破的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!