由于在AI生成視頻的時長上成功突破到一分鐘,再加上演示視頻的高度逼真和高質(zhì)量,Sora立刻引起了轟動。在Sora橫空出世之前,Runway一直被視為AI生成視頻的默認(rèn)選擇,尤其是自去年11月推出第二代模型以來,Runway還被稱為“AI視頻界的MidJourney”。第二代模型Gen-2不僅解決了第一代AI生成視頻中每幀之間連貫性過低的問題,在從圖像生成視頻的過程中也能給出很好的結(jié)果。
Sora最震撼的技術(shù)突破之一在于其輸出的視頻時長。Runway能夠生成4秒長的視頻,用戶可以將其最多延長至16秒,是AI生成視頻在2023年所能達(dá)到的最長時長紀(jì)錄。Stable Video也提供4秒的視頻,Pika則提供3秒的視頻。在這一方面,Sora以1分鐘的時長向競爭對手們提出了挑戰(zhàn)。本質(zhì)上,Sora和Pika、Runway采用了相似的底層模型,即Diffusion擴散模型。不同之處在于,Sora把其中的實現(xiàn)邏輯進(jìn)行了變化,將U-Net架構(gòu)替換成了Transformer架構(gòu)。
1.文生視頻效果展示對比:
1.1 sora之前模型效果
-
StableVideo效果展示
可以看到效果一般能比較明顯看出差別
1.2 主流視頻生成模型對比[Sora VS RunwayML、Pika]
讓機器生成視頻,難點在于“逼真”。比如一個人在同一個視頻里的長焦和短焦鏡頭里外觀不會變化;隨著鏡頭轉(zhuǎn)動,站在山崖上的小狗應(yīng)該跟山崖保持一致的移動;咬一口面包,面包就會少一塊并出現(xiàn)牙印……這些邏輯對人來說似乎顯而易見,但AI模型很難領(lǐng)悟到前一幀和后一幀畫面之間的各種邏輯和關(guān)聯(lián)。
首先要強調(diào)下生成式AI模型跟傳統(tǒng)信息檢索的區(qū)別。傳統(tǒng)檢索是按圖索驥,從數(shù)據(jù)庫固定位置調(diào)取信息,準(zhǔn)確度高,但不具備舉一反三的能力。而生成式AI模型不會去記住數(shù)據(jù)本身,而是從大量數(shù)據(jù)中去學(xué)習(xí)和掌握生成語言、圖像或視頻的某種方法,產(chǎn)生難以解釋的“涌現(xiàn)”能力。
圖源:https://twitter.com/samsheffer/status/1758205467682357732_
當(dāng)然,隨著 Sora 加入這場視頻生成領(lǐng)域的戰(zhàn)爭,受到?jīng)_擊最大的是同類競品模型,比如 Runway、Pika、SDV、谷歌和 Meta。看到 Sora 的生成效果之后,很多人認(rèn)為,Sora 對這些「前輩」來了一波降維打擊。事實真的如此嗎?有推特博主已經(jīng)做了對比。
這位博主給 Sora、Pika、Runway、Stable Video 四個模型輸入了相同的 prompt:
美麗、白雪皚皚的東京熙熙攘攘,鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天,在附近的攤位購物,絢麗的櫻花花瓣隨著雪花隨風(fēng)飄揚。
可以看到,相比于其他三個視頻生成模型,Sora 在生成時長、連貫性等方面都有顯著的優(yōu)勢。
圖源:https://twitter.com/gabor/status/1758282791547232482_
這樣的對比還有很多,比如輸入相同的 prompt「一窩金毛幼犬在雪地里玩耍,它們的頭從雪中探出來,被雪覆蓋?!?/p>
圖源:https://twitter.com/DailyUpdatesNet/status/1758646902751670355_
再比如輸入相同的 prompt「幾只巨大的毛茸茸的猛犸象踏著白雪皚皚的草地走來,長長的毛毛在風(fēng)中輕輕飄動,遠(yuǎn)處覆蓋著積雪的樹木和雄偉的雪山,午后的陽光、縷縷云彩和遠(yuǎn)處高高的太陽營造出溫暖的光芒,低相機視野令人驚嘆地捕捉到了大型毛茸茸的哺乳動物與美麗的攝影,景深?!?/p>
雖然 Runway 和 Pika 表現(xiàn)都不錯,但 Sora 的生成質(zhì)量具有壓倒性的優(yōu)勢。
圖源:https://twitter.com/keitowebai/status/1758384152670577136_
還有人對比了 Pika 1.0(去年四月)與 Sora,感嘆不到 1 年的時間,AI 生成視頻已經(jīng)發(fā)生了翻天覆地的變化。
原視頻:https://twitter.com/QuintinAu/status/1758536835595124910_
與此同時,更多創(chuàng)作者也曬出了他們使用 Sora 生成的視頻,進(jìn)一步驗證了 Sora 的超強視頻生成能力。
比如輸入 prompt「一座巨大的大教堂里全是貓。放眼望去,到處都是貓。一個男人走進(jìn)大教堂,向坐在王座上的巨型貓王鞠躬?!?/p>
_
圖源:https://twitter.com/billpeeb/status/1758650919430848991_
比如輸入 prompt「一座幽靈般的鬼屋,有友好的杰克燈籠和鬼魂人物,歡迎搗蛋鬼來到入口,傾斜移位攝影。」
圖源:https://twitter.com/billpeeb/status/1758658884582142310_
比如輸入 prompt「一個由水制成的人行走著,參觀了一個美術(shù)館,里面有許多不同風(fēng)格的美麗藝術(shù)品?!?/p>
圖源:https://twitter.com/_tim_brooks/status/1758666264032280683_
比如輸入 prompt「人們在海灘放松的真實視頻,一條鯊魚從水中冒了出來,讓所有人大吃一驚?!?/p>
圖源:https://twitter.com/_tim_brooks/status/1758655323576164830_
2.Sora-OpenAI技術(shù)報告
技術(shù)報告地址?https://openai.com/research/video-generation-models-as-world-simulators
OpenAI在技術(shù)報告里總結(jié)了一些以前模型常用的視頻生成和建模方法,包括循環(huán)網(wǎng)絡(luò)、生成式對抗網(wǎng)絡(luò)、自回歸Transformer和擴散模型。它們只能生成固定尺寸、時長較短的視頻。
OpenAI 在技術(shù)報告中重點展示了:(1)將所有類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一表示,從而能夠大規(guī)模訓(xùn)練生成模型的方法;(2)對 Sora 的能力和局限性進(jìn)行定性評估。
最近一段時間,視頻生成是 AI 領(lǐng)域的重要方向,先前的許多工作研究了視頻數(shù)據(jù)的生成建模方向,包括循環(huán)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)、自回歸 transformer 和擴散模型。這些工作通常關(guān)注一小類視覺數(shù)據(jù)、較短的視頻或固定大小的視頻。與之不同的是,OpenAI 的 Sora 是視覺數(shù)據(jù)的通用模型,它可以生成不同時長、長寬比和分辨率的視頻和圖像,而且最多可以輸出長達(dá)一分鐘的高清視頻。
2.1 視覺數(shù)據(jù)轉(zhuǎn)為 Patches
大型語言模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練,獲得了出色的通用能力中,OpenAI 從這一點汲取了靈感。LLM 得以確立新范式,部分得益于創(chuàng)新了 token 使用的方法。研究人員們巧妙地將文本的多種模態(tài) —— 代碼、數(shù)學(xué)和各種自然語言統(tǒng)一了起來。在這項工作中,OpenAI 考慮了生成視覺數(shù)據(jù)的模型如何繼承這種方法的好處。大型語言模型有文本 token,而 Sora 有視覺 patches。此前的研究已經(jīng)證明 patches 是視覺數(shù)據(jù)模型的有效表示。OpenAI 發(fā)現(xiàn) patches 是訓(xùn)練生成各種類型視頻和圖像的模型的可擴展且有效的表示。
在更高層面上,OpenAI 首先將視頻壓縮到較低維的潛在空間,然后將表示分解為時空 patches,從而將視頻轉(zhuǎn)換為 patches。
-
(自回歸)長視頻生成
Sora的一個重大突破是能夠生成非常長的視頻。制作2秒視頻和1分鐘視頻的區(qū)別是巨大的。在Sora中,這可能是通過允許自回歸采樣的聯(lián)合幀預(yù)測來實現(xiàn)的,但一個主要挑戰(zhàn)是如何解決誤差積累并保持質(zhì)量/一致性。
2.2 視頻壓縮網(wǎng)絡(luò)
Sora實現(xiàn)了將Transformer和擴散模型結(jié)合的創(chuàng)新,首先將不同類型的視覺數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的視覺數(shù)據(jù)表示(視覺patch),然后將原始視頻壓縮到一個低維潛在空間,并將視覺表示分解成時空patch(相當(dāng)于Transformer token),讓Sora在這個潛在空間里進(jìn)行訓(xùn)練并生成視頻。接著做加噪去噪,輸入噪聲patch后Sora通過預(yù)測原始“干凈”patch來生成視頻。OpenAI發(fā)現(xiàn)訓(xùn)練計算量越大,樣本質(zhì)量就會越高,特別是經(jīng)過大規(guī)模訓(xùn)練后,Sora展現(xiàn)出模擬現(xiàn)實世界某些屬性的“涌現(xiàn)”能力。這也是為啥OpenAI把視頻生成模型稱作“世界模擬器”,并總結(jié)說持續(xù)擴展視頻模型是一條模擬物理和數(shù)字世界的希望之路。
訓(xùn)練了一個降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。該網(wǎng)絡(luò)將原始視頻作為輸入,并輸出在時間和空間上壓縮的潛在表示。Sora 在這個壓縮的潛在空間中接受訓(xùn)練,而后生成視頻。OpenAI 還訓(xùn)練了相應(yīng)的解碼器模型,將生成的潛在表示映射回像素空間。
-
時空潛在 patches
給定一個壓縮的輸入視頻,OpenAI 提取一系列時空 patches,充當(dāng) Transformer 的 tokens。該方案也適用于圖像,因為圖像可視為單幀視頻。OpenAI 基于 patches 的表示使 Sora 能夠?qū)Σ煌直媛省⒊掷m(xù)時間和長寬比的視頻和圖像進(jìn)行訓(xùn)練。在推理時,OpenAI 可以通過在適當(dāng)大小的網(wǎng)格中排列隨機初始化的 patches 來控制生成視頻的大小。
-
用于視頻生成的縮放 Transformer
Sora 是個擴散模型;給定輸入噪聲 patches(以及文本提示等調(diào)節(jié)信息),訓(xùn)練出的模型來預(yù)測原始的「干凈」patches。重要的是,Sora 是一個擴散 Transformer。Transformer 在各個領(lǐng)域都表現(xiàn)出了卓越的縮放特性,包括語言建模、計算機視覺、和圖像生成。
在這項工作中,OpenAI 發(fā)現(xiàn)擴散 Transformers 也可以有效地縮放為視頻模型。下面,OpenAI 展示了訓(xùn)練過程中具有固定種子和輸入的視頻樣本的比較。隨著訓(xùn)練計算的增加,樣本質(zhì)量顯著提高。
-
可變的持續(xù)時間,分辨率,寬高比
過去的圖像和視頻生成方法通常需要調(diào)整大小、進(jìn)行裁剪或者是將視頻剪切到標(biāo)準(zhǔn)尺寸,例如 4 秒的視頻分辨率為 256x256。相反,該研究發(fā)現(xiàn)在原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練,可以提供以下好處:
首先是采樣的靈活性:Sora 可以采樣寬屏視頻 1920x1080p,垂直視頻 1920x1080p 以及兩者之間的視頻。這使 Sora 可以直接以其天然縱橫比為不同設(shè)備創(chuàng)建內(nèi)容。Sora 還允許在生成全分辨率的內(nèi)容之前,以較小的尺寸快速創(chuàng)建內(nèi)容原型 —— 所有內(nèi)容都使用相同的模型。
其次是改進(jìn)幀和內(nèi)容組成:研究者通過實證發(fā)現(xiàn),使用視頻的原始長寬比進(jìn)行訓(xùn)練可以提升內(nèi)容組成和幀的質(zhì)量。將 Sora 在與其他模型的比較中,后者將所有訓(xùn)練視頻裁剪成正方形,這是訓(xùn)練生成模型時的常見做法。經(jīng)過正方形裁剪訓(xùn)練的模型(左側(cè))生成的視頻,其中的視頻主題只是部分可見。相比之下,Sora 生成的視頻(右側(cè))具有改進(jìn)的幀內(nèi)容。
2.3 語言理解
訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本字幕的視頻。研究團隊將 DALL ? E 3 中的重字幕(re-captioning)技術(shù)應(yīng)用于視頻。
具體來說,研究團隊首先訓(xùn)練一個高度描述性的字幕生成器模型,然后使用它為訓(xùn)練集中所有視頻生成文本字幕。研究團隊發(fā)現(xiàn),對高度描述性視頻字幕進(jìn)行訓(xùn)練可以提高文本保真度以及視頻的整體質(zhì)量。
與 DALL ? E 3 類似,研究團隊還利用 GPT 將簡短的用戶 prompt 轉(zhuǎn)換為較長的詳細(xì)字幕,然后發(fā)送到視頻模型。這使得 Sora 能夠生成準(zhǔn)確遵循用戶 prompt 的高質(zhì)量視頻。
-
以圖像和視頻作為提示
我們已經(jīng)看到了文本到視頻的諸多生成示例。實際上,Sora 還可以使用其他輸入,如已有的圖像或視頻。這使 Sora 能夠執(zhí)行各種圖像和視頻編輯任務(wù) — 創(chuàng)建完美的循環(huán)視頻、靜態(tài)圖像動畫、向前或向后延長視頻時間等。
為 DALL-E 圖像制作動畫
只要輸入圖像和提示,Sora 就能生成視頻。下面展示了根據(jù) DALL-E 2 和 DALL-E 3 圖像生成的視頻示例:
狗戴著貝雷帽、穿著黑色高領(lǐng)毛衣
帶有 Sora 的云圖像
視頻內(nèi)容拓展
Sora 還能夠在開頭或結(jié)尾擴展視頻內(nèi)容。以下是 Sora 從一段生成的視頻向后拓展出的三個新視頻。新視頻的開頭各不相同,擁有相同的結(jié)尾。
不妨使用這種方法無限延長視頻的內(nèi)容,實現(xiàn)「視頻制作永動機」。
視頻到視頻編輯
擴散模型激發(fā)了多種根據(jù)文本 prompt 編輯圖像和視頻的方法。OpenAI 的研究團隊將其中一種方法 ——SDEdit 應(yīng)用于 Sora,使得 Sora 能夠在零樣本(zero-shot)條件下改變輸入視頻的風(fēng)格和環(huán)境。
連接視頻還可以使用 Sora 在兩個輸入視頻之間逐漸進(jìn)行轉(zhuǎn)場,從而在具有完全不同主題和場景構(gòu)成的視頻之間創(chuàng)建無縫過渡。
2.4 圖像生成能力
Sora 還能生成圖像。為此,OpenAI 將高斯噪聲 patch 排列在空間網(wǎng)格中,時間范圍為一幀。該模型可生成不同大小的圖像,最高分辨率可達(dá) 2048x2048。
涌現(xiàn)模擬能力
OpenAI 發(fā)現(xiàn),視頻模型在經(jīng)過大規(guī)模訓(xùn)練后,會表現(xiàn)出許多有趣的新能力。這些能力使 Sora 能夠模擬物理世界中的人、動物和環(huán)境的某些方面。這些特性的出現(xiàn)沒有任何明確的三維、物體等歸納偏差 — 它們純粹是規(guī)?,F(xiàn)象。
三維一致性。Sora 可以生成動態(tài)攝像機運動的視頻。隨著攝像機的移動和旋轉(zhuǎn),人物和場景元素在三維空間中的移動是一致的。
長序列連貫性和目標(biāo)持久性。視頻生成系統(tǒng)面臨的一個重大挑戰(zhàn)是在對長視頻進(jìn)行采樣時保持時間一致性。OpenAI 發(fā)現(xiàn),雖然 Sora 并不總是能有效地模擬短距離和長距離的依賴關(guān)系,但它在很多時候仍然能做到這一點。例如,即使人、動物和物體被遮擋或離開畫面,Sora 模型也能保持它們的存在。同樣,它還能在單個樣本中生成同一角色的多個鏡頭,并在整個視頻中保持其外觀。
與世界互動。Sora 有時可以模擬以簡單方式影響世界狀態(tài)的動作。例如,畫家可以在畫布上留下新的筆觸,這些筆觸會隨著時間的推移而持續(xù),或者一個人可以吃漢堡并留下咬痕。
模擬數(shù)字世界。Sora 還能模擬人工進(jìn)程,視頻游戲就是一個例子。Sora 可以通過基本策略同時控制 Minecraft 中的玩家,同時高保真地呈現(xiàn)世界及其動態(tài)。只需在 Sora 的提示字幕中提及 「Minecraft」,就能零樣本激發(fā)這些功能。
這些功能表明,視頻模型的持續(xù)擴展是開發(fā)物理和數(shù)字世界以及其中的物體、動物和人的高能力模擬器的一條大有可為的道路。
2.5 未來可優(yōu)化方向
作為一款模擬器,Sora 目前還存在許多局限性。例如,它不能準(zhǔn)確模擬許多基本交互的物理現(xiàn)象,如玻璃碎裂。其他交互,如吃食物,并不總能產(chǎn)生正確的物體狀態(tài)變化。官方主頁列舉了該模型的其他常見失效模式,例如長時間樣本中出現(xiàn)的不一致性或物體的自發(fā)出現(xiàn)。
不過,Sora 目前所展現(xiàn)的能力證明了持續(xù)擴大視頻模型的規(guī)模是一個充滿希望的方向,這也將助力物理和數(shù)字世界及其中的物體、動物和人類能夠有更加精確的模擬。
更多詳細(xì)內(nèi)容,請參閱 Sora 原始技術(shù)報告。
參考鏈接:https://openai.com/research/video-generation-models-as-world-simulators
3. Sora總結(jié)
OpenAI 的研究論文《Video generation models as world simulators》探討了在視頻數(shù)據(jù)上進(jìn)行大規(guī)模訓(xùn)練生成模型的方法。這項研究特別關(guān)注于文本條件擴散模型,這些模型同時在視頻和圖像上進(jìn)行訓(xùn)練,處理不同時長、分辨率和寬高比的數(shù)據(jù)。研究中提到的最大模型 Sora 能夠生成長達(dá)一分鐘的高保真視頻。以下是論文的一些關(guān)鍵點:
-
統(tǒng)一的視覺數(shù)據(jù)表示
:研究者們將所有類型的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示,以便進(jìn)行大規(guī)模的生成模型訓(xùn)練。Sora 使用視覺補?。╬atches)作為其表示方式,類似于大型語言模型(LLM)中的文本標(biāo)記。 -
視頻壓縮網(wǎng)絡(luò)
:研究者們訓(xùn)練了一個網(wǎng)絡(luò),將原始視頻壓縮到一個低維潛在空間,并將其表示分解為時空補丁。Sora 在這個壓縮的潛在空間中進(jìn)行訓(xùn)練,并生成視頻。 -
擴散模型
:Sora 是一個擴散模型,它通過預(yù)測原始“干凈”的補丁來從輸入的噪聲補丁中生成視頻。擴散模型在語言建模、計算機視覺和圖像生成等領(lǐng)域已經(jīng)顯示出了顯著的擴展性。 -
視頻生成的可擴展性
:Sora 能夠生成不同分辨率、時長和寬高比的視頻,包括全高清視頻。這種靈活性使得 Sora 能夠直接為不同設(shè)備生成內(nèi)容,或者在生成全分辨率視頻之前快速原型化內(nèi)容。 -
語言理解
:為了訓(xùn)練文本到視頻生成系統(tǒng),需要大量的視頻和相應(yīng)的文本標(biāo)題。研究者們應(yīng)用了在 DALL·E 3 中引入的重新描述技術(shù),首先訓(xùn)練一個高度描述性的標(biāo)題生成器,然后為訓(xùn)練集中的所有視頻生成文本標(biāo)題。 -
圖像和視頻編輯
:Sora 不僅能夠基于文本提示生成視頻,還可以基于現(xiàn)有圖像或視頻進(jìn)行提示。這使得 Sora 能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù),如創(chuàng)建完美循環(huán)的視頻、動畫靜態(tài)圖像、向前或向后擴展視頻等。 -
模擬能力
:當(dāng)視頻模型在大規(guī)模訓(xùn)練時,它們展現(xiàn)出了一些有趣的新興能力,使得 Sora 能夠模擬物理世界中的某些方面,如動態(tài)相機運動、長期一致性和對象持久性等。
盡管 Sora 展示了作為模擬器的潛力,但它仍然存在許多局限性,例如在模擬基本物理交互(如玻璃破碎)時的準(zhǔn)確性不足。研究者們認(rèn)為,繼續(xù)擴展視頻模型是開發(fā)物理和數(shù)字世界模擬器的有前途的道路。這篇論文提供了對 Sora 模型的深入分析,展示了其在視頻生成領(lǐng)域的潛力和挑戰(zhàn)。通過這種方式,OpenAI 正在探索如何利用 AI 來更好地理解和模擬我們周圍的世界。
文章轉(zhuǎn)載自:汀、人工智能
原文鏈接:https://www.cnblogs.com/ting1/p/18021234文章來源:http://www.zghlxwxcb.cn/news/detail-833403.html
體驗地址:引邁 - JNPF快速開發(fā)平臺_低代碼開發(fā)平臺_零代碼開發(fā)平臺_流程設(shè)計器_表單引擎_工作流引擎_軟件架構(gòu)文章來源地址http://www.zghlxwxcb.cn/news/detail-833403.html
到了這里,關(guān)于探索AI視頻生成新紀(jì)元:文生視頻Sora VS RunwayML、Pika及StableVideo——誰將引領(lǐng)未來的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!