Sora：通過(guò)視頻生成模型制造世界模擬器（世界模型）

這篇具有很好參考價(jià)值的文章主要介紹了Sora：通過(guò)視頻生成模型制造世界模擬器（世界模型）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

OpenAI關(guān)于Sora的技術(shù)概要

OpenAI官網(wǎng)介紹：Video generation models as world simulators

OpenAI嘗試在視頻數(shù)據(jù)上探索生成模型的大規(guī)模訓(xùn)練，研究結(jié)果表明，尺度可變視頻生成模型是構(gòu)建物理世界通用模擬器的有希望的途徑。（可變的視頻時(shí)長(zhǎng)、幀分辨率和長(zhǎng)寬比）

OpenAI從大型語(yǔ)言模型（LLM）中獲得靈感，LLM通過(guò)對(duì)互聯(lián)網(wǎng)規(guī)模級(jí)別數(shù)據(jù)的訓(xùn)練獲得了通用且強(qiáng)大的能力。LLM范式的成功部分得益于使用標(biāo)記塊（token，作為符號(hào)系統(tǒng)的最小單位），token優(yōu)雅地統(tǒng)一了不同類(lèi)型的文本：代碼、數(shù)學(xué)和各種自然語(yǔ)言。

與此對(duì)應(yīng)，Sora有視覺(jué)塊（patch，統(tǒng)一圖像數(shù)據(jù)的最小單位）。之前的實(shí)踐表明patch是視覺(jué)數(shù)據(jù)模型的有效的表示。通過(guò)實(shí)際的訓(xùn)練，OpenAI發(fā)現(xiàn)，對(duì)于訓(xùn)練不同類(lèi)型的視頻和圖像的生成模型，patch是一種高度可擴(kuò)展的有效表示。

OpenAI訓(xùn)練一個(gè)網(wǎng)絡(luò)來(lái)降低視覺(jué)數(shù)據(jù)的維數(shù)，該網(wǎng)絡(luò)將原始視頻作為輸入，輸出時(shí)間和空間上都?jí)嚎s的潛在表示。Sora在這個(gè)低維度的潛在空間中訓(xùn)練。還訓(xùn)練了一個(gè)相應(yīng)的解碼模型，該模型將潛在表示映射回像素空間（像素自然的組成視頻）。

給定一個(gè)壓縮的輸入視頻，提取壓縮的時(shí)空patch序列，作為T(mén)ransformer的token輸入。這個(gè)方案也適用于圖像，因?yàn)閳D像只是單幀的視頻?；趐atch表示使Sora能夠在不同分辨率、時(shí)長(zhǎng)和寬高比的視頻和圖像上進(jìn)行訓(xùn)練。在推斷時(shí)，可以通過(guò)在適當(dāng)大小的網(wǎng)格中安排隨機(jī)的補(bǔ)丁來(lái)控制生成視頻的大小。

潛在表示空間的patch作為輸入，可以隨機(jī)插入patch增加輸出大小，Transformer本身可以處理可變的輸入，變?yōu)榭勺冮L(zhǎng)的輸出，可以認(rèn)為輸出長(zhǎng)度是輸入長(zhǎng)度的函數(shù)。

比如通過(guò)在一個(gè)時(shí)間范圍為一幀的空間網(wǎng)格中排列高斯噪聲塊來(lái)生成可變大小的圖像，Sora最高可達(dá)2048 × 2048分辨率。

深度學(xué)習(xí)分為兩個(gè)階段：根據(jù)目標(biāo)反向?qū)W習(xí) 和根據(jù)輸入前向推斷/推理，對(duì)應(yīng)于訓(xùn)練和使用。

Sora基于擴(kuò)散模型：給定輸入的噪聲（隨機(jī)化生成的）patches(以及條件信息，比如說(shuō)根據(jù)特定文本生成視頻)，它被訓(xùn)練來(lái)預(yù)測(cè)原始的“干凈”塊。重要的是，Sora是一個(gè)擴(kuò)散Transformer，Transformer已經(jīng)在許多領(lǐng)域展示了顯著的縮放特性，包括語(yǔ)言建模、計(jì)算機(jī)視覺(jué)和圖像生成。

過(guò)去的圖像和視頻生成方法通常是調(diào)整、裁剪或修剪視頻到標(biāo)準(zhǔn)尺寸，例如，4秒256x256分辨率的視頻。相反，OpenAI發(fā)現(xiàn)在原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練提供了幾個(gè)好處。

采樣的靈活性：Sora可以采樣介于1920x1080p和1080x1920之間的所有視頻。這讓Sora可以直接以不同設(shè)備的原始寬高比為其創(chuàng)建內(nèi)容。它還能在生成全分辨率的內(nèi)容之前，以較小的尺寸快速創(chuàng)建內(nèi)容原型——所有內(nèi)容都使用相同的模型。
改進(jìn)框架和構(gòu)圖：實(shí)踐發(fā)現(xiàn)，在視頻的原始長(zhǎng)寬比上進(jìn)行訓(xùn)練可以改善構(gòu)圖和框架。在正方形裁剪上訓(xùn)練的模型（這是訓(xùn)練視頻生成模型時(shí)的常見(jiàn)做法）有時(shí)會(huì)生成僅顯示部分主題的視頻。相比之下，來(lái)自Sora的視頻顯示更完整。

另外，訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本說(shuō)明的視頻。可以將DALL·E3中介紹的再描述技術(shù)（re-captioning technique）應(yīng)用到視頻中：首先訓(xùn)練描述模型，然后使用它為訓(xùn)練集中的所有視頻生成文本描述。在這樣的視頻描述上進(jìn)行訓(xùn)練可以提高文本保真度以及視頻的整體質(zhì)量。

與DALL·E3類(lèi)似，還利用GPT將簡(jiǎn)短的用戶(hù)提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)字幕，并將其發(fā)送到視頻模型。這使得Sora能夠準(zhǔn)確地按照用戶(hù)提示生成高質(zhì)量的視頻。

Sora也可以通過(guò)其他輸入進(jìn)行提示，比如預(yù)先存在的圖像或視頻。這種功能使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù)：創(chuàng)建完美的循環(huán)視頻，通過(guò)靜態(tài)圖像產(chǎn)生動(dòng)畫(huà)，向前或向后擴(kuò)展視頻等。

圖片和視頻本身可以被轉(zhuǎn)化為潛在表示，可以直接輸入到Sora（擴(kuò)散Transformer）中

視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的涌現(xiàn)能力。這些能力使Sora能夠模擬人、動(dòng)物和現(xiàn)實(shí)環(huán)境的某些方面。這些屬性在沒(méi)有任何關(guān)于3D、物體等的明確歸納偏好的情況下涌現(xiàn)——它們純粹是因?yàn)榇蟪叨犬a(chǎn)生現(xiàn)象。

機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類(lèi)型假設(shè)的偏好，稱(chēng)為“歸納偏好”（inductive bias），或簡(jiǎn)稱(chēng)為“偏好”。

這里意在表達(dá)沒(méi)有任何額外的設(shè)計(jì)，任何設(shè)計(jì)無(wú)疑會(huì)引入函數(shù)空間的偏好。

Sora可以生成帶有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn)，人物和場(chǎng)景元素在三維空間中始終如一地移動(dòng)。

視頻生成系統(tǒng)面臨的一個(gè)重大挑戰(zhàn)是在長(zhǎng)視頻采樣時(shí)保持時(shí)間一致性。Sora經(jīng)常(雖然不是總是)能夠有效地為短期和長(zhǎng)期依賴(lài)關(guān)系建模。例如，可以保存人物、動(dòng)物和物體，即使它們被遮擋或離開(kāi)了框架。同樣，它可以在單個(gè)樣本中生成同一角色的多個(gè)鏡頭，在整個(gè)視頻中保持其外觀。

Sora有時(shí)可以用簡(jiǎn)單的方式模擬影響世界狀態(tài)的行為。例如，畫(huà)家可以在畫(huà)布上留下新的筆觸，隨著時(shí)間的推移，或者一個(gè)人吃漢堡時(shí)留下咬痕。

Sora還能夠模擬虛擬過(guò)程，比如視頻游戲。Sora 可以通過(guò)一個(gè)基本策略同時(shí)控制 Minecraft 中的玩家，同時(shí)還能以高保真度渲染世界及其動(dòng)態(tài)。通過(guò)提示 Sora 有關(guān)“Minecraft”的標(biāo)題，可以無(wú)示例（zero-shot）地引發(fā)這些功能。

這些能力表明，視頻模型的持續(xù)擴(kuò)展是開(kāi)發(fā)高度功能強(qiáng)大的物理和數(shù)字世界以及其中存在的物體、動(dòng)物和人的模擬器的有前途的途徑。

Sora目前作為模擬器存在許多局限性。例如，它無(wú)法準(zhǔn)確地模擬許多基本交互的物理效果，比如玻璃破碎。其他交互，比如吃東西，并不總是能正確地改變對(duì)象的狀態(tài)，比如在長(zhǎng)時(shí)間樣本中發(fā)展出的不一致性或物體的自發(fā)出現(xiàn)。

我們的目光所及，只是不遠(yuǎn)的前方，但是可以看到，那里有許多工作要做。

——Alan Turing

世界模型和未來(lái)

未知是最大的恐懼

意識(shí)、問(wèn)題與語(yǔ)言 - 知乎從內(nèi)在的視角討論了人的世界模型，分析了語(yǔ)言可能存在的缺陷，這里更多的從計(jì)算、AI工程的角度來(lái)討論世界模型。

可以看到Sora雖然驚人，但是AI領(lǐng)域還是需要更多新的突破。Sora展現(xiàn)了人工神經(jīng)網(wǎng)絡(luò)的驚人能力，展現(xiàn)了差異很大的結(jié)構(gòu)（圖像數(shù)據(jù)和文本數(shù)據(jù)）如何在計(jì)算上被統(tǒng)一的算法解決，這種涌現(xiàn)能力確實(shí)會(huì)讓認(rèn)為只有進(jìn)一步研究腦才能得出終極AI的人感到驚奇——雖然還不至于徹底改變研究腦的處境。

很容易被人忽視的是，所謂視覺(jué)數(shù)據(jù)和文本數(shù)據(jù)究竟意味著什么？至少以目前情況來(lái)看，這二者都是依賴(lài)于外在的視角——即人或者其它類(lèi)似之物。視覺(jué)數(shù)據(jù)和文本數(shù)據(jù)在計(jì)算機(jī)內(nèi)部的處理都是以數(shù)的形式，只有通過(guò)顯示器發(fā)出信號(hào)，然后被人接受，這二者才產(chǎn)生這樣的差異。

在計(jì)算機(jī)內(nèi)部這二者的差異只是不同模型、不同的處理方式——應(yīng)當(dāng)看到這有一種驚人的對(duì)應(yīng)，在腦的結(jié)構(gòu)上，身體隔絕了外在世界，使得進(jìn)入腦內(nèi)部的數(shù)據(jù)都是電信號(hào)，對(duì)于腦來(lái)說(shuō)，視覺(jué)數(shù)據(jù)和文本數(shù)據(jù)的差別也只能是源于處理方式和數(shù)據(jù)本身所在空間模式的差異，當(dāng)然，這樣的說(shuō)明無(wú)疑是不令人滿(mǎn)意的，在不接受頭腦中的小人之后，需要對(duì)腦的進(jìn)一步研究。

另一種對(duì)應(yīng)在于，有人認(rèn)為腦的結(jié)構(gòu)也表明存在一種通用的處理方法來(lái)處理不同的感官，深度學(xué)習(xí)似乎表明可以通過(guò)一個(gè)單獨(dú)的模塊處理一種感官輸入，然后映射到低維空間，在低維空間上進(jìn)行預(yù)測(cè)和運(yùn)動(dòng)，低維空間的元素就對(duì)應(yīng)意識(shí)感知到的東西，這些模塊的算法很可能是公共的，即使它們處理不同的感官數(shù)據(jù)。

怎么才能把不同的感官、模型連接起來(lái)？畢竟人類(lèi)感知到語(yǔ)言、視覺(jué)、聲音、觸覺(jué)是緊密結(jié)合的，不過(guò)不能事先認(rèn)為這一定是統(tǒng)一的，視覺(jué)空間和觸覺(jué)空間有著一定的獨(dú)立性，對(duì)于嬰兒來(lái)說(shuō)這有可能不是統(tǒng)一的，而是通過(guò)運(yùn)動(dòng)來(lái)實(shí)現(xiàn)，以及行為主義原則——經(jīng)常一起出現(xiàn)，就產(chǎn)生了聯(lián)系。

實(shí)踐著手眼協(xié)作的兒童試圖抓住他們夠不著的對(duì)象；只是漸漸地，他們才或多或少正確地判斷出距離。當(dāng)我們抓不住對(duì)象時(shí)，在視感覺(jué)和為使對(duì)象處于我們夠得著的范圍內(nèi)所必須的路程之間，一種新的相互聯(lián)接就開(kāi)始產(chǎn)生作用了。陌生的情況甚至?xí)钩赡耆朔稿e(cuò)誤——例如，他們會(huì)錯(cuò)誤地估計(jì)對(duì)象在水中的深度。遙遠(yuǎn)的距離永遠(yuǎn)處在常識(shí)的范圍以外。唯有科學(xué)才能使我們確信，太陽(yáng)比月亮離我們更遠(yuǎn)。

——《物的分析 / The Analysis of Matter》Bertrand Russell

可以把不同感官看成不同且獨(dú)立的模型，這些模型之間只需要通過(guò)某些接口來(lái)進(jìn)行交流，其中語(yǔ)言模型和其他模型的交流是最多、最頻繁的。

一個(gè)日常事件的分析

拿以下事件作為例子：看到一個(gè)蘋(píng)果，想到‘蘋(píng)果’這個(gè)詞，感到饑餓，產(chǎn)生進(jìn)食欲望，知道‘蘋(píng)果能吃’，通過(guò)運(yùn)動(dòng)來(lái)抓住這個(gè)蘋(píng)果，最后吃掉這個(gè)蘋(píng)果，感到飽腹感、停止進(jìn)食。

這一件事展現(xiàn)了語(yǔ)言、觸覺(jué)、視覺(jué)、運(yùn)動(dòng)和情緒感知之間的密切聯(lián)系。

如果不認(rèn)為頭腦里面有個(gè)小人，看到蘋(píng)果本身是完全不在當(dāng)前的理論描述之內(nèi)的事情，看到是腦活動(dòng)制造的一種東西，腦只是接受信息，然后制造出低維的視覺(jué)空間，再制造出‘看到’這樣的概念。人類(lèi)也并不只是看到一個(gè)蘋(píng)果，而是一個(gè)視覺(jué)世界，蘋(píng)果只是作為現(xiàn)在關(guān)注的視覺(jué)中心，蘋(píng)果是低維視覺(jué)空間的一個(gè)復(fù)合的幾何體。

在視覺(jué)空間的物體可以自然的引出語(yǔ)言的描述，這是視覺(jué)模型到語(yǔ)言模型的路徑，也能反過(guò)來(lái)從語(yǔ)言模型到視覺(jué)模型。

就計(jì)算的層面來(lái)講，大模型已經(jīng)能做到語(yǔ)言轉(zhuǎn)入到圖像和視頻，從視頻和圖像輸入也能得到語(yǔ)言，從圖像和視頻得到語(yǔ)言，這恰好是人類(lèi)經(jīng)常做的事，人類(lèi)越來(lái)越多地使用語(yǔ)言來(lái)描述一個(gè)場(chǎng)景、生活中的一件事。這里發(fā)生的事情，腦和深度學(xué)習(xí)有著類(lèi)似之處，都是通過(guò)同時(shí)輸入視覺(jué)數(shù)據(jù)和語(yǔ)言數(shù)據(jù)來(lái)進(jìn)行二者的關(guān)聯(lián)學(xué)習(xí)。

但人類(lèi)的知覺(jué)是一個(gè)持續(xù)的過(guò)程，相比較而言，至少?gòu)哪壳皼](méi)有人能指出人工神經(jīng)網(wǎng)絡(luò)的計(jì)算中哪里發(fā)生了持續(xù)的事，反而只是快速的計(jì)算，也沒(méi)有整體性的東西。

?至于感到饑餓，這有可能是由于當(dāng)前的場(chǎng)景觸發(fā)的，但終歸是身體模型的一個(gè)元素，這樣一件身體模型的事會(huì)通過(guò)某種途徑影響行為模型，腦很有可能是通過(guò)記憶來(lái)做到這一點(diǎn)，感到饑餓會(huì)引起搜索，比如視覺(jué)空間的搜索，視覺(jué)模型的搜索依賴(lài)于知識(shí)，大腦有可能是通過(guò)記憶來(lái)表達(dá)這樣的知識(shí)，這些知識(shí)記憶和語(yǔ)言模型又是密切相關(guān)的。

視覺(jué)模型搜尋的結(jié)果和身體模型的輸出可以發(fā)送給行為模型，行為模型這可以采取行動(dòng)，這就意味著，身體、行為和視覺(jué)模型之間有了交互型，饑餓是身體模型的一件事，身體的運(yùn)動(dòng)這是一件行為模型的事，身體的運(yùn)動(dòng)又會(huì)導(dǎo)致視覺(jué)模型的外界輸入的變化，這會(huì)影響視覺(jué)模型。

最終運(yùn)動(dòng)使得身體拿到了蘋(píng)果，并完成了進(jìn)食，此時(shí)引入了觸覺(jué)模型，和視覺(jué)模型一樣，觸覺(jué)模型和其它模型也是緊密結(jié)合的。

可以看到這里的每一件事都是極其復(fù)雜的，更不要說(shuō)要把這些組織到一起，其中最不可思議的是整體性的知覺(jué)、記憶和時(shí)間的知覺(jué)。

要強(qiáng)調(diào)的是，現(xiàn)在沒(méi)有任何角度可以看出深入學(xué)習(xí)能夠制造出像人一樣的視角，深度學(xué)習(xí)、人工智能依舊是面向人的工具，但是深度學(xué)習(xí)卻很可能在不遠(yuǎn)的將來(lái)就會(huì)學(xué)習(xí)到世界的因果模型，而一部分人認(rèn)為人類(lèi)就只是一個(gè)擁有世界的因果模型的東西，人們應(yīng)該重新審視這樣的觀點(diǎn)。

深度學(xué)習(xí)和腦的一個(gè)不同之處在于，深學(xué)習(xí)中人工神經(jīng)網(wǎng)絡(luò)中權(quán)重是學(xué)習(xí)到的東西，保留了數(shù)據(jù)，隨機(jī)初始化權(quán)重的網(wǎng)絡(luò)一般需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練，而DNA不能完全決定這么多神經(jīng)細(xì)胞的連接。這也就意味著初始的神經(jīng)細(xì)胞連接要么是隨機(jī)的，要么有種簡(jiǎn)潔且統(tǒng)一的策略來(lái)初始化權(quán)重。

真的能有簡(jiǎn)潔且統(tǒng)一的策略來(lái)初始化權(quán)重嗎？看上去這是不可思議的。而如果大部分連接是隨機(jī)的。這就意味著需要大量的數(shù)據(jù)來(lái)學(xué)習(xí)?？瓷先?，即使人類(lèi)的感官輸入信息很多，相比較而言也不足達(dá)到現(xiàn)在的大模型的數(shù)量級(jí)，不要說(shuō)這種數(shù)量級(jí)還有待增加。此外，嬰兒不是什么也不會(huì)的來(lái)到世界上——除非他們?cè)谧訉m內(nèi)的學(xué)習(xí)足以達(dá)到這樣的水平。

另一點(diǎn)在于腦似乎只需要通過(guò)少數(shù)幾個(gè)計(jì)算步驟就可以得到答案，不像大模型一樣需要很多計(jì)算步驟。

這一切都表明，神經(jīng)細(xì)胞之間具有某種獨(dú)特的模式，這種模式和現(xiàn)有的人工神經(jīng)網(wǎng)絡(luò)不同。

由此有人也指出，大腦更像一個(gè)記憶機(jī)器，而不像是計(jì)算機(jī)器，這在某種意義上不令人驚訝，例如，一個(gè)人究竟是怎么計(jì)算簡(jiǎn)單的加法？最初的訓(xùn)練似乎是通過(guò)記憶個(gè)位數(shù)之間的相加的答案，對(duì)于多個(gè)位數(shù)的數(shù)字之間相加，仍然通過(guò)分解為各個(gè)數(shù)位之間的相加和數(shù)位之間的進(jìn)位得到答案，而各個(gè)數(shù)位之間的相加的答案依舊是通過(guò)記憶來(lái)得到的。

不過(guò)事實(shí)上，在某個(gè)方面，深度學(xué)習(xí)也是通過(guò)記憶來(lái)完成答案，正如有人指責(zé)深度學(xué)習(xí)只是在背誦，而不是在推理。就這個(gè)層面來(lái)講，腦和神經(jīng)網(wǎng)絡(luò)是類(lèi)似的，不類(lèi)似的依舊還是在于腦的計(jì)算步驟應(yīng)該要更小一點(diǎn)，而且有著不錯(cuò)的連接模式，當(dāng)然這不讓人奇怪——如果自然選擇是正確的，腦就是被這樣塑造的。

另一個(gè)方面腦是在反饋的計(jì)算，即有自上而下的路徑，也有自下道上的路徑，這是否能夠通過(guò)分模塊來(lái)間接的實(shí)現(xiàn)還有待闡述。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-829371.html

到了這里，關(guān)于Sora：通過(guò)視頻生成模型制造世界模擬器（世界模型）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！