OpenAI關(guān)于Sora的技術(shù)概要
OpenAI官網(wǎng)介紹:Video generation models as world simulators
OpenAI嘗試在視頻數(shù)據(jù)上探索生成模型的大規(guī)模訓(xùn)練,研究結(jié)果表明,尺度可變視頻生成模型是構(gòu)建物理世界通用模擬器的有希望的途徑。(可變的視頻時(shí)長(zhǎng)、幀分辨率和長(zhǎng)寬比)
OpenAI從大型語(yǔ)言模型(LLM)中獲得靈感,LLM通過(guò)對(duì)互聯(lián)網(wǎng)規(guī)模級(jí)別數(shù)據(jù)的訓(xùn)練獲得了通用且強(qiáng)大的能力。LLM范式的成功部分得益于使用標(biāo)記塊(token,作為符號(hào)系統(tǒng)的最小單位),token優(yōu)雅地統(tǒng)一了不同類(lèi)型的文本:代碼、數(shù)學(xué)和各種自然語(yǔ)言。
與此對(duì)應(yīng),Sora有視覺(jué)塊(patch,統(tǒng)一圖像數(shù)據(jù)的最小單位)。之前的實(shí)踐表明patch是視覺(jué)數(shù)據(jù)模型的有效的表示。通過(guò)實(shí)際的訓(xùn)練,OpenAI發(fā)現(xiàn),對(duì)于訓(xùn)練不同類(lèi)型的視頻和圖像的生成模型,patch是一種高度可擴(kuò)展的有效表示。
OpenAI訓(xùn)練一個(gè)網(wǎng)絡(luò)來(lái)降低視覺(jué)數(shù)據(jù)的維數(shù),該網(wǎng)絡(luò)將原始視頻作為輸入,輸出時(shí)間和空間上都?jí)嚎s的潛在表示。Sora在這個(gè)低維度的潛在空間中訓(xùn)練。還訓(xùn)練了一個(gè)相應(yīng)的解碼模型,該模型將潛在表示映射回像素空間(像素自然的組成視頻)。
給定一個(gè)壓縮的輸入視頻,提取壓縮的時(shí)空patch序列,作為T(mén)ransformer的token輸入。這個(gè)方案也適用于圖像,因?yàn)閳D像只是單幀的視頻?;趐atch表示使Sora能夠在不同分辨率、時(shí)長(zhǎng)和寬高比的視頻和圖像上進(jìn)行訓(xùn)練。在推斷時(shí),可以通過(guò)在適當(dāng)大小的網(wǎng)格中安排隨機(jī)的補(bǔ)丁來(lái)控制生成視頻的大小。
潛在表示空間的patch作為輸入,可以隨機(jī)插入patch增加輸出大小,Transformer本身可以處理可變的輸入,變?yōu)榭勺冮L(zhǎng)的輸出,可以認(rèn)為輸出長(zhǎng)度是輸入長(zhǎng)度的函數(shù)。
比如通過(guò)在一個(gè)時(shí)間范圍為一幀的空間網(wǎng)格中排列高斯噪聲塊來(lái)生成可變大小的圖像,Sora最高可達(dá)2048 × 2048分辨率。
深度學(xué)習(xí)分為兩個(gè)階段:根據(jù)目標(biāo)反向?qū)W習(xí) 和 根據(jù)輸入前向推斷/推理,對(duì)應(yīng)于訓(xùn)練和使用。
Sora基于擴(kuò)散模型:給定輸入的噪聲(隨機(jī)化生成的)patches(以及條件信息,比如說(shuō)根據(jù)特定文本生成視頻),它被訓(xùn)練來(lái)預(yù)測(cè)原始的“干凈”塊。重要的是,Sora是一個(gè)擴(kuò)散Transformer,Transformer已經(jīng)在許多領(lǐng)域展示了顯著的縮放特性,包括語(yǔ)言建模、計(jì)算機(jī)視覺(jué)和圖像生成。
過(guò)去的圖像和視頻生成方法通常是調(diào)整、裁剪或修剪視頻到標(biāo)準(zhǔn)尺寸,例如,4秒256x256分辨率的視頻。相反,OpenAI發(fā)現(xiàn)在原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練提供了幾個(gè)好處。
- 采樣的靈活性:Sora可以采樣介于1920x1080p和1080x1920之間的所有視頻。這讓Sora可以直接以不同設(shè)備的原始寬高比為其創(chuàng)建內(nèi)容。它還能在生成全分辨率的內(nèi)容之前,以較小的尺寸快速創(chuàng)建內(nèi)容原型——所有內(nèi)容都使用相同的模型。
- 改進(jìn)框架和構(gòu)圖:實(shí)踐發(fā)現(xiàn),在視頻的原始長(zhǎng)寬比上進(jìn)行訓(xùn)練可以改善構(gòu)圖和框架。在正方形裁剪上訓(xùn)練的模型(這是訓(xùn)練視頻生成模型時(shí)的常見(jiàn)做法)有時(shí)會(huì)生成僅顯示部分主題的視頻。相比之下,來(lái)自Sora的視頻顯示更完整。
另外,訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本說(shuō)明的視頻。可以將DALL·E3中介紹的再描述技術(shù)(re-captioning technique)應(yīng)用到視頻中:首先訓(xùn)練描述模型,然后使用它為訓(xùn)練集中的所有視頻生成文本描述。在這樣的視頻描述上進(jìn)行訓(xùn)練 可以提高 文本保真度以及視頻的整體質(zhì)量。
與DALL·E3類(lèi)似,還利用GPT將簡(jiǎn)短的用戶(hù)提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)字幕,并將其發(fā)送到視頻模型。這使得Sora能夠準(zhǔn)確地按照用戶(hù)提示生成高質(zhì)量的視頻。
Sora也可以通過(guò)其他輸入進(jìn)行提示,比如預(yù)先存在的圖像或視頻。這種功能使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù):創(chuàng)建完美的循環(huán)視頻,通過(guò)靜態(tài)圖像產(chǎn)生動(dòng)畫(huà),向前或向后擴(kuò)展視頻等。
圖片和視頻本身可以被轉(zhuǎn)化為潛在表示,可以直接輸入到Sora(擴(kuò)散Transformer)中
視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的涌現(xiàn)能力。這些能力使Sora能夠模擬人、動(dòng)物和現(xiàn)實(shí)環(huán)境的某些方面。這些屬性在沒(méi)有任何關(guān)于3D、物體等的明確歸納偏好的情況下涌現(xiàn)——它們純粹是因?yàn)榇蟪叨犬a(chǎn)生現(xiàn)象。
機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類(lèi)型假設(shè)的偏好,稱(chēng)為“歸納偏好”(inductive bias),或簡(jiǎn)稱(chēng)為“偏好”。
這里意在表達(dá)沒(méi)有任何額外的設(shè)計(jì),任何設(shè)計(jì)無(wú)疑會(huì)引入函數(shù)空間的偏好。
Sora可以生成帶有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中始終如一地移動(dòng)。
視頻生成系統(tǒng)面臨的一個(gè)重大挑戰(zhàn)是在長(zhǎng)視頻采樣時(shí)保持時(shí)間一致性。Sora經(jīng)常(雖然不是總是)能夠有效地為短期和長(zhǎng)期依賴(lài)關(guān)系建模。例如,可以保存人物、動(dòng)物和物體,即使它們被遮擋或離開(kāi)了框架。同樣,它可以在單個(gè)樣本中生成同一角色的多個(gè)鏡頭,在整個(gè)視頻中保持其外觀。
Sora有時(shí)可以用簡(jiǎn)單的方式模擬影響世界狀態(tài)的行為。例如,畫(huà)家可以在畫(huà)布上留下新的筆觸,隨著時(shí)間的推移,或者一個(gè)人吃漢堡時(shí)留下咬痕。
Sora還能夠模擬虛擬過(guò)程,比如視頻游戲。Sora 可以通過(guò)一個(gè)基本策略同時(shí)控制 Minecraft 中的玩家,同時(shí)還能以高保真度渲染世界及其動(dòng)態(tài)。通過(guò)提示 Sora 有關(guān)“Minecraft”的標(biāo)題,可以無(wú)示例(zero-shot)地引發(fā)這些功能。
這些能力表明,視頻模型的持續(xù)擴(kuò)展是開(kāi)發(fā)高度功能強(qiáng)大的物理和數(shù)字世界以及其中存在的物體、動(dòng)物和人的模擬器的有前途的途徑。
Sora目前作為模擬器存在許多局限性。例如,它無(wú)法準(zhǔn)確地模擬許多基本交互的物理效果,比如玻璃破碎。其他交互,比如吃東西,并不總是能正確地改變對(duì)象的狀態(tài),比如在長(zhǎng)時(shí)間樣本中發(fā)展出的不一致性或物體的自發(fā)出現(xiàn)。
我們的目光所及,只是不遠(yuǎn)的前方,但是可以看到,那里有許多工作要做。
——Alan Turing
世界模型和未來(lái)
未知是最大的恐懼
意識(shí)、問(wèn)題與語(yǔ)言 - 知乎從內(nèi)在的視角討論了人的世界模型,分析了語(yǔ)言可能存在的缺陷,這里更多的從計(jì)算、AI工程的角度來(lái)討論世界模型。
可以看到Sora雖然驚人,但是AI領(lǐng)域還是需要更多新的突破。Sora展現(xiàn)了人工神經(jīng)網(wǎng)絡(luò)的驚人能力,展現(xiàn)了差異很大的結(jié)構(gòu)(圖像數(shù)據(jù)和文本數(shù)據(jù))如何在計(jì)算上被統(tǒng)一的算法解決,這種涌現(xiàn)能力確實(shí)會(huì)讓認(rèn)為只有進(jìn)一步研究腦才能得出終極AI的人感到驚奇——雖然還不至于徹底改變研究腦的處境。
很容易被人忽視的是,所謂視覺(jué)數(shù)據(jù)和文本數(shù)據(jù)究竟意味著什么?至少以目前情況來(lái)看,這二者都是依賴(lài)于外在的視角——即人或者其它類(lèi)似之物。視覺(jué)數(shù)據(jù)和文本數(shù)據(jù)在計(jì)算機(jī)內(nèi)部的處理都是以數(shù)的形式,只有通過(guò)顯示器發(fā)出信號(hào),然后被人接受,這二者才產(chǎn)生這樣的差異。
在計(jì)算機(jī)內(nèi)部這二者的差異只是不同模型、不同的處理方式——應(yīng)當(dāng)看到這有一種驚人的對(duì)應(yīng),在腦的結(jié)構(gòu)上,身體隔絕了外在世界,使得進(jìn)入腦內(nèi)部的數(shù)據(jù)都是電信號(hào),對(duì)于腦來(lái)說(shuō),視覺(jué)數(shù)據(jù)和文本數(shù)據(jù)的差別也只能是源于處理方式和數(shù)據(jù)本身所在空間模式的差異,當(dāng)然,這樣的說(shuō)明無(wú)疑是不令人滿(mǎn)意的,在不接受頭腦中的小人之后,需要對(duì)腦的進(jìn)一步研究。
另一種對(duì)應(yīng)在于,有人認(rèn)為腦的結(jié)構(gòu)也表明存在一種通用的處理方法來(lái)處理不同的感官,深度學(xué)習(xí)似乎表明可以通過(guò)一個(gè)單獨(dú)的模塊處理一種感官輸入,然后映射到低維空間,在低維空間上進(jìn)行預(yù)測(cè)和運(yùn)動(dòng),低維空間的元素就對(duì)應(yīng)意識(shí)感知到的東西,這些模塊的算法很可能是公共的,即使它們處理不同的感官數(shù)據(jù)。
怎么才能把不同的感官、模型連接起來(lái)?畢竟人類(lèi)感知到語(yǔ)言、視覺(jué)、聲音、觸覺(jué)是緊密結(jié)合的,不過(guò)不能事先認(rèn)為這一定是統(tǒng)一的,視覺(jué)空間和觸覺(jué)空間有著一定的獨(dú)立性,對(duì)于嬰兒來(lái)說(shuō)這有可能不是統(tǒng)一的,而是通過(guò)運(yùn)動(dòng)來(lái)實(shí)現(xiàn),以及行為主義原則——經(jīng)常一起出現(xiàn),就產(chǎn)生了聯(lián)系。
實(shí)踐著手眼協(xié)作的兒童試圖抓住他們夠不著的對(duì)象;只是漸漸地,他們才或多或少正確地判斷出距離。當(dāng)我們抓不住對(duì)象時(shí),在視感覺(jué)和為使對(duì)象處于我們夠得著的范圍內(nèi)所必須的路程之間,一種新的相互聯(lián)接就開(kāi)始產(chǎn)生作用了。陌生的情況甚至?xí)钩赡耆朔稿e(cuò)誤——例如,他們會(huì)錯(cuò)誤地估計(jì)對(duì)象在水中的深度。遙遠(yuǎn)的距離永遠(yuǎn)處在常識(shí)的范圍以外。唯有科學(xué)才能使我們確信,太陽(yáng)比月亮離我們更遠(yuǎn)。
——《物的分析 / The Analysis of Matter》Bertrand Russell
可以把不同感官看成不同且獨(dú)立的模型,這些模型之間只需要通過(guò)某些接口來(lái)進(jìn)行交流,其中語(yǔ)言模型和其他模型的交流是最多、最頻繁的。
一個(gè)日常事件的分析
拿以下事件作為例子:看到一個(gè)蘋(píng)果,想到‘蘋(píng)果’這個(gè)詞,感到饑餓,產(chǎn)生進(jìn)食欲望,知道‘蘋(píng)果能吃’,通過(guò)運(yùn)動(dòng)來(lái)抓住這個(gè)蘋(píng)果,最后吃掉這個(gè)蘋(píng)果,感到飽腹感、停止進(jìn)食。
這一件事展現(xiàn)了語(yǔ)言、觸覺(jué)、視覺(jué)、運(yùn)動(dòng)和情緒感知之間的密切聯(lián)系。
如果不認(rèn)為頭腦里面有個(gè)小人,看到蘋(píng)果本身是完全不在當(dāng)前的理論描述之內(nèi)的事情,看到是腦活動(dòng)制造的一種東西,腦只是接受信息,然后制造出低維的視覺(jué)空間,再制造出‘看到’這樣的概念。人類(lèi)也并不只是看到一個(gè)蘋(píng)果,而是一個(gè)視覺(jué)世界,蘋(píng)果只是作為現(xiàn)在關(guān)注的視覺(jué)中心,蘋(píng)果是低維視覺(jué)空間的一個(gè)復(fù)合的幾何體。
在視覺(jué)空間的物體可以自然的引出語(yǔ)言的描述,這是視覺(jué)模型到語(yǔ)言模型的路徑,也能反過(guò)來(lái)從語(yǔ)言模型到視覺(jué)模型。
就計(jì)算的層面來(lái)講,大模型已經(jīng)能做到語(yǔ)言轉(zhuǎn)入到圖像和視頻,從視頻和圖像輸入也能得到語(yǔ)言,從圖像和視頻得到語(yǔ)言,這恰好是人類(lèi)經(jīng)常做的事,人類(lèi)越來(lái)越多地使用語(yǔ)言來(lái)描述一個(gè)場(chǎng)景、生活中的一件事。這里發(fā)生的事情,腦和深度學(xué)習(xí)有著類(lèi)似之處,都是通過(guò)同時(shí)輸入視覺(jué)數(shù)據(jù)和語(yǔ)言數(shù)據(jù)來(lái)進(jìn)行二者的關(guān)聯(lián)學(xué)習(xí)。
但人類(lèi)的知覺(jué)是一個(gè)持續(xù)的過(guò)程,相比較而言,至少?gòu)哪壳皼](méi)有人能指出人工神經(jīng)網(wǎng)絡(luò)的計(jì)算中哪里發(fā)生了持續(xù)的事,反而只是快速的計(jì)算,也沒(méi)有整體性的東西。
?至于感到饑餓,這有可能是由于當(dāng)前的場(chǎng)景觸發(fā)的,但終歸是身體模型的一個(gè)元素,這樣一件身體模型的事會(huì)通過(guò)某種途徑影響行為模型,腦很有可能是通過(guò)記憶來(lái)做到這一點(diǎn),感到饑餓會(huì)引起搜索,比如視覺(jué)空間的搜索,視覺(jué)模型的搜索依賴(lài)于知識(shí),大腦有可能是通過(guò)記憶來(lái)表達(dá)這樣的知識(shí),這些知識(shí)記憶和語(yǔ)言模型又是密切相關(guān)的。
視覺(jué)模型搜尋的結(jié)果和身體模型的輸出可以發(fā)送給行為模型,行為模型這可以采取行動(dòng),這就意味著,身體、行為和視覺(jué)模型之間有了交互型,饑餓是身體模型的一件事,身體的運(yùn)動(dòng)這是一件行為模型的事,身體的運(yùn)動(dòng)又會(huì)導(dǎo)致視覺(jué)模型的外界輸入的變化,這會(huì)影響視覺(jué)模型。
最終運(yùn)動(dòng)使得身體拿到了蘋(píng)果,并完成了進(jìn)食,此時(shí)引入了觸覺(jué)模型,和視覺(jué)模型一樣,觸覺(jué)模型和其它模型也是緊密結(jié)合的。
可以看到這里的每一件事都是極其復(fù)雜的,更不要說(shuō)要把這些組織到一起,其中最不可思議的是整體性的知覺(jué)、記憶和時(shí)間的知覺(jué)。
要強(qiáng)調(diào)的是,現(xiàn)在沒(méi)有任何角度可以看出深入學(xué)習(xí)能夠制造出像人一樣的視角,深度學(xué)習(xí)、人工智能依舊是面向人的工具,但是深度學(xué)習(xí)卻很可能在不遠(yuǎn)的將來(lái)就會(huì)學(xué)習(xí)到世界的因果模型,而一部分人認(rèn)為人類(lèi)就只是一個(gè)擁有世界的因果模型的東西,人們應(yīng)該重新審視這樣的觀點(diǎn)。
深度學(xué)習(xí)和腦的一個(gè)不同之處在于,深學(xué)習(xí)中人工神經(jīng)網(wǎng)絡(luò)中權(quán)重是學(xué)習(xí)到的東西,保留了數(shù)據(jù),隨機(jī)初始化權(quán)重的網(wǎng)絡(luò)一般需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,而DNA不能完全決定這么多神經(jīng)細(xì)胞的連接。這也就意味著初始的神經(jīng)細(xì)胞連接要么是隨機(jī)的,要么有種簡(jiǎn)潔且統(tǒng)一的策略來(lái)初始化權(quán)重。
真的能有簡(jiǎn)潔且統(tǒng)一的策略來(lái)初始化權(quán)重嗎?看上去這是不可思議的。而如果大部分連接是隨機(jī)的。這就意味著需要大量的數(shù)據(jù)來(lái)學(xué)習(xí)??瓷先?,即使人類(lèi)的感官輸入信息很多,相比較而言也不足達(dá)到現(xiàn)在的大模型的數(shù)量級(jí),不要說(shuō)這種數(shù)量級(jí)還有待增加。此外,嬰兒不是什么也不會(huì)的來(lái)到世界上——除非他們?cè)谧訉m內(nèi)的學(xué)習(xí)足以達(dá)到這樣的水平。
另一點(diǎn)在于腦似乎只需要通過(guò)少數(shù)幾個(gè)計(jì)算步驟就可以得到答案,不像大模型一樣需要很多計(jì)算步驟。
這一切都表明,神經(jīng)細(xì)胞之間具有某種獨(dú)特的模式,這種模式和現(xiàn)有的人工神經(jīng)網(wǎng)絡(luò)不同。
由此有人也指出,大腦更像一個(gè)記憶機(jī)器,而不像是計(jì)算機(jī)器,這在某種意義上不令人驚訝,例如,一個(gè)人究竟是怎么計(jì)算簡(jiǎn)單的加法?最初的訓(xùn)練似乎是通過(guò)記憶個(gè)位數(shù)之間的相加的答案,對(duì)于多個(gè)位數(shù)的數(shù)字之間相加,仍然通過(guò)分解為各個(gè)數(shù)位之間的相加和數(shù)位之間的進(jìn)位得到答案,而各個(gè)數(shù)位之間的相加的答案依舊是通過(guò)記憶來(lái)得到的。
不過(guò)事實(shí)上,在某個(gè)方面,深度學(xué)習(xí)也是通過(guò)記憶來(lái)完成答案,正如有人指責(zé)深度學(xué)習(xí)只是在背誦,而不是在推理。就這個(gè)層面來(lái)講,腦和神經(jīng)網(wǎng)絡(luò)是類(lèi)似的,不類(lèi)似的依舊還是在于腦的計(jì)算步驟應(yīng)該要更小一點(diǎn),而且有著不錯(cuò)的連接模式,當(dāng)然這不讓人奇怪——如果自然選擇是正確的,腦就是被這樣塑造的。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-829371.html
另一個(gè)方面腦是在反饋的計(jì)算,即有自上而下的路徑,也有自下道上的路徑,這是否能夠通過(guò)分模塊來(lái)間接的實(shí)現(xiàn)還有待闡述。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-829371.html
到了這里,關(guān)于Sora:通過(guò)視頻生成模型制造世界模擬器(世界模型)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!