這份技術(shù)報(bào)告主要關(guān)注兩個(gè)方面:(1)我們的方法將各種類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示形式,從而實(shí)現(xiàn)了大規(guī)模生成模型的訓(xùn)練;(2)對(duì)Sora的能力和局限性進(jìn)行了定性評(píng)估。報(bào)告中不包含模型和實(shí)現(xiàn)細(xì)節(jié)。
在以往的研究中,人們使用了多種方法對(duì)視頻數(shù)據(jù)進(jìn)行生成建模,包括循環(huán)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、自回歸變換器和擴(kuò)散模型等。然而,這些方法通常只針對(duì)特定類型、較短長度或固定分辨率的視覺數(shù)據(jù)進(jìn)行研究。Sora是一種通用的視覺數(shù)據(jù)模型,它能夠生成跨越不同持續(xù)時(shí)間、寬高比和分辨率的視頻和圖像,甚至可以生成一分鐘的高清視頻。
將視覺數(shù)據(jù)轉(zhuǎn)化為補(bǔ)丁
我們受到大型語言模型的啟發(fā),這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練獲得了通用能力。語言模型的成功部分得益于優(yōu)雅地統(tǒng)一了文本的多種形式,如代碼、數(shù)學(xué)和各種自然語言。在這項(xiàng)工作中,我們考慮了如何使視覺數(shù)據(jù)的生成模型也能繼承這些優(yōu)勢(shì)。與語言模型使用文本標(biāo)記不同,Sora使用視覺“補(bǔ)丁”。之前的研究已經(jīng)證明,補(bǔ)丁是一種對(duì)視覺數(shù)據(jù)模型而言有效的表示形式。我們發(fā)現(xiàn),補(bǔ)丁是一種高度可擴(kuò)展且有效的表示形式,適用于對(duì)多種類型的視頻和圖像進(jìn)行生成模型的訓(xùn)練。
從較高層次上來說,我們將視頻轉(zhuǎn)化為補(bǔ)丁的過程是先將視頻壓縮為低維潛變量空間,然后將表示分解為時(shí)空補(bǔ)丁。
視頻壓縮網(wǎng)絡(luò)
我們訓(xùn)練了一個(gè)網(wǎng)絡(luò)來降低視覺數(shù)據(jù)的維度。這個(gè)網(wǎng)絡(luò)以原始視頻作為輸入,并輸出一個(gè)時(shí)空壓縮的潛在表示。Sora在這個(gè)壓縮的潛在空間上進(jìn)行訓(xùn)練,并生成視頻。我們還訓(xùn)練了一個(gè)相應(yīng)的解碼器模型,將生成的潛在表示映射回像素空間。
時(shí)空潛在補(bǔ)丁
對(duì)于壓縮的輸入視頻,我們提取了一系列時(shí)空補(bǔ)丁,這些補(bǔ)丁充當(dāng)了Transformer的標(biāo)記。由于圖像只是單幀的視頻,所以這個(gè)方案也適用于圖像。我們基于補(bǔ)丁的表示使得Sora能夠在具有不同分辨率、持續(xù)時(shí)間和縱橫比的視頻和圖像上進(jìn)行訓(xùn)練。在推理階段,我們可以通過將隨機(jī)初始化的補(bǔ)丁按照適當(dāng)大小的網(wǎng)格排列來控制生成視頻的尺寸。
為視頻生成擴(kuò)展Transformer
Sora是一個(gè)擴(kuò)散模型,通過輸入噪聲補(bǔ)?。ㄒ约邦愃莆谋咎崾镜臈l件信息),它被訓(xùn)練來預(yù)測原始的“清晰”補(bǔ)丁。重要的是,Sora是一個(gè)擴(kuò)散的Transformer。Transformer在各個(gè)領(lǐng)域都展示了卓越的可擴(kuò)展性,包括語言建模、計(jì)算機(jī)視覺和圖像生成。
在這項(xiàng)工作中,我們發(fā)現(xiàn)擴(kuò)散Transformer在作為視頻模型時(shí)也能有效地進(jìn)行擴(kuò)展。下面,我們展示了在訓(xùn)練進(jìn)行時(shí),使用固定種子和輸入的視頻樣本的比較。隨著訓(xùn)練計(jì)算的增加,樣本的質(zhì)量顯著提高。
可變的持續(xù)時(shí)間、分辨率和縱橫比
過去處理圖像和視頻生成的方法通常會(huì)將視頻調(diào)整大小、裁剪或修剪為標(biāo)準(zhǔn)尺寸,例如,256x256分辨率的4秒視頻。然而,我們發(fā)現(xiàn)對(duì)原始尺寸的數(shù)據(jù)進(jìn)行訓(xùn)練會(huì)帶來幾個(gè)優(yōu)勢(shì)。
采樣靈活性
Sora能夠采樣寬屏的1920x1080p視頻、垂直的1080x1920視頻以及介于兩者之間的各種尺寸。這使得Sora可以直接按照原生縱橫比為不同設(shè)備創(chuàng)建內(nèi)容。它還使我們能夠在生成全分辨率內(nèi)容之前,通過較低的尺寸快速原型開發(fā)內(nèi)容,而所有這些都是使用同一個(gè)模型實(shí)現(xiàn)的。
構(gòu)圖和組圖的改進(jìn)
我們基于實(shí)證發(fā)現(xiàn),以原生縱橫比訓(xùn)練視頻可以改善構(gòu)圖和組圖效果。我們將Sora與將所有訓(xùn)練視頻裁剪為正方形的模型進(jìn)行了比較,這是訓(xùn)練生成模型時(shí)常見的做法。以正方形裁剪訓(xùn)練的模型(左圖)有時(shí)會(huì)生成只有主體部分可見的視頻。相比之下,Sora生成的視頻(右圖)具有改善的構(gòu)圖。
語言理解
訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本標(biāo)題的視頻。我們應(yīng)用了DALL·E 3中引入的重新標(biāo)題技術(shù)來處理視頻。我們首先訓(xùn)練一個(gè)高度描述性的標(biāo)題模型,然后使用該模型為我們訓(xùn)練集中的所有視頻生成文本標(biāo)題。我們發(fā)現(xiàn),訓(xùn)練基于高度描述性視頻標(biāo)題的模型不僅可以提高文本的準(zhǔn)確性,還可以提高視頻的整體質(zhì)量。
與DALL·E 3類似,我們還利用GPT將短用戶提示轉(zhuǎn)化為更詳細(xì)的標(biāo)題,并將其發(fā)送到視頻模型中。這使得Sora能夠生成高質(zhì)量的視頻,準(zhǔn)確地遵循用戶的提示。
使用圖像和視頻進(jìn)行提示
以上所有結(jié)果以及我們 首頁中的示例都展示了文本到視頻的樣本。但是Sora也可以通過其他輸入進(jìn)行提示,例如預(yù)先存在的圖像或視頻。這種能力使得Sora能夠執(zhí)行各種圖像和視頻編輯任務(wù),例如創(chuàng)建完美循環(huán)的視頻,將靜態(tài)圖像動(dòng)畫化,將視頻向前或向后擴(kuò)展等。
DALL·E圖像的動(dòng)畫化
Sora能夠根據(jù)輸入的圖像和提示生成視頻。下面我們展示基于DALL·E 2[^31]和DALL·E 3[^30]圖像生成的示例視頻。
一只戴著貝雷帽和黑色高領(lǐng)衫的柴犬。
平面設(shè)計(jì)風(fēng)格的怪物插畫,描繪了一個(gè)多樣化的怪物家族。這個(gè)家族包括一只毛茸茸的棕色怪物,一只帶有天線的光滑黑色怪物,一只斑點(diǎn)綠色怪物,還有一只帶有小圓點(diǎn)的微小怪物,它們都在一個(gè)充滿趣味的環(huán)境中互動(dòng)。
一張以逼真的云朵形狀拼寫“SORA”字樣的圖片。
在一個(gè)裝飾華麗的歷史大廳里,一個(gè)巨大的海浪達(dá)到高峰并開始崩潰。兩名沖浪者抓住這個(gè)機(jī)會(huì),巧妙地駕馭著這個(gè)波浪的面前行駛。
擴(kuò)展生成的視頻
Sora還能夠擴(kuò)展視頻,無論是向前還是向后。下面是四個(gè)視頻,它們都是從一個(gè)生成的視頻片段開始向后擴(kuò)展的。結(jié)果是,這四個(gè)視頻的開頭都不同,但最終都會(huì)達(dá)到相同的結(jié)尾。
我們可以使用這種方法來前后擴(kuò)展視頻,以產(chǎn)生一個(gè)無縫的無限循環(huán)。
視頻到視頻編輯
擴(kuò)散模型為根據(jù)文本提示編輯圖像和視頻提供了大量的方法。下面我們將其中一種方法SDEdit[^32]應(yīng)用到Sora上。這個(gè)技術(shù)使得Sora能夠零樣本地轉(zhuǎn)換輸入視頻的風(fēng)格和環(huán)境。
視頻連接
我們還可以使用Sora逐漸插值兩個(gè)輸入視頻之間,創(chuàng)建完全不同主題和場景構(gòu)圖的視頻之間的無縫過渡。在下面的示例中,中間的視頻是左邊和右邊對(duì)應(yīng)視頻之間的插值結(jié)果。
圖像生成能力
Sora還可以生成圖像。我們通過在時(shí)空范圍為一個(gè)幀的空間網(wǎng)格中排列高斯噪聲的塊來實(shí)現(xiàn)這一點(diǎn)。該模型可以生成不同大小的圖像,分辨率高達(dá)2048x2048。
一張女性秋天的特寫肖像照,極致細(xì)節(jié),淺景深。
充滿活力的珊瑚礁,繁盛著五彩斑斕的魚類和海洋生物
以啞光繪畫風(fēng)格呈現(xiàn)的數(shù)字藝術(shù)作品,描繪了一只年輕的老虎在一棵蘋果樹下。作品細(xì)節(jié)精美,絢麗多彩。
一座被雪覆蓋的山間村莊,擁有舒適的小木屋和北極光的展示。使用高精度和逼真的數(shù)碼單反相機(jī),以50mm f/1.2鏡頭拍攝。
新興的模擬能力
我們發(fā)現(xiàn),在大規(guī)模訓(xùn)練的視頻模型中,出現(xiàn)了一些有趣的新興能力。這些能力使得Sora能夠模擬物理世界中的人、動(dòng)物和環(huán)境的一些方面。這些特性在沒有明確的對(duì)3D、物體等的歸納偏見的情況下出現(xiàn),它們純粹是規(guī)?,F(xiàn)象。
三維一致性。 Sora能夠生成具有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場景元素在三維空間中保持一致的運(yùn)動(dòng)。
長期連貫性和物體永久性。 視頻生成系統(tǒng)面臨的一個(gè)重要挑戰(zhàn)是在采樣長視頻時(shí)保持時(shí)間上的一致性。我們發(fā)現(xiàn)Sora通常能夠有效地模擬短期和長期依賴關(guān)系,盡管并不總是如此。例如,我們的模型可以在物體被遮擋或離開畫面時(shí)保持人物、動(dòng)物和物體的存在。同樣,它可以在單個(gè)樣本中生成同一角色的多個(gè)鏡頭,并在整個(gè)視頻中保持它們的外觀。
與世界互動(dòng)。 Sora有時(shí)可以模擬對(duì)世界狀態(tài)產(chǎn)生簡單影響的行為。例如,一位畫家可以在畫布上留下持續(xù)存在的新筆觸,或者一個(gè)人可以吃掉一個(gè)漢堡并留下咬痕。
模擬數(shù)字世界。 Sora還能夠模擬人工過程,比如視頻游戲。Sora可以同時(shí)以基本策略控制Minecraft中的玩家,同時(shí)以高保真度渲染世界及其動(dòng)態(tài)。通過在提示中提到“Minecraft”,可以從Sora中引發(fā)這些能力。
這些能力表明,繼續(xù)對(duì)視頻模型進(jìn)行擴(kuò)展是開發(fā)高度能力的物理世界和數(shù)字世界以及其中的物體、動(dòng)物和人的模擬器的有希望的路徑。
討論
目前,作為模擬器,Sora存在許多限制。例如,它不能準(zhǔn)確地模擬許多基本交互的物理學(xué),比如玻璃破碎。其他交互,比如吃東西,并不總是能正確地改變物體狀態(tài)。我們?cè)?我們的主頁中詳細(xì)列舉了模型的其他常見故障模式,比如在長時(shí)間采樣中出現(xiàn)的不連貫性或物體的突然出現(xiàn)。
我們相信,Sora目前的能力表明,繼續(xù)對(duì)視頻模型進(jìn)行擴(kuò)展是開發(fā)能力強(qiáng)大的物理世界和數(shù)字世界以及其中的物體、動(dòng)物和人的模擬器的有希望的路徑。文章來源:http://www.zghlxwxcb.cn/news/detail-829656.html
通過虛擬卡 WildCard 的方式來升級(jí) GPT 4.0 最快了,大概2分鐘就可以升級(jí)完成, 而且升級(jí) GPT 4.0 價(jià)錢也不貴,虛擬卡一年10美元,GPT4 每個(gè)月也才 20美元。如果你覺得 GPT 4.0 對(duì)你可能有幫助,那就趕快來升級(jí)吧!
GPT-4.0 升級(jí)教程文章來源地址http://www.zghlxwxcb.cn/news/detail-829656.html
到了這里,關(guān)于【OpenAI Sora】開啟未來:視頻生成模型作為終極世界模擬器的突破之旅的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!