Sora大模型簡介
OpenAI 的官方解釋了在視頻數(shù)據(jù)基礎(chǔ)上進行大規(guī)模訓(xùn)練生成模型的方法。
我們下面會摘取其中的關(guān)鍵部分羅列讓大家快速get重點。
喜歡鉆研的伙伴可以到官網(wǎng)查看技術(shù)報告:
https://openai.com/research/video-generation-models-as-world-simulators
技術(shù)特點
-
三維空間的連貫性:Sora可以生成帶有動態(tài)相機運動的視頻。隨著相機移動和旋轉(zhuǎn),人物和場景元素在三維空間中保持連貫的運動。
-
模擬數(shù)字世界:Sora還能模擬人工過程,如視頻游戲。Sora能夠同時控制Minecraft中的玩家,并高保真地渲染游戲世界及其動態(tài)。通過提及“Minecraft”的提示,可以零樣本地激發(fā)Sora的這些能力
-
長期連續(xù)性和物體持久性:對視頻生成系統(tǒng)來說,Sora通常能夠有效地模擬短期和長期的依賴關(guān)系。同樣,它能在一個樣本中生成同一角色的多個鏡頭,確保其在整個視頻中的外觀一致。
-
與世界互動:Sora有時能夠模擬對世界狀態(tài)產(chǎn)生簡單影響的行為。例如,畫家可以在畫布上留下隨時間持續(xù)的新筆觸,或者一個人吃漢堡時留下咬痕。
強在哪里
-
文本到視頻生成能力:Sora能夠根據(jù)用戶提供的文本描述生成長達60S的視頻,這些視頻不僅保持了視覺品質(zhì),而且完整準(zhǔn)確還原了用戶的提示語。
-
復(fù)雜場景和角色生成能力:Sora能夠生成包含多個角色、特定運動類型以及主題精確、背景細節(jié)復(fù)雜的場景。它能夠創(chuàng)造出生動的角色表情和復(fù)雜的運鏡,使得生成的視頻具有高度的逼真性和敘事效果。
-
語言理解能力:Sora擁有深入的語言理解能力,能夠準(zhǔn)確解釋提示并生成能表達豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令,并在生成的視頻內(nèi)容中忠實地反映這些指令。
-
多鏡頭生成能力:Sora可以在單個生成的視頻中創(chuàng)建多個鏡頭,同時保持角色和視覺風(fēng)格的一致性。這種能力對于制作電影預(yù)告片、動畫或其他需要多視角展示的內(nèi)容非常有用。
-
從靜態(tài)圖像生成視頻能力:Sora不僅能夠從文本生成視頻,還能夠從現(xiàn)有的靜態(tài)圖像開始,準(zhǔn)確地動畫化圖像內(nèi)容,或者擴展現(xiàn)有視頻,填補視頻中的缺失幀。
-
物理世界模擬能力:Sora展示了人工智能在理解真實世界場景并與之互動的能力,這是朝著實現(xiàn)通用人工智能(AGI)的重要一步。它能夠模擬真實物理世界的運動,如物體的移動和相互作用。
為什么是可作為世界模擬器的視頻生成模型
-
統(tǒng)一的視覺數(shù)據(jù)表示:研究者們將所有類型的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示,以便進行大規(guī)模的生成模型訓(xùn)練。Sora 使用視覺補?。╬atches)作為其表示方式,類似于大型語言模型(LLM)中的文本標(biāo)記。
-
視頻壓縮網(wǎng)絡(luò):研究者們訓(xùn)練了一個網(wǎng)絡(luò),將原始視頻壓縮到一個低維潛在空間,并將其表示分解為時空補丁。Sora 在這個壓縮的潛在空間中進行訓(xùn)練,并生成視頻。
-
擴散模型:Sora 是一個擴散模型,它通過預(yù)測原始“干凈”的補丁來從輸入的噪聲補丁中生成視頻。擴散模型在語言建模、計算機視覺和圖像生成等領(lǐng)域已經(jīng)顯示出了顯著的擴展性。
-
視頻生成的可擴展性:Sora 能夠生成不同分辨率、時長和寬高比的視頻,包括全高清視頻。這種靈活性使得 Sora 能夠直接為不同設(shè)備生成內(nèi)容,或者在生成全分辨率視頻之前快速原型化內(nèi)容。
-
語言理解:為了訓(xùn)練文本到視頻生成系統(tǒng),需要大量的視頻和相應(yīng)的文本標(biāo)題。研究者們應(yīng)用了在 DALL·E 3 中引入的重新描述技術(shù),首先訓(xùn)練一個高度描述性的標(biāo)題生成器,然后為訓(xùn)練集中的所有視頻生成文本標(biāo)題。
-
圖像和視頻編輯:Sora 不僅能夠基于文本提示生成視頻,還可以基于現(xiàn)有圖像或視頻進行提示。這使得 Sora 能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù),如創(chuàng)建完美循環(huán)的視頻、動畫靜態(tài)圖像、向前或向后擴展視頻等。
-
模擬能力:當(dāng)視頻模型在大規(guī)模訓(xùn)練時,它們展現(xiàn)出了一些有趣的新興能力,使得 Sora 能夠模擬物理世界中的某些方面,如動態(tài)相機運動、長期一致性和對象持久性等。
-
討論:盡管 Sora 展示了作為模擬器的潛力,但它仍然存在許多局限性,例如在模擬基本物理交互(如玻璃破碎)時的準(zhǔn)確性不足。研究者們認為,繼續(xù)擴展視頻模型是開發(fā)物理和數(shù)字世界模擬器的有前途的道路。
訓(xùn)練過程
Sora 的訓(xùn)練受到了大語言模型(Large Language Model)的啟發(fā)。這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進行訓(xùn)練,從而獲得了廣泛的能力。Sora實際上是一種擴散型變換器模型(diffusion transformer)。
-
首先將視頻壓縮到一個低維潛在空間中,然后將這種表現(xiàn)形式分解成時空區(qū)塊,從而將視頻轉(zhuǎn)換為區(qū)塊。
-
訓(xùn)練了一個用于降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。這個網(wǎng)絡(luò)以原始視頻為輸入,輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓(xùn)練,并在此空間中生成視頻。還開發(fā)了一個對應(yīng)的解碼器模型,它能將生成的潛在表示映射回到像素空間。
-
對于給定的壓縮輸入視頻,提取一系列時空區(qū)塊,它們在變換器模型中充當(dāng)標(biāo)記(token)。這種方案同樣適用于圖像,因為圖像本質(zhì)上是單幀的視頻?;趨^(qū)塊的表示方法使Sora能夠針對不同分辨率、持續(xù)時間和縱橫比的視頻和圖像進行訓(xùn)練。在推理過程中,可以通過在適當(dāng)大小的網(wǎng)格中排列隨機初始化的區(qū)塊來控制生成視頻的大小。
-
隨著 Sora 訓(xùn)練計算量的增加,樣本質(zhì)量有了顯著提升。
-
Sora訓(xùn)練時沒有對素材進行裁切,使得Sora能夠直接為不同設(shè)備以其原生縱橫比創(chuàng)造內(nèi)容。
-
針對視頻的原生縱橫比進行訓(xùn)練,還可以提高構(gòu)圖和取景的質(zhì)量。
-
訓(xùn)練文本到視頻的生成系統(tǒng)需要大量配有相應(yīng)文本提示的視頻。應(yīng)用了在DALL·E 3中引入的重新字幕技術(shù)到視頻上。
-
與DALL·E 3相似,也利用了GPT技術(shù),將用戶的簡短提示轉(zhuǎn)換成更詳細的提示,然后發(fā)送給視頻模型。Video generation models as world simulators。
與其他視頻大模型的比較分析
繪圖能力 - 與MJ6對比
來源:https://twitter.com/doganuraldesign/status/1758444092328194217
視頻效果 - 與Runway,Pika,Stable Video對比
去年,Pika Labs發(fā)布的文生視頻大模型Pika 1.0曾轟動一時。該產(chǎn)品只需某張圖片輸入所需要的動態(tài)指令,或者框選某段視頻的某個部位,輸入指令,就能生成相應(yīng)的視頻。
當(dāng)時,有不少網(wǎng)友都表示,該產(chǎn)品生成的視頻質(zhì)量屬實很炸裂,但只能生成3秒以內(nèi)的視頻,這點有些影響體驗。幾個月時間不到,Sora已經(jīng)能夠生產(chǎn)60s級的穩(wěn)定、連續(xù)、模擬真實世界的視頻,而且效果上幾乎碾壓,我們來看看對比:
Sora吊打其他
Sora吊打SD
商業(yè)變現(xiàn)場景
Sora可能帶來的影響
如果Sora能夠真正意義上實現(xiàn)文生視頻,可能會帶來哪些影響呢?我們來聽聽Sora發(fā)布后業(yè)界的聲音:
- 沒有演員的影視作品出現(xiàn),對演員來說是個小挑戰(zhàn),將出現(xiàn)真正的“虛擬偶像”,此前的二次元人物并沒有真正達到“偶像”的級別。
- 利好編劇行業(yè),劇本、文本創(chuàng)作力成為核心競爭力。
- Sora可能才是真正的文生視頻,此前的文生視頻大多只有2秒,僅僅是對象的小幅度移動。
- OpenAI繼續(xù)拉大領(lǐng)先程度,對眾多還在進行大模型測試打分pk的廠商,構(gòu)成壓力。
- 直接的影響是影視行業(yè),特別是特效行業(yè)。使用AI來制作一些特效和高風(fēng)險的鏡頭,可以大幅降低拍攝成本,也可以避免很多危險。
- 攝影師行業(yè)也會受到影響,用文本來生成一些視頻,可以省去很多拍攝工作。
- 短視頻流行開以后,視頻剪輯師也隨之成為一個熱門職業(yè)。如果視頻剪輯的工作可以用AI來代替,可能會有很多視頻剪輯師失業(yè)。
- 對于很多短視頻創(chuàng)作者來說,用AI來替代繁瑣的剪輯工作,可以大幅提高工作效率。
- 很多歌手拍攝MV都是大成本制作,如果可以用AI來生成所需要的MV畫面,也可以省去很大一部分制作成本。
- 另外,如果真正意義上的文生視頻得以實現(xiàn),可能會有不法份子利用這項技術(shù)實施新手段的違法犯罪。不過,從Sora官網(wǎng)目前展示的視頻畫面效果來看,效果還沒那么逼近真實,短期內(nèi)不會產(chǎn)生讓行業(yè)失業(yè),但會有輔助作用,做個動畫片應(yīng)該問題不大。
在Sora官網(wǎng),OpenAI也表示,Sora是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ),OpenAI相信這一能力將是實現(xiàn)AGI的重要里程碑。
進一步落地后,可能的應(yīng)用場景:文章來源:http://www.zghlxwxcb.cn/news/detail-830715.html
Sora+廣告
- 個性化和定制化廣告內(nèi)容:根據(jù)目標(biāo)受眾的興趣、習(xí)慣及互動歷史,生成個性化的廣告內(nèi)容。例如,為每個觀眾提供定制的產(chǎn)品展示視頻,以提高廣告的吸引力和轉(zhuǎn)化率。
- 高效率的廣告制作:借助Sora的能力,廣告制作過程可以大幅簡化,從概念到成品的時間大大縮短,同時保持或提高廣告的視覺質(zhì)量。
- 虛擬場景和角色的創(chuàng)新應(yīng)用:創(chuàng)建虛擬的場景和角色參與廣告,無需實地拍攝或聘請演員,為廣告創(chuàng)意提供幾乎無限的可能性。
- 動態(tài)內(nèi)容更新:針對不同的廣告投放周期和受眾反饋,實時更新廣告內(nèi)容和呈現(xiàn)方式,保持廣告的新鮮感和相關(guān)性。
- 交互式和沉浸式廣告體驗:結(jié)合Sora的技術(shù)和交互式媒體(如AR/VR),為用戶提供沉浸式的廣告體驗,增強品牌印象和用戶參與度。
- 廣告數(shù)據(jù)分析和優(yōu)化:通過分析用戶對AI生成廣告內(nèi)容的互動和反饋,優(yōu)化廣告策略和創(chuàng)意設(shè)計,實現(xiàn)更高的ROI。
- 品牌形象和故事敘述:Sora的出現(xiàn)讓企業(yè)制作品牌視頻的成本大幅下降,會反過來刺激企業(yè)品牌視頻的需求,只需要一段文字就可以通過Sora生成的內(nèi)容,塑造和傳遞品牌故事,加深品牌形象和價值觀在目標(biāo)受眾心中的印象。
Sora+教育
- 歷史和文化重現(xiàn):通過Sora技術(shù),歷史事件、文化遺產(chǎn)和著名地標(biāo)可以被逼真地重現(xiàn),提供沉浸式的學(xué)習(xí)體驗,幫助學(xué)生更好地理解和感受歷史和文化。
- 語言學(xué)習(xí)與文化沉浸:Sora可以生成不同文化背景的虛擬場景和對話,幫助學(xué)習(xí)者在沉浸式環(huán)境中學(xué)習(xí)新語言,提高語言學(xué)習(xí)的效率和樂趣。
- 遠程教育與在線課程:Sora技術(shù)可以為遠程教育提供高質(zhì)量的視頻內(nèi)容,使在線學(xué)習(xí)更加生動和吸引人,提高學(xué)習(xí)者的參與度和滿意度。
- 互動式學(xué)習(xí)游戲和活動:結(jié)合游戲化學(xué)習(xí)理念,Sora可以創(chuàng)建互動式的學(xué)習(xí)游戲和活動,提高學(xué)習(xí)的趣味性和有效性。
- 特殊教育資源開發(fā):為特殊需要的學(xué)生設(shè)計定制化的教育內(nèi)容,例如為視障學(xué)生創(chuàng)建音頻重點的教育材料,或為聽障學(xué)生設(shè)計帶有手語解釋的視頻。
Sora+大電影
- 虛擬演員和虛擬導(dǎo)演:開發(fā)虛擬演員和虛擬導(dǎo)演參與電影制作,不僅降低成本,還能創(chuàng)造出超越現(xiàn)實限制的表演和視覺效果。
- 個性化和定制電影制作:用戶可以根據(jù)自己的喜好定制電影內(nèi)容,包括劇情走向、角色設(shè)定甚至是結(jié)局。這種個性化服務(wù)可以作為高端娛樂產(chǎn)品向市場推出。
- 虛擬電影制作服務(wù):為小型電影制作公司或獨立電影制作者提供虛擬電影制作服務(wù),包括虛擬場景構(gòu)建、角色設(shè)計等,極大降低電影制作成本,加速電影制作進程。
- 電影內(nèi)容的即時生成:根據(jù)觀眾的反饋和需求,實時調(diào)整和生成電影內(nèi)容,為觀眾提供更加個性化和互動的觀影體驗。
- 云端電影制作平臺:提供云端的電影制作和編輯平臺,允許全球的創(chuàng)作者協(xié)同工作,共同參與電影項目的制作。
- 跨媒體內(nèi)容創(chuàng)作:結(jié)合圖書、游戲、虛擬現(xiàn)實(VR)等多種媒介,利用Sora技術(shù)創(chuàng)作跨媒體故事內(nèi)容,吸引更廣泛的受眾。
- 電影營銷和宣傳新模式:通過Sora技術(shù)快速制作電影預(yù)告片、角色介紹等宣傳材料,提高營銷效率和吸引力。
- 版權(quán)和衍生品開發(fā):AI創(chuàng)作的電影和角色可以開發(fā)出新的版權(quán)和衍生品市場,包括虛擬商品、角色授權(quán)等。
- AI影評和內(nèi)容推薦:利用AI技術(shù)分析電影內(nèi)容和用戶偏好,提供個性化的影評和電影推薦服務(wù)。
- 電影制作教育和培訓(xùn):制作結(jié)合Sora技術(shù)的電影制作的在線教育和培訓(xùn)課程,讓更多的人學(xué)會以較低成本制作影視作品的相關(guān)技能。
總之,我們一直說的未來,好像真的要來了!文章來源地址http://www.zghlxwxcb.cn/news/detail-830715.html
到了這里,關(guān)于OpenAI 全新發(fā)布文生視頻模型 Sora,支持 60s 超長長度,有哪些突破?將帶來哪些影響?的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!