一、前言
此頁面上的所有視頻均由 Sora 直接生成,未經(jīng)修改。
OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions.
2024 年 2 月 16 日,OpenAI 發(fā)布 AI 視頻模型 Sora,60 秒的一鏡到底,驚艷的效果生成。AI 視頻生成可能要變天?
二、主要內(nèi)容
能力
OpenAI 正在教授 AI 理解和模擬運動中的物理世界,目標是訓(xùn)練出能幫助人們解決需要與現(xiàn)實世界互動的問題的模型。目前的成果是 Sora,OpenAI 最新發(fā)布的從文本生成視頻模型。Sora 能夠生成長達一分鐘的視頻,同時保持視覺品質(zhì)和對用戶提示的遵循。
2024 年 2 月 26 日,Sora 即將向紅隊人員開放,以評估關(guān)鍵領(lǐng)域的潛在危害或風(fēng)險。OpenAI 還允許一些視覺藝術(shù)家、設(shè)計師和電影制作人使用,以便獲得反饋,進一步優(yōu)化模型,使其對創(chuàng)意專業(yè)人士更有幫助。OpenAI 提早分享他們的研究進展,以便開始與 OpenAI 之外的人們合作并從他們那里獲取反饋,同時讓公眾對即將到來的 AI 能力有所了解。
Sora 能夠生成包含多個角色、特定類型的運動以及主題和背景的準確細節(jié)的復(fù)雜場景。這個模型不僅理解用戶在提示中請求的內(nèi)容,還理解這些事物在物理世界中的存在方式。該模型對語言有著深刻的理解,使其能夠準確解讀提示并生成表情豐富的引人入勝的角色。Sora 還能在單個生成的視頻中創(chuàng)造出多個畫面,準確地保持角色和視覺風(fēng)格的一致性。
當前模型有缺陷。它可能在準確模擬復(fù)雜場景的物理現(xiàn)象方面遇到困難,也可能無法理解特定的因果關(guān)系。例如,一個人可能會咬一口餅干,但之后,餅干可能不會留下咬痕。該模型也可能會混淆提示的空間細節(jié),例如,將左和右搞混,而且可能難以準確描述隨時間發(fā)生的事件,比如遵循特定的攝像機軌跡。
安全
在將 Sora 應(yīng)用于 OpenAI 產(chǎn)品之前,OpenAI 將采取幾個重要的安全措施。OpenAI 正在與紅隊人員(錯誤信息、仇恨內(nèi)容和偏見等領(lǐng)域的專家)合作,他們將對模型進行對抗性測試。OpenAI 還在開發(fā)一些工具來幫助檢測誤導(dǎo)性內(nèi)容,例如檢測分類器,它可以分辨出視頻是由 Sora 生成的。如果在 OpenAI 產(chǎn)品中部署該模型,OpenAI 計劃在未來加入 C2PA 元數(shù)據(jù)。
除了開發(fā)新技術(shù)為部署做準備外,OpenAI 還在利用現(xiàn)有的安全方法,這些方法是 OpenAI 為使用 DALL-E 3 的產(chǎn)品建立的,也適用于 Sora。例如,一旦進入 OpenAI 產(chǎn)品,OpenAI 的文本分類器就會檢查并拒絕違反 OpenAI 使用政策的文本輸入提示,例如要求輸入極端暴力、性內(nèi)容、仇恨圖像、名人肖像或他人知識產(chǎn)權(quán)的內(nèi)容。OpenAI 還開發(fā)了強大的圖像分類器,用于審查生成的每段視頻的幀數(shù),以幫助確保視頻在播放給用戶之前符合使用政策。
OpenAI 將與世界各地的政策制定者、教育工作者和藝術(shù)家接觸,以了解他們的擔憂,并確定這項新技術(shù)的積極應(yīng)用案例。盡管進行了廣泛的研究和測試,但 OpenAI 無法預(yù)測人們使用這項技術(shù)的所有有益方式,也無法預(yù)測人們?yōu)E用技術(shù)的所有方式。這就是為什么 OpenAI 相信,從現(xiàn)實世界的使用中學(xué)習(xí),是隨著時間的推移創(chuàng)建和發(fā)布越來越安全的人工智能系統(tǒng)的重要組成部分。
研究技術(shù)
Sora 是一種擴散模型,它從一個看起來像靜態(tài)噪音的視頻開始生成視頻,然后通過多個步驟去除噪音,逐漸轉(zhuǎn)換視頻。Sora 能夠一次性生成整個視頻,或延長生成的視頻,使其更長。通過讓模型一次預(yù)見多幀畫面,OpenAI 解決了一個具有挑戰(zhàn)性的問題,那就是即使主體暫時離開視線,也要確保主體保持不變。
與 GPT 模型類似,Sora 也采用了 Transformer 架構(gòu),釋放了卓越的擴展性能。OpenAI 將視頻和圖像表示為更小的數(shù)據(jù)單元集合,稱為 “補丁”(patches),每個補丁類似于 GPT 中的令牌(token)。通過統(tǒng)一數(shù)據(jù)表示方式,我們可以在比以往更廣泛的視覺數(shù)據(jù)上訓(xùn)練 diffusion transformers,包括不同的持續(xù)時間、分辨率和寬高比。
Sora 建立在過去對 DALL-E 和 GPT 模型的研究基礎(chǔ)之上。它采用了 DALL-E 3 中的重述技術(shù),即為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的字幕。因此,該模型能夠在生成的視頻中更忠實地遵循用戶的文字說明。該模型不僅能根據(jù)文字說明生成視頻,還能根據(jù)現(xiàn)有的靜止圖像生成視頻,并能準確、細致地對圖像內(nèi)容進行動畫處理。該模型還能提取現(xiàn)有視頻,并對其進行擴展或填充缺失的幀。更多信息,請參閱 OpenAI 的技術(shù)報告。
Sora 是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ),我們相信這種能力將是實現(xiàn) AGI 的重要里程碑。
三、總結(jié)
OpenAI 發(fā)布其首個 AI 視頻生成模型 Sora:這是一個能夠根據(jù)文本指令生成逼真而富有想象力的視頻的模型,它使用了擴散模型和 Transformer 架構(gòu),能夠生成長達一分鐘的超長視頻,還能保持多鏡頭的一致性。
Sora 展現(xiàn)了對世界的理解和模擬:這個模型能夠?qū)W習(xí)到關(guān)于 3D 幾何、物理規(guī)律、語義理解和故事敘述的知識,它甚至能夠創(chuàng)造出類似皮克斯作品的動畫效果,有著世界模型的雛形。
Sora 顛覆了視頻生成領(lǐng)域:這個模型的效果遠超過了目前的 AI 視頻工具,如 Runway Gen 2 和 Pika,它能夠?qū)崿F(xiàn)視頻和現(xiàn)實的無縫對接,讓普通人也能在社交媒體上制作出高質(zhì)量的視頻內(nèi)容。
Sora 可能為實現(xiàn) AGI 奠定了基礎(chǔ):這個模型是對真實世界和虛構(gòu)世界的模擬,是通用人工智能的重要步驟,也是 OpenAI 的核心使命。
最新消息:本文是設(shè)想的方式,但 Sora 目前還未正式對外上線。后續(xù)預(yù)計先在 ChatGPT Plus 會員覆蓋。文章來源:http://www.zghlxwxcb.cn/news/detail-832265.html
如果你想體驗 ChatGPT4 服務(wù),可以查看這篇文章:ChatGPT4.0升級教程文章來源地址http://www.zghlxwxcb.cn/news/detail-832265.html
到了這里,關(guān)于突破性創(chuàng)新:OpenAI推出Sora視頻模型,預(yù)示視頻制作技術(shù)的未來已到來!的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!