2022年末,OpenAI聊天機器人ChatGPT的面世無疑成為了引領(lǐng)人工智能浪潮的標志性事件,宣告了新一輪科技革命的到來。無論是聊天娛樂、教育學習,還是工作生產(chǎn)、醫(yī)療健康等領(lǐng)域,人工智能正以前所未有的速度滲透到我們生活的方方面面。
2月16日凌晨,OpenAI再次扔出一枚深水炸彈,發(fā)布了首個文生視頻模型Sora。據(jù)介紹,Sora可以直接輸出長達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。
這意味著,繼文本、圖像之后,OpenAI將其先進的AI技術(shù)拓展到了視頻領(lǐng)域。OpenAI亦表示,Sora是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ),這一能力將是實現(xiàn)AGI(通用人工智能)的重要里程碑。
對于OpenAI視頻生成模型的出現(xiàn),業(yè)內(nèi)其實早有預期,但仍有人評價稱“比想象中來得更快”,亦有人振奮地表示“我們真的看到新工業(yè)革命來臨”。
2月16日,業(yè)內(nèi)分析人士對《每日經(jīng)濟新聞》記者表示,Sora無疑是人工智能領(lǐng)域的一次重大突破,該技術(shù)不僅展示了AI在理解和創(chuàng)造復雜視覺內(nèi)容方面的先進能力,而且對內(nèi)容創(chuàng)作、娛樂和影視制作行業(yè)帶來了前所未有的挑戰(zhàn)和機遇。
目前官網(wǎng)上已經(jīng)更新了48個視頻demo,在這些demo中,Sora不僅能準確呈現(xiàn)細節(jié),還能理解物體在物理世界中的存在,并生成具有豐富情感的角色。該模型甚至還可以根據(jù)提示、靜止圖像填補現(xiàn)有視頻中的缺失幀來生成視頻。
人們一直期待GPT-5,但Sora帶來的轟動不亞于一次GPT-5的發(fā)布。
作為OpenAI 首推的文本轉(zhuǎn)視頻模型,Sora能夠根據(jù)文本指令或靜態(tài)圖像生成長達 1分鐘的視頻,其中包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動。同時也接受現(xiàn)有視頻擴展或填補缺失的幀。
每條提示60秒的視頻長度與Pika Labs的3秒、Meta Emu Video的4秒、和Runway公司Gen-2的18秒相比,妥妥地鐵贏了。并且從官方發(fā)布的演示來看,無論從視頻流暢度還是細節(jié)表現(xiàn)能力上,Sora的效果都相當驚艷。
例如一個Prompt(大語言模型中的提示詞)的描述是:在東京街頭,一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標志的街道上。
在Sora生成的視頻里,女士身著黑色皮衣、紅色裙子在霓虹街頭行走,不僅主體連貫穩(wěn)定,還有多鏡頭,包括從大街景慢慢切入到對女士的臉部表情的特寫,以及潮濕的街道地面反射霓虹燈的光影效果。
對于五官和皮膚的刻畫十分真實,特別是痘印和法令紋,細節(jié)讓人驚嘆。
AI想象中的龍年春節(jié),紅旗招展人山人海。有兒童緊跟舞龍隊伍抬頭好奇觀望,還有不少人掏出手機邊跟邊拍,海量人物角色各有各的行為。
豎屏超近景視角下,這只蜥蜴細節(jié)拉滿:
Sora模型能夠生成包含多個角色、特定類型運動和主體及背景精確細節(jié)的復雜場景。該模型不僅能理解用戶在提示中所要求的內(nèi)容,還能理解這些事物在現(xiàn)實世界中的存在方式。該模型對語言有深刻理解,能準確解讀提示,并生成表達豐富情感的引人入勝的角色。Sora還能在單個生成的視頻中創(chuàng)建多個鏡頭,使角色和視覺風格保持準確一致。
比如一大群紙飛機在樹林中飛過,Sora知道碰撞后會發(fā)生什么,并表現(xiàn)其中的光影變化。
一群紙飛機在茂密的叢林中翩翩起舞,在樹林中穿梭,就像候鳥一樣。
對于Sora當前存在的弱點,OpenAI也不避諱,指出它可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關(guān)系。
例如,它在準確模擬復雜場景的物理現(xiàn)象方面存在困難,也可能不理解特定的因果關(guān)系。比方說“一個人咬一口餅干后,餅干上可能并沒有咬痕?!?/p>
模型也可能混淆提示的空間細節(jié),像是弄錯左右?;蛘摺霸跍蚀_體現(xiàn)隨時間發(fā)生的事件方面遇到困難,比如遵循特定的攝像機軌跡”。
Sora也使用了DALL·E 3的recaptioning技術(shù),該技術(shù)涉及為視覺訓練數(shù)據(jù)生成高度描述性的標題。因此模型能夠更忠實地按照用戶在生成視頻中的文本指令進行操作。
它能夠一次性生成整個視頻,或是擴展已生成的視頻使其變長。通過讓模型一次性預見多幀,解決了即使主體暫時離開視線也能保持不變的挑戰(zhàn)性問題。
例如“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,狼的數(shù)量會變化,有的狼崽憑空出現(xiàn)或消失。
該模型還可能混淆提示詞的空間細節(jié),例如混淆左右,并且可能難以精確描述隨著時間推移發(fā)生的事件,例如遵循特定的相機軌跡。
如根據(jù)提示詞“籃球穿過籃筐然后爆炸”生成的視頻中,籃球撞到籃筐邊緣竟然沒有反彈而是直接穿過。
OpenAI表示,他們正在教AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現(xiàn)實世界交互的問題。
同時OpenAI解釋了Sora的工作原理,Sora是一個擴散模型,它從類似于靜態(tài)噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉(zhuǎn)化為清晰的圖像場景。Sora使用了Transformer架構(gòu),有極強的擴展性。
如今,Sora正面向部分成員開放,以評估關(guān)鍵領(lǐng)域的潛在危害或風險。同時,OpenAI也邀請了一批視覺藝術(shù)家、設(shè)計師和電影制作人加入,期望獲得寶貴反饋,以推動模型進步,更好地助力創(chuàng)意工作者。
Sam Altman就轉(zhuǎn)發(fā)網(wǎng)友用Sora制作的“金光燦燦動物園”視頻,玩起了自己的“What”梗:
他還邀請大家踴躍提出想用Sora制作視頻的提示詞,團隊馬上為大家生成,瞬間8千多條回復。
網(wǎng)友腦洞大開,要看海洋生物的自行車公開賽。
關(guān)于安全性,OpenAI表示正與錯誤信息、仇恨內(nèi)容和偏見等領(lǐng)域的專家合作,對模型進行對抗性測試。同時也在開發(fā)幫助檢測誤導性內(nèi)容的工具,識別視頻是否由Sora生成。對于違反使用政策的文本提示,例如暴力、仇恨和侵犯他人知識產(chǎn)權(quán)等內(nèi)容,將拒絕顯示給用戶。
除此以外,為DALL·E 3產(chǎn)品構(gòu)建的現(xiàn)有安全方法也同樣適用于Sora。
“盡管進行了廣泛的研究和測試,我們?nèi)詿o法預測人們將如何利用我們的技術(shù),也無法預見人們?nèi)绾螢E用它。這就是為什么我們相信,從真實世界的用例中學習,是隨時間構(gòu)建越來越安全的AI系統(tǒng)的關(guān)鍵組成部分。”
OpenAI對 Sora信心滿滿,認為這為模型理解和模擬真實世界奠定了基礎(chǔ),是“實現(xiàn)AGI的重要里程碑”。
網(wǎng)友們也第n+1次紛紛哀悼起相關(guān)賽道的公司們:
“OpenAI就是不能停止殺死創(chuàng)業(yè)公司。”
“天哪,現(xiàn)在起我們要弄清什么是真的,什么是假的?!?/p>
“我的工作沒了。”
“整個影像素材行業(yè)被血洗,安息吧?!?/p>
能殺死GPT-4的世界模型?這不就是嗎
OpenAI一如既往沒有給出很詳細的技術(shù)說明,但一些只言片語已經(jīng)足夠讓你浮想聯(lián)翩。
其中最吸引我們注意的第一個點,是對數(shù)據(jù)的處理。
Sora是一個擴散模型(diffusion model),采用類似GPT的Transformer架構(gòu)。而在解決訓練中文本資料與視頻數(shù)據(jù)之間的統(tǒng)一方面,OpenAI表示,他們在處理圖像和視頻數(shù)據(jù)時,把對它們進行分割后得到的最小單元,稱為小塊(patches),也就是對應(yīng)LLM里的基本單元tokens。
這是一個很重要的技術(shù)細節(jié)。把它作為模型處理的基本單元,使得深度學習算法能夠更有效地處理各種視覺數(shù)據(jù),涵蓋不同的持續(xù)時間、分辨率和寬高比。
從最終的震撼效果看,你很難不得出這樣一個結(jié)論:對語言的理解能力,是可以遷移到對更多形態(tài)的數(shù)據(jù)的理解方法上去的。
此前的Dalle-3的效果就被公認很大程度來自O(shè)penAI在GPT上積累的領(lǐng)先N代的語言能力,哪怕是個圖像為輸出的模型,語言能力提升也是至關(guān)重要的。而今天的視頻模型,同樣如此。
至于它是如何做到的,有不少行業(yè)內(nèi)的專家給出了相同的猜測:它的訓練數(shù)據(jù)里使用了游戲領(lǐng)域最前端的物理引擎Unreal Engine5,簡單粗暴的理解,就是語言能力足夠強大之后,它帶來的泛化能力直接可以學習引擎生成的圖像視頻數(shù)據(jù)和它體現(xiàn)出的模式,然后還可以直接用學習來的,引擎最能理解的方式給這些利用了引擎的強大技術(shù)的視覺模型模塊下指令,生成我們看到的逼真強大的對物理世界體現(xiàn)出“理解”的視頻。
基于這個猜測,OpenAI簡短的介紹中的這句話似乎就更加重要了:
“Sora 是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ),OpenAI相信這一功能將成為實現(xiàn)AGI的重要里程碑?!?/p>
理解,現(xiàn)實,世界。
這不就是人們總在爭論的那個唯一有可能“干掉”GPT-4的世界模型?,F(xiàn)在,OpenAI搞出來了它的雛形,擺在了你的面前。
看起來,這個模型學會了關(guān)于 3D 幾何形狀和一致性的知識,而且并非OpenAI訓練團隊預先設(shè)定的,而是完全是通過觀察大量數(shù)據(jù)自然而然地學會的。負責Sora訓練的OpenAI科學家Tim Brooks表示,AGI將能夠模擬物理世界,而Sora就是邁向這個方向的關(guān)鍵一步。
顯然,在OpenAI眼里,它不只是一個“文生視頻模型”,而是更大的東西。
我們?nèi)绻麌L試進一步給一個暴論,就是:語言是理解一切的基礎(chǔ),理解了視頻后,世界模型才會到來。
可能這才是比今天刷屏感慨“現(xiàn)實不存在了”之外,更恐怖的地方。這可能是人類通往AGI的又一個ChatGPT時刻。文章來源:http://www.zghlxwxcb.cn/news/detail-830145.html
免責聲明:AI資訊內(nèi)容均來自網(wǎng)絡(luò)收集,僅供學習交流使用,嚴禁商用,版權(quán)屬于原作者,本公眾號不承擔用戶因使用或分享該資源對自身以及他人所造成的任何影響和傷害,如需獲得更好體驗,還請大家支持正版。如本公眾號內(nèi)容侵犯原作者的版權(quán)或利益,我們深感抱歉,請及時聯(lián)系我們刪除,發(fā)送郵件到:hmmwx53@163.com,我們將會在收到消息后立即刪除并撤下資源,感謝!文章來源地址http://www.zghlxwxcb.cn/news/detail-830145.html
到了這里,關(guān)于太炸了!Sora深夜發(fā)布!網(wǎng)友:我要失業(yè)了的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!