一、一覺(jué)醒來(lái),AI 視頻已變天
早上一覺(jué)醒來(lái),群里和朋友圈又被刷屏了。
今年開(kāi)年 AI 界最大的震撼事件:OpenAI 發(fā)布了他們的文生視頻大模型 Sora。
OpenAI 文生視頻大模型 Sora 的橫空出世,預(yù)示著 AI 視頻要變天了,視頻創(chuàng)作領(lǐng)域要重新洗牌!
啥都不說(shuō),先來(lái)感受一番:
OpenAI Sora 生成視頻
再來(lái)看看其他由 Sora 生成的視頻:
OpenAI Sora 示例視頻 big-sur
你還能辨得出真假嗎?
OpenAI Sora 示例視頻 Kangroo
更多視頻效果,大家可以去 OpenAI 的官網(wǎng)瀏覽。
傳送門(mén):https://openai.com/sora
看了 OpenAI 官網(wǎng) Sora 做出的視頻效果,說(shuō) Sora 目前是 「AI 視頻領(lǐng)域的地表最強(qiáng)」,應(yīng)該沒(méi)有人反對(duì)吧。
二、OpenAI Sora 有哪些技術(shù)突破
一)視頻時(shí)長(zhǎng)的突破
之前更新了一個(gè) AI 視頻工具的系列專(zhuān)欄,有的小伙伴私信找我說(shuō),為什么推薦的這些 AI 視頻工具,都只能生成幾秒的視頻呀。
確實(shí),在 OpenAI 的 Sora 橫空出世之前,AI 視頻工具還沒(méi)有突破視頻時(shí)長(zhǎng)的限制?;径贾荒苌蓭酌氲囊曨l。
如果想通過(guò) AI 視頻工具生成視頻,來(lái)做自媒體或其他用途,需要多次生成,再用一些剪輯、特效工具加工后,才能出片。
而 Sora 的出現(xiàn),突破了 AI 視頻領(lǐng)域的這一限制,可以直接生成長(zhǎng)達(dá)一分鐘的視頻。
提到時(shí)長(zhǎng),瞬間覺(jué)得 Pika、Runway 等 AI 視頻工具不香了。
二)世界模型
除了視頻時(shí)長(zhǎng)有突破外,Sora 模型不僅了解用戶在提示詞中要求的內(nèi)容,還了解這些東西「在物理世界中的存在方式」。
之前聽(tīng)過(guò)卡茲克大佬一個(gè)關(guān)于 AI 視頻的分享,在分享中,也提到了「物理規(guī)律」這個(gè)概念。
比如一拳掄到一個(gè)怪物的頭上,它是有一個(gè)物體的交互的,整個(gè)視頻的呈現(xiàn),都是要符合物理世界的規(guī)律。
但在 Sora 之前的 AI 視頻工具中,這塊并沒(méi)有突破。
而這塊如果沒(méi)有突破,AI 生成的視頻,是很難應(yīng)用到影視或者工業(yè)這塊的。
但 Sora 的出現(xiàn),讓我們看到了可能性。
比如官網(wǎng)上的這個(gè)示例視頻,枕頭和被子的凹陷,都呈現(xiàn)得非常真實(shí)。
OpenAI Sora 官方示例視頻 cat-on-bed
Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.
提示詞:一只貓叫醒熟睡的主人要求吃早餐。主人試圖無(wú)視貓,但貓嘗試了新的策略,最后主人從枕頭下掏出一個(gè)秘密的零食藏匿處,讓貓多呆一會(huì)兒。
三)單視頻多角度鏡頭
另外,Sora 還可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)角度的鏡頭,且「一致性」和「穩(wěn)定性」強(qiáng)得驚人。
這在之前的 AI 視頻工具中,是遠(yuǎn)遠(yuǎn)達(dá)不到的。
可以看官網(wǎng)的視頻示例。
三、OpenAI Sora 目前有哪些缺陷
雖然 OpenAI 的 Sora 已經(jīng)在技術(shù)上有了很大突破,但依然存在一些缺陷。
比如,它可能難以準(zhǔn)確地模擬復(fù)雜場(chǎng)景的物理現(xiàn)象,也可能無(wú)法理解因果關(guān)系的具體實(shí)例。
官方也舉了一個(gè)例子。
比如,一個(gè)人可能咬了一口餅干,但是之后,餅干上可能沒(méi)有咬痕。
除此之外,該模型還可能混淆提示的空間細(xì)節(jié)。
例如,左右混淆,并且可能難以精確描述隨時(shí)間推移發(fā)生的事件,比如遵循特定的相機(jī)軌跡。
四、OpenAI Sora 技術(shù)實(shí)現(xiàn)
Sora 是一種擴(kuò)散模型,它從看起來(lái)像靜態(tài)噪聲的視頻開(kāi)始生成視頻,然后通過(guò)多個(gè)步驟消除噪聲來(lái)逐漸轉(zhuǎn)換視頻。
Sora 能夠一次生成整個(gè)視頻或擴(kuò)展生成的視頻以使其更長(zhǎng)。通過(guò)讓模型一次看到許多幀,解決了一個(gè)具有挑戰(zhàn)性的問(wèn)題,即確保一個(gè)主題即使暫時(shí)離開(kāi)視野也能保持不變。
與 GPT 模型類(lèi)似,Sora 使用 transformer 架構(gòu),釋放出卓越的擴(kuò)展性能。
將視頻和圖像表示為稱(chēng)為補(bǔ)丁的較小數(shù)據(jù)單元的集合,每個(gè)補(bǔ)丁都類(lèi)似于 GPT 中的一個(gè) token。通過(guò)統(tǒng)一我們表示數(shù)據(jù)的方式,我們可以在比以前更廣泛的視覺(jué)數(shù)據(jù)上訓(xùn)練擴(kuò)散變壓器,跨越不同的持續(xù)時(shí)間、分辨率和縱橫比。
Sora建立在 DALL·E 和 GPT 模型上。它使用了 DALL·E 3,涉及為視覺(jué)訓(xùn)練數(shù)據(jù)生成高度描述性的標(biāo)題。因此,該模型能夠更忠實(shí)地遵循生成視頻中用戶的文本說(shuō)明。
除了能夠僅根據(jù)文本說(shuō)明生成視頻外,Sora 模型還能夠獲取現(xiàn)有的靜止圖像并從中生成視頻,從而準(zhǔn)確無(wú)誤地對(duì)圖像內(nèi)容進(jìn)行動(dòng)畫(huà)處理,并注重小細(xì)節(jié)。
該模型還可以拍攝現(xiàn)有視頻并對(duì)其進(jìn)行擴(kuò)展或填充缺失的幀。
更多技術(shù)細(xì)節(jié),請(qǐng)參考:
https://openai.com/research/video-generation-models-as-world-simulators文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-827574.html
一覺(jué)醒來(lái),Sora 已顛覆 AI 視頻領(lǐng)域,視頻、影視、廣告等行業(yè)將重新洗牌,AGI 還遠(yuǎn)嗎?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-827574.html
到了這里,關(guān)于OpenAI 發(fā)布文生視頻大模型 Sora,AI 視頻要變天了,視頻創(chuàng)作重新洗牌!AGI 還遠(yuǎn)嗎?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!