国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<thead id="i6gea"></thead>

<video id="i6gea"></video>

最新技術(shù)解析：Open ai新推出了視頻生成工具Sora

2年前作者：進(jìn)階中的program_peng分類：Toy博客閱讀(33)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了最新技術(shù)解析：Open ai新推出了視頻生成工具Sora。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

文章目錄

- 概要
- 技術(shù)名詞解釋
- 技術(shù)細(xì)節(jié)
- 小結(jié)

概要

OpenAI 的 GPT 大模型最近幾年發(fā)展迅猛，起初我還是觀望或者看客心態(tài)，畢竟新鮮事物太多。直到最近半年兩個(gè)技術(shù)改變了我的看法，之前推出的諸如人工智能圖片生成器（Midjourney、DALL-E2、Stableboost、NovelAI和Stable Diffusion等）以及本月發(fā)布的視頻生成器Sora,給我?guī)砹吮容^大的觸動(dòng)，讓我開始正視OpenApi的前瞻性發(fā)展以及未來對(duì)社會(huì)生產(chǎn)力的巨大變革。后面我會(huì)找時(shí)間寫一篇人工智能圖片生成器的技術(shù)解析。

技術(shù)名詞解釋

Sora地址：Video generation models as world simulators

open曖曖的視頻生成軟件,人工智能

OpenApi 地址：https://platform.openai.com/

open曖曖的視頻生成軟件,人工智能

Midjourney?地址：Midjourney Documentation and User Guide

open曖曖的視頻生成軟件,人工智能

技術(shù)細(xì)節(jié)

本文不在詳細(xì)解析圖片生成工具，后續(xù)會(huì)專門出一篇文章介紹，僅在此文種附幾張midjourney生成的圖片，讓各位感受一下技術(shù)變革的強(qiáng)大：

open曖曖的視頻生成軟件,人工智能

open曖曖的視頻生成軟件,人工智能

open曖曖的視頻生成軟件,人工智能

open曖曖的視頻生成軟件,人工智能

本期重點(diǎn)講一下Sora的技術(shù)革新：

OpenAI的Sora模型是最近兩天最火熱的模型。它生成的視頻無論是清晰度、連貫性和時(shí)間上都有非常好的結(jié)果。在Sora之前，業(yè)界已經(jīng)有了很多視頻生成工具和平臺(tái)

open曖曖的視頻生成軟件,人工智能

OpenAI Sora視頻生成能力與其它平臺(tái)和工具的對(duì)比表
OpenAI的Sora視頻生成的能力概覽
- OpenAI Sora可以生成長(zhǎng)達(dá)一分鐘的視頻
- OpenAI Sora可以生成更加自由尺寸的視頻
- OpenAI Sora可以支持向前以及向后擴(kuò)展視頻
- OpenAI Sora支持多個(gè)視頻的連接
OpenAI Sora涌現(xiàn)出真實(shí)物理世界模擬的能力
OpenAI Sora可以模擬人工過程
OpenAI Sora的技術(shù)獨(dú)特之處
- OpenAI Sora與Diffusion模型和Transformers模型的比較
OpenAI Sora模型的缺點(diǎn)

OpenAI Sora視頻生成能力與其它平臺(tái)和工具的對(duì)比表

在這里，我們先用一張表格來展示OpenAI Sora與其它視頻生成工具（如Runway Gen2、Pika等）的區(qū)別。然后我們針對(duì)OpenAI Sora的特別之處進(jìn)行詳細(xì)解釋。

open曖曖的視頻生成軟件,人工智能

從這個(gè)表單可以看出，不論是基本的視頻生成能力（時(shí)長(zhǎng)、長(zhǎng)寬比），還是更強(qiáng)的視頻連續(xù)性、真實(shí)世界模擬等，OpenAI Sora都有無可比擬的優(yōu)勢(shì)。其中，視頻清晰度，OpenAI Sora默認(rèn)是1080P，而且其它平臺(tái)大多數(shù)默認(rèn)的清晰度也都是1080P以下，只是在經(jīng)過upscale等操作之后可以達(dá)到更清晰的水平。

上述視頻生成能力項(xiàng)中，視頻連接、數(shù)字世界模擬、影響世界狀態(tài)（世界交互）、運(yùn)動(dòng)相機(jī)模擬等都是此前視頻平臺(tái)或者工具中較少提及的，下面我們也將詳細(xì)解釋。另外值得一提的是，OpenAI Sora模型還可以直接生成圖片，也就是說，它是一個(gè)以視頻生成為核心的多能力模型。

open曖曖的視頻生成軟件,人工智能

OpenAI的Sora視頻生成的能力概覽

首先，在詳細(xì)描述Sora視頻生成與Runway Gen2等平臺(tái)的差異之前。我們先總結(jié)一下Sora視頻生成的一些能力。

OpenAI Sora可以生成長(zhǎng)達(dá)一分鐘的視頻

在OpenAI發(fā)布Sora之前，業(yè)界基于大模型生成視頻的主要平臺(tái)有Pika、Runway Gen2等，但是這兩個(gè)平臺(tái)視頻生成默認(rèn)都是幾秒中，即便通過視頻擴(kuò)展等手段，最多也只能生成十幾秒的視頻。而OpenAI的Sora可以生成最多1分鐘的視頻。并且視頻生成的結(jié)果非常連貫和清晰。

OpenAI Sora可以生成更加自由尺寸的視頻

根據(jù)OpenAI的Sora技術(shù)報(bào)告，Sora模型可以采樣寬屏1920x1080視頻、豎屏1080x1920視頻以及介于兩者之間的所有尺寸視頻。這意味著它可以生成更加自由的視頻尺寸。而此前的視頻平臺(tái)，如Runway Gen2，文本生成視頻的方式只能選擇16:9, 9:16, 1:1, 4:3, 3:4, 以及 21:9的長(zhǎng)寬比。至于清晰度，則默認(rèn)1408?×?768px。

open曖曖的視頻生成軟件,人工智能

上圖是生成海歸游泳的視頻，不同尺寸的視頻里面海歸都是正中間位置，不會(huì)出現(xiàn)主要目標(biāo)被剪裁的情況。

OpenAI Sora可以支持向前以及向后擴(kuò)展視頻

這是OpenAI Sora另一個(gè)與此前視頻生成平臺(tái)有巨大差異的地方?；谝延幸曨l繼續(xù)擴(kuò)展在Runway Gen2、Pika等平臺(tái)都有。但是現(xiàn)有平臺(tái)的視頻擴(kuò)展通常是在當(dāng)前視頻的基礎(chǔ)上繼續(xù)向前生成幾秒的視頻。但是，OpenAI Sora可以在視頻的基礎(chǔ)上向前或者向后擴(kuò)展。例如給定一個(gè)視頻，OpenAI Sora可以為該視頻創(chuàng)造不同的開頭，最后都是以該視頻結(jié)尾，過程非常連續(xù)。因此，Sora甚至可以在一個(gè)視頻上同時(shí)向前和向后擴(kuò)展，以產(chǎn)生一個(gè)無限連續(xù)的循環(huán)視頻。

OpenAI Sora支持多個(gè)視頻的連接

這是另一個(gè)Sora與眾不同的地方。給定兩個(gè)視頻，OpenAI Sora可以將這兩個(gè)視頻揉在一起，生成一個(gè)新的毫無違和感的視頻。例如，給一個(gè)無人機(jī)穿越古羅馬建筑的視頻，再給一個(gè)蝴蝶在海底珊瑚飛行的視頻，Sora可以生成一個(gè)新的視頻，讓無人機(jī)變成蝴蝶，古羅馬建筑變成珊瑚風(fēng)格。

open曖曖的視頻生成軟件,人工智能

上圖是兩個(gè)例子，左右兩邊是原來的2個(gè)視頻，中間是基于這原有的2個(gè)視頻連接后生成的新的視頻。第一個(gè)就是剛才的蝴蝶與無人機(jī)的案例。第二個(gè)是圣誕節(jié)雪景和真實(shí)拍照的建筑視頻的融合。

OpenAI Sora涌現(xiàn)出真實(shí)物理世界模擬的能力

OpenAI Sora可以生成更加真實(shí)的物理世界的視頻。例如東京街頭逛街的時(shí)尚女模、登山運(yùn)動(dòng)員等。但是，與其它平臺(tái)的真實(shí)物理世界視頻生成不同的是，OpenAI Sora可以以運(yùn)動(dòng)相機(jī)拍攝的方式來展示視頻，包括運(yùn)動(dòng)相機(jī)的轉(zhuǎn)換、旋轉(zhuǎn)等。而這里最大的特點(diǎn)是運(yùn)動(dòng)相機(jī)拍攝的結(jié)果通常要與物理世界的三位空間一致，因此非常困難。但是Sora可以生成非常逼真的運(yùn)動(dòng)相機(jī)拍攝的視頻結(jié)果。

open曖曖的視頻生成軟件,人工智能

此外，視頻生成系統(tǒng)面臨的一個(gè)重大挑戰(zhàn)是在對(duì)長(zhǎng)視頻進(jìn)行采樣時(shí)保持時(shí)間一致性。OpenAI Sora經(jīng)常（但并非總是）能夠有效地對(duì)短距離和長(zhǎng)距離依賴關(guān)系進(jìn)行建模。例如，即使人、動(dòng)物和物體被遮擋或離開畫面，Sora模型也能保持它們的存在，在后續(xù)的視頻中依然出現(xiàn)原有的人物或者動(dòng)物。同樣，它還能在單個(gè)樣本中生成同一人物的多個(gè)鏡頭，并在整個(gè)視頻中保持其外觀。

同時(shí)，Sora有時(shí)可以模擬一些影響世界狀態(tài)的簡(jiǎn)單動(dòng)作。例如，畫家可以在畫布上留下新的筆觸，并隨著時(shí)間的推移而持續(xù)，或者一個(gè)人可以吃一個(gè)漢堡，并留下咬痕。=

open曖曖的視頻生成軟件,人工智能

open曖曖的視頻生成軟件,人工智能

OpenAI Sora可以模擬人工過程

除了真實(shí)的物理世界外，OpenAI Sora還可以模擬人類創(chuàng)造的一些世界或者過程。Sora模型可以通過理解語言提示來模擬和渲染視頻游戲世界（如Minecraft）的高級(jí)能力。它不僅能夠以高保真度同時(shí)渲染游戲環(huán)境和動(dòng)態(tài)，還能控制游戲中的玩家角色，執(zhí)行基本策略。這種能力表明Sora不僅具備強(qiáng)大的語言理解和任務(wù)推斷能力，還能處理復(fù)雜的視覺和控制任務(wù)，尤其在視頻游戲仿真領(lǐng)域表現(xiàn)出色。

open曖曖的視頻生成軟件,人工智能

Sora模型的能力表明，繼續(xù)擴(kuò)大視頻模型的規(guī)模是朝向開發(fā)能夠高度仿真物理和數(shù)字世界及其中的對(duì)象、動(dòng)物和人的高能力模擬器的有希望的路徑。這種擴(kuò)展不僅增強(qiáng)了模型處理復(fù)雜場(chǎng)景的能力，還提升了其對(duì)世界各種元素的理解和模擬能力，從而為創(chuàng)建更加智能和逼真的AI系統(tǒng)鋪平了道路。

OpenAI Sora的技術(shù)獨(dú)特之處

盡管此次OpenAI一如既往地沒有詳細(xì)披露Sora模型的技術(shù)細(xì)節(jié)。但是也有一定的篇幅介紹了相關(guān)的技術(shù)。這里我們針對(duì)其中核心的幾點(diǎn)來說明。

OpenAI Sora是一種結(jié)合了Diffusion模型和Transformer模型的技術(shù)。通過將視頻壓縮網(wǎng)絡(luò)將原始視頻壓縮到一個(gè)低維的潛在空間，并將這些表示分解為時(shí)空補(bǔ)丁，類似于Transformer的tokens，這樣的表示使得模型能夠有效地訓(xùn)練在不同分辨率、持續(xù)時(shí)間和寬高比的視頻和圖像上。

OpenAI Sora與Diffusion模型和Transformers模型的比較

共同點(diǎn)：Sora模型利用了Diffusion模型的生成能力和Transformers模型的自注意力機(jī)制。它通過預(yù)測(cè)干凈補(bǔ)丁的方式生成視覺內(nèi)容，同時(shí)利用Transformers模型處理時(shí)空補(bǔ)丁的能力。
差異：
- 與Diffusion模型：Sora不僅僅是一個(gè)簡(jiǎn)單的Diffusion模型，它通過引入Transformers模型的自注意力機(jī)制和視頻壓縮技術(shù)，增強(qiáng)了處理不同分辨率和格式視頻的能力。
- 與Transformers模型：Sora超越了傳統(tǒng)Transformers模型的應(yīng)用范圍，通過將視覺數(shù)據(jù)轉(zhuǎn)換為補(bǔ)丁并利用Diffusion過程生成視覺內(nèi)容，它結(jié)合了兩種模型的優(yōu)勢(shì)，實(shí)現(xiàn)了視頻和圖像的高效生成。

同時(shí)，OpenAI也強(qiáng)調(diào)了，這個(gè)模型在大量的數(shù)據(jù)上訓(xùn)練后就能提高視頻生成的效果。下圖展示了訓(xùn)練過程中模型水平的提升：

open曖曖的視頻生成軟件,人工智能換個(gè)角度說，OpenAI Sora也是某種程度上大力出奇跡的一個(gè)成果。

OpenAI Sora模型的缺點(diǎn)

除了上面描述的優(yōu)點(diǎn)外，OpenAI Sora視頻生成也有一些缺點(diǎn)。在模擬復(fù)雜場(chǎng)景的物理現(xiàn)象、理解特定因果關(guān)系、處理空間細(xì)節(jié)、以及準(zhǔn)確描述隨時(shí)間變化的事件方面OpenAI Sora都存在問題。主要總結(jié)如下：

物理交互的不準(zhǔn)確模擬：
Sora模型在模擬基本物理交互，如玻璃破碎等方面，不夠精確。這可能是因?yàn)槟Ｐ驮谟?xùn)練數(shù)據(jù)中缺乏足夠的這類物理事件的示例，或者模型無法充分學(xué)習(xí)和理解這些復(fù)雜物理過程的底層原理。
對(duì)象狀態(tài)變化的不正確：
在模擬如吃食物這類涉及對(duì)象狀態(tài)顯著變化的交互時(shí)，Sora可能無法始終正確反映出變化。這表明模型可能在理解和預(yù)測(cè)對(duì)象狀態(tài)變化的動(dòng)態(tài)過程方面存在局限。
常見的模型失敗模式：
- 長(zhǎng)時(shí)視頻樣本的不連貫性：在生成長(zhǎng)時(shí)間的視頻樣本時(shí)，Sora可能會(huì)產(chǎn)生不連貫的情節(jié)或細(xì)節(jié)，這可能是由于模型難以在長(zhǎng)時(shí)間跨度內(nèi)保持上下文的一致性。
- 對(duì)象的突然出現(xiàn)：視頻中可能會(huì)出現(xiàn)對(duì)象的無緣無故出現(xiàn)，這表明模型在空間和時(shí)間連續(xù)性的理解上還有待提高。

小結(jié)

各位看客：外面世界的前進(jìn)腳步遠(yuǎn)比我們想象的快速，百年前的閉關(guān)鎖國(guó)在血與淚的沉重歷史長(zhǎng)河中，已然向世人證明，面對(duì)技術(shù)變更，我們需正視運(yùn)用現(xiàn)有手段緊跟時(shí)代步伐。緊跟最前沿的科技方向，只有這樣才不會(huì)被日新月異時(shí)代潮流所淘汰。后續(xù)我也將開始帶大家進(jìn)入OpenApi的宏觀世界。文章來源地址http://www.zghlxwxcb.cn/news/detail-840634.html

到了這里，關(guān)于最新技術(shù)解析：Open ai新推出了視頻生成工具Sora的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

最新CAMx-Python融合技術(shù)應(yīng)用與大氣污染來源解析方法應(yīng)用
隨著我國(guó)經(jīng)濟(jì)快速發(fā)展，我國(guó)面臨著日益嚴(yán)重的大氣污染問題。大氣污染是工農(nóng)業(yè)生產(chǎn)、生活、交通、城市化等方面人為活動(dòng)的綜合結(jié)果，同時(shí)氣象因素是控制大氣污染的關(guān)鍵自然因素。大氣污染問題既是局部、當(dāng)?shù)氐模彩菂^(qū)域的，甚至是全球的。本地的污染物排放除了對(duì)
2023年04月11日
瀏覽(18)
最新技術(shù)整理3款開源免費(fèi)直播推流工具，實(shí)現(xiàn)實(shí)時(shí)視頻推流、視頻拉流，目標(biāo)端可以是服務(wù)器、云平臺(tái)、移動(dòng)設(shè)備等（附源碼）
最新技術(shù)整理3款開源免費(fèi)直播推流工具，實(shí)現(xiàn)實(shí)時(shí)視頻推流、視頻拉流，目標(biāo)端可以是服務(wù)器、云平臺(tái)、移動(dòng)設(shè)備等（附源碼）。什么是推流？視頻推流是指將實(shí)時(shí)的視頻數(shù)據(jù)從一個(gè)源端發(fā)送到一個(gè)或多個(gè)目標(biāo)端的過程。推流的源端可以是攝像頭、采集卡等設(shè)備，而目標(biāo)端
2024年02月04日
瀏覽(61)
Devin內(nèi)測(cè)注冊(cè)全攻略：一文帶你快速體驗(yàn)最新AI軟件工程師技術(shù) ?
博主貓頭虎的技術(shù)世界 ?? 歡迎來到貓頭虎的博客 — 探索技術(shù)的無限可能！專欄鏈接： ?? 精選專欄：《面試題大全》 — 面試準(zhǔn)備的寶典！《IDEA開發(fā)秘籍》 — 提升你的IDEA技能！《100天精通鴻蒙》 — 從Web/安卓到鴻蒙大師！《100天精通Golang（基礎(chǔ)入門篇）》 — 踏入
2024年03月16日
瀏覽(239)
《花雕學(xué)AI》15：BingGPT桌面端——嘗鮮體驗(yàn)ChatGPT4.0同源技術(shù)新Bing的最新成果
37款傳感器與執(zhí)行器的提法，在網(wǎng)絡(luò)上廣泛流傳，其實(shí)Arduino能夠兼容的傳感器模塊肯定是不止這37種的。鑒于本人手頭積累了一些傳感器和執(zhí)行器模塊，依照實(shí)踐出真知（一定要?jiǎng)邮肿觯┑睦砟睿詫W(xué)習(xí)和交流為目的，這里準(zhǔn)備逐一動(dòng)手嘗試系列實(shí)驗(yàn)，不管成功（程序走通）
2023年04月23日
瀏覽(36)
當(dāng)前爆火的：ChatGPT4、Claude3、Gemini、Sora、GPTs及AI領(lǐng)域中的集中大模型的最新技術(shù)
原文鏈接：當(dāng)前爆火的：ChatGPT4、Claude3、Gemini、Sora、GPTs及AI領(lǐng)域中的集中大模型的最新技術(shù) 第一： 2024年AI領(lǐng)域最新技術(shù) 1. 最新超強(qiáng)模型Claude3使用 2.OpenAI新模型-GPT-5 3. 谷歌新模型-Gemini使用 4.Meta新模型-LLama3 5. 阿里巴巴-通義千問 6. 科大訊飛-星火認(rèn)知 7. 百度-文心一言 8. M
2024年03月24日
瀏覽(30)
OpenAI-ChatGPT最新官方接口《AI繪圖》全網(wǎng)最詳細(xì)中英文實(shí)用指南和教程，助你零基礎(chǔ)快速輕松掌握全新技術(shù)（三）（附源碼）
Learn how to generate or manipulate images with our DALL·E models 了解如何使用我們的DALL·E模型生成或操作圖像 ChatGPT不僅僅是一個(gè)強(qiáng)大的自然語言處理模型，其DALL·E模型還可以幫助用戶快速生成多種多樣的圖像。用戶可以根據(jù)文字快速生成圖片，即可自動(dòng)生成出特定的圖片，大大提高了
2024年02月02日
瀏覽(32)
最新ChatGPT GPT-4 NLU實(shí)戰(zhàn)之智能多輪對(duì)話機(jī)器人（附ipynb與python源碼及視頻）——開源DataWhale發(fā)布入門ChatGPT技術(shù)新手從0到1必備使用指南手冊(cè)（七）
智能多輪對(duì)話機(jī)器人是一種可以自主進(jìn)行多輪對(duì)話的機(jī)器人系統(tǒng)，具有高度的交互性和可用性。智能多輪對(duì)話機(jī)器人旨在通過模擬人類對(duì)話方法來實(shí)現(xiàn)與用戶之間更加自然和有效的溝通。然而，由于自然語言的復(fù)雜性和多變性，使得該技術(shù)面臨巨大的挑戰(zhàn)。當(dāng)前，基于大預(yù)
2024年02月12日
瀏覽(31)
最新CMS指紋識(shí)別技術(shù)
CMS（Content Management System，內(nèi)容管理系統(tǒng)），又稱整站系統(tǒng)或文章系統(tǒng)，用于網(wǎng)站內(nèi)容管理。用戶只需下載對(duì)應(yīng)的CMS軟件包，部署、搭建后就可以直接使用CMS。各CMS具有獨(dú)特的結(jié)構(gòu)命名規(guī)則和特定的文件內(nèi)容。目前常見的CMS有DedeCMS、Discuz、PHPWeb、PHPWind、PHPCMS、ECShop、Dvbbs、
2024年02月11日
瀏覽(26)
最新的AIGC相關(guān)技術(shù)更新
《PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding》作者機(jī)構(gòu)：南開大學(xué)騰訊 PCG ARC 實(shí)驗(yàn)室東京大學(xué) 相關(guān)鏈接 [Paper] [Code] [Demo] [Model Card] [BibTeX] 摘要文本到圖像生成的最新進(jìn)展在根據(jù)給定文本提示合成逼真的人類照片方面取得了顯著進(jìn)展。然而，現(xiàn)有的個(gè)性化生成方
2024年01月20日
瀏覽(23)
技術(shù)解讀 | 科大訊飛語音技術(shù)最新進(jìn)展之二：語音識(shí)別與語音合成
這一篇內(nèi)容將圍繞語音識(shí)別與合成方向，繼續(xù)為大家?guī)硐嚓P(guān)技術(shù)解析。 “風(fēng)物長(zhǎng)宜放眼量”。面向人機(jī)交互更加自然流暢的未來，智能語音技術(shù)進(jìn)展如何？該走向何方？以下內(nèi)容根據(jù)訊飛研究院杰出科學(xué)家潘嘉在NCMMSC 2022上的主題演講《科大訊飛語音技術(shù)前沿進(jìn)展》整理。
2024年02月07日
瀏覽(74)

~~^{<legend id="in0iv"></legend>}~~

^{<tr id="in0iv"><strong id="in0iv"></strong></tr>}

<small id="in0iv"></small>