国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Sora:通過(guò)視頻生成模型制造世界模擬器(世界模型)

這篇具有很好參考價(jià)值的文章主要介紹了Sora:通過(guò)視頻生成模型制造世界模擬器(世界模型)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

OpenAI關(guān)于Sora的技術(shù)概要

OpenAI官網(wǎng)介紹:Video generation models as world simulators

OpenAI嘗試在視頻數(shù)據(jù)上探索生成模型的大規(guī)模訓(xùn)練,研究結(jié)果表明,尺度可變視頻生成模型是構(gòu)建物理世界通用模擬器的有希望的途徑。(可變的視頻時(shí)長(zhǎng)、幀分辨率和長(zhǎng)寬比)

OpenAI從大型語(yǔ)言模型(LLM)中獲得靈感,LLM通過(guò)對(duì)互聯(lián)網(wǎng)規(guī)模級(jí)別數(shù)據(jù)的訓(xùn)練獲得了通用且強(qiáng)大的能力。LLM范式的成功部分得益于使用標(biāo)記塊(token,作為符號(hào)系統(tǒng)的最小單位),token優(yōu)雅地統(tǒng)一了不同類(lèi)型的文本:代碼、數(shù)學(xué)和各種自然語(yǔ)言

與此對(duì)應(yīng),Sora有視覺(jué)塊(patch,統(tǒng)一圖像數(shù)據(jù)的最小單位)。之前的實(shí)踐表明patch是視覺(jué)數(shù)據(jù)模型的有效的表示。通過(guò)實(shí)際的訓(xùn)練,OpenAI發(fā)現(xiàn),對(duì)于訓(xùn)練不同類(lèi)型的視頻和圖像的生成模型,patch是一種高度可擴(kuò)展的有效表示。

OpenAI訓(xùn)練一個(gè)網(wǎng)絡(luò)來(lái)降低視覺(jué)數(shù)據(jù)的維數(shù),該網(wǎng)絡(luò)將原始視頻作為輸入,輸出時(shí)間和空間上都?jí)嚎s的潛在表示。Sora在這個(gè)低維度的潛在空間中訓(xùn)練。還訓(xùn)練了一個(gè)相應(yīng)的解碼模型,該模型將潛在表示映射回像素空間(像素自然的組成視頻)。

給定一個(gè)壓縮的輸入視頻,提取壓縮的時(shí)空patch序列,作為T(mén)ransformer的token輸入。這個(gè)方案也適用于圖像,因?yàn)閳D像只是單幀的視頻?;趐atch表示使Sora能夠在不同分辨率、時(shí)長(zhǎng)和寬高比的視頻和圖像上進(jìn)行訓(xùn)練。在推斷時(shí),可以通過(guò)在適當(dāng)大小的網(wǎng)格中安排隨機(jī)的補(bǔ)丁來(lái)控制生成視頻的大小。

潛在表示空間的patch作為輸入,可以隨機(jī)插入patch增加輸出大小,Transformer本身可以處理可變的輸入,變?yōu)榭勺冮L(zhǎng)的輸出,可以認(rèn)為輸出長(zhǎng)度是輸入長(zhǎng)度的函數(shù)。

比如通過(guò)在一個(gè)時(shí)間范圍為一幀的空間網(wǎng)格中排列高斯噪聲塊來(lái)生成可變大小的圖像,Sora最高可達(dá)2048 × 2048分辨率。

深度學(xué)習(xí)分為兩個(gè)階段:根據(jù)目標(biāo)反向?qū)W習(xí) 和 根據(jù)輸入前向推斷/推理,對(duì)應(yīng)于訓(xùn)練和使用

Sora基于擴(kuò)散模型:給定輸入的噪聲(隨機(jī)化生成的)patches(以及條件信息,比如說(shuō)根據(jù)特定文本生成視頻),它被訓(xùn)練來(lái)預(yù)測(cè)原始的“干凈”塊。重要的是,Sora是一個(gè)擴(kuò)散Transformer,Transformer已經(jīng)在許多領(lǐng)域展示了顯著的縮放特性,包括語(yǔ)言建模、計(jì)算機(jī)視覺(jué)和圖像生成。

過(guò)去的圖像和視頻生成方法通常是調(diào)整、裁剪或修剪視頻到標(biāo)準(zhǔn)尺寸,例如,4秒256x256分辨率的視頻。相反,OpenAI發(fā)現(xiàn)在原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練提供了幾個(gè)好處。

  1. 采樣的靈活性:Sora可以采樣介于1920x1080p和1080x1920之間的所有視頻。這讓Sora可以直接以不同設(shè)備的原始寬高比為其創(chuàng)建內(nèi)容。它還能在生成全分辨率的內(nèi)容之前,以較小的尺寸快速創(chuàng)建內(nèi)容原型——所有內(nèi)容都使用相同的模型。
  2. 改進(jìn)框架和構(gòu)圖:實(shí)踐發(fā)現(xiàn),在視頻的原始長(zhǎng)寬比上進(jìn)行訓(xùn)練可以改善構(gòu)圖和框架。在正方形裁剪上訓(xùn)練的模型(這是訓(xùn)練視頻生成模型時(shí)的常見(jiàn)做法)有時(shí)會(huì)生成僅顯示部分主題的視頻。相比之下,來(lái)自Sora的視頻顯示更完整。

另外,訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本說(shuō)明的視頻。可以將DALL·E3中介紹的再描述技術(shù)(re-captioning technique應(yīng)用到視頻中:首先訓(xùn)練描述模型,然后使用它為訓(xùn)練集中的所有視頻生成文本描述。在這樣的視頻描述上進(jìn)行訓(xùn)練 可以提高 文本保真度以及視頻的整體質(zhì)量。

與DALL·E3類(lèi)似,還利用GPT將簡(jiǎn)短的用戶(hù)提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)字幕,并將其發(fā)送到視頻模型。這使得Sora能夠準(zhǔn)確地按照用戶(hù)提示生成高質(zhì)量的視頻。

Sora也可以通過(guò)其他輸入進(jìn)行提示,比如預(yù)先存在的圖像或視頻。這種功能使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù):創(chuàng)建完美的循環(huán)視頻,通過(guò)靜態(tài)圖像產(chǎn)生動(dòng)畫(huà),向前或向后擴(kuò)展視頻等。

圖片和視頻本身可以被轉(zhuǎn)化為潛在表示,可以直接輸入到Sora(擴(kuò)散Transformer)中

視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的涌現(xiàn)能力。這些能力使Sora能夠模擬人、動(dòng)物和現(xiàn)實(shí)環(huán)境的某些方面。這些屬性在沒(méi)有任何關(guān)于3D、物體等的明確歸納偏好的情況下涌現(xiàn)——它們純粹是因?yàn)榇蟪叨犬a(chǎn)生現(xiàn)象。

機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類(lèi)型假設(shè)的偏好,稱(chēng)為“歸納偏好”(inductive bias),或簡(jiǎn)稱(chēng)為“偏好”。

這里意在表達(dá)沒(méi)有任何額外的設(shè)計(jì),任何設(shè)計(jì)無(wú)疑會(huì)引入函數(shù)空間的偏好。

Sora可以生成帶有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中始終如一地移動(dòng)。

視頻生成系統(tǒng)面臨的一個(gè)重大挑戰(zhàn)是在長(zhǎng)視頻采樣時(shí)保持時(shí)間一致性。Sora經(jīng)常(雖然不是總是)能夠有效地為短期和長(zhǎng)期依賴(lài)關(guān)系建模。例如,可以保存人物、動(dòng)物和物體,即使它們被遮擋或離開(kāi)了框架。同樣,它可以在單個(gè)樣本中生成同一角色的多個(gè)鏡頭,在整個(gè)視頻中保持其外觀。

Sora有時(shí)可以用簡(jiǎn)單的方式模擬影響世界狀態(tài)的行為。例如,畫(huà)家可以在畫(huà)布上留下新的筆觸,隨著時(shí)間的推移,或者一個(gè)人吃漢堡時(shí)留下咬痕。

Sora還能夠模擬虛擬過(guò)程,比如視頻游戲。Sora 可以通過(guò)一個(gè)基本策略同時(shí)控制 Minecraft 中的玩家,同時(shí)還能以高保真度渲染世界及其動(dòng)態(tài)。通過(guò)提示 Sora 有關(guān)“Minecraft”的標(biāo)題,可以無(wú)示例(zero-shot)地引發(fā)這些功能。

這些能力表明,視頻模型的持續(xù)擴(kuò)展是開(kāi)發(fā)高度功能強(qiáng)大的物理和數(shù)字世界以及其中存在的物體、動(dòng)物和人的模擬器的有前途的途徑。

Sora目前作為模擬器存在許多局限性。例如,它無(wú)法準(zhǔn)確地模擬許多基本交互的物理效果,比如玻璃破碎。其他交互,比如吃東西,并不總是能正確地改變對(duì)象的狀態(tài),比如在長(zhǎng)時(shí)間樣本中發(fā)展出的不一致性或物體的自發(fā)出現(xiàn)。

我們的目光所及,只是不遠(yuǎn)的前方,但是可以看到,那里有許多工作要做。

——Alan Turing

世界模型和未來(lái)

未知是最大的恐懼

意識(shí)、問(wèn)題與語(yǔ)言 - 知乎從內(nèi)在的視角討論了人的世界模型,分析了語(yǔ)言可能存在的缺陷,這里更多的從計(jì)算、AI工程的角度來(lái)討論世界模型。

可以看到Sora雖然驚人,但是AI領(lǐng)域還是需要更多新的突破。Sora展現(xiàn)了人工神經(jīng)網(wǎng)絡(luò)的驚人能力,展現(xiàn)了差異很大的結(jié)構(gòu)(圖像數(shù)據(jù)和文本數(shù)據(jù))如何在計(jì)算上被統(tǒng)一的算法解決,這種涌現(xiàn)能力確實(shí)會(huì)讓認(rèn)為只有進(jìn)一步研究腦才能得出終極AI的人感到驚奇——雖然還不至于徹底改變研究腦的處境。

很容易被人忽視的是,所謂視覺(jué)數(shù)據(jù)和文本數(shù)據(jù)究竟意味著什么?至少以目前情況來(lái)看,這二者都是依賴(lài)于外在的視角——即人或者其它類(lèi)似之物。視覺(jué)數(shù)據(jù)和文本數(shù)據(jù)在計(jì)算機(jī)內(nèi)部的處理都是以數(shù)的形式,只有通過(guò)顯示器發(fā)出信號(hào),然后被人接受,這二者才產(chǎn)生這樣的差異。

在計(jì)算機(jī)內(nèi)部這二者的差異只是不同模型、不同的處理方式——應(yīng)當(dāng)看到這有一種驚人的對(duì)應(yīng),在腦的結(jié)構(gòu)上,身體隔絕了外在世界,使得進(jìn)入腦內(nèi)部的數(shù)據(jù)都是電信號(hào),對(duì)于腦來(lái)說(shuō),視覺(jué)數(shù)據(jù)和文本數(shù)據(jù)的差別也只能是源于處理方式和數(shù)據(jù)本身所在空間模式的差異,當(dāng)然,這樣的說(shuō)明無(wú)疑是不令人滿(mǎn)意的,在不接受頭腦中的小人之后,需要對(duì)腦的進(jìn)一步研究。

另一種對(duì)應(yīng)在于,有人認(rèn)為腦的結(jié)構(gòu)也表明存在一種通用的處理方法來(lái)處理不同的感官,深度學(xué)習(xí)似乎表明可以通過(guò)一個(gè)單獨(dú)的模塊處理一種感官輸入,然后映射到低維空間,在低維空間上進(jìn)行預(yù)測(cè)和運(yùn)動(dòng),低維空間的元素就對(duì)應(yīng)意識(shí)感知到的東西,這些模塊的算法很可能是公共的,即使它們處理不同的感官數(shù)據(jù)。

怎么才能把不同的感官、模型連接起來(lái)?畢竟人類(lèi)感知到語(yǔ)言、視覺(jué)、聲音、觸覺(jué)是緊密結(jié)合的,不過(guò)不能事先認(rèn)為這一定是統(tǒng)一的,視覺(jué)空間和觸覺(jué)空間有著一定的獨(dú)立性,對(duì)于嬰兒來(lái)說(shuō)這有可能不是統(tǒng)一的,而是通過(guò)運(yùn)動(dòng)來(lái)實(shí)現(xiàn),以及行為主義原則——經(jīng)常一起出現(xiàn),就產(chǎn)生了聯(lián)系。

實(shí)踐著手眼協(xié)作的兒童試圖抓住他們夠不著的對(duì)象;只是漸漸地,他們才或多或少正確地判斷出距離。當(dāng)我們抓不住對(duì)象時(shí),在視感覺(jué)和為使對(duì)象處于我們夠得著的范圍內(nèi)所必須的路程之間,一種新的相互聯(lián)接就開(kāi)始產(chǎn)生作用了。陌生的情況甚至?xí)钩赡耆朔稿e(cuò)誤——例如,他們會(huì)錯(cuò)誤地估計(jì)對(duì)象在水中的深度。遙遠(yuǎn)的距離永遠(yuǎn)處在常識(shí)的范圍以外。唯有科學(xué)才能使我們確信,太陽(yáng)比月亮離我們更遠(yuǎn)。

——《物的分析 / The Analysis of Matter》Bertrand Russell

可以把不同感官看成不同且獨(dú)立的模型,這些模型之間只需要通過(guò)某些接口來(lái)進(jìn)行交流,其中語(yǔ)言模型和其他模型的交流是最多、最頻繁的。

一個(gè)日常事件的分析

以下事件作為例子:看到一個(gè)蘋(píng)果,想到‘蘋(píng)果’這個(gè)詞,感到饑餓,產(chǎn)生進(jìn)食欲望,知道‘蘋(píng)果能吃’,通過(guò)運(yùn)動(dòng)來(lái)抓住這個(gè)蘋(píng)果,最后吃掉這個(gè)蘋(píng)果,感到飽腹感、停止進(jìn)食。

這一件事展現(xiàn)了語(yǔ)言、觸覺(jué)、視覺(jué)、運(yùn)動(dòng)和情緒感知之間的密切聯(lián)系

如果不認(rèn)為頭腦里面有個(gè)小人,看到蘋(píng)果本身是完全不在當(dāng)前的理論描述之內(nèi)的事情,看到是腦活動(dòng)制造的一種東西,腦只是接受信息,然后制造出低維的視覺(jué)空間,再制造出‘看到’這樣的概念。人類(lèi)也并不只是看到一個(gè)蘋(píng)果,而是一個(gè)視覺(jué)世界,蘋(píng)果只是作為現(xiàn)在關(guān)注的視覺(jué)中心,蘋(píng)果是低維視覺(jué)空間的一個(gè)復(fù)合的幾何體。

在視覺(jué)空間的物體可以自然的引出語(yǔ)言的描述,這是視覺(jué)模型到語(yǔ)言模型的路徑,也能反過(guò)來(lái)從語(yǔ)言模型到視覺(jué)模型。

就計(jì)算的層面來(lái)講,大模型已經(jīng)能做到語(yǔ)言轉(zhuǎn)入到圖像和視頻,從視頻和圖像輸入也能得到語(yǔ)言,從圖像和視頻得到語(yǔ)言,這恰好是人類(lèi)經(jīng)常做的事,人類(lèi)越來(lái)越多地使用語(yǔ)言來(lái)描述一個(gè)場(chǎng)景、生活中的一件事。這里發(fā)生的事情,腦和深度學(xué)習(xí)有著類(lèi)似之處,都是通過(guò)同時(shí)輸入視覺(jué)數(shù)據(jù)和語(yǔ)言數(shù)據(jù)來(lái)進(jìn)行二者的關(guān)聯(lián)學(xué)習(xí)。

但人類(lèi)的知覺(jué)是一個(gè)持續(xù)的過(guò)程,相比較而言,至少?gòu)哪壳皼](méi)有人能指出人工神經(jīng)網(wǎng)絡(luò)的計(jì)算中哪里發(fā)生了持續(xù)的事,反而只是快速的計(jì)算,也沒(méi)有整體性的東西。

?至于感到饑餓,這有可能是由于當(dāng)前的場(chǎng)景觸發(fā)的,但終歸是身體模型的一個(gè)元素,這樣一件身體模型的事會(huì)通過(guò)某種途徑影響行為模型,腦很有可能是通過(guò)記憶來(lái)做到這一點(diǎn),感到饑餓會(huì)引起搜索,比如視覺(jué)空間的搜索,視覺(jué)模型的搜索依賴(lài)于知識(shí),大腦有可能是通過(guò)記憶來(lái)表達(dá)這樣的知識(shí),這些知識(shí)記憶和語(yǔ)言模型又是密切相關(guān)的。

視覺(jué)模型搜尋的結(jié)果和身體模型的輸出可以發(fā)送給行為模型,行為模型這可以采取行動(dòng),這就意味著,身體、行為和視覺(jué)模型之間有了交互型,饑餓是身體模型的一件事,身體的運(yùn)動(dòng)這是一件行為模型的事,身體的運(yùn)動(dòng)又會(huì)導(dǎo)致視覺(jué)模型的外界輸入的變化,這會(huì)影響視覺(jué)模型。

最終運(yùn)動(dòng)使得身體拿到了蘋(píng)果,并完成了進(jìn)食,此時(shí)引入了觸覺(jué)模型,和視覺(jué)模型一樣,觸覺(jué)模型和其它模型也是緊密結(jié)合的。

可以看到這里的每一件事都是極其復(fù)雜的,更不要說(shuō)要把這些組織到一起,其中最不可思議的是整體性的知覺(jué)、記憶和時(shí)間的知覺(jué)。

要強(qiáng)調(diào)的是,現(xiàn)在沒(méi)有任何角度可以看出深入學(xué)習(xí)能夠制造出像人一樣的視角,深度學(xué)習(xí)、人工智能依舊是面向人的工具,但是深度學(xué)習(xí)卻很可能在不遠(yuǎn)的將來(lái)就會(huì)學(xué)習(xí)到世界的因果模型,而一部分人認(rèn)為人類(lèi)就只是一個(gè)擁有世界的因果模型的東西,人們應(yīng)該重新審視這樣的觀點(diǎn)。

深度學(xué)習(xí)和腦的一個(gè)不同之處在于,深學(xué)習(xí)中人工神經(jīng)網(wǎng)絡(luò)中權(quán)重是學(xué)習(xí)到的東西,保留了數(shù)據(jù),隨機(jī)初始化權(quán)重的網(wǎng)絡(luò)一般需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,而DNA不能完全決定這么多神經(jīng)細(xì)胞的連接。這也就意味著初始的神經(jīng)細(xì)胞連接要么是隨機(jī)的,要么有種簡(jiǎn)潔且統(tǒng)一的策略來(lái)初始化權(quán)重。

真的能有簡(jiǎn)潔且統(tǒng)一的策略來(lái)初始化權(quán)重嗎?看上去這是不可思議的。而如果大部分連接是隨機(jī)的。這就意味著需要大量的數(shù)據(jù)來(lái)學(xué)習(xí)??瓷先?,即使人類(lèi)的感官輸入信息很多,相比較而言也不足達(dá)到現(xiàn)在的大模型的數(shù)量級(jí),不要說(shuō)這種數(shù)量級(jí)還有待增加。此外,嬰兒不是什么也不會(huì)的來(lái)到世界上——除非他們?cè)谧訉m內(nèi)的學(xué)習(xí)足以達(dá)到這樣的水平。

另一點(diǎn)在于腦似乎只需要通過(guò)少數(shù)幾個(gè)計(jì)算步驟就可以得到答案,不像大模型一樣需要很多計(jì)算步驟。

這一切都表明,神經(jīng)細(xì)胞之間具有某種獨(dú)特的模式,這種模式和現(xiàn)有的人工神經(jīng)網(wǎng)絡(luò)不同。

由此有人也指出,大腦更像一個(gè)記憶機(jī)器,而不像是計(jì)算機(jī)器,這在某種意義上不令人驚訝,例如,一個(gè)人究竟是怎么計(jì)算簡(jiǎn)單的加法?最初的訓(xùn)練似乎是通過(guò)記憶個(gè)位數(shù)之間的相加的答案,對(duì)于多個(gè)位數(shù)的數(shù)字之間相加,仍然通過(guò)分解為各個(gè)數(shù)位之間的相加和數(shù)位之間的進(jìn)位得到答案,而各個(gè)數(shù)位之間的相加的答案依舊是通過(guò)記憶來(lái)得到的。

不過(guò)事實(shí)上,在某個(gè)方面,深度學(xué)習(xí)也是通過(guò)記憶來(lái)完成答案,正如有人指責(zé)深度學(xué)習(xí)只是在背誦,而不是在推理。就這個(gè)層面來(lái)講,腦和神經(jīng)網(wǎng)絡(luò)是類(lèi)似的,不類(lèi)似的依舊還是在于腦的計(jì)算步驟應(yīng)該要更小一點(diǎn),而且有著不錯(cuò)的連接模式,當(dāng)然這不讓人奇怪——如果自然選擇是正確的,腦就是被這樣塑造的。

另一個(gè)方面腦是在反饋的計(jì)算,即有自上而下的路徑,也有自下道上的路徑,這是否能夠通過(guò)分模塊來(lái)間接的實(shí)現(xiàn)還有待闡述。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-829371.html

到了這里,關(guān)于Sora:通過(guò)視頻生成模型制造世界模擬器(世界模型)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • OpenAI-Sora:60s超長(zhǎng)長(zhǎng)度、超強(qiáng)語(yǔ)義理解、世界模型。淺析文生視頻模型Sora以及技術(shù)原理簡(jiǎn)介

    OpenAI-Sora:60s超長(zhǎng)長(zhǎng)度、超強(qiáng)語(yǔ)義理解、世界模型。淺析文生視頻模型Sora以及技術(shù)原理簡(jiǎn)介

    Sora官方鏈接:https://openai.com/sora ??視頻模型領(lǐng)頭羊Runway Gen 2、Pika等AI視頻工具,都還在突破幾秒內(nèi)的連貫性,而OpenAI,已經(jīng)達(dá)到了史詩(shī)級(jí)的紀(jì)錄。 OpenAI,永遠(yuǎn)快別人一步?。。。?像ChatGPT成功搶了Claude的頭條一樣,這一次,谷歌核彈級(jí)大殺器Gemini 1.5才推出沒(méi)幾個(gè)小時(shí),全世

    2024年03月15日
    瀏覽(26)
  • 全面解讀視頻生成模型Sora

    全面解讀視頻生成模型Sora

    2024年2月15日,OpenAI在其官網(wǎng)發(fā)布了《Video generation models as world simulators》的報(bào)告,該報(bào)告提出了作為世界模擬器的 視頻生成模型Sora 。 OpenAI對(duì)Sora介紹如下: We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images

    2024年02月21日
    瀏覽(25)
  • OpenAI 生成視頻模型 Sora 論文翻譯

    視頻生成模型作為世界模擬器 本技術(shù)報(bào)告的重點(diǎn)是 (1) 將所有類(lèi)型的視覺(jué)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示,以便對(duì)生成模型進(jìn)行大規(guī)模訓(xùn)練的方法,以及 (2) 對(duì)索拉的能力和局限性的定性評(píng)估。 該報(bào)告不包括模型和實(shí)現(xiàn)細(xì)節(jié)。 許多先前的工作使用各種方法研究了視頻數(shù)據(jù)的生成建模,包

    2024年02月20日
    瀏覽(27)
  • 科普的理解 Sora 視頻生成模型的核心技術(shù)

    科普的理解 Sora 視頻生成模型的核心技術(shù)

    OpenAI 發(fā)布的人工智能文生視頻大模型Sora在2024年2月15日亮相并引發(fā)熱議,我們了解到 Sora 不僅完美繼承了 DALL·E 3的卓越畫(huà)質(zhì)和遵循指令能力,更進(jìn)一步利用 GPT 擴(kuò)寫(xiě)技術(shù),展現(xiàn)出超長(zhǎng)生成時(shí)間(60s)、單視頻多角度鏡頭以及理解物理世界三大突出優(yōu)勢(shì)。我們可以看到從 Runwa

    2024年04月12日
    瀏覽(18)
  • 詳細(xì)解讀開(kāi)源版Sora視頻生成模型Latte

    Diffusion Models專(zhuān)欄文章匯總:入門(mén)與實(shí)戰(zhàn) 前言 :OpenAI的視頻生成模型Sora一經(jīng)發(fā)布就廣受全世界的矚目,上海人工智能實(shí)驗(yàn)室最近推出了一個(gè)基于Diffusion Transformer的結(jié)構(gòu)的模型Latte,堪稱(chēng)最接近Sora原理的視頻生成模型。這篇博客就詳細(xì)解讀Latte,并從中窺探Sora的神秘面紗。 目

    2024年04月14日
    瀏覽(16)
  • OpenAI發(fā)布Sora模型,可根據(jù)文字生成逼真AI視頻

    OpenAI發(fā)布Sora模型,可根據(jù)文字生成逼真AI視頻

    早在2022年11月30日,OpenAI第一次發(fā)布人工智能聊天機(jī)器人ChatGPT,隨后在全世界掀起了人工智能狂潮,顛覆了一個(gè)又一個(gè)行業(yè)。在過(guò)去的一年多的時(shí)間里,chatGPT的強(qiáng)大功能改變了越來(lái)越多人的工作和生活方式,成為了世界上用戶(hù)增長(zhǎng)最快的應(yīng)用程序。 昨天,OpenAI發(fā)布了一款新

    2024年02月19日
    瀏覽(32)
  • 一個(gè)支持Sora模型文本生成視頻的Web客戶(hù)端

    大家好,我是 Java陳序員 。 最近 Open AI 又火了一把,其新推出的文本生成視頻模型 —— Sora,引起了巨大的關(guān)注。 Sora 目前僅僅只是發(fā)布預(yù)告視頻,還未開(kāi)放出具體的 API. 今天,給大家推薦一個(gè)最近十分火熱的開(kāi)源項(xiàng)目,一個(gè)支持使用 Sora 模型將文本生成視頻的 Web 客戶(hù)端。

    2024年03月09日
    瀏覽(24)
  • Sora是什么?Sora怎么使用?OpenAI最新文字轉(zhuǎn)視頻AI模型Sora,一句子生成60秒超逼畫(huà)面

    Sora 是 OpenAI 開(kāi)發(fā)的AI視頻生成模型,它能夠根據(jù)用戶(hù)的文本描述生成 長(zhǎng)達(dá) 60 秒 、1080P 高質(zhì)量視頻,其中包含 精細(xì)復(fù)雜的場(chǎng)景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng) 。 Sora能夠創(chuàng)造出包含多個(gè)角色、特定動(dòng)作類(lèi)型以及與主題和背景相符的詳細(xì)場(chǎng)景。這款模型不僅能理解用戶(hù)的

    2024年02月20日
    瀏覽(48)
  • Sora六大優(yōu)點(diǎn)全解析:OpenAI文本生成視頻模型引領(lǐng)影像創(chuàng)作新潮流

    Sora六大優(yōu)點(diǎn)全解析:OpenAI文本生成視頻模型引領(lǐng)影像創(chuàng)作新潮流

    OpenAI,這個(gè)一直走在人工智能前沿的巨頭,在不久前發(fā)布了他們的首個(gè)文本轉(zhuǎn)視頻模型——Sora!就是那個(gè)能將你的文字想象轉(zhuǎn)化為栩栩如生視頻的神器?,F(xiàn)在,讓我們一起揭開(kāi)Sora的神秘面紗,看看第一部AI短劇離我們還有多遠(yuǎn)吧! 想象一下,你腦海中的一段故事、一個(gè)場(chǎng)景

    2024年03月21日
    瀏覽(106)
  • OpenAI視頻生成模型Sora的全面解析:從ViViT、擴(kuò)散Transformer到NaViT、VideoPoet

    OpenAI視頻生成模型Sora的全面解析:從ViViT、擴(kuò)散Transformer到NaViT、VideoPoet

    真沒(méi)想到,距離視頻生成上一輪的集中爆發(fā)( 詳見(jiàn)《視頻生成發(fā)展史:從Gen2、Emu Video到PixelDance、SVD、Pika 1.0、W.A.L.T》 )才過(guò)去三個(gè)月,沒(méi)想OpenAI一出手,該領(lǐng)域又直接變天了 自打2.16日OpenAI發(fā)布sora以來(lái)( 其開(kāi)發(fā)團(tuán)隊(duì)包括DALLE 3的4作 Tim Brooks 、DiT一作 Bill Peebles 等13人 ),不但把同

    2024年02月19日
    瀏覽(56)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包