国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<option id="8klrd"></option>

<tbody id="8klrd"><rt id="8klrd"></rt></tbody><b id="8klrd"><menuitem id="8klrd"></menuitem></b>

科普的理解 Sora 視頻生成模型的核心技術(shù)

1年前作者：燦爛李分類：Toy博客閱讀(18)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了科普的理解 Sora 視頻生成模型的核心技術(shù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

OpenAI 發(fā)布的人工智能文生視頻大模型Sora在2024年2月15日亮相并引發(fā)熱議，我們了解到 Sora 不僅完美繼承了 DALL·E 3的卓越畫(huà)質(zhì)和遵循指令能力，更進(jìn)一步利用 GPT 擴(kuò)寫(xiě)技術(shù)，展現(xiàn)出超長(zhǎng)生成時(shí)間（60s）、單視頻多角度鏡頭以及理解物理世界三大突出優(yōu)勢(shì)。我們可以看到從 Runway、Pika 到 Sora，文生視頻大模型的技術(shù)在不斷進(jìn)步。從最初的表情包長(zhǎng)度3s、4s，到如今主流短視頻長(zhǎng)度的60s，模型的生成內(nèi)容越來(lái)越豐富多樣。網(wǎng)絡(luò)上對(duì)Sora的解讀文章非常多，本文會(huì)嘗試對(duì)Sora做一份"淺顯易懂"的科普解讀分享。

科普的理解 Sora 視頻生成模型的核心技術(shù),人工智能,音視頻,gpt

一、靈活處理不同分辨率視頻數(shù)據(jù)

Sora視頻生成模型能夠根據(jù)文字描述生成逼真視頻，其核心在于從大量視頻數(shù)據(jù)中"學(xué)習(xí)"生成視頻的技能。然而，訓(xùn)練數(shù)據(jù)中的視頻長(zhǎng)短分辨率參差不齊，如何高效地處理這些多樣化數(shù)據(jù)，是Sora面臨的第一個(gè)技術(shù)難題。

傳統(tǒng)的視頻處理方式要求輸入視頻保持相同的分辨率和大小，這在很大程度上限制了訓(xùn)練數(shù)據(jù)的豐富度。而Sora則采用了一些巧妙的技術(shù)手段，可以靈活處理不同格式的視頻數(shù)據(jù):

（1）處理不同長(zhǎng)度視頻:

對(duì)較短視頻，重復(fù)采樣拉長(zhǎng)畫(huà)面長(zhǎng)度

對(duì)較長(zhǎng)視頻，智能識(shí)別并丟棄相似冗余的畫(huà)面塊，縮短總長(zhǎng)度

將所有視頻特征壓縮塞進(jìn)固定大小的"數(shù)據(jù)包"中

（2）處理不同分辨率視頻:

通過(guò)插值和縮放技術(shù)，統(tǒng)一所有畫(huà)面至同一分辨率

在訓(xùn)練時(shí)，Sora還可根據(jù)每個(gè)視頻的具體情況動(dòng)態(tài)調(diào)整批處理大小，并引入"稀疏注意力機(jī)制"，讓模型集中關(guān)注視頻中的關(guān)鍵區(qū)域和動(dòng)作，從而提高了注意力資源的利用效率。通過(guò)上述方法，Sora可高效處理各種多樣化的視頻數(shù)據(jù)，為后續(xù)的訓(xùn)練和生成奠定基礎(chǔ)。

二、生成高質(zhì)量視頻的核心機(jī)制

Sora視頻生成模型的核心技術(shù)源自一種創(chuàng)新架構(gòu)——Diffusion Transformers(DiT)。DiT融合了變分自動(dòng)編碼器(VAE)、視覺(jué)轉(zhuǎn)換器(ViT)和擴(kuò)散去噪概率模型(DDPM)三者的優(yōu)勢(shì)，實(shí)現(xiàn)了端到端的視頻生成。

整個(gè)生成過(guò)程可以簡(jiǎn)單概括為:先讓清晰視頻變模糊，再讓模型學(xué)會(huì)如何還原。具體來(lái)說(shuō)，VAE編碼器首先獲取原始清晰視頻的壓縮表示，然后對(duì)這個(gè)表示進(jìn)行"前向擴(kuò)散"，也就是人為添加噪聲，讓它變得模糊不清。

接下來(lái)就是模型需要"學(xué)習(xí)"的關(guān)鍵一步了。將加了噪聲的模糊表示切分成一個(gè)個(gè)小塊，輸入到ViT模型中去。ViT的任務(wù)就是通過(guò)學(xué)習(xí)，掌握如何從這些小塊的噪聲信號(hào)中還原出干凈的視頻畫(huà)面。推理時(shí)，則按相反過(guò)程操作。ViT模型逐步減少噪聲，直到獲得比較干凈的視頻壓縮表示，最后由VAE解碼器將其生成為最終視頻輸出。這個(gè)過(guò)程有點(diǎn)類似給孩子們出"反向"腦筋急轉(zhuǎn)彎，先讓他們了解"清晰視頻是如何變模糊的"，從而學(xué)會(huì)"如何從模糊中還原清晰"。

Sora并非是全新設(shè)計(jì)的，借鑒了谷歌Imagen Video模型的成果。Imagen Video可以把一段文字描述轉(zhuǎn)化為機(jī)器可理解的語(yǔ)義表示，深入把握文字主題、情感和意圖等要素。接下來(lái)，Sora應(yīng)該參考了多倫多大學(xué)的Video LDM模型的做法。Video LDM先生成視頻的關(guān)鍵幀，比如開(kāi)始、結(jié)束和轉(zhuǎn)折等重要時(shí)刻。然后引入"時(shí)間層"分析相鄰幀之間的聯(lián)系，插值生成新的中間幀，最終將所有關(guān)鍵幀和新生成幀串聯(lián)成完整流暢的視頻。通過(guò)上述創(chuàng)新技術(shù)，Sora實(shí)現(xiàn)了根據(jù)文字描述生成高質(zhì)量視頻的能力，而且處理能力更加通用靈活。

科普的理解 Sora 視頻生成模型的核心技術(shù),人工智能,音視頻,gpt

三、對(duì)Sora參數(shù)量和算力需求的猜測(cè)

盡管Sora能生成出高質(zhì)量逼真的視頻，但其模型參數(shù)量可能僅有30億左右，遠(yuǎn)遠(yuǎn)低于公眾的預(yù)期。這意味著相比其他大型人工智能模型，Sora的訓(xùn)練和推理過(guò)程將更加節(jié)省算力，未來(lái)的迭代升級(jí)也將更加便捷高效。

那么，Sora是如何在相對(duì)精簡(jiǎn)的參數(shù)量下實(shí)現(xiàn)卓越性能的呢?這與它所借鑒的DiT(Diffusion Transformers)架構(gòu)息息相關(guān)。

DiT架構(gòu)有兩個(gè)主要規(guī)模版本，分別是中等的B/2版和大型的XL版，其中XL版參數(shù)量為10億。根據(jù)OpenAI的技術(shù)報(bào)告，Sora模型的初級(jí)版本質(zhì)量很差，推測(cè)當(dāng)時(shí)采用的是B/2版本。而最終版的Sora質(zhì)量則比初級(jí)版提升了16倍。

我們知道，一個(gè)模型的計(jì)算復(fù)雜度通常與其參數(shù)規(guī)模成正比。如果Sora最終版本的計(jì)算量也提升了16倍，而且考慮到DiT XL版本相比B/2版本的計(jì)算復(fù)雜度提升了12倍，那么我們可以粗略估計(jì)，Sora最終版本的計(jì)算復(fù)雜度約為DiT XL的16/12=1.33倍。

由于計(jì)算復(fù)雜度與參數(shù)規(guī)模正相關(guān)，我們可以進(jìn)一步推測(cè)，Sora最終版本的參數(shù)量大約在10億到20億之間。當(dāng)然，OpenAI團(tuán)隊(duì)肯定還對(duì)Sora做了其他改進(jìn)，因此最終給出的參數(shù)量是30億左右。

四、廣泛多樣的訓(xùn)練數(shù)據(jù)

除了創(chuàng)新的模型架構(gòu)，Sora取得卓越表現(xiàn)的另一個(gè)重要原因，在于它使用了高質(zhì)量且種類豐富多樣的訓(xùn)練數(shù)據(jù)。據(jù)了解，Sora的訓(xùn)練數(shù)據(jù)包括:

（1）游戲引擎數(shù)據(jù)，這些數(shù)據(jù)通過(guò)建模模擬，能夠較為真實(shí)地再現(xiàn)現(xiàn)實(shí)世界的物理規(guī)律。它們有助于提高Sora生成視頻的邏輯性和一致性，避免出現(xiàn)違反常理的畫(huà)面。

（2）合成數(shù)據(jù)和重構(gòu)數(shù)據(jù)，合成數(shù)據(jù)是通過(guò)計(jì)算機(jī)渲染生成的，重構(gòu)數(shù)據(jù)則是對(duì)現(xiàn)有視頻進(jìn)行加工處理而來(lái)。這兩種數(shù)據(jù)的優(yōu)點(diǎn)是可以按需定制，擴(kuò)充訓(xùn)練集的多樣性，提升視頻生成的質(zhì)量和多樣性。

（3）紀(jì)錄片、長(zhǎng)鏡頭視頻等，這類數(shù)據(jù)來(lái)源于真實(shí)拍攝，能夠很好地捕捉場(chǎng)景和動(dòng)作細(xì)節(jié)，有助于Sora更好地學(xué)習(xí)和理解真實(shí)世界中的運(yùn)動(dòng)規(guī)律和場(chǎng)景特征。

正是由于訓(xùn)練數(shù)據(jù)的特殊組合以及極高的質(zhì)量，Sora才得以汲取生成逼真視頻所需的各種"知識(shí)"。高質(zhì)量的數(shù)據(jù)源是人工智能模型取得卓越表現(xiàn)的重要基礎(chǔ)之一。

五、新型SiT模型有望帶來(lái)突破

DiT架構(gòu)的原作者團(tuán)隊(duì)最近發(fā)布了一種改進(jìn)的SiT(Sequence Iterative Transformer)模型。SiT在保持DiT架構(gòu)的同時(shí)，提供了更優(yōu)的性能和收斂速度，值得關(guān)注。

Sora的出現(xiàn)，標(biāo)志著基于擴(kuò)散模型的視頻生成技術(shù)邁入了一個(gè)新的里程碑。借助創(chuàng)新的DiT架構(gòu)、高質(zhì)量多樣的訓(xùn)練數(shù)據(jù)，以及強(qiáng)大的文本理解能力，Sora不僅能根據(jù)文字描述生成逼真視頻，而且生成質(zhì)量和處理能力都達(dá)到了一個(gè)全新的高度。這一突破性進(jìn)展，必將為視頻生成AI在多媒體創(chuàng)作、虛擬現(xiàn)實(shí)等領(lǐng)域的應(yīng)用鋪平道路，催生更多革命性創(chuàng)新。我們可以期待，在不久的將來(lái)，創(chuàng)作者無(wú)需復(fù)雜的拍攝制作，只需簡(jiǎn)單輸入一段文字，就能"變戲法"般生成出栩栩如生的視頻作品。虛擬現(xiàn)實(shí)體驗(yàn)也將因此更加身臨其境、無(wú)遮無(wú)攔。甚至在VideoGame等游戲領(lǐng)域，玩家的任何隨心所欲設(shè)想，都可能被實(shí)時(shí)渲染為超寫(xiě)實(shí)的影像場(chǎng)景。

視頻生成AI所帶來(lái)的無(wú)限想象力和創(chuàng)造力，只有親身體驗(yàn)才能體會(huì)。而Sora這一開(kāi)路先鋒，無(wú)疑為我們撥開(kāi)了通往未來(lái)的新視野。讓我們拭目以待，期待視頻生成AI帶來(lái)下一個(gè)"酷改變"。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-849335.html

到了這里，關(guān)于科普的理解 Sora 視頻生成模型的核心技術(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

全面解讀視頻生成模型Sora
2024年2月15日，OpenAI在其官網(wǎng)發(fā)布了《Video generation models as world simulators》的報(bào)告，該報(bào)告提出了作為世界模擬器的視頻生成模型Sora 。 OpenAI對(duì)Sora介紹如下： We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images
2024年02月21日
瀏覽(25)
OpenAI 生成視頻模型 Sora 論文翻譯
視頻生成模型作為世界模擬器本技術(shù)報(bào)告的重點(diǎn)是 (1) 將所有類型的視覺(jué)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示，以便對(duì)生成模型進(jìn)行大規(guī)模訓(xùn)練的方法，以及 (2) 對(duì)索拉的能力和局限性的定性評(píng)估。該報(bào)告不包括模型和實(shí)現(xiàn)細(xì)節(jié)。許多先前的工作使用各種方法研究了視頻數(shù)據(jù)的生成建模，包
2024年02月20日
瀏覽(27)
Sora：通過(guò)視頻生成模型制造世界模擬器（世界模型）
OpenAI官網(wǎng)介紹：Video generation models as world simulators OpenAI嘗試在視頻數(shù)據(jù)上探索生成模型的大規(guī)模訓(xùn)練，研究結(jié)果表明，尺度可變視頻生成模型是構(gòu)建物理世界通用模擬器的有希望的途徑。（可變的視頻時(shí)長(zhǎng)、幀分辨率和長(zhǎng)寬比） OpenAI從大型語(yǔ)言模型（LLM）中獲得靈感，LLM通
2024年02月20日
瀏覽(21)
詳細(xì)解讀開(kāi)源版Sora視頻生成模型Latte
Diffusion Models專欄文章匯總：入門與實(shí)戰(zhàn) 前言：OpenAI的視頻生成模型Sora一經(jīng)發(fā)布就廣受全世界的矚目，上海人工智能實(shí)驗(yàn)室最近推出了一個(gè)基于Diffusion Transformer的結(jié)構(gòu)的模型Latte，堪稱最接近Sora原理的視頻生成模型。這篇博客就詳細(xì)解讀Latte，并從中窺探Sora的神秘面紗。目
2024年04月14日
瀏覽(16)
AIGC技術(shù)研究與應(yīng)用 ---- 下一代人工智能：新范式！新生產(chǎn)力?。?.3-大模型發(fā)展歷程之圖像、視頻生成與視覺(jué)大模型）
2024年02月09日
瀏覽(96)
SORA 2.1 ——Stable diffusion技術(shù)解析+基于diffusion的視頻生成技術(shù)介紹
本文是DataWhale開(kāi)源項(xiàng)目Sora原理與技術(shù)實(shí)戰(zhàn)的第二次打卡任務(wù)的第一節(jié)，主要是簡(jiǎn)單試用Stable diffusion技術(shù)在魔塔社區(qū)進(jìn)行文生圖實(shí)踐。同一打卡任務(wù)的其他小節(jié)請(qǐng)參見(jiàn)個(gè)人主頁(yè)。目錄一.【AIGC簡(jiǎn)介——以文生圖為例】 1.基于生成對(duì)抗網(wǎng)絡(luò)的（GAN）模型 2.基于自回歸(Autoregress
2024年03月21日
瀏覽(20)
最新技術(shù)解析：Open ai新推出了視頻生成工具Sora
文章目錄概要技術(shù)名詞解釋技術(shù)細(xì)節(jié) 小結(jié) OpenAI 的 GPT 大模型最近幾年發(fā)展迅猛，起初我還是觀望或者看客心態(tài)，畢竟新鮮事物太多。直到最近半年兩個(gè)技術(shù)改變了我的看法，之前推出的諸如人工智能圖片生成器（Midjourney、DALL-E2、Stableboost、NovelAI和Stable Diffusion等）以及本
2024年03月16日
瀏覽(34)
OpenAI發(fā)布Sora模型，可根據(jù)文字生成逼真AI視頻
早在2022年11月30日，OpenAI第一次發(fā)布人工智能聊天機(jī)器人ChatGPT，隨后在全世界掀起了人工智能狂潮，顛覆了一個(gè)又一個(gè)行業(yè)。在過(guò)去的一年多的時(shí)間里，chatGPT的強(qiáng)大功能改變了越來(lái)越多人的工作和生活方式，成為了世界上用戶增長(zhǎng)最快的應(yīng)用程序。昨天，OpenAI發(fā)布了一款新
2024年02月19日
瀏覽(32)
一個(gè)支持Sora模型文本生成視頻的Web客戶端
大家好，我是 Java陳序員。最近 Open AI 又火了一把，其新推出的文本生成視頻模型 —— Sora,引起了巨大的關(guān)注。 Sora 目前僅僅只是發(fā)布預(yù)告視頻，還未開(kāi)放出具體的 API. 今天，給大家推薦一個(gè)最近十分火熱的開(kāi)源項(xiàng)目，一個(gè)支持使用 Sora 模型將文本生成視頻的 Web 客戶端。
2024年03月09日
瀏覽(24)
Sora是什么？Sora怎么使用？OpenAI最新文字轉(zhuǎn)視頻AI模型Sora，一句子生成60秒超逼畫(huà)面
Sora 是 OpenAI 開(kāi)發(fā)的AI視頻生成模型，它能夠根據(jù)用戶的文本描述生成長(zhǎng)達(dá) 60 秒、1080P 高質(zhì)量視頻，其中包含精細(xì)復(fù)雜的場(chǎng)景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng) 。 Sora能夠創(chuàng)造出包含多個(gè)角色、特定動(dòng)作類型以及與主題和背景相符的詳細(xì)場(chǎng)景。這款模型不僅能理解用戶的
2024年02月20日
瀏覽(48)

<form id="njxe1"><strong id="njxe1"></strong></form>