国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

科普的理解 Sora 視頻生成模型的核心技術(shù)

這篇具有很好參考價(jià)值的文章主要介紹了科普的理解 Sora 視頻生成模型的核心技術(shù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

OpenAI 發(fā)布的人工智能文生視頻大模型Sora在2024年2月15日亮相并引發(fā)熱議,我們了解到 Sora 不僅完美繼承了 DALL·E 3的卓越畫(huà)質(zhì)和遵循指令能力,更進(jìn)一步利用 GPT 擴(kuò)寫(xiě)技術(shù),展現(xiàn)出超長(zhǎng)生成時(shí)間(60s)、單視頻多角度鏡頭以及理解物理世界三大突出優(yōu)勢(shì)。我們可以看到從 Runway、Pika 到 Sora,文生視頻大模型的技術(shù)在不斷進(jìn)步。從最初的表情包長(zhǎng)度3s、4s,到如今主流短視頻長(zhǎng)度的60s,模型的生成內(nèi)容越來(lái)越豐富多樣。網(wǎng)絡(luò)上對(duì)Sora的解讀文章非常多,本文會(huì)嘗試對(duì)Sora做一份"淺顯易懂"的科普解讀分享。

科普的理解 Sora 視頻生成模型的核心技術(shù),人工智能,音視頻,gpt

一、靈活處理不同分辨率視頻數(shù)據(jù)

Sora視頻生成模型能夠根據(jù)文字描述生成逼真視頻,其核心在于從大量視頻數(shù)據(jù)中"學(xué)習(xí)"生成視頻的技能。然而,訓(xùn)練數(shù)據(jù)中的視頻長(zhǎng)短分辨率參差不齊,如何高效地處理這些多樣化數(shù)據(jù),是Sora面臨的第一個(gè)技術(shù)難題。

傳統(tǒng)的視頻處理方式要求輸入視頻保持相同的分辨率和大小,這在很大程度上限制了訓(xùn)練數(shù)據(jù)的豐富度。而Sora則采用了一些巧妙的技術(shù)手段,可以靈活處理不同格式的視頻數(shù)據(jù):

(1)處理不同長(zhǎng)度視頻:

對(duì)較短視頻,重復(fù)采樣拉長(zhǎng)畫(huà)面長(zhǎng)度

對(duì)較長(zhǎng)視頻,智能識(shí)別并丟棄相似冗余的畫(huà)面塊,縮短總長(zhǎng)度

將所有視頻特征壓縮塞進(jìn)固定大小的"數(shù)據(jù)包"中

(2)處理不同分辨率視頻:

通過(guò)插值和縮放技術(shù),統(tǒng)一所有畫(huà)面至同一分辨率

在訓(xùn)練時(shí),Sora還可根據(jù)每個(gè)視頻的具體情況動(dòng)態(tài)調(diào)整批處理大小,并引入"稀疏注意力機(jī)制",讓模型集中關(guān)注視頻中的關(guān)鍵區(qū)域和動(dòng)作,從而提高了注意力資源的利用效率。通過(guò)上述方法,Sora可高效處理各種多樣化的視頻數(shù)據(jù),為后續(xù)的訓(xùn)練和生成奠定基礎(chǔ)。

二、生成高質(zhì)量視頻的核心機(jī)制

Sora視頻生成模型的核心技術(shù)源自一種創(chuàng)新架構(gòu)——Diffusion Transformers(DiT)。DiT融合了變分自動(dòng)編碼器(VAE)、視覺(jué)轉(zhuǎn)換器(ViT)和擴(kuò)散去噪概率模型(DDPM)三者的優(yōu)勢(shì),實(shí)現(xiàn)了端到端的視頻生成。

整個(gè)生成過(guò)程可以簡(jiǎn)單概括為:先讓清晰視頻變模糊,再讓模型學(xué)會(huì)如何還原。具體來(lái)說(shuō),VAE編碼器首先獲取原始清晰視頻的壓縮表示,然后對(duì)這個(gè)表示進(jìn)行"前向擴(kuò)散",也就是人為添加噪聲,讓它變得模糊不清。

接下來(lái)就是模型需要"學(xué)習(xí)"的關(guān)鍵一步了。將加了噪聲的模糊表示切分成一個(gè)個(gè)小塊,輸入到ViT模型中去。ViT的任務(wù)就是通過(guò)學(xué)習(xí),掌握如何從這些小塊的噪聲信號(hào)中還原出干凈的視頻畫(huà)面。推理時(shí),則按相反過(guò)程操作。ViT模型逐步減少噪聲,直到獲得比較干凈的視頻壓縮表示,最后由VAE解碼器將其生成為最終視頻輸出。這個(gè)過(guò)程有點(diǎn)類似給孩子們出"反向"腦筋急轉(zhuǎn)彎,先讓他們了解"清晰視頻是如何變模糊的",從而學(xué)會(huì)"如何從模糊中還原清晰"。

Sora并非是全新設(shè)計(jì)的,借鑒了谷歌Imagen Video模型的成果。Imagen Video可以把一段文字描述轉(zhuǎn)化為機(jī)器可理解的語(yǔ)義表示,深入把握文字主題、情感和意圖等要素。接下來(lái),Sora應(yīng)該參考了多倫多大學(xué)的Video LDM模型的做法。Video LDM先生成視頻的關(guān)鍵幀,比如開(kāi)始、結(jié)束和轉(zhuǎn)折等重要時(shí)刻。然后引入"時(shí)間層"分析相鄰幀之間的聯(lián)系,插值生成新的中間幀,最終將所有關(guān)鍵幀和新生成幀串聯(lián)成完整流暢的視頻。通過(guò)上述創(chuàng)新技術(shù),Sora實(shí)現(xiàn)了根據(jù)文字描述生成高質(zhì)量視頻的能力,而且處理能力更加通用靈活。

科普的理解 Sora 視頻生成模型的核心技術(shù),人工智能,音視頻,gpt

三、對(duì)Sora參數(shù)量和算力需求的猜測(cè)

盡管Sora能生成出高質(zhì)量逼真的視頻,但其模型參數(shù)量可能僅有30億左右,遠(yuǎn)遠(yuǎn)低于公眾的預(yù)期。這意味著相比其他大型人工智能模型,Sora的訓(xùn)練和推理過(guò)程將更加節(jié)省算力,未來(lái)的迭代升級(jí)也將更加便捷高效。

那么,Sora是如何在相對(duì)精簡(jiǎn)的參數(shù)量下實(shí)現(xiàn)卓越性能的呢?這與它所借鑒的DiT(Diffusion Transformers)架構(gòu)息息相關(guān)。

DiT架構(gòu)有兩個(gè)主要規(guī)模版本,分別是中等的B/2版和大型的XL版,其中XL版參數(shù)量為10億。根據(jù)OpenAI的技術(shù)報(bào)告,Sora模型的初級(jí)版本質(zhì)量很差,推測(cè)當(dāng)時(shí)采用的是B/2版本。而最終版的Sora質(zhì)量則比初級(jí)版提升了16倍。

我們知道,一個(gè)模型的計(jì)算復(fù)雜度通常與其參數(shù)規(guī)模成正比。如果Sora最終版本的計(jì)算量也提升了16倍,而且考慮到DiT XL版本相比B/2版本的計(jì)算復(fù)雜度提升了12倍,那么我們可以粗略估計(jì),Sora最終版本的計(jì)算復(fù)雜度約為DiT XL的16/12=1.33倍。

由于計(jì)算復(fù)雜度與參數(shù)規(guī)模正相關(guān),我們可以進(jìn)一步推測(cè),Sora最終版本的參數(shù)量大約在10億到20億之間。當(dāng)然,OpenAI團(tuán)隊(duì)肯定還對(duì)Sora做了其他改進(jìn),因此最終給出的參數(shù)量是30億左右。

四、廣泛多樣的訓(xùn)練數(shù)據(jù)

除了創(chuàng)新的模型架構(gòu),Sora取得卓越表現(xiàn)的另一個(gè)重要原因,在于它使用了高質(zhì)量且種類豐富多樣的訓(xùn)練數(shù)據(jù)。據(jù)了解,Sora的訓(xùn)練數(shù)據(jù)包括:

(1)游戲引擎數(shù)據(jù),這些數(shù)據(jù)通過(guò)建模模擬,能夠較為真實(shí)地再現(xiàn)現(xiàn)實(shí)世界的物理規(guī)律。它們有助于提高Sora生成視頻的邏輯性和一致性,避免出現(xiàn)違反常理的畫(huà)面。

(2)合成數(shù)據(jù)和重構(gòu)數(shù)據(jù),合成數(shù)據(jù)是通過(guò)計(jì)算機(jī)渲染生成的,重構(gòu)數(shù)據(jù)則是對(duì)現(xiàn)有視頻進(jìn)行加工處理而來(lái)。這兩種數(shù)據(jù)的優(yōu)點(diǎn)是可以按需定制,擴(kuò)充訓(xùn)練集的多樣性,提升視頻生成的質(zhì)量和多樣性。

(3)紀(jì)錄片、長(zhǎng)鏡頭視頻等,這類數(shù)據(jù)來(lái)源于真實(shí)拍攝,能夠很好地捕捉場(chǎng)景和動(dòng)作細(xì)節(jié),有助于Sora更好地學(xué)習(xí)和理解真實(shí)世界中的運(yùn)動(dòng)規(guī)律和場(chǎng)景特征。

正是由于訓(xùn)練數(shù)據(jù)的特殊組合以及極高的質(zhì)量,Sora才得以汲取生成逼真視頻所需的各種"知識(shí)"。高質(zhì)量的數(shù)據(jù)源是人工智能模型取得卓越表現(xiàn)的重要基礎(chǔ)之一。

五、新型SiT模型有望帶來(lái)突破

DiT架構(gòu)的原作者團(tuán)隊(duì)最近發(fā)布了一種改進(jìn)的SiT(Sequence Iterative Transformer)模型。SiT在保持DiT架構(gòu)的同時(shí),提供了更優(yōu)的性能和收斂速度,值得關(guān)注。

Sora的出現(xiàn),標(biāo)志著基于擴(kuò)散模型的視頻生成技術(shù)邁入了一個(gè)新的里程碑。 借助創(chuàng)新的DiT架構(gòu)、高質(zhì)量多樣的訓(xùn)練數(shù)據(jù),以及強(qiáng)大的文本理解能力,Sora不僅能根據(jù)文字描述生成逼真視頻,而且生成質(zhì)量和處理能力都達(dá)到了一個(gè)全新的高度。 這一突破性進(jìn)展,必將為視頻生成AI在多媒體創(chuàng)作、虛擬現(xiàn)實(shí)等領(lǐng)域的應(yīng)用鋪平道路,催生更多革命性創(chuàng)新。 我們可以期待,在不久的將來(lái),創(chuàng)作者無(wú)需復(fù)雜的拍攝制作,只需簡(jiǎn)單輸入一段文字,就能"變戲法"般生成出栩栩如生的視頻作品。 虛擬現(xiàn)實(shí)體驗(yàn)也將因此更加身臨其境、無(wú)遮無(wú)攔。 甚至在VideoGame等游戲領(lǐng)域,玩家的任何隨心所欲設(shè)想,都可能被實(shí)時(shí)渲染為超寫(xiě)實(shí)的影像場(chǎng)景。

視頻生成AI所帶來(lái)的無(wú)限想象力和創(chuàng)造力,只有親身體驗(yàn)才能體會(huì)。而Sora這一開(kāi)路先鋒,無(wú)疑為我們撥開(kāi)了通往未來(lái)的新視野。讓我們拭目以待,期待視頻生成AI帶來(lái)下一個(gè)"酷改變"。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-849335.html

到了這里,關(guān)于科普的理解 Sora 視頻生成模型的核心技術(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 全面解讀視頻生成模型Sora

    全面解讀視頻生成模型Sora

    2024年2月15日,OpenAI在其官網(wǎng)發(fā)布了《Video generation models as world simulators》的報(bào)告,該報(bào)告提出了作為世界模擬器的 視頻生成模型Sora 。 OpenAI對(duì)Sora介紹如下: We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images

    2024年02月21日
    瀏覽(25)
  • OpenAI 生成視頻模型 Sora 論文翻譯

    視頻生成模型作為世界模擬器 本技術(shù)報(bào)告的重點(diǎn)是 (1) 將所有類型的視覺(jué)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示,以便對(duì)生成模型進(jìn)行大規(guī)模訓(xùn)練的方法,以及 (2) 對(duì)索拉的能力和局限性的定性評(píng)估。 該報(bào)告不包括模型和實(shí)現(xiàn)細(xì)節(jié)。 許多先前的工作使用各種方法研究了視頻數(shù)據(jù)的生成建模,包

    2024年02月20日
    瀏覽(27)
  • Sora:通過(guò)視頻生成模型制造世界模擬器(世界模型)

    OpenAI官網(wǎng)介紹:Video generation models as world simulators OpenAI嘗試在視頻數(shù)據(jù)上探索生成模型的大規(guī)模訓(xùn)練,研究結(jié)果表明, 尺度可變視頻生成模型是構(gòu)建物理世界通用模擬器的有希望的途徑 。(可變的視頻時(shí)長(zhǎng)、幀分辨率和長(zhǎng)寬比) OpenAI從大型語(yǔ)言模型(LLM)中獲得靈感,LLM通

    2024年02月20日
    瀏覽(21)
  • 詳細(xì)解讀開(kāi)源版Sora視頻生成模型Latte

    Diffusion Models專欄文章匯總:入門與實(shí)戰(zhàn) 前言 :OpenAI的視頻生成模型Sora一經(jīng)發(fā)布就廣受全世界的矚目,上海人工智能實(shí)驗(yàn)室最近推出了一個(gè)基于Diffusion Transformer的結(jié)構(gòu)的模型Latte,堪稱最接近Sora原理的視頻生成模型。這篇博客就詳細(xì)解讀Latte,并從中窺探Sora的神秘面紗。 目

    2024年04月14日
    瀏覽(16)
  • SORA 2.1 ——Stable diffusion技術(shù)解析+基于diffusion的視頻生成技術(shù)介紹

    SORA 2.1 ——Stable diffusion技術(shù)解析+基于diffusion的視頻生成技術(shù)介紹

    本文是DataWhale開(kāi)源項(xiàng)目Sora原理與技術(shù)實(shí)戰(zhàn)的第二次打卡任務(wù)的第一節(jié),主要是簡(jiǎn)單試用Stable diffusion技術(shù)在魔塔社區(qū)進(jìn)行文生圖實(shí)踐。同一打卡任務(wù)的其他小節(jié)請(qǐng)參見(jiàn)個(gè)人主頁(yè)。 目錄 一.【AIGC簡(jiǎn)介——以文生圖為例】 1.基于生成對(duì)抗網(wǎng)絡(luò)的(GAN)模型 2.基于自回歸(Autoregress

    2024年03月21日
    瀏覽(20)
  • 最新技術(shù)解析:Open ai新推出了視頻生成工具Sora

    最新技術(shù)解析:Open ai新推出了視頻生成工具Sora

    文章目錄 概要 技術(shù)名詞解釋 技術(shù)細(xì)節(jié) 小結(jié) OpenAI 的 GPT 大模型最近幾年發(fā)展迅猛,起初我還是觀望或者看客心態(tài),畢竟新鮮事物太多。直到最近半年兩個(gè)技術(shù)改變了我的看法,之前推出的諸如人工智能圖片生成器(Midjourney、DALL-E2、Stableboost、NovelAI和Stable Diffusion等)以及本

    2024年03月16日
    瀏覽(34)
  • OpenAI發(fā)布Sora模型,可根據(jù)文字生成逼真AI視頻

    OpenAI發(fā)布Sora模型,可根據(jù)文字生成逼真AI視頻

    早在2022年11月30日,OpenAI第一次發(fā)布人工智能聊天機(jī)器人ChatGPT,隨后在全世界掀起了人工智能狂潮,顛覆了一個(gè)又一個(gè)行業(yè)。在過(guò)去的一年多的時(shí)間里,chatGPT的強(qiáng)大功能改變了越來(lái)越多人的工作和生活方式,成為了世界上用戶增長(zhǎng)最快的應(yīng)用程序。 昨天,OpenAI發(fā)布了一款新

    2024年02月19日
    瀏覽(32)
  • 一個(gè)支持Sora模型文本生成視頻的Web客戶端

    大家好,我是 Java陳序員 。 最近 Open AI 又火了一把,其新推出的文本生成視頻模型 —— Sora,引起了巨大的關(guān)注。 Sora 目前僅僅只是發(fā)布預(yù)告視頻,還未開(kāi)放出具體的 API. 今天,給大家推薦一個(gè)最近十分火熱的開(kāi)源項(xiàng)目,一個(gè)支持使用 Sora 模型將文本生成視頻的 Web 客戶端。

    2024年03月09日
    瀏覽(24)
  • Sora是什么?Sora怎么使用?OpenAI最新文字轉(zhuǎn)視頻AI模型Sora,一句子生成60秒超逼畫(huà)面

    Sora 是 OpenAI 開(kāi)發(fā)的AI視頻生成模型,它能夠根據(jù)用戶的文本描述生成 長(zhǎng)達(dá) 60 秒 、1080P 高質(zhì)量視頻,其中包含 精細(xì)復(fù)雜的場(chǎng)景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng) 。 Sora能夠創(chuàng)造出包含多個(gè)角色、特定動(dòng)作類型以及與主題和背景相符的詳細(xì)場(chǎng)景。這款模型不僅能理解用戶的

    2024年02月20日
    瀏覽(48)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包