OpenAI 發(fā)布的人工智能文生視頻大模型Sora在2024年2月15日亮相并引發(fā)熱議,我們了解到 Sora 不僅完美繼承了 DALL·E 3的卓越畫(huà)質(zhì)和遵循指令能力,更進(jìn)一步利用 GPT 擴(kuò)寫(xiě)技術(shù),展現(xiàn)出超長(zhǎng)生成時(shí)間(60s)、單視頻多角度鏡頭以及理解物理世界三大突出優(yōu)勢(shì)。我們可以看到從 Runway、Pika 到 Sora,文生視頻大模型的技術(shù)在不斷進(jìn)步。從最初的表情包長(zhǎng)度3s、4s,到如今主流短視頻長(zhǎng)度的60s,模型的生成內(nèi)容越來(lái)越豐富多樣。網(wǎng)絡(luò)上對(duì)Sora的解讀文章非常多,本文會(huì)嘗試對(duì)Sora做一份"淺顯易懂"的科普解讀分享。
一、靈活處理不同分辨率視頻數(shù)據(jù)
Sora視頻生成模型能夠根據(jù)文字描述生成逼真視頻,其核心在于從大量視頻數(shù)據(jù)中"學(xué)習(xí)"生成視頻的技能。然而,訓(xùn)練數(shù)據(jù)中的視頻長(zhǎng)短分辨率參差不齊,如何高效地處理這些多樣化數(shù)據(jù),是Sora面臨的第一個(gè)技術(shù)難題。
傳統(tǒng)的視頻處理方式要求輸入視頻保持相同的分辨率和大小,這在很大程度上限制了訓(xùn)練數(shù)據(jù)的豐富度。而Sora則采用了一些巧妙的技術(shù)手段,可以靈活處理不同格式的視頻數(shù)據(jù):
(1)處理不同長(zhǎng)度視頻:
對(duì)較短視頻,重復(fù)采樣拉長(zhǎng)畫(huà)面長(zhǎng)度
對(duì)較長(zhǎng)視頻,智能識(shí)別并丟棄相似冗余的畫(huà)面塊,縮短總長(zhǎng)度
將所有視頻特征壓縮塞進(jìn)固定大小的"數(shù)據(jù)包"中
(2)處理不同分辨率視頻:
通過(guò)插值和縮放技術(shù),統(tǒng)一所有畫(huà)面至同一分辨率
在訓(xùn)練時(shí),Sora還可根據(jù)每個(gè)視頻的具體情況動(dòng)態(tài)調(diào)整批處理大小,并引入"稀疏注意力機(jī)制",讓模型集中關(guān)注視頻中的關(guān)鍵區(qū)域和動(dòng)作,從而提高了注意力資源的利用效率。通過(guò)上述方法,Sora可高效處理各種多樣化的視頻數(shù)據(jù),為后續(xù)的訓(xùn)練和生成奠定基礎(chǔ)。
二、生成高質(zhì)量視頻的核心機(jī)制
Sora視頻生成模型的核心技術(shù)源自一種創(chuàng)新架構(gòu)——Diffusion Transformers(DiT)。DiT融合了變分自動(dòng)編碼器(VAE)、視覺(jué)轉(zhuǎn)換器(ViT)和擴(kuò)散去噪概率模型(DDPM)三者的優(yōu)勢(shì),實(shí)現(xiàn)了端到端的視頻生成。
整個(gè)生成過(guò)程可以簡(jiǎn)單概括為:先讓清晰視頻變模糊,再讓模型學(xué)會(huì)如何還原。具體來(lái)說(shuō),VAE編碼器首先獲取原始清晰視頻的壓縮表示,然后對(duì)這個(gè)表示進(jìn)行"前向擴(kuò)散",也就是人為添加噪聲,讓它變得模糊不清。
接下來(lái)就是模型需要"學(xué)習(xí)"的關(guān)鍵一步了。將加了噪聲的模糊表示切分成一個(gè)個(gè)小塊,輸入到ViT模型中去。ViT的任務(wù)就是通過(guò)學(xué)習(xí),掌握如何從這些小塊的噪聲信號(hào)中還原出干凈的視頻畫(huà)面。推理時(shí),則按相反過(guò)程操作。ViT模型逐步減少噪聲,直到獲得比較干凈的視頻壓縮表示,最后由VAE解碼器將其生成為最終視頻輸出。這個(gè)過(guò)程有點(diǎn)類似給孩子們出"反向"腦筋急轉(zhuǎn)彎,先讓他們了解"清晰視頻是如何變模糊的",從而學(xué)會(huì)"如何從模糊中還原清晰"。
Sora并非是全新設(shè)計(jì)的,借鑒了谷歌Imagen Video模型的成果。Imagen Video可以把一段文字描述轉(zhuǎn)化為機(jī)器可理解的語(yǔ)義表示,深入把握文字主題、情感和意圖等要素。接下來(lái),Sora應(yīng)該參考了多倫多大學(xué)的Video LDM模型的做法。Video LDM先生成視頻的關(guān)鍵幀,比如開(kāi)始、結(jié)束和轉(zhuǎn)折等重要時(shí)刻。然后引入"時(shí)間層"分析相鄰幀之間的聯(lián)系,插值生成新的中間幀,最終將所有關(guān)鍵幀和新生成幀串聯(lián)成完整流暢的視頻。通過(guò)上述創(chuàng)新技術(shù),Sora實(shí)現(xiàn)了根據(jù)文字描述生成高質(zhì)量視頻的能力,而且處理能力更加通用靈活。
三、對(duì)Sora參數(shù)量和算力需求的猜測(cè)
盡管Sora能生成出高質(zhì)量逼真的視頻,但其模型參數(shù)量可能僅有30億左右,遠(yuǎn)遠(yuǎn)低于公眾的預(yù)期。這意味著相比其他大型人工智能模型,Sora的訓(xùn)練和推理過(guò)程將更加節(jié)省算力,未來(lái)的迭代升級(jí)也將更加便捷高效。
那么,Sora是如何在相對(duì)精簡(jiǎn)的參數(shù)量下實(shí)現(xiàn)卓越性能的呢?這與它所借鑒的DiT(Diffusion Transformers)架構(gòu)息息相關(guān)。
DiT架構(gòu)有兩個(gè)主要規(guī)模版本,分別是中等的B/2版和大型的XL版,其中XL版參數(shù)量為10億。根據(jù)OpenAI的技術(shù)報(bào)告,Sora模型的初級(jí)版本質(zhì)量很差,推測(cè)當(dāng)時(shí)采用的是B/2版本。而最終版的Sora質(zhì)量則比初級(jí)版提升了16倍。
我們知道,一個(gè)模型的計(jì)算復(fù)雜度通常與其參數(shù)規(guī)模成正比。如果Sora最終版本的計(jì)算量也提升了16倍,而且考慮到DiT XL版本相比B/2版本的計(jì)算復(fù)雜度提升了12倍,那么我們可以粗略估計(jì),Sora最終版本的計(jì)算復(fù)雜度約為DiT XL的16/12=1.33倍。
由于計(jì)算復(fù)雜度與參數(shù)規(guī)模正相關(guān),我們可以進(jìn)一步推測(cè),Sora最終版本的參數(shù)量大約在10億到20億之間。當(dāng)然,OpenAI團(tuán)隊(duì)肯定還對(duì)Sora做了其他改進(jìn),因此最終給出的參數(shù)量是30億左右。
四、廣泛多樣的訓(xùn)練數(shù)據(jù)
除了創(chuàng)新的模型架構(gòu),Sora取得卓越表現(xiàn)的另一個(gè)重要原因,在于它使用了高質(zhì)量且種類豐富多樣的訓(xùn)練數(shù)據(jù)。據(jù)了解,Sora的訓(xùn)練數(shù)據(jù)包括:
(1)游戲引擎數(shù)據(jù),這些數(shù)據(jù)通過(guò)建模模擬,能夠較為真實(shí)地再現(xiàn)現(xiàn)實(shí)世界的物理規(guī)律。它們有助于提高Sora生成視頻的邏輯性和一致性,避免出現(xiàn)違反常理的畫(huà)面。
(2)合成數(shù)據(jù)和重構(gòu)數(shù)據(jù),合成數(shù)據(jù)是通過(guò)計(jì)算機(jī)渲染生成的,重構(gòu)數(shù)據(jù)則是對(duì)現(xiàn)有視頻進(jìn)行加工處理而來(lái)。這兩種數(shù)據(jù)的優(yōu)點(diǎn)是可以按需定制,擴(kuò)充訓(xùn)練集的多樣性,提升視頻生成的質(zhì)量和多樣性。
(3)紀(jì)錄片、長(zhǎng)鏡頭視頻等,這類數(shù)據(jù)來(lái)源于真實(shí)拍攝,能夠很好地捕捉場(chǎng)景和動(dòng)作細(xì)節(jié),有助于Sora更好地學(xué)習(xí)和理解真實(shí)世界中的運(yùn)動(dòng)規(guī)律和場(chǎng)景特征。
正是由于訓(xùn)練數(shù)據(jù)的特殊組合以及極高的質(zhì)量,Sora才得以汲取生成逼真視頻所需的各種"知識(shí)"。高質(zhì)量的數(shù)據(jù)源是人工智能模型取得卓越表現(xiàn)的重要基礎(chǔ)之一。
五、新型SiT模型有望帶來(lái)突破
DiT架構(gòu)的原作者團(tuán)隊(duì)最近發(fā)布了一種改進(jìn)的SiT(Sequence Iterative Transformer)模型。SiT在保持DiT架構(gòu)的同時(shí),提供了更優(yōu)的性能和收斂速度,值得關(guān)注。
Sora的出現(xiàn),標(biāo)志著基于擴(kuò)散模型的視頻生成技術(shù)邁入了一個(gè)新的里程碑。 借助創(chuàng)新的DiT架構(gòu)、高質(zhì)量多樣的訓(xùn)練數(shù)據(jù),以及強(qiáng)大的文本理解能力,Sora不僅能根據(jù)文字描述生成逼真視頻,而且生成質(zhì)量和處理能力都達(dá)到了一個(gè)全新的高度。 這一突破性進(jìn)展,必將為視頻生成AI在多媒體創(chuàng)作、虛擬現(xiàn)實(shí)等領(lǐng)域的應(yīng)用鋪平道路,催生更多革命性創(chuàng)新。 我們可以期待,在不久的將來(lái),創(chuàng)作者無(wú)需復(fù)雜的拍攝制作,只需簡(jiǎn)單輸入一段文字,就能"變戲法"般生成出栩栩如生的視頻作品。 虛擬現(xiàn)實(shí)體驗(yàn)也將因此更加身臨其境、無(wú)遮無(wú)攔。 甚至在VideoGame等游戲領(lǐng)域,玩家的任何隨心所欲設(shè)想,都可能被實(shí)時(shí)渲染為超寫(xiě)實(shí)的影像場(chǎng)景。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-849335.html
視頻生成AI所帶來(lái)的無(wú)限想象力和創(chuàng)造力,只有親身體驗(yàn)才能體會(huì)。而Sora這一開(kāi)路先鋒,無(wú)疑為我們撥開(kāi)了通往未來(lái)的新視野。讓我們拭目以待,期待視頻生成AI帶來(lái)下一個(gè)"酷改變"。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-849335.html
到了這里,關(guān)于科普的理解 Sora 視頻生成模型的核心技術(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!