??大家好,我是herosunly。985院校碩士畢業(yè),現(xiàn)擔(dān)任算法研究員一職,熱衷于機(jī)器學(xué)習(xí)算法研究與應(yīng)用。曾獲得阿里云天池比賽第一名,CCF比賽第二名,科大訊飛比賽第三名。擁有多項(xiàng)發(fā)明專(zhuān)利。對(duì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)擁有自己獨(dú)到的見(jiàn)解。曾經(jīng)輔導(dǎo)過(guò)若干個(gè)非計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生進(jìn)入到算法行業(yè)就業(yè)。希望和大家一起成長(zhǎng)進(jìn)步。
??本文主要介紹了文生視頻大模型Sora的復(fù)現(xiàn)經(jīng)驗(yàn),希望能夠?qū)W(xué)習(xí)大模型的同學(xué)們有所幫助。
1. 前言
??2月16日,OpenAI 發(fā)布了視頻生成領(lǐng)域的重磅模型 —— Sora。
??Sora 對(duì) Scaling Law 的信仰及其突破性的技術(shù)創(chuàng)新,使它持續(xù)保持領(lǐng)先地位。同時(shí),也再次證明了“大力出奇跡”依然適用于文生視頻領(lǐng)域。
??Sora 披露的技術(shù)細(xì)節(jié),遠(yuǎn)遠(yuǎn)不足以窺其全貌。同時(shí) Sora 目前也未正式對(duì)外開(kāi)放。源于此,針對(duì) Sora 的思考和討論從未停止過(guò)。OpenAI 發(fā)布的技術(shù)報(bào)告如下圖所示:
??Sora 給整個(gè) AI 領(lǐng)域帶來(lái)的最大沖擊,莫過(guò)于如何優(yōu)化和校正現(xiàn)有的視頻生成思路和框架。而由此也引發(fā)了持續(xù)至今的復(fù)現(xiàn) Sora 的熱潮。
??復(fù)現(xiàn) Sora 的動(dòng)力,一方面來(lái)自技術(shù)人員的技術(shù)執(zhí)著與技術(shù)理想,另一方面也來(lái)自于未來(lái)可預(yù)期的商業(yè)價(jià)值。
??另外,不容忽視的是,這家持續(xù)被戲稱(chēng)為 CloseAI 的人工智能技術(shù)研究機(jī)構(gòu),已然成為了行業(yè)內(nèi)的標(biāo)桿,幾乎每次發(fā)布的產(chǎn)品都能帶來(lái)顛覆式的創(chuàng)新。但是 OpenAI 似乎在堅(jiān)持閉源的道路上越走越遠(yuǎn),這更加點(diǎn)燃了大眾對(duì)復(fù)現(xiàn) Sora 的激情。我們可以相信未來(lái)的幾個(gè)月內(nèi),多個(gè)類(lèi) Sora 模型將會(huì)陸續(xù)發(fā)布,并將開(kāi)源出來(lái)。
??Sora 發(fā)布后的這一個(gè)多月來(lái),其相關(guān)技術(shù)創(chuàng)新的討論和復(fù)現(xiàn)的進(jìn)度如何呢?下面我們一起來(lái)看看。
??關(guān)于復(fù)現(xiàn) Sora,本文從以下三方面展開(kāi):
-
距離 Sora 發(fā)布一個(gè)多月了,目前復(fù)現(xiàn)的進(jìn)度如何?
-
復(fù)現(xiàn)的可能性有多大?國(guó)內(nèi)有什么技術(shù)基礎(chǔ)?
-
Sora 到底是不是世界模型?能否幫助我們抵達(dá) AGI?有沒(méi)有必要復(fù)現(xiàn)?
2. 類(lèi) Sora 模型
目前已經(jīng)推出且討論較多的三個(gè)模型分別是 Snap Video、Open-Sora 1.0,以及 Mora。
- Snap Video
??Snap Video 是2月29日發(fā)布的類(lèi) Sora 模型,它使用到了可擴(kuò)展的時(shí)空 Transformer,來(lái)自開(kāi)發(fā)出 SnapChat 圖片分享軟件的 Snap 公司,以及特倫托大學(xué)等機(jī)構(gòu)。
傳送門(mén):《首批類(lèi)Sora模型出現(xiàn),色拉布上線(xiàn)Snap Video,效果優(yōu)于Pika、不輸Gen-2
- Open-Sora 1.0
??Open-Sora 1.0 是3月18日全面開(kāi)源的首個(gè)類(lèi) Sora 模型,來(lái)自 Colossal-AI 團(tuán)隊(duì),該開(kāi)源模型涵蓋了整個(gè)訓(xùn)練流程,包括數(shù)據(jù)處理、所有訓(xùn)練細(xì)節(jié)和模型權(quán)重。
傳送門(mén):《沒(méi)等來(lái)OpenAI,等來(lái)了Open-Sora全面開(kāi)源》
- Mora
??Mora 是幾天前由理海大學(xué)、微軟研究院的研究者提出的多智能體框架,該框架整合了幾種先進(jìn)的視覺(jué) AI 智能體,以復(fù)制 Sora 所展示的通用視頻生成能力。
??傳送門(mén):《復(fù)刻Sora的通用視頻生成能力,開(kāi)源多智能體框架Mora來(lái)了》
??盡管目前的模型復(fù)現(xiàn)效果依然無(wú)法企及 Sora,但是短短一月有余,已經(jīng)有明顯的技術(shù)突破出現(xiàn),不失為一個(gè)樂(lè)觀的信號(hào)。據(jù)不完全統(tǒng)計(jì),國(guó)內(nèi)已有近 10 支團(tuán)隊(duì)在復(fù)現(xiàn) Sora,讓我們拭目以待。
3. 先于 DiT 的技術(shù)架構(gòu)創(chuàng)新
??Sora 使用的 DiT(Diffusion Transformer) 架構(gòu)目前來(lái)看是其最大的技術(shù)創(chuàng)新,但追溯來(lái)看,也許國(guó)內(nèi)相關(guān)的進(jìn)度更早一些。
- U-ViT 架構(gòu)
??2022年9月,清華團(tuán)隊(duì)提交的名為《All are Worth Words: A ViT Backbone for Diffusion Models》的論文,比 DiT 還要早 2 個(gè)月。該論文提出用基于 Transformer 的網(wǎng)絡(luò)架構(gòu) U-ViT 替代基于 CNN 的 U-Net,這與 Sora 將 Transfomer 和擴(kuò)散模型融合的思路不謀而合。
??傳送門(mén):《國(guó)內(nèi)公司有望做出Sora嗎?這支清華系大模型團(tuán)隊(duì)給出了希望》
4. VDT
??2023年5月在 arXiv 網(wǎng)站上公開(kāi)的 Video Diffusion Transformer (VDT),是由中國(guó)人民大學(xué)研究團(tuán)隊(duì)主導(dǎo),并與加州大學(xué)伯克利分校、香港大學(xué)等進(jìn)行合作的,基于 Transformer 的 Video 統(tǒng)一生成框架。對(duì)采用 Transformer 架構(gòu)的原因也給出了詳細(xì)的解釋。
??傳送門(mén):《國(guó)內(nèi)高校打造類(lèi)Sora模型VDT,通用視頻擴(kuò)散Transformer被ICLR 2024接收》
??也許在核心技術(shù)的創(chuàng)新上,國(guó)內(nèi)的探索并不落后,而是走在了前面。不過(guò),囿于資源限制以及技術(shù)路線(xiàn)規(guī)劃等其他原因,沒(méi)能在之前實(shí)現(xiàn)類(lèi)似 Sora 的效果。
??Sora 無(wú)疑驗(yàn)證出了一條技術(shù)可行性的道路,而我們本身在技術(shù)架構(gòu)上的領(lǐng)先探索,將更有利于我們復(fù)現(xiàn)出 Sora,甚至可以更加樂(lè)觀地相信,在某些領(lǐng)域內(nèi)超越 Sora 的效果。
5. Sora 是世界模型嗎?
??由 Sora 引發(fā)的另一個(gè)熱點(diǎn)討論,是關(guān)于世界模型的。
??Sora 生成的視頻無(wú)疑對(duì)物理世界有了一定了解,比如經(jīng)典的“海盜船在咖啡杯里糾纏”,肉眼可見(jiàn)能涉及到專(zhuān)業(yè)的流體動(dòng)力學(xué)、光線(xiàn)等物理世界的特征。
??但是以 Yann LeCun 為代表的一部分科學(xué)家力證 Sora 的訓(xùn)練方式和世界模型沒(méi)有關(guān)系。
??那 Sora 是不是世界模型,到底懂不懂物理世界?關(guān)于這個(gè)討論已經(jīng)蔓延至各個(gè)論壇和直播中。可見(jiàn)對(duì)于究竟什么是世界模型這個(gè)話(huà)題,大家也是見(jiàn)仁見(jiàn)智的。
??而我們能明確的是,如果 Sora 是世界模型,那通往通用人工智能(AGI)的理想,可能比我們預(yù)計(jì)的還要早到達(dá)。那復(fù)現(xiàn) Sora 就有了一定的必要性。
??關(guān)于 Sora,我們保持著好奇,并持續(xù)探求以下問(wèn)題的可能答案。
-
Sora 之前的視頻生成架構(gòu)/技術(shù)還能不能用?如何用?
-
Sora 之后,誰(shuí)是被遺忘的?誰(shuí)又是被仰望的?
-
Sora 之外,其他創(chuàng)業(yè)公司/團(tuán)隊(duì)要如何做?做什么?
-
Sora 會(huì)改變主流的技術(shù)架構(gòu)嗎?以 DiT 為代表的架構(gòu)是以后主流的架構(gòu)選擇嗎?
-
國(guó)內(nèi)技術(shù)力量應(yīng)不應(yīng)該復(fù)現(xiàn) Sora?為什么?
-
已知有近 10 支團(tuán)隊(duì)在復(fù)現(xiàn) Sora,我們可能看到的未來(lái)格局是什么?
-
為什么是 OpenAI? OpenAI 的模式能否復(fù)刻?
-
Sora 之后,全球的視頻生成格局是怎樣的?又將如何發(fā)展和變化?
-
如何看待一些明星創(chuàng)業(yè)公司公開(kāi)表示不做 Sora?
-
多模態(tài)大模型的未來(lái)在哪里?
-
不同視角下,如何看待 Sora 的沖擊?(投資人、非技術(shù)人、央國(guó)企、AI 創(chuàng)業(yè)者、從業(yè)者等視角)
-
OpenAI 扮演著什么樣的社會(huì)角色?你如何看待這家公司?
-
……
Sora 帶來(lái)的沖擊是顛覆式的,因此對(duì)以上問(wèn)題的求解將持續(xù)進(jìn)行著。而作為聚焦于 AI 前沿技術(shù)探索和應(yīng)用實(shí)踐的團(tuán)隊(duì),機(jī)器之心 AI 技術(shù)論壇再次將視線(xiàn)放在了視頻生成領(lǐng)域。
??4月13日,在北京六道口,我們策劃了一期技術(shù)論壇,聚焦 Sora 發(fā)布后的技術(shù)創(chuàng)新、思考與應(yīng)用實(shí)踐?;顒?dòng)現(xiàn)場(chǎng)匯聚多位重磅嘉賓,同時(shí)我們也會(huì)更加深入地探討上面提到的問(wèn)題。
??在可預(yù)見(jiàn)的未來(lái),相信本次活動(dòng)能產(chǎn)生一定的積極作用和啟發(fā),以期推動(dòng)我國(guó) AI 開(kāi)源社區(qū)的技術(shù)發(fā)展和傳播。
6. 嘉賓陣容
??本次論壇的嘉賓陣容強(qiáng)大,我們邀請(qǐng)到了:
-
業(yè)內(nèi)的知名技術(shù)專(zhuān)家張俊林老師,來(lái)一場(chǎng) Sora 核心技術(shù)的深度拆解
-
爆火的視頻生成模型 PixelDance 的作者,來(lái)自字節(jié)跳動(dòng)的曾妍老師,分享 PixelDance 背后的技術(shù)創(chuàng)新和應(yīng)用
-
類(lèi) Sora 模型 VDT 的團(tuán)隊(duì)負(fù)責(zé)人,來(lái)自中國(guó)人民大學(xué)孵化的創(chuàng)業(yè)公司——智子引擎的 CEO 高一釗博士,詳細(xì)拆解 VDT 的技術(shù)創(chuàng)新和實(shí)踐
-
投資人是 AI 領(lǐng)域離不開(kāi)的重要角色,陳石老師作為峰瑞資本的投資合伙人,將帶來(lái)投資人/機(jī)構(gòu)視角下的獨(dú)特觀察
-
國(guó)央企在 Sora 發(fā)布后迅速響應(yīng),占據(jù)了 AI 領(lǐng)域一席之地,來(lái)自中移動(dòng)信息技術(shù)有限公司的算法技術(shù)負(fù)責(zé)人童同老師,將會(huì)分享他的全新思考
-
類(lèi) Sora 模型 Open-Sora 1.0 的技術(shù)負(fù)責(zé)人,來(lái)自潞晨科技的 CTO 卞正達(dá)老師,更是會(huì)詳細(xì)拆解如何復(fù)現(xiàn) Sora,以及來(lái)自他們團(tuán)隊(duì)的獨(dú)特思考與實(shí)踐
-
還有更多重磅嘉賓,陸續(xù)邀請(qǐng)中……
張俊林
中國(guó)中文信息學(xué)會(huì)理事,中科院軟件所博士
目前擔(dān)任新浪微博新技術(shù)研發(fā)負(fù)責(zé)人,此前在阿里巴巴擔(dān)任資深技術(shù)專(zhuān)家,負(fù)責(zé)新技術(shù)團(tuán)隊(duì)。技術(shù)書(shū)籍《這就是搜索引擎:核心技術(shù)詳解》、《大數(shù)據(jù)日知錄:架構(gòu)與算法》作者。
曾妍
ByteDance Research 算法工程師
專(zhuān)注于視頻生成和多模態(tài)預(yù)訓(xùn)練等領(lǐng)域的前沿研究。主導(dǎo)研發(fā)的模型為字節(jié)跳動(dòng)的視頻生成、短視頻審核、電商客服、今日頭條、教育解題等業(yè)務(wù)提供了有力服務(wù),并以第一作者身份將相關(guān)的八篇論文發(fā)表在 TPAMI, ICML, CVPR, ACL 等國(guó)際頂級(jí)會(huì)議和期刊,同時(shí)也擔(dān)任了 TPAMI, ICML, NIPS, ICLR 等會(huì)議的審稿人。主導(dǎo)研發(fā)的 PixelDance 視頻生成基礎(chǔ)模型在業(yè)界首次實(shí)現(xiàn)了高動(dòng)態(tài)性和穩(wěn)定性的結(jié)合,并首次生成了3分鐘的連續(xù)劇情動(dòng)畫(huà)。
陳****石
峰瑞資本 投****資合伙人
專(zhuān)注于科技、軟件、互聯(lián)網(wǎng)、消費(fèi)等領(lǐng)域的投資。加入峰瑞資本前,擁有 5 年阿里巴巴管理層經(jīng)歷,曾擔(dān)任阿里巴巴移動(dòng)事業(yè)群副總裁、阿里巴巴文化娛樂(lè)集團(tuán)高管、優(yōu)酷和 UC 國(guó)際班委,深度參與 UC、高德、優(yōu)酷、土豆、神馬搜索、UC 國(guó)際等產(chǎn)品線(xiàn)的業(yè)務(wù)決策和管理執(zhí)行。
15+ 年連續(xù)創(chuàng)業(yè),作為核心管理團(tuán)隊(duì)成員深度參與 UC(全球最大第三方手機(jī)瀏覽器,2014 年被阿里巴巴收購(gòu))和拉卡拉(中國(guó)知名第三方支付公司,SZ:300773)的創(chuàng)業(yè)過(guò)程,分別擔(dān)任副總裁和 CTO;曾經(jīng)是一名快樂(lè)的程序員,用戶(hù)增長(zhǎng)專(zhuān)家,科技熱愛(ài)者。
擁有北京航空航天大學(xué)機(jī)電工程系本科和碩士學(xué)歷。2023 年獲評(píng) EqualOcean「2023年出海全球化投資TOP30人」、甲子光年「2022-2023 年度人工智能與大數(shù)據(jù)最佳投資人TOP20」。
高一釗
智子引擎 CEO
中國(guó)人民大學(xué)高瓴人工智能學(xué)院博士。多模態(tài)大模型專(zhuān)家,發(fā)表多篇頂級(jí)期刊、會(huì)議論文,曾帶領(lǐng)多人團(tuán)隊(duì)完成文瀾大模型訓(xùn)練。全程參與智子引擎相關(guān)模型、產(chǎn)品的開(kāi)發(fā)與推廣。
卞正達(dá)
潞晨科技 CTO
畢業(yè)于新加坡國(guó)立大學(xué),曾在全球超算最頂尖會(huì)議 SC 上發(fā)表一作論文,擁有 7 年高性能 AI 系統(tǒng)經(jīng)驗(yàn),Colossal-AI 系統(tǒng)核心開(kāi)發(fā)者。
童同
中移動(dòng)信息技術(shù)有限公司 算法技術(shù)負(fù)責(zé)人
中國(guó)科學(xué)院自動(dòng)化研究所 AI 博士。目前在中移動(dòng)信息技術(shù)有限公司負(fù)責(zé)多模態(tài)大模型、數(shù)字人、智能體等領(lǐng)域研發(fā)工作,實(shí)現(xiàn)了文生圖、文生視頻、大模型動(dòng)作識(shí)別與目標(biāo)檢測(cè)等關(guān)鍵技術(shù)的落地應(yīng)用。共發(fā)表論文 12 篇、公司專(zhuān)利 12 項(xiàng)、軟著 4 項(xiàng)。
更多專(zhuān)家正在確認(rèn)中,敬請(qǐng)期待。
7. 視頻生成技術(shù)與應(yīng)用 - Sora 時(shí)代
??機(jī)器之心 AI 技術(shù)論壇時(shí)刻保持對(duì) AI 領(lǐng)域技術(shù)突破的敏感追蹤,為了深入探究 Sora 對(duì)技術(shù)的沖擊和對(duì)各行各業(yè)帶來(lái)的影響,我們特別策劃了「視頻生成技術(shù)與應(yīng)用 — Sora 時(shí)代」AI 技術(shù)論壇。
??希望助力廣大企業(yè)和從業(yè)者緊跟技術(shù)發(fā)展潮流,全面了解 Sora、視頻生成技術(shù)、多模態(tài)大模型等前沿領(lǐng)域的技術(shù)突破和應(yīng)用實(shí)踐。
??面對(duì)撲面而來(lái)的 AI 視頻生成,積極擁抱學(xué)習(xí)并敢于嘗試,才能抓住技術(shù)潮流,破局而生。
??期待 2024.04.13,在北京海淀區(qū),和你相遇。
??論壇報(bào)名通道正式開(kāi)啟,掃描海報(bào)中二維碼可直達(dá)活動(dòng)頁(yè)面。由于嘉賓介紹發(fā)布時(shí)間較晚,本場(chǎng)論壇的早鳥(niǎo)優(yōu)惠期有所延長(zhǎng)。
??即日起至04月07日23:55,購(gòu)票參會(huì)即可直減 200 元, 享受 699 元早鳥(niǎo)特惠門(mén)票(原價(jià) 899 元)。五人團(tuán)購(gòu)更有專(zhuān)屬優(yōu)惠,詳見(jiàn)活動(dòng)詳情頁(yè)。
8. 活動(dòng)亮點(diǎn)
-
贈(zèng)送永久觀看上一期「視頻生成前沿研究與應(yīng)用」論壇活動(dòng)視頻及課件(上期活動(dòng)已購(gòu)請(qǐng)聯(lián)系 Alice 扣減,本期購(gòu)買(mǎi)后記得找 Alice 兌換上一期視頻)
-
永久觀看本期「視頻生成技術(shù)與應(yīng)用 - Sora 時(shí)代」論壇活動(dòng)會(huì)后視頻及課件
-
匯聚高校教授及產(chǎn)業(yè)界重磅技術(shù)專(zhuān)家,掌握最新技術(shù),拓寬技術(shù)視野
-
和技術(shù)大牛面對(duì)面交流,會(huì)后深度連接
-
覆蓋核心技術(shù)拆解、明星產(chǎn)品最佳實(shí)踐、技術(shù)未來(lái)探討及展望
-
全流程助力學(xué)習(xí):會(huì)前會(huì)后學(xué)習(xí)資料大禮包
-
加入視頻生成高質(zhì)量技術(shù)交流社群,及時(shí)跟進(jìn)行業(yè)前沿技術(shù)與資訊
-
機(jī)器之心旗下相關(guān)付費(fèi)活動(dòng)享購(gòu)票八五折優(yōu)惠
??關(guān)于本次活動(dòng)商務(wù)合作、團(tuán)購(gòu)、發(fā)票、內(nèi)容等相關(guān)問(wèn)題,歡迎私信 或通過(guò)郵件進(jìn)行咨詢(xún)。
??郵箱:jiayaning@jiqizhixin.com
關(guān)于發(fā)票: 報(bào)名成功后,可于活動(dòng)結(jié)束后,在活動(dòng)行 App 上自行申請(qǐng)發(fā)票,發(fā)票為電子版增值稅普票,開(kāi)票成功后會(huì)發(fā)送到報(bào)名郵箱中。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-855676.html
成為論壇志愿者: 參與活動(dòng)現(xiàn)場(chǎng)的具體事項(xiàng)執(zhí)行,如簽到、引導(dǎo)、秩序管理等,包工作餐。在校學(xué)生優(yōu)先。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-855676.html
到了這里,關(guān)于文生視頻大模型Sora的復(fù)現(xiàn)經(jīng)驗(yàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!