国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐

這篇具有很好參考價(jià)值的文章主要介紹了AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

編者按

AIGC時(shí)代下,媒體內(nèi)容生產(chǎn)領(lǐng)域隨著AI的出現(xiàn)也涌現(xiàn)出更多的變化與挑戰(zhàn)。面對(duì)AI的巨大沖擊,如何優(yōu)化或重構(gòu)媒體內(nèi)容生產(chǎn)技術(shù)架構(gòu)?在多樣的應(yīng)用場(chǎng)景中媒體內(nèi)容生產(chǎn)技術(shù)又有著怎樣的實(shí)踐效果?LiveVideoStackCon2023深圳站邀請(qǐng)到阿里云智能資深技術(shù)專家鄒娟,與大家分享阿里云視頻云的媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐。

文/鄒娟

整理/LiveVideoStack

大家好,很榮幸來到LiveVideoStackCon和大家分享阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

本次分享分為四個(gè)部分:

  1. 分享AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)的技術(shù)架構(gòu);

  2. 媒體底層需要將多種AI能力與媒體處理能力融合起來,這部分將介紹AI與媒體處理融合的一體化媒體引擎關(guān)鍵技術(shù);

  3. AIGC在阿里云視頻云媒體內(nèi)容生產(chǎn)服務(wù)的應(yīng)用場(chǎng)景和技術(shù)實(shí)踐

  4. 未來展望

01

?AIGC時(shí)代的

媒體內(nèi)容生產(chǎn)技術(shù)架構(gòu)

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

首先給大家分享阿里云視頻云媒體服務(wù)的頂層架構(gòu)設(shè)計(jì),這為AIGC的快速落地奠定了基礎(chǔ)。媒體服務(wù)整體架構(gòu)分三層。

最底層是云原生底座,阿里云視頻云構(gòu)架在分布式云原生框架之上,視頻云與我們的客戶一樣,自身也是云的使用者,可以獲得云計(jì)算IaaS層彈性、按需按量、規(guī)?;募t利。

中間層為媒體基礎(chǔ)層,即媒體服務(wù)的底層技術(shù)核心。

這一層分為三個(gè)部分:左側(cè)的算法區(qū)域包括音視頻編解碼與增強(qiáng)算法、特效渲染算法、視覺AI算法、3A算法等。中間的媒體引擎是執(zhí)行各類媒體處理任務(wù)、AI任務(wù)的發(fā)動(dòng)機(jī),負(fù)責(zé)集成算法及工程優(yōu)化,設(shè)計(jì)統(tǒng)一的媒體處理框架,實(shí)現(xiàn)媒體處理Pipeline的高質(zhì)量運(yùn)行。最右側(cè)為媒體計(jì)算調(diào)度,與媒體引擎緊密配合,把不同類型的媒體任務(wù)調(diào)度到最合適的集群和機(jī)器上,形成性能、畫質(zhì)、成本的綜合最優(yōu)解。

頂層為阿里云視頻云提供的PaaS媒體服務(wù)——PaaS服務(wù)層,媒體服務(wù)PaaS以媒體內(nèi)容生產(chǎn)為核心,其產(chǎn)物自然也是媒體內(nèi)容消費(fèi)的輸入。例如轉(zhuǎn)碼輸出的多格式多碼率文件/流,大多為播放服務(wù)。PaaS服務(wù)層的模塊劃分思路即按照音視頻生產(chǎn)消費(fèi)的數(shù)據(jù)流向及模塊依賴關(guān)系,劃分為音視頻采集-媒體處理-生產(chǎn)制作-媒資管理-媒體消費(fèi)5個(gè)部分,其中“媒體匯聚”代表入方向,“媒體消費(fèi)”代表出方向,“媒體處理”和“生產(chǎn)制作”用于媒體數(shù)據(jù)的內(nèi)部處理和二創(chuàng),“媒資”則是媒體數(shù)據(jù)/業(yè)務(wù)流程/生命周期策略管理的底座。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

早在2017年,阿里云視頻云就提供了視頻AI相關(guān)服務(wù),比如智能封面、視頻DNA、智能審核等,那時(shí)這些服務(wù)以原子能力的形式提供,獨(dú)立于視頻云的媒體處理、生產(chǎn)制作、媒資服務(wù)之外。但隨著AI能力的豐富,很多AI服務(wù)的輸出產(chǎn)物就是音視頻(比如視頻集錦),或者需要與媒體處理同步進(jìn)行才能有更好的效果(比如視頻舊字幕擦除后疊加新字幕)。

因此技術(shù)架構(gòu)迭代的第一步就是考慮媒體底層的AI能力融合。AIGC時(shí)代,媒體底層需要靈活融合各種AI能力,這種融合并不是業(yè)務(wù)層工作流的Activity編排,這樣一般會(huì)引入多次編解碼,帶來畫質(zhì)與性能的損耗。我們選擇把AI處理直接融入音視頻處理pipeline,在Frame層面做最細(xì)顆粒度的編排。

回歸到媒體業(yè)務(wù)流本身,在AI時(shí)代下,媒體服務(wù)PaaS可以在哪些方面優(yōu)化?其實(shí)媒體業(yè)務(wù)流本身沒有太大變化,變化的核心是使用了AI,希望AI能夠模擬人類的思維,包括理解人的意圖以及正確執(zhí)行人的指令。當(dāng)技術(shù)發(fā)展到一定程度,AI可以模擬人類的思維模式,場(chǎng)景就會(huì)被重構(gòu)。阿里云視頻云技術(shù)架構(gòu)的迭代也會(huì)圍繞這一思路展開。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)架構(gòu)在AIGC時(shí)代的迭代,也將從內(nèi)容生產(chǎn)的三駕馬車--媒體生產(chǎn)制作、媒資管理、媒體處理三個(gè)板塊開展。

生產(chǎn)制作板塊,我們的迭代方向是從單個(gè)制作環(huán)節(jié)使用AI技術(shù)轉(zhuǎn)向全智能制作。除創(chuàng)意依賴人之外,AI可以參與到生產(chǎn)制作的其他環(huán)節(jié),包括素材的挑選和生成、時(shí)間線的制作編排、以及效果渲染的大模型算法優(yōu)化。

媒資板塊的傳統(tǒng)實(shí)現(xiàn)需要較多人工投入,例如專業(yè)媒體機(jī)構(gòu)的編目軟件需要大量人工編目數(shù)據(jù)錄入的工作,阿里云視頻云設(shè)計(jì)的新一代媒資系統(tǒng)能夠像人一樣理解媒資內(nèi)容,使用自然語言進(jìn)行搜索與管理,并為下一步的挖掘與圖譜分析打下基礎(chǔ)。

媒體處理的迭代方向聚焦于效果的極致優(yōu)化。媒體處理可以抽象為單入單出的模型,基于此模型實(shí)現(xiàn)最大程度的效果優(yōu)化,包括高清晰度的增強(qiáng)場(chǎng)景,低清晰度的重生場(chǎng)景,使用音頻的雙聲道設(shè)備獲得全景聲或環(huán)繞聲效果的場(chǎng)景等。

文章前面提到,媒體任務(wù)的最終執(zhí)行會(huì)收口到媒體引擎層,這需要媒體引擎把AI處理融入媒體處理Pipeline。隨著AI能力的日漸豐富,阿里云視頻云的媒體引擎也進(jìn)行了架構(gòu)優(yōu)化與技術(shù)升級(jí),在AIGC爆發(fā)前完成了媒體底座的迭代,成為融合AI與媒體處理的一體化媒體引擎,為視頻云快速引入并落地大模型算法節(jié)約了時(shí)間,接下來將分享一體化媒體引擎的關(guān)鍵技術(shù)。

02

融合AI與媒體處理

一體化媒體引擎關(guān)鍵技術(shù)

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

大模型的引入帶來龐大的算力消耗,對(duì)媒體引擎性能的挑戰(zhàn)尤為突出,我們?cè)O(shè)計(jì)的高性能智能媒體引擎的要點(diǎn)總結(jié)為以下三個(gè)方面:

第一,架構(gòu)方面,做分布式處理,提高多機(jī)并行。這里的分布式處理并非表示將海量任務(wù)分布式調(diào)度到不同機(jī)器,而是指單個(gè)任務(wù)的分布式處理架構(gòu)。當(dāng)任務(wù)的復(fù)雜度較高時(shí),將其不同環(huán)節(jié)分散到不同的機(jī)器上,解決單機(jī)無法滿足任務(wù)算力的問題,或者任務(wù)的特定環(huán)節(jié)需要指定機(jī)型的問題。

第二,進(jìn)程方面,統(tǒng)一pipeline。視頻云的ToB模式,要求我們支持不同客戶的多種場(chǎng)景和應(yīng)用,統(tǒng)一pipeline可以減少各場(chǎng)景的計(jì)算冗余,同時(shí)對(duì)底層算法庫和媒體處理框架的統(tǒng)一則讓引擎層執(zhí)行不同任務(wù)具有更好的魯棒性。

第三,算法方面,阿里云視頻云實(shí)現(xiàn)軟硬一體的優(yōu)化,通過CPU、GPU以及AISC編解碼加速,支持云上各時(shí)期的多種機(jī)型規(guī)格,同時(shí)從算法和工程兩個(gè)維度優(yōu)化單幀處理性能,在大模型算力緊張的時(shí)代最大程度的利用現(xiàn)有算力。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

以單任務(wù)分布式處理——超高清視頻AI處理為例,1080P超分到4K使用了深度學(xué)習(xí)算法,那么將該任務(wù)調(diào)度到高配GPU機(jī)器上運(yùn)行,可能會(huì)導(dǎo)致機(jī)器的CPU空閑而不利于資源的整體利用。阿里云視頻云的媒體引擎支持對(duì)單任務(wù)進(jìn)行分布式處理,可以將解碼、前處理、編碼、Merge放在不同的機(jī)器執(zhí)行,也可以將單任務(wù)切片成多個(gè)子任務(wù)再進(jìn)行分布式處理。比如超分處理可以放在GPU的機(jī)器上,解碼、編碼以及Merge可以調(diào)度到另外的集群,對(duì)于是幀級(jí)別傳輸?shù)膱?chǎng)景,媒體引擎會(huì)在pipeline內(nèi)部進(jìn)行媒體數(shù)據(jù)的YUV交換和無損壓縮,從而實(shí)現(xiàn)單任務(wù)多環(huán)節(jié)計(jì)算資源的最優(yōu)搭配。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

媒體引擎會(huì)接收到各種各樣的媒體計(jì)算任務(wù),接上一個(gè)技術(shù)點(diǎn)“單任務(wù)的分布式處理”繼續(xù)探討,如何判斷哪些任務(wù)需要走分布式,哪些任務(wù)單機(jī)執(zhí)行反而效率最高呢?阿里云視頻云媒體引擎設(shè)計(jì)并實(shí)現(xiàn)了Worker-Brain決策大腦,對(duì)單任務(wù)消耗的資源做精準(zhǔn)預(yù)估,自動(dòng)判斷進(jìn)程和算子所需機(jī)型,對(duì)任務(wù)是否切片和算子編排流程進(jìn)行決策,同時(shí)在任務(wù)執(zhí)行時(shí)自動(dòng)根據(jù)算法復(fù)雜度進(jìn)行升降機(jī),消除cpu毛刺,實(shí)現(xiàn)穩(wěn)定性自保護(hù)機(jī)制。

另外,阿里云視頻云在媒體引擎層統(tǒng)一了媒體處理任務(wù)框架。由于直播、點(diǎn)播、生產(chǎn)制作以及云剪輯等業(yè)務(wù)的發(fā)展階段不一樣,存在算法依賴庫不統(tǒng)一或版本不一致的歷史問題。媒體引擎將自研算法依賴版本進(jìn)行了統(tǒng)一,用相同的媒體處理框架支持不用的任務(wù)類型,甚至在一些版本上實(shí)現(xiàn)云和端的統(tǒng)一。宏觀來講,阿里云視頻云將各種業(yè)務(wù)資源并池,不同的業(yè)務(wù)共用異構(gòu)的資源池,資源池之間也可互備來保證整體服務(wù)的穩(wěn)定。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

這是綜合應(yīng)用“單任務(wù)分布式處理”和“Work-Brain智能決策”的全智能媒體處理引擎實(shí)踐,以“數(shù)字人摳像并且將其與云剪輯融合”的場(chǎng)景為例,左邊是素材和時(shí)間線涉及的原材料,時(shí)間線可能需要對(duì)素材做ASR,同時(shí)還存在數(shù)字人的生成與同步、人聲克隆、摳像背景替換、畫質(zhì)增強(qiáng)等要求。整個(gè)任務(wù)相當(dāng)復(fù)雜,且涉及多個(gè)算子,通過Worker-Brain進(jìn)行資源評(píng)估后,該任務(wù)既需要將pipeline的不同環(huán)節(jié)拆到不同的機(jī)型執(zhí)行,進(jìn)行單任務(wù)分布式處理,也需要將長(zhǎng)視頻切片,對(duì)任務(wù)進(jìn)行并行處理。而另一個(gè)標(biāo)準(zhǔn)轉(zhuǎn)碼任務(wù)(比如單入單出1080p 264轉(zhuǎn)480p 264)經(jīng)過Worker-Brain決策后,在單機(jī)完成整個(gè)任務(wù)的執(zhí)行是最優(yōu)的。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

最后分享軟硬一體的異構(gòu)計(jì)算。CPU加速相對(duì)比較傳統(tǒng),涉及多線程的幀間優(yōu)化、幀內(nèi)優(yōu)化、指令集優(yōu)化以及數(shù)據(jù)讀寫優(yōu)化。結(jié)合到AI異構(gòu)場(chǎng)景下,經(jīng)常需要考慮CPU與GPU之間的關(guān)系,以前大多選擇一臺(tái)CPU+GPU的機(jī)器完成整個(gè)任務(wù),現(xiàn)在可以基于前面提到的架構(gòu),把單個(gè)AI任務(wù)分離,把CPU和GPU的部分調(diào)度到不同機(jī)器上處理再合并。

阿里云視頻云還支持各種異構(gòu)計(jì)算,包括CPU/GPU/AISC等,比如ASIC的硬解硬編需要平衡性能、畫質(zhì)、延時(shí)、成本等多種指標(biāo),還需要考慮穩(wěn)定性因素,因?yàn)閱闻_(tái)AISC服務(wù)器一般擁有更大的吞吐量,出現(xiàn)異常受影響的任務(wù)數(shù)更多,這時(shí)還需要考慮主備模版的兜底和任務(wù)的降級(jí)切換策略。因此媒體引擎層的異構(gòu)計(jì)算需要統(tǒng)籌CPU、GPU、ASIC的算力和特性,將云端資源充分利用起來。

03

媒體內(nèi)容生產(chǎn)AIGC技術(shù)實(shí)踐

第三部分是阿里云視頻云關(guān)于內(nèi)容生產(chǎn)AIGC的技術(shù)實(shí)踐。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

在AIGC爆發(fā)前,用戶已經(jīng)開始使用AI,AI相關(guān)話題已經(jīng)“火”了好幾次,阿里云視頻云的AI服務(wù)也上線超過6年。

此前用戶更多是在單點(diǎn)環(huán)節(jié)使用AI,例如圖上展示的生產(chǎn)制作和媒體處理的能力,在AIGC爆發(fā)前,許多廠家、開發(fā)者、創(chuàng)業(yè)者都使用過,此類能力大多針對(duì)特定場(chǎng)景,要進(jìn)行規(guī)?;瘯r(shí),只能進(jìn)行一些微調(diào),如果不針對(duì)特定場(chǎng)景,則存在效果泛化性不夠?qū)е聹?zhǔn)召率不高的情況出現(xiàn)。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

在AIGC時(shí)代到來后,阿里云視頻云重新審視了媒體內(nèi)容生產(chǎn)業(yè)務(wù)流程,媒體處理/媒資/媒體處理三駕馬車都值得用AI再度重構(gòu)或優(yōu)化。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

媒體處理的AIGC重構(gòu)較多依賴于媒體引擎的底層技術(shù)。各種架構(gòu)的升級(jí)改造都是為了滿足或迎合傳統(tǒng)的音視頻前處理與AI算法、編碼器結(jié)合的場(chǎng)景,而前面提到的,媒體引擎的統(tǒng)一媒體處理框架和引擎架構(gòu)優(yōu)化,可以完全復(fù)用在AIGC時(shí)代,媒體任務(wù)在底層的執(zhí)行,本質(zhì)與前AI時(shí)代沒有區(qū)別。

媒體處理PaaS服務(wù)層的重構(gòu)設(shè)計(jì)則體現(xiàn)在API與流程編排上。在API層面,阿里云視頻云把AI和傳統(tǒng)的媒體處理在媒體與管道協(xié)議上進(jìn)行統(tǒng)一,這種統(tǒng)一不僅是協(xié)議層面的統(tǒng)一,也代表著底層調(diào)度資源可以進(jìn)行混部或混合調(diào)度。關(guān)于流程編排,AI環(huán)節(jié)和媒體處理環(huán)節(jié)可以在相同的工作流引擎中自由編排。

媒體處理AIGC重構(gòu)的核心在算法與媒體引擎的聯(lián)合優(yōu)化。下面展示兩個(gè)案例:

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

阿里云視頻云用更精細(xì)的圖像紋理細(xì)節(jié)提取方式,來進(jìn)行細(xì)節(jié)修復(fù)和生成,算法優(yōu)化的思路是還原圖像的真實(shí)面貌,這與我們?cè)?015年、2016年開始研發(fā)的窄帶高清思路如出一轍。多年以來,這個(gè)方向一直沒有變過,也比較契合許多行業(yè)和場(chǎng)景的訴求。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

我們?cè)?K超分+HDR超高清的實(shí)踐,算法側(cè)采用局部變化策略,使亮度更有層次感。展示案例對(duì)樹木紋理的細(xì)節(jié)進(jìn)行了增強(qiáng),在色彩方面進(jìn)行了調(diào)整優(yōu)化。另外值得一提的是,此任務(wù)剛上線時(shí)處理速度非常慢,通過媒體引擎的單任務(wù)分布式框架,對(duì)任務(wù)切片并行處理后,最終的處理速度達(dá)到剛上線時(shí)的100倍,大大縮短了客戶app發(fā)布高質(zhì)量視頻的周期。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

阿里云視頻云的媒資系統(tǒng)架構(gòu)分為三層,分別是媒體數(shù)據(jù)層、基礎(chǔ)服務(wù)層和智能服務(wù)層。

關(guān)于媒體數(shù)據(jù)層,我們大概在三年前將媒資的元數(shù)據(jù)體系重構(gòu)為可靈活定義和組織的任意實(shí)體,可零代碼接入AI生成的各類媒資元數(shù)據(jù),同時(shí)實(shí)現(xiàn)了統(tǒng)一MediaID,支持視頻云內(nèi)部多產(chǎn)品的媒資互通。近一年對(duì)媒資索引進(jìn)行了重構(gòu),將基于文本元數(shù)據(jù)的索引和基于特征值的向量索引整合起來,通過統(tǒng)一的API提供搜索服務(wù)。

關(guān)于媒資智能服務(wù)層,我們?cè)诿襟w數(shù)據(jù)之上,采用多模態(tài)語義重構(gòu)了媒資內(nèi)容的結(jié)構(gòu)化邏輯,采用自然語言搜索替代關(guān)鍵詞搜索。這兩項(xiàng)基礎(chǔ)又可以應(yīng)用到智能編目和智能資源管理模塊,比如智能編目可以自動(dòng)填充內(nèi)容描述字段,以及根據(jù)內(nèi)容結(jié)構(gòu)化結(jié)果自動(dòng)拆分片段;基于定向指令的搜索結(jié)果可以用于媒體資源之間的關(guān)聯(lián)和聚類等。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

內(nèi)容理解是搜索的基礎(chǔ),在大模型之前的多模態(tài)內(nèi)容理解,是將視覺信息、語音信息等都轉(zhuǎn)換為文本,如視頻畫面內(nèi)容識(shí)別為各種標(biāo)簽,語音識(shí)別為ASR文本等,視音頻映射為文本本身就會(huì)造成信息的丟失,對(duì)近義詞和同義詞的擴(kuò)展理解就更不敏感,無法真正從視音頻維度理解語義。阿里云視頻云在 9 月底上線了基于大模型的智能搜索,將視頻的圖、音、文統(tǒng)一到一個(gè)高維的向量空間中,避免語義損失。同時(shí),搜索的文字也轉(zhuǎn)化為高維向量,不再分詞,與傳統(tǒng)視頻 AI 搜索相比,Top5 的準(zhǔn)召率大幅提升。

搜索廣泛應(yīng)用于媒體服務(wù)的各個(gè)環(huán)節(jié)。除了媒體管理本身,制作素材的選擇和時(shí)間軸素材的智能匹配也可以通過重組后的搜索服務(wù)獲得更準(zhǔn)確的結(jié)果。內(nèi)容理解是搜索的基礎(chǔ),大模型之前的多模態(tài)內(nèi)容理解,是將視覺信息、語音信息和其他信息均轉(zhuǎn)換為文本,比如視頻畫面內(nèi)容識(shí)別為各種標(biāo)簽,語音識(shí)別為ASR文本等,視覺和音頻映射成文本本身就會(huì)造成信息的丟失,對(duì)于近義詞、同義詞的擴(kuò)展理解就更加不敏感,無法真正從視覺和音頻的維度理解語義。阿里云視頻云在9月底上線了基于大模型的智能搜索,將視頻的畫面、音頻和文本統(tǒng)一到一個(gè)高維向量空間,避免語義丟失。同時(shí)搜索的文本也轉(zhuǎn)成高維向量,不再進(jìn)行分詞,相較于傳統(tǒng)的視頻AI搜索,Top5的準(zhǔn)召率有明顯提升。

搜索在媒體服務(wù)各板塊都有廣泛應(yīng)用,除了媒資管理本身,生產(chǎn)制作的素材挑選和時(shí)間線素材智能匹配,也可以通過重構(gòu)后的搜索服務(wù)獲得更精準(zhǔn)的結(jié)果。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

阿里云視頻云對(duì)于生產(chǎn)制作的頂層設(shè)計(jì)比媒資更早進(jìn)行,早在2017年的第一版就考慮到了AI可能會(huì)參與到時(shí)間線Timeline的生產(chǎn)、編排和渲染中,因此第一張圖的基礎(chǔ)架構(gòu)沿用至今。而這一輪的AIGC重構(gòu)點(diǎn)主要有兩個(gè),1)AI完全融入時(shí)間線,例如在時(shí)間線的素材和效果定義中加入AI因子,即定義AI類型的素材(比如素材由AI生成)和AI類型的效果。2)實(shí)現(xiàn)了并行剪輯的智能分片策略,并提升了Timeline的可切分比例,以前Timeline Split點(diǎn)需要避開Timeline中的各種特效和循環(huán)素材,優(yōu)化后,幾乎兼容了95%的Timeline。智能分片策略則與媒體引擎的Worker-Brain配合,以時(shí)間線合成的時(shí)效性為目標(biāo),決策最優(yōu)算子和流程編排。

接下來,會(huì)介紹幾個(gè)已經(jīng)在阿里云視頻云生產(chǎn)制作產(chǎn)品應(yīng)用AIGC技術(shù)的實(shí)踐。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

Case1:數(shù)字人剪輯。這是目前AIGC商業(yè)化最成功的場(chǎng)景,數(shù)字人在視頻制作、虛擬主播、在線教育和廣告行業(yè)中,提供與真人難以區(qū)分的視覺、音頻和互動(dòng)體驗(yàn),降低了內(nèi)容生產(chǎn)的成本和時(shí)間,在實(shí)時(shí)場(chǎng)景可以不間斷地工作,在非實(shí)時(shí)場(chǎng)景可以規(guī)?;a(chǎn),滿足了全球市場(chǎng)定制化規(guī)?;a(chǎn)Presentation視頻的需求。

2023年10月底的云棲大會(huì),央視采訪并播出了題為《生成式大模型進(jìn)軍視頻領(lǐng)域 “數(shù)字人”應(yīng)用場(chǎng)景拓展》的報(bào)道,介紹了阿里云視頻云的數(shù)字人剪輯技術(shù)和應(yīng)用。阿里云視頻云使用數(shù)字人剪輯技術(shù),結(jié)合批量混剪timeline,采用不同的數(shù)字人形象渲染,接近真人語音的人聲克隆,一小段文案,通義萬相生成若干背景,多項(xiàng)技術(shù)共同配合,完成了視頻的規(guī)?;a(chǎn)。目前我們的不少客戶使用這個(gè)方案減少真人主播的成本支出,提升成片制作的數(shù)量。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

Case2:智能實(shí)時(shí)制作。阿里云視頻云基于大模型升級(jí)了云導(dǎo)播產(chǎn)品虛擬演播室場(chǎng)景的實(shí)景摳像效果,這次升級(jí)有三個(gè)核心點(diǎn):第一,由原來的單層摳像升級(jí)為多層多實(shí)體摳像,既可以僅摳人像,也可以把人像連同部分物品摳除,保留需要的物品和背景;第二,摳像效果顯著增強(qiáng),體現(xiàn)在面對(duì)極為雜亂的背景(比如云棲大會(huì)展會(huì)現(xiàn)場(chǎng)),仍然在分割邊緣有發(fā)絲級(jí)精度的效果,這將大大降低虛擬演播室的環(huán)境門檻,讓隨時(shí)隨地的外場(chǎng)直播也可獲得演播室的體驗(yàn);第三,大模型對(duì)算力消耗較大,實(shí)時(shí)制作場(chǎng)景需要從算法到工程進(jìn)行優(yōu)化,以保證實(shí)時(shí)性,比如模型裁剪、大小模型結(jié)合改造、多線程優(yōu)化等,這是大模型技術(shù)應(yīng)用在直播及更低延時(shí)場(chǎng)景的必經(jīng)之路。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

Case3: 一鍵成片。一鍵成片是阿里云云剪輯智能生產(chǎn)的綜合應(yīng)用,覆蓋生產(chǎn)制作業(yè)務(wù)流程中,包括素材預(yù)挑選、片段截取、素材補(bǔ)充生成在內(nèi)的素材準(zhǔn)備與選取、智能時(shí)間線編排、效果包裝、合成渲染等多個(gè)環(huán)節(jié)。AIGC在每個(gè)環(huán)節(jié)都可能發(fā)揮作用,比如基于多模態(tài)語義的視頻搜索與摘要可用于素材預(yù)挑選,文生圖或文生視頻可用于素材的補(bǔ)充,數(shù)字人+人聲復(fù)刻可用于配音和包裝,支持AI與媒體處理幀級(jí)別編排的媒體引擎用于最終的合成渲染,這絕非單點(diǎn)算法、單個(gè)框架或者單項(xiàng)能力之功,而是AIGC技術(shù)與媒體服務(wù)多環(huán)節(jié)多層次融合的完整系統(tǒng)工程。

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

春節(jié)期間Sora爆火,突破了文生視頻大模型以前只能生成幾秒鐘空鏡頭的固有印象。Sora有更深入的文本指令理解能力與互動(dòng)能力,生成的鏡頭層次更多,內(nèi)容更豐富,時(shí)長(zhǎng)可達(dá)1分鐘,以Sora為代表的新一代文生視頻大模型,讓AIGC距離完美成片更近一步。

回歸生產(chǎn)制作的業(yè)務(wù)流本質(zhì),AIGC完美創(chuàng)作并生產(chǎn)成品,仍然需要經(jīng)歷創(chuàng)意、素材、編排、剪輯與包裝、渲染與合成這幾個(gè)階段。目前幾乎所有剪輯的“創(chuàng)意”仍然由人來主導(dǎo),AI還無法自主進(jìn)行原創(chuàng),尤其是針對(duì)故事性視頻的原創(chuàng);“素材”則是AIGC深入貢獻(xiàn)的環(huán)節(jié),從已有素材的搜索、到各種文/圖生圖/視頻、風(fēng)格化帶來的新素材、素材的修復(fù)與畫面修改等,都有大模型的身影;基于大模型的技術(shù)在“剪輯包裝”和“渲染合成”這兩個(gè)環(huán)節(jié)提供較為散裝的支持,整體仍以傳統(tǒng)AI和標(biāo)準(zhǔn)剪輯技術(shù)渲染技術(shù)為主。總的來說,媒體內(nèi)容的“素材”生產(chǎn)隨著文生視頻大模型的快速進(jìn)展有了巨大的突破,但是“完美成片”的全智能生產(chǎn)制作仍然處在初級(jí)階段,從另一角度看,這也代表AIGC未來在生產(chǎn)制作領(lǐng)域還有巨大的發(fā)展空間。

04

未來展望

AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐,AIGC,阿里云,音視頻,媒體,云計(jì)算

當(dāng)前AIGC的整體思路還是向人學(xué)習(xí),下一步的發(fā)展可能會(huì)像人一樣,以及在某些領(lǐng)域超越人,比如AIGC的效率在絕大多數(shù)場(chǎng)景下已經(jīng)超越了人,而在思考力和決策力方面大多需要依賴人的反饋,以便進(jìn)行持續(xù)優(yōu)化。

如何創(chuàng)作內(nèi)容有故事性、有質(zhì)感的視頻,是生產(chǎn)制作領(lǐng)域追求的目標(biāo)。我們期待未來AI能夠自行挖掘創(chuàng)意點(diǎn),自主設(shè)計(jì)原創(chuàng)劇本,貫通前期拍攝和后期制作技術(shù),生產(chǎn)出高質(zhì)量的成片,而非僅僅生成空鏡頭或單鏡頭素材。AIGC用于媒體處理最直接的收益是音視頻效果的增強(qiáng),而在所有的增強(qiáng)場(chǎng)景中,電影修復(fù)無疑是難度較大的,要把老電影修復(fù)到還不錯(cuò)的狀態(tài),目前部分環(huán)節(jié)仍然需要人工參與。我們期待未來即便在電影修復(fù)場(chǎng)景,也能有更好的泛化性和更逼真的效果。在媒資領(lǐng)域,阿里云視頻云希望建立一套自然語言理解的體系,實(shí)現(xiàn)媒體資源的多模態(tài)全語義理解,讓媒資中“沉默的大多數(shù)”通過新一代的AI分析,語義挖掘、關(guān)聯(lián)、圖譜技術(shù)再次煥發(fā)光彩。

以上就是我的分享內(nèi)容,謝謝大家。文章來源地址http://www.zghlxwxcb.cn/news/detail-840049.html

到了這里,關(guān)于AIGC時(shí)代下阿里云視頻云媒體內(nèi)容生產(chǎn)技術(shù)實(shí)踐的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包