国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?

這篇具有很好參考價(jià)值的文章主要介紹了AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

視頻云大模型算法「方法論」。

劉國(guó)棟|演講者

在AI技術(shù)發(fā)展如火如荼的當(dāng)下,大模型的運(yùn)用與實(shí)踐在各行各業(yè)以千姿百態(tài)的形式展開。音視頻技術(shù)在多場(chǎng)景、多行業(yè)的應(yīng)用中,對(duì)于智能化和效果性能的體驗(yàn)優(yōu)化有較為極致的要求。如何運(yùn)用好人工智能提升算法能力,解決多場(chǎng)景業(yè)務(wù)中的具體問(wèn)題,需要?jiǎng)?chuàng)新地探索大模型技術(shù)及其應(yīng)用方式。本文由LiveVideoStackCon2023深圳站演講《AI新范式下,阿里云視頻云大模型算法實(shí)踐》整理而成,演講者為阿里云智能高級(jí)算法專家劉國(guó)棟,分享阿里云視頻云的大模型算法實(shí)踐。

《AI新范式下,阿里云視頻云大模型算法實(shí)踐》主題分享,包含如下四個(gè)部分:

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

?

01 音視頻AI發(fā)展趨勢(shì)與業(yè)務(wù)對(duì)AI算法的要求

首先我們看第一部分:音視頻AI發(fā)展趨勢(shì)與業(yè)務(wù)對(duì)AI算法的要求。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

當(dāng)下,音視頻服務(wù)已廣泛應(yīng)用于互娛、廣電傳媒、教育、金融等各種行業(yè),對(duì)場(chǎng)景的滲透也越來(lái)越深。這些行業(yè)、場(chǎng)景對(duì)智能化和體驗(yàn)的追求愈來(lái)愈高,同時(shí)用戶希望用得起、更普惠。完成這樣的目標(biāo),AI可以發(fā)揮重要作用,這已成為行業(yè)共識(shí)。

隨著AIGC的發(fā)展,音視頻領(lǐng)域的AI技術(shù)也呈現(xiàn)出了新的趨勢(shì),即對(duì)AI技術(shù)的通用性、理解能力、生成能力都提出了更高的要求。過(guò)去純粹的定制小模型開發(fā)、單模態(tài)處理和預(yù)測(cè)范式有不少缺陷,觸達(dá)到了能力上限,而目前音視頻AI技術(shù)則走向了泛化能力非常強(qiáng)的預(yù)訓(xùn)練大模型、多模態(tài)信息融合、生成式等方向。還有值得提出的一點(diǎn)是AI Agent的能力,即要求AI有感知、決策、行動(dòng)的能力,它目前已成為一個(gè)重要的研究方向。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

當(dāng)前,阿里云視頻云的核心業(yè)務(wù)包括直播、點(diǎn)播、媒體服務(wù)、音視頻通信,形成了完整的產(chǎn)品、解決方案陣列。這些業(yè)務(wù)、產(chǎn)品覆蓋音視頻從采集、生產(chǎn)、處理、媒資管理、傳輸與分發(fā)、播放與消費(fèi)的全鏈路。

目前AI為音視頻全鏈路的各環(huán)節(jié)提供了算法原子能力。舉例來(lái)講,在處理環(huán)節(jié),我們開發(fā)了多個(gè)AI算法,在視頻方面包括視頻增強(qiáng)、視頻修復(fù)、超分、插幀,HDR等;在音頻方面包括智能降噪、語(yǔ)音增強(qiáng)、空間音頻、影視音效等。這些AI算法都集成到產(chǎn)品中,提升了產(chǎn)品的競(jìng)爭(zhēng)力。

當(dāng)然,AI除了提供算法原子能力之外,也滲透到視頻云的引擎層、調(diào)度層、業(yè)務(wù)層,進(jìn)一步提升它們的智能化水平。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

盡管AI已經(jīng)大量融入業(yè)務(wù),我們對(duì)業(yè)務(wù)做了深入分析后,還是發(fā)現(xiàn)了一些痛點(diǎn)問(wèn)題。舉例說(shuō)明,云剪輯,很多時(shí)候還是需要指定剪輯模版,缺乏自動(dòng)化,另外,獲取高質(zhì)量的素材也很難;在媒資管理中,視頻檢索的質(zhì)量仍然存在不少提升空間。但同時(shí),由于大模型、AIGC帶來(lái)的巨大變革,我們認(rèn)為解決這些業(yè)務(wù)痛點(diǎn)問(wèn)題已成為可能。

我們總結(jié)出幾點(diǎn)新趨勢(shì)下視頻云業(yè)務(wù)對(duì)AI算法的要求,包括追求效果性能上的極致體驗(yàn),追求算法的泛化性、通用性,提升AI自主決策、規(guī)劃處理鏈路的能力,以及降低開發(fā)、接入、使用的成本。

02 視頻云大模型算法系統(tǒng)架構(gòu)與關(guān)鍵技術(shù)

針對(duì)音視頻業(yè)務(wù)對(duì)AI算法的更高要求,我們采用了大模型的技術(shù),設(shè)計(jì)了一套基于視頻云大模型算法開發(fā)的系統(tǒng)架構(gòu),并實(shí)踐、提煉了一些關(guān)鍵技術(shù),形成了一套較為通用的大模型算法落地業(yè)務(wù)場(chǎng)景的“方法論”。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

我們先看下大模型時(shí)代來(lái)臨前,是如何設(shè)計(jì)算法的。

多數(shù)情況下,我們采用小模型、傳統(tǒng)算法或者兩者結(jié)合的方法。其優(yōu)點(diǎn)是:小模型、傳統(tǒng)算法在算法開發(fā)、工程優(yōu)化方面已相對(duì)比較成熟,小模型的訓(xùn)練資源占用少且訓(xùn)練速度快,部署容易,端側(cè)落地性強(qiáng)。但是問(wèn)題也比較突出,比如模型的泛化能力差,效果上限比較低,理解、生成能力比較差等。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

而大模型出現(xiàn)后,它的通用性、泛化性、多模態(tài)能力、強(qiáng)大的理解和生成能力等都讓我們驚嘆不已,這些正是小模型和傳統(tǒng)算法所欠缺的。用大模型技術(shù)去解決之前的算法問(wèn)題,甚至重做一遍,提高算法效果的上限,我們認(rèn)為這是比較可行的做法。

不過(guò)我們也發(fā)現(xiàn)了大模型的一些通病,比如對(duì)細(xì)粒度的問(wèn)題還不能完美處理、容易出現(xiàn)幻覺現(xiàn)象、推理訓(xùn)練成本都比較高等。如果要在實(shí)際業(yè)務(wù)中應(yīng)用大模型,這些問(wèn)題都應(yīng)該要盡量避免甚至解決。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

那我們是如何推進(jìn)大模型算法演進(jìn)的呢?

首先,我們根據(jù)視頻云的業(yè)務(wù)特點(diǎn),設(shè)計(jì)和搭建了一套基于視頻云大模型算法開發(fā)的系統(tǒng)架構(gòu)。整個(gè)系統(tǒng)涵蓋了分析、規(guī)劃、推理、評(píng)價(jià)、訓(xùn)練與微調(diào)的全鏈路,并且是可進(jìn)化、可決策的。

可決策主要體現(xiàn)在,系統(tǒng)會(huì)根據(jù)客戶需求和自身的分析,結(jié)合視頻云知識(shí)庫(kù)及LLM做出決策,制定合適的處理鏈路和選擇模型去完成任務(wù)。

可進(jìn)化主要體現(xiàn)在兩個(gè)方向,一方面,系統(tǒng)會(huì)通過(guò)推理、評(píng)價(jià)、訓(xùn)練不斷迭代,完善模型;另一方面,知識(shí)庫(kù)也是不斷更新的,比如說(shuō)好的解決方法和評(píng)價(jià)信息以及業(yè)務(wù)反饋、沉淀的數(shù)據(jù)等都會(huì)送入知識(shí)庫(kù),確保知識(shí)的新鮮度、準(zhǔn)確度。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

基于大模型算法系統(tǒng)框架,我們不斷地在業(yè)務(wù)中實(shí)踐、演進(jìn),提煉出一套通用的大模型算法開發(fā)的“方法論”,使其能高質(zhì)量地解決業(yè)務(wù)中的實(shí)際問(wèn)題。

第一,大小模型協(xié)同技術(shù)。

針對(duì)前面指出的大模型、小模型或傳統(tǒng)算法各自存在的問(wèn)題,我們提出幾種大小模型、傳統(tǒng)算法協(xié)同的方法,包括三者的串聯(lián)、并聯(lián),用小模型特征引導(dǎo)大模型或者大模型引導(dǎo)小模型,以及它們的組合。目前,我們?cè)趯?shí)踐中已經(jīng)采用了大小模型協(xié)同的方法,比如實(shí)景摳圖、聲音克隆等算法,已經(jīng)取得了比較好的效果。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

第二,大模型微調(diào)。

目前音視頻領(lǐng)域的大模型往往針對(duì)通用場(chǎng)景,在實(shí)際業(yè)務(wù)中效果不太好,當(dāng)然這并不是講這些模型完全不可用。在一些情況下,我們針對(duì)自己的業(yè)務(wù)場(chǎng)景,篩選出相對(duì)高質(zhì)量的大模型,再結(jié)合我們的數(shù)據(jù)、知識(shí)庫(kù)進(jìn)行大模型的微調(diào)。

整個(gè)過(guò)程會(huì)涉及到訓(xùn)練數(shù)據(jù)的制作、微調(diào)的具體方法、幻覺和災(zāi)難性遺忘的應(yīng)對(duì)、以及訓(xùn)練策略和效果評(píng)價(jià)方法等一系列問(wèn)題。

我們?cè)趯?shí)踐中主要采用了參數(shù)高效的微調(diào)方法,對(duì)調(diào)整哪些網(wǎng)絡(luò)結(jié)構(gòu)層也做了大量實(shí)驗(yàn)。訓(xùn)練策略上采用模型解耦,多步訓(xùn)練的策略。比如在視頻搜索中,我們就采用了類似的方案,使得模型準(zhǔn)確度有了大幅提升。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

第三,大模型的訓(xùn)練優(yōu)化。

大模型訓(xùn)練的計(jì)算量巨大,顯存的占用也非常大,這導(dǎo)致訓(xùn)練周期很長(zhǎng),算法迭代速度很慢,影響算法的落地。

我們從IO、計(jì)算、存儲(chǔ)等角度出發(fā),實(shí)踐了一些并行訓(xùn)練、顯存優(yōu)化的方法,包括多種并行,混合精度訓(xùn)練,梯度檢測(cè)點(diǎn)等,以及采用Zero、Offload、Flashattention等工具。這些方法使得我們可以在一些性能不高的GPU上,如RTX3090/RTX4090/V100,完成多機(jī)多卡的訓(xùn)練,從而降低算法的開發(fā)周期。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

第四,大模型壓縮和推理優(yōu)化

實(shí)際業(yè)務(wù)對(duì)成本的要求是比較高的,我們希望在保證模型效果的前提下,盡量提升推理的性能。

實(shí)踐中,我們對(duì)模型做了多輪的壓縮,交替使用多種壓縮方法,包括使用輕量的backbone,低秩分解,以及剪枝,知識(shí)蒸餾、量化等。比如在摳圖中,我們采用多種壓縮方式的組合,使模型大小有了顯著下降,參數(shù)減少30%以上。

此外,我們也做了很多推理層面的優(yōu)化,比如算子融合、算子優(yōu)化、矩陣優(yōu)化,顯存優(yōu)化,批處理優(yōu)化等,并借助阿里云神龍團(tuán)隊(duì)的HRT推理引擎,使得大模型推理性能得到進(jìn)一步提升。

03 視頻云大模型算法典型實(shí)踐案例

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

接下來(lái)介紹當(dāng)前阿里云視頻云在大模型方面的進(jìn)展。在過(guò)去近一年的時(shí)間內(nèi),阿里云視頻云在大模型方面做了深入探索,開發(fā)了多個(gè)算法,所做工作涉及音視頻采集、生產(chǎn)、處理、媒資管理、傳輸分發(fā)、播放消費(fèi)全鏈路的多個(gè)環(huán)節(jié)。

正如上圖所示,在生產(chǎn)制作環(huán)節(jié),我們開發(fā)實(shí)景摳圖、聲音克隆、文生圖、圖生圖、AI作曲等多個(gè)基于大模型的算法;在媒資管理環(huán)節(jié),開發(fā)了基于大模型的視頻搜索、視頻標(biāo)簽、視頻概要等技術(shù);在處理環(huán)節(jié),我們開發(fā)了基于大模型的視頻修復(fù)、語(yǔ)音增強(qiáng)等算法。

目前我們已經(jīng)初步形成了較為完整的視頻云大模型算法陣列。這些算法中很多都已集成進(jìn)產(chǎn)品,并服務(wù)客戶。在這里,我將從生產(chǎn)制作、媒資管理、處理方面分別介紹一項(xiàng)典型算法實(shí)踐,即實(shí)景摳圖、視頻檢索、視頻修復(fù)。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

實(shí)景摳圖是一項(xiàng)非常重要的底層技術(shù),它的應(yīng)用面非常廣,比如我們熟知的數(shù)字人制作、虛擬演播廳、影視特效、視頻剪輯、視頻會(huì)議等都會(huì)用到它。

阿里云視頻云在摳圖方面有多年的積累,已開發(fā)多種摳圖算法,可以應(yīng)對(duì)客戶端、服務(wù)器等的不同需求,也已在多種業(yè)務(wù)場(chǎng)景落地。

這里重點(diǎn)介紹的是面向服務(wù)器的基于大模型的摳圖技術(shù)。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

一般情況下,想要得到高質(zhì)量的摳圖結(jié)果,都要采用搭建綠幕的方式。因?yàn)檫@種情況對(duì)光照、設(shè)備、去溢色等都有非常專業(yè)的要求,在一定程度上限制了綠幕摳圖的應(yīng)用范圍。

而在實(shí)際業(yè)務(wù)中,往往需要對(duì)實(shí)景拍攝的視頻,摳出前景來(lái)。由于拍攝環(huán)境多變、內(nèi)容多種多樣,用算法自動(dòng)進(jìn)行摳圖實(shí)現(xiàn)難度比較大。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

如何對(duì)實(shí)景視頻實(shí)現(xiàn)高質(zhì)量摳圖呢?這涉及到算法選型的問(wèn)題。

我們先看下小模型方法能否實(shí)現(xiàn)高質(zhì)量摳圖。經(jīng)過(guò)深入調(diào)研,我們發(fā)現(xiàn)很多摳圖效果好的方法都采用人工干預(yù)的方法,這種方式對(duì)單幀圖像比較友好,但對(duì)于視頻,往往處理耗時(shí)久,不太實(shí)用。而采用非交互式方式的摳圖,魯棒性則較差,往往只能較好地?fù)溉讼?,難以在多場(chǎng)景推廣。

大模型分割算法的出現(xiàn),讓我們看到了采用大模型提升摳圖效果的可能性。以SAM為例,它的分割泛化能力非常強(qiáng),分割質(zhì)量高,對(duì)噪聲、陰影等也能做到很好的處理。

我們希望借助大模型分割的能力來(lái)實(shí)現(xiàn)高質(zhì)量的摳圖。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

我們提出了一種基于大模型的實(shí)景摳圖方案。它能統(tǒng)一處理藍(lán)綠幕與實(shí)景摳圖,所以實(shí)際處理中不用再區(qū)分背景是藍(lán)綠幕還是實(shí)景。此外,該方案不僅可以摳人像,還可以摳與人連帶的附屬物,并且摳圖的質(zhì)量都非常高。

它的整體流程如下:首先用戶提供一些摳圖所需的信息,這些信息以文本形式嵌入,然后輸入圖像與文本嵌入向量逐步經(jīng)過(guò)目標(biāo)檢測(cè)、基于輕量化大模型的物體分割、基于小模型的摳圖網(wǎng)絡(luò)。

在這個(gè)框架中,模塊是可插拔的,而且采用的是大小模型結(jié)合的方式。小模型會(huì)充分吸收大模型的信息,比如這里的摳圖網(wǎng)絡(luò),它吸收來(lái)自分割模型的特征,提高了摳圖的效果。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

我們重點(diǎn)看下分割大模型是如何做到輕量化的。

首先選擇一個(gè)各方面都表現(xiàn)比較好的基礎(chǔ)大模型(泛化性好、分割準(zhǔn)確度高、效果和性能平衡)。

接下來(lái)的工作是調(diào)整它,解決其適配業(yè)務(wù)場(chǎng)景的問(wèn)題,使它在業(yè)務(wù)場(chǎng)景下表現(xiàn)得比較完美。這里會(huì)進(jìn)行微調(diào),我們?cè)O(shè)計(jì)了Adapter結(jié)構(gòu),實(shí)踐中采用了MLP和低秩分解組合的形式。另外,Adapter的插入位置也進(jìn)行了很多嘗試。還有一點(diǎn)是訓(xùn)練數(shù)據(jù)的制作,以及數(shù)據(jù)配比等等都非常重要。

有了一個(gè)效果比較好的大模型,我們開始設(shè)計(jì)輕量化的大模型,這個(gè)模型采用輕量化的vit結(jié)構(gòu)作為backbone,使用前面訓(xùn)練好的大模型對(duì)它進(jìn)行蒸餾,使用剪枝等技術(shù)進(jìn)行優(yōu)化。

經(jīng)過(guò)這些操作,輕量化模型的參數(shù)下降到基礎(chǔ)大模型的2/3。在這個(gè)過(guò)程中,我們也沉淀了多個(gè)不同復(fù)雜度、不同摳圖能力的模型,把它們的能力送到知識(shí)庫(kù)中。實(shí)際業(yè)務(wù)使用時(shí),決策中心會(huì)根據(jù)要求調(diào)用合適的模型。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

除了算法層面的優(yōu)化,我們還進(jìn)行了一些工程側(cè)的優(yōu)化,主要包含三方面:

1、工程架構(gòu)的優(yōu)化,這里采用了CPU、GPU異步并行;

2、網(wǎng)絡(luò)推理方面的優(yōu)化,如使用推理框架HRT,采用fp16、int8推理;

3、傳統(tǒng)算法模塊的優(yōu)化,如控制優(yōu)化、循環(huán)優(yōu)化、訪存優(yōu)化、線程優(yōu)化等。

經(jīng)過(guò)算法、工程兩方面的優(yōu)化,對(duì)于輸入的1080p視頻,我們?cè)贏10上實(shí)現(xiàn)了33fps的高質(zhì)量摳圖。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

我們看下?lián)笀D的效果。對(duì)于輸入圖像,我們實(shí)現(xiàn)了摳人像、以及摳人像加桌子/化妝品/手機(jī)等附屬物的效果。這個(gè)摳圖質(zhì)量還是比較高的,特別是發(fā)絲摳圖效果非常細(xì)膩,人物、物體的摳圖邊緣都很精細(xì)。

另外,我們也開發(fā)了前背景和諧化的技術(shù),解決了摳出的前景與被貼入背景在光照、對(duì)比度、色彩等方面不協(xié)調(diào)的問(wèn)題。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

在剛剛過(guò)去的云棲大會(huì),我們也展示了一個(gè)摳圖的應(yīng)用,在開放環(huán)境中,實(shí)現(xiàn)異地多人實(shí)時(shí)連麥+虛擬背景的功能。右圖是現(xiàn)場(chǎng)演示的圖像。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

我們?cè)倏聪旅劫Y管理中的視頻搜索。它的應(yīng)用也非常廣,包括廣電傳媒、云導(dǎo)播、云盤管理、短視頻內(nèi)容推薦、視頻監(jiān)控等。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

這里先介紹下傳統(tǒng)的視頻檢索方法。

它通常采用小模型方法對(duì)視頻內(nèi)容進(jìn)行識(shí)別,包括人臉識(shí)別、物體識(shí)別、Log識(shí)別、OCR、ASR等等,然后生成標(biāo)簽,這些標(biāo)簽是文本關(guān)鍵詞形式的,且大部分是實(shí)體標(biāo)簽。這些標(biāo)簽都會(huì)送到數(shù)據(jù)庫(kù)中。對(duì)于用戶輸入的查詢語(yǔ)句,進(jìn)行標(biāo)簽的查詢,并返回對(duì)應(yīng)視頻的片段。

這里存在一個(gè)比較大的問(wèn)題,即搜索往往是實(shí)體的搜索,而對(duì)于實(shí)體的動(dòng)作、相互之間關(guān)系等很難檢索到正確的視頻,另外,搜索往往對(duì)查詢?cè)~很敏感。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

我們看到多模態(tài)表征技術(shù)將圖像和文本映射到統(tǒng)一的高維空間中,實(shí)現(xiàn)了實(shí)體、實(shí)體關(guān)系等的高質(zhì)量檢索,并對(duì)文本中的同義詞、近義詞不敏感。這些典型的表征技術(shù)包括CLIP、BLIP技術(shù)等,還有針對(duì)中文的ChineseCLIP、TEAM等。但這些技術(shù)是針對(duì)單幀圖像的,而我們的場(chǎng)景都是視頻。那如何實(shí)現(xiàn)視頻的檢索?如何提升高維向量檢索的時(shí)效性呢?

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

我們提出了一種基于嵌入模型的視頻檢索算法

對(duì)于視頻而言,同一個(gè)鏡頭,最好用同一個(gè)或少數(shù)幾個(gè)embedding vector表示。這樣做的好處是減少了embedding向量的數(shù)量,也就減少了存儲(chǔ)的空間和檢索的計(jì)算量,同時(shí),由于是對(duì)鏡頭進(jìn)行處理,表征的質(zhì)量更高,檢索的質(zhì)量也就更高。我們通過(guò)三步達(dá)到這個(gè)目標(biāo):

1、首先,對(duì)視頻內(nèi)容分析,結(jié)合固定步長(zhǎng)抽幀和自適應(yīng)抽幀,初步過(guò)濾掉一些信息冗余的幀;

2、其次,采用相鄰采樣幀,進(jìn)行時(shí)空維度的特征編碼;

3、最后,對(duì)嵌入向量,從檢索角度,進(jìn)行多級(jí)聚類和量化。

經(jīng)過(guò)這三個(gè)過(guò)程,在同一鏡頭內(nèi),得到的最終向量只有非常少數(shù),大大降低了向量的存儲(chǔ)空間,提升了檢索的效率,而且也提高了檢索質(zhì)量。

這里我們?cè)O(shè)計(jì)了多幀的視覺編碼器,采用微調(diào)、蒸餾等方法保證了它的效果,并實(shí)現(xiàn)了它與文本的對(duì)齊。

在前面方法的基礎(chǔ)上,我們又提出了一種信息融合的視頻檢索算法。這里解決的問(wèn)題是:

一是實(shí)現(xiàn)視覺+聲音與文本間的檢索,比如檢索出小鳥在樹上叫的視頻片段,二是實(shí)現(xiàn)更細(xì)粒度的檢索,比如某位名人在某個(gè)著名景點(diǎn)的活動(dòng)。

針對(duì)這兩個(gè)問(wèn)題,我們分別設(shè)計(jì)了時(shí)空視聽嵌入模塊和關(guān)鍵實(shí)體識(shí)別模塊,分別提取不同粒度的表征信息。在檢索階段,我們會(huì)分別對(duì)兩種粒度的嵌入向量進(jìn)行檢索,再對(duì)二者的信息進(jìn)行融合,最終實(shí)現(xiàn)更好的檢索效果。

此算法發(fā)揮了不同模型優(yōu)勢(shì),融合了多模態(tài)的信息,并提升了檢索的適用范圍。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

我們?cè)倏聪露嗄B(tài)融合是如何實(shí)現(xiàn)的。整個(gè)過(guò)程如上圖所示。

它實(shí)現(xiàn)了同一場(chǎng)景視覺與聽覺的特征融合,也實(shí)現(xiàn)了視聽特征與文本的模態(tài)對(duì)齊。我們借鑒了ImageBind的方法,把音頻、文本都對(duì)齊到了視覺空間。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

目前,該功能已經(jīng)集成進(jìn)媒體服務(wù)產(chǎn)品中。這里展示了一些視頻搜索的效果,我們可以看到新方法的一些效果,它對(duì)動(dòng)作、時(shí)間、數(shù)量等都有比較好的檢索能力。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

最后看下處理方面的視頻修復(fù)算法。視頻修復(fù)的應(yīng)用場(chǎng)景非常廣泛,比如體育賽事、綜藝節(jié)目、影視劇、紀(jì)錄片、動(dòng)漫、老歌MV等場(chǎng)景。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

視頻修復(fù)的維度非常多樣,比如針對(duì)瑕疵、拍攝或制作中的噪聲、細(xì)節(jié)、色彩等,都可以進(jìn)行修復(fù)。這里講的視頻修復(fù)針對(duì)的是直播、點(diǎn)播等場(chǎng)景中,在制作、編輯、轉(zhuǎn)碼中引入的細(xì)節(jié)退化問(wèn)題。如左圖所示,我們能看到明顯的細(xì)節(jié)退化,比如模糊、塊效應(yīng)、邊緣鋸齒等。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

那用什么方法來(lái)解決細(xì)節(jié)退化呢?這里牽扯到算法選型的問(wèn)題。

從我們之前積累的經(jīng)驗(yàn)看,GAN方法對(duì)一些垂直領(lǐng)域的、退化不是非常嚴(yán)重的場(chǎng)景,可以有比較好的效果。但當(dāng)片源或流的質(zhì)量比較差時(shí),GAN方法的細(xì)節(jié)恢復(fù)就顯得不夠了,而且此時(shí)生成的效果也不太自然。此外RealESRGAN的效果,一定程度上也印證了我們的結(jié)論。

我們發(fā)現(xiàn),基于SD預(yù)訓(xùn)練模型的StableSR可以取得更好的細(xì)節(jié)生成效果,具體表現(xiàn)為:它對(duì)源質(zhì)量適應(yīng)性強(qiáng),效果自然、穩(wěn)定,細(xì)節(jié)恢復(fù)質(zhì)量高。因此我們選擇SD來(lái)應(yīng)對(duì)這樣的修復(fù)場(chǎng)景。

下面介紹我們的方案。該算法借鑒了StableSR的一些想法,網(wǎng)絡(luò)層面也是由UNet和VAEFGAN組成的。我們結(jié)合業(yè)務(wù)場(chǎng)景進(jìn)行深入的設(shè)計(jì)和調(diào)整,特別是針對(duì)badcase的處理做了大量工作。這里簡(jiǎn)單介紹幾方面:

1、在訓(xùn)練數(shù)據(jù)方面,采用了離線和在線結(jié)合的數(shù)據(jù)降質(zhì)模擬策略;

2、針對(duì)VAEGAN中編碼器處理后有信息損失的問(wèn)題,我們采用了編碼器特征導(dǎo)引解碼器的網(wǎng)絡(luò)形式,并對(duì)他們進(jìn)行聯(lián)合微調(diào);

3、在訓(xùn)練策略上,通過(guò)引入HR編碼器特征,把擴(kuò)散模型與VAEGAN解耦;

4、此外我們也采用了多階段訓(xùn)練策略。

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

這里展示了SD修復(fù)的效果。從圖中不難看出,新方法對(duì)人像和自然物都有很好的修復(fù),比如,頭發(fā)上的很多細(xì)節(jié)都恢復(fù)出來(lái)了,人的五官變得更清晰了,遠(yuǎn)處船上及繩索上的細(xì)節(jié)、建筑物的細(xì)節(jié)也恢復(fù)出來(lái)了。

04 音視頻大模型的思考

AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?,硬核干貨,云計(jì)算,視頻云,大模型,AI

關(guān)于音視頻大模型的思考,這里介紹四個(gè)方面:

第一是端側(cè)智能。隨著終端芯片對(duì)大模型支持的力度越來(lái)越大,比如apple、高通等公司都發(fā)布了大模型終端芯片,大模型在端側(cè)落地已是必然趨勢(shì)。目前我們從端側(cè)大模型設(shè)計(jì)、推理優(yōu)化兩方面入手,針對(duì)高端機(jī)型,進(jìn)行了端側(cè)大模型落地的探索。

第二是云端一體。從技術(shù)層面講,需要解決兩方面的問(wèn)題,第一個(gè)是如何劃分大模型云、端的計(jì)算負(fù)載,第二個(gè)是大模型的特征編碼。

第三是模型的統(tǒng)一。這里重點(diǎn)強(qiáng)調(diào)兩個(gè)統(tǒng)一,視覺模型backbone的統(tǒng)一、以及多模態(tài)encoder的統(tǒng)一。在有了統(tǒng)一的基座模型之后,可以針對(duì)業(yè)務(wù)場(chǎng)景對(duì)下游任務(wù)進(jìn)行finetune。

第四是大模型的決策能力。我們希望大模型不僅能解決單點(diǎn)問(wèn)題,還希望它有規(guī)劃、行動(dòng)的能力,也就是Agent的概念?,F(xiàn)在在算法層面,我們已經(jīng)做了一些工作,接下來(lái)我們希望用大模型來(lái)提升引擎、調(diào)度、業(yè)務(wù)層的智能化水平。

我的分享就到這里,謝謝!文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-823315.html

到了這里,關(guān)于AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • AI重新定義音視頻生產(chǎn)力“新范式”

    AI重新定義音視頻生產(chǎn)力“新范式”

    ? //?? 編者按:AIGC無(wú)疑是當(dāng)下的熱門話題和場(chǎng)景。面對(duì)AI帶來(lái)的技術(shù)變革和算力挑戰(zhàn),該如何應(yīng)對(duì)?LiveVideoStackCon 2023上海站邀請(qǐng)到了網(wǎng)心科技副總裁武磊為我們分享網(wǎng)心在面對(duì)AI應(yīng)用場(chǎng)景和業(yè)務(wù)需求下的實(shí)踐經(jīng)驗(yàn)。 文/武磊 編輯/LiveVideoStack 大家好,我今天分享的主題是AI重新

    2024年02月12日
    瀏覽(90)
  • 5G時(shí)代下,Android音視頻強(qiáng)勢(shì)崛起,我們?cè)撊绾慰焖偃腴T音視頻技術(shù)?

    5G時(shí)代下,Android音視頻強(qiáng)勢(shì)崛起,我們?cè)撊绾慰焖偃腴T音視頻技術(shù)?

    作為Android開發(fā)者的我們到底應(yīng)不應(yīng)該上音視頻這條船? 接下來(lái)一起分析下。 大趨勢(shì) 從未來(lái)的大趨勢(shì)來(lái)看,隨著5G時(shí)代的到來(lái),音視頻慢慢變成人們?nèi)粘I钪械谋匦杵?。除了在線教育、音視頻會(huì)議、即時(shí)通訊這些必須使用音視頻技術(shù)的產(chǎn)品外,其它的產(chǎn)品也需要加入音頻、

    2024年04月15日
    瀏覽(28)
  • 【音視頻】如何播放rtsp視頻流

    【音視頻】如何播放rtsp視頻流

    現(xiàn)階段直播越來(lái)越流行,直播技術(shù)發(fā)展也越來(lái)越快。Webrtc和rtsp是比較火熱的技術(shù),而且應(yīng)用也比較廣泛。本文通過(guò)實(shí)踐來(lái)展開介紹關(guān)于rtsp、webrtc的使用過(guò)程。 本文重點(diǎn)介紹如何播放rtsp視頻流,通過(guò)ffplay方式以及VLC media player的方式來(lái)播放 可以參考上一篇博文:【音視頻】基于

    2024年01月19日
    瀏覽(104)
  • 【AI】文本轉(zhuǎn)語(yǔ)音 變聲 音色克隆 數(shù)字人音視頻口型同步AI應(yīng)用

    【AI】文本轉(zhuǎn)語(yǔ)音 變聲 音色克隆 數(shù)字人音視頻口型同步AI應(yīng)用

    項(xiàng)目地址:https://github.com/coqui-ai/TTS 環(huán)境安裝: 下載項(xiàng)目; 安裝Python,安裝項(xiàng)目依賴: 1. 下載安裝AI模型: https://github.com/facebookresearch/fairseq/tree/main/examples/mms 模型文件放到:C:UsersAdministratorAppDataLocaltts 2. 將文本轉(zhuǎn)換為語(yǔ)音: tts --text “要轉(zhuǎn)換的文本內(nèi)容” --model_name “指

    2024年02月19日
    瀏覽(26)
  • 音視頻八股文(6)-- ffmpeg大體介紹和內(nèi)存模型

    音視頻八股文(6)-- ffmpeg大體介紹和內(nèi)存模型

    ? 容器/文件(Conainer/File):即特定格式的多媒體文件, 比如mp4、flv、mkv等。 ? 媒體流(Stream):表示時(shí)間軸上的一段連續(xù)數(shù)據(jù),如一 段聲音數(shù)據(jù)、一段視頻數(shù)據(jù)或一段字幕數(shù)據(jù),可以是壓縮 的,也可以是非壓縮的,壓縮的數(shù)據(jù)需要關(guān)聯(lián)特定的編解 碼器(有些碼流音頻

    2023年04月27日
    瀏覽(23)
  • 【音視頻】基于NGINX如何播放rtmp視頻流

    【音視頻】基于NGINX如何播放rtmp視頻流

    現(xiàn)階段直播越來(lái)越流行,直播技術(shù)發(fā)展也越來(lái)越快。Webrtc、rtmp、rtsp是比較火熱的技術(shù),而且應(yīng)用也比較廣泛。本文通過(guò)實(shí)踐來(lái)展開介紹關(guān)于rtmp如何播放。 本文重點(diǎn)介紹基于NGINX如何播放rtmp視頻流 可以參考上一篇博文:【音視頻】基于webrtc協(xié)議瀏覽器播放rtsp https://blog.csdn.n

    2024年01月19日
    瀏覽(32)
  • 抖音視頻如何下載保存(方法分享)

    有時(shí)刷抖音視頻,看的喜歡的視頻想要下載到本地,但是有很多視頻無(wú)法下載或者下載下來(lái)是有水印的,那怎么辦呢? 抖音視頻下載有兩種情況: 一種是可以直接點(diǎn)擊分享下載,然后可以直接點(diǎn)擊保存到相冊(cè)。 視頻就自動(dòng)下載下來(lái)了,但是這直接下載下來(lái)的視有水印。 還有

    2024年04月14日
    瀏覽(21)
  • 對(duì)話釘釘音視頻專家馮津偉:大模型不是萬(wàn)能的

    對(duì)話釘釘音視頻專家馮津偉:大模型不是萬(wàn)能的

    策劃:LiveVideoStack 在音視頻技術(shù)領(lǐng)域,ICASSP 大會(huì)是行業(yè)的風(fēng)向標(biāo)會(huì)議,也是語(yǔ)音學(xué)界從業(yè)者研究下一代技術(shù)發(fā)展的盛宴。近期,國(guó)內(nèi)外各大企業(yè)陸陸續(xù)續(xù)放出論文入頂會(huì)的消息,釘釘蜂鳴鳥音頻實(shí)驗(yàn)室 2 篇論文也登上了 ICASSP2023。 其中,實(shí)驗(yàn)室提出了“用一個(gè) AI 模型同時(shí)消

    2024年02月09日
    瀏覽(11)
  • 音視頻 FFmpeg如何查詢命令幫助文檔

    ffmpeg:超快音視頻編碼器 ffplay:簡(jiǎn)單媒體播放器 ffprobe:簡(jiǎn)單多媒體流分析器 基本信息:ffmpeg -h 高級(jí)信息:ffmpeg -h long 所有信息:ffmpeg -h full 所有信息:ffplay -h 所有信息:ffprobe -h ffmpeg/ffplay/ffprobe部分參數(shù)通用,部分參數(shù)不通用,在使用時(shí)需要注意 推薦一個(gè)零聲學(xué)院項(xiàng)目課,個(gè)

    2024年02月12日
    瀏覽(22)
  • 如何找到更多音視頻開發(fā)學(xué)習(xí)資料和資源?

    如何找到更多音視頻開發(fā)學(xué)習(xí)資料和資源?

    如果你對(duì)學(xué)習(xí)音視頻開發(fā)感興趣,以下是一些建議,可以幫助你獲取更多相關(guān)的資料和資源: 在線學(xué)習(xí)平臺(tái):參考一些知名的在線學(xué)習(xí)平臺(tái),如Coursera、Udemy、edX等,搜索他們的課程目錄,看是否有與音視頻開發(fā)相關(guān)的課程。這些平臺(tái)通常提供高質(zhì)量的學(xué)習(xí)資源,包括視頻教

    2024年02月12日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包