視頻云大模型算法「方法論」。
劉國(guó)棟|演講者
在AI技術(shù)發(fā)展如火如荼的當(dāng)下,大模型的運(yùn)用與實(shí)踐在各行各業(yè)以千姿百態(tài)的形式展開。音視頻技術(shù)在多場(chǎng)景、多行業(yè)的應(yīng)用中,對(duì)于智能化和效果性能的體驗(yàn)優(yōu)化有較為極致的要求。如何運(yùn)用好人工智能提升算法能力,解決多場(chǎng)景業(yè)務(wù)中的具體問(wèn)題,需要?jiǎng)?chuàng)新地探索大模型技術(shù)及其應(yīng)用方式。本文由LiveVideoStackCon2023深圳站演講《AI新范式下,阿里云視頻云大模型算法實(shí)踐》整理而成,演講者為阿里云智能高級(jí)算法專家劉國(guó)棟,分享阿里云視頻云的大模型算法實(shí)踐。
《AI新范式下,阿里云視頻云大模型算法實(shí)踐》主題分享,包含如下四個(gè)部分:
?
01 音視頻AI發(fā)展趨勢(shì)與業(yè)務(wù)對(duì)AI算法的要求
首先我們看第一部分:音視頻AI發(fā)展趨勢(shì)與業(yè)務(wù)對(duì)AI算法的要求。
當(dāng)下,音視頻服務(wù)已廣泛應(yīng)用于互娛、廣電傳媒、教育、金融等各種行業(yè),對(duì)場(chǎng)景的滲透也越來(lái)越深。這些行業(yè)、場(chǎng)景對(duì)智能化和體驗(yàn)的追求愈來(lái)愈高,同時(shí)用戶希望用得起、更普惠。完成這樣的目標(biāo),AI可以發(fā)揮重要作用,這已成為行業(yè)共識(shí)。
隨著AIGC的發(fā)展,音視頻領(lǐng)域的AI技術(shù)也呈現(xiàn)出了新的趨勢(shì),即對(duì)AI技術(shù)的通用性、理解能力、生成能力都提出了更高的要求。過(guò)去純粹的定制小模型開發(fā)、單模態(tài)處理和預(yù)測(cè)范式有不少缺陷,觸達(dá)到了能力上限,而目前音視頻AI技術(shù)則走向了泛化能力非常強(qiáng)的預(yù)訓(xùn)練大模型、多模態(tài)信息融合、生成式等方向。還有值得提出的一點(diǎn)是AI Agent的能力,即要求AI有感知、決策、行動(dòng)的能力,它目前已成為一個(gè)重要的研究方向。
當(dāng)前,阿里云視頻云的核心業(yè)務(wù)包括直播、點(diǎn)播、媒體服務(wù)、音視頻通信,形成了完整的產(chǎn)品、解決方案陣列。這些業(yè)務(wù)、產(chǎn)品覆蓋音視頻從采集、生產(chǎn)、處理、媒資管理、傳輸與分發(fā)、播放與消費(fèi)的全鏈路。
目前AI為音視頻全鏈路的各環(huán)節(jié)提供了算法原子能力。舉例來(lái)講,在處理環(huán)節(jié),我們開發(fā)了多個(gè)AI算法,在視頻方面包括視頻增強(qiáng)、視頻修復(fù)、超分、插幀,HDR等;在音頻方面包括智能降噪、語(yǔ)音增強(qiáng)、空間音頻、影視音效等。這些AI算法都集成到產(chǎn)品中,提升了產(chǎn)品的競(jìng)爭(zhēng)力。
當(dāng)然,AI除了提供算法原子能力之外,也滲透到視頻云的引擎層、調(diào)度層、業(yè)務(wù)層,進(jìn)一步提升它們的智能化水平。
盡管AI已經(jīng)大量融入業(yè)務(wù),我們對(duì)業(yè)務(wù)做了深入分析后,還是發(fā)現(xiàn)了一些痛點(diǎn)問(wèn)題。舉例說(shuō)明,云剪輯,很多時(shí)候還是需要指定剪輯模版,缺乏自動(dòng)化,另外,獲取高質(zhì)量的素材也很難;在媒資管理中,視頻檢索的質(zhì)量仍然存在不少提升空間。但同時(shí),由于大模型、AIGC帶來(lái)的巨大變革,我們認(rèn)為解決這些業(yè)務(wù)痛點(diǎn)問(wèn)題已成為可能。
我們總結(jié)出幾點(diǎn)新趨勢(shì)下視頻云業(yè)務(wù)對(duì)AI算法的要求,包括追求效果性能上的極致體驗(yàn),追求算法的泛化性、通用性,提升AI自主決策、規(guī)劃處理鏈路的能力,以及降低開發(fā)、接入、使用的成本。
02 視頻云大模型算法系統(tǒng)架構(gòu)與關(guān)鍵技術(shù)
針對(duì)音視頻業(yè)務(wù)對(duì)AI算法的更高要求,我們采用了大模型的技術(shù),設(shè)計(jì)了一套基于視頻云大模型算法開發(fā)的系統(tǒng)架構(gòu),并實(shí)踐、提煉了一些關(guān)鍵技術(shù),形成了一套較為通用的大模型算法落地業(yè)務(wù)場(chǎng)景的“方法論”。
我們先看下大模型時(shí)代來(lái)臨前,是如何設(shè)計(jì)算法的。
多數(shù)情況下,我們采用小模型、傳統(tǒng)算法或者兩者結(jié)合的方法。其優(yōu)點(diǎn)是:小模型、傳統(tǒng)算法在算法開發(fā)、工程優(yōu)化方面已相對(duì)比較成熟,小模型的訓(xùn)練資源占用少且訓(xùn)練速度快,部署容易,端側(cè)落地性強(qiáng)。但是問(wèn)題也比較突出,比如模型的泛化能力差,效果上限比較低,理解、生成能力比較差等。
而大模型出現(xiàn)后,它的通用性、泛化性、多模態(tài)能力、強(qiáng)大的理解和生成能力等都讓我們驚嘆不已,這些正是小模型和傳統(tǒng)算法所欠缺的。用大模型技術(shù)去解決之前的算法問(wèn)題,甚至重做一遍,提高算法效果的上限,我們認(rèn)為這是比較可行的做法。
不過(guò)我們也發(fā)現(xiàn)了大模型的一些通病,比如對(duì)細(xì)粒度的問(wèn)題還不能完美處理、容易出現(xiàn)幻覺現(xiàn)象、推理訓(xùn)練成本都比較高等。如果要在實(shí)際業(yè)務(wù)中應(yīng)用大模型,這些問(wèn)題都應(yīng)該要盡量避免甚至解決。
那我們是如何推進(jìn)大模型算法演進(jìn)的呢?
首先,我們根據(jù)視頻云的業(yè)務(wù)特點(diǎn),設(shè)計(jì)和搭建了一套基于視頻云大模型算法開發(fā)的系統(tǒng)架構(gòu)。整個(gè)系統(tǒng)涵蓋了分析、規(guī)劃、推理、評(píng)價(jià)、訓(xùn)練與微調(diào)的全鏈路,并且是可進(jìn)化、可決策的。
可決策主要體現(xiàn)在,系統(tǒng)會(huì)根據(jù)客戶需求和自身的分析,結(jié)合視頻云知識(shí)庫(kù)及LLM做出決策,制定合適的處理鏈路和選擇模型去完成任務(wù)。
可進(jìn)化主要體現(xiàn)在兩個(gè)方向,一方面,系統(tǒng)會(huì)通過(guò)推理、評(píng)價(jià)、訓(xùn)練不斷迭代,完善模型;另一方面,知識(shí)庫(kù)也是不斷更新的,比如說(shuō)好的解決方法和評(píng)價(jià)信息以及業(yè)務(wù)反饋、沉淀的數(shù)據(jù)等都會(huì)送入知識(shí)庫(kù),確保知識(shí)的新鮮度、準(zhǔn)確度。
基于大模型算法系統(tǒng)框架,我們不斷地在業(yè)務(wù)中實(shí)踐、演進(jìn),提煉出一套通用的大模型算法開發(fā)的“方法論”,使其能高質(zhì)量地解決業(yè)務(wù)中的實(shí)際問(wèn)題。
第一,大小模型協(xié)同技術(shù)。
針對(duì)前面指出的大模型、小模型或傳統(tǒng)算法各自存在的問(wèn)題,我們提出幾種大小模型、傳統(tǒng)算法協(xié)同的方法,包括三者的串聯(lián)、并聯(lián),用小模型特征引導(dǎo)大模型或者大模型引導(dǎo)小模型,以及它們的組合。目前,我們?cè)趯?shí)踐中已經(jīng)采用了大小模型協(xié)同的方法,比如實(shí)景摳圖、聲音克隆等算法,已經(jīng)取得了比較好的效果。
第二,大模型微調(diào)。
目前音視頻領(lǐng)域的大模型往往針對(duì)通用場(chǎng)景,在實(shí)際業(yè)務(wù)中效果不太好,當(dāng)然這并不是講這些模型完全不可用。在一些情況下,我們針對(duì)自己的業(yè)務(wù)場(chǎng)景,篩選出相對(duì)高質(zhì)量的大模型,再結(jié)合我們的數(shù)據(jù)、知識(shí)庫(kù)進(jìn)行大模型的微調(diào)。
整個(gè)過(guò)程會(huì)涉及到訓(xùn)練數(shù)據(jù)的制作、微調(diào)的具體方法、幻覺和災(zāi)難性遺忘的應(yīng)對(duì)、以及訓(xùn)練策略和效果評(píng)價(jià)方法等一系列問(wèn)題。
我們?cè)趯?shí)踐中主要采用了參數(shù)高效的微調(diào)方法,對(duì)調(diào)整哪些網(wǎng)絡(luò)結(jié)構(gòu)層也做了大量實(shí)驗(yàn)。訓(xùn)練策略上采用模型解耦,多步訓(xùn)練的策略。比如在視頻搜索中,我們就采用了類似的方案,使得模型準(zhǔn)確度有了大幅提升。
第三,大模型的訓(xùn)練優(yōu)化。
大模型訓(xùn)練的計(jì)算量巨大,顯存的占用也非常大,這導(dǎo)致訓(xùn)練周期很長(zhǎng),算法迭代速度很慢,影響算法的落地。
我們從IO、計(jì)算、存儲(chǔ)等角度出發(fā),實(shí)踐了一些并行訓(xùn)練、顯存優(yōu)化的方法,包括多種并行,混合精度訓(xùn)練,梯度檢測(cè)點(diǎn)等,以及采用Zero、Offload、Flashattention等工具。這些方法使得我們可以在一些性能不高的GPU上,如RTX3090/RTX4090/V100,完成多機(jī)多卡的訓(xùn)練,從而降低算法的開發(fā)周期。
第四,大模型壓縮和推理優(yōu)化。
實(shí)際業(yè)務(wù)對(duì)成本的要求是比較高的,我們希望在保證模型效果的前提下,盡量提升推理的性能。
實(shí)踐中,我們對(duì)模型做了多輪的壓縮,交替使用多種壓縮方法,包括使用輕量的backbone,低秩分解,以及剪枝,知識(shí)蒸餾、量化等。比如在摳圖中,我們采用多種壓縮方式的組合,使模型大小有了顯著下降,參數(shù)減少30%以上。
此外,我們也做了很多推理層面的優(yōu)化,比如算子融合、算子優(yōu)化、矩陣優(yōu)化,顯存優(yōu)化,批處理優(yōu)化等,并借助阿里云神龍團(tuán)隊(duì)的HRT推理引擎,使得大模型推理性能得到進(jìn)一步提升。
03 視頻云大模型算法典型實(shí)踐案例
接下來(lái)介紹當(dāng)前阿里云視頻云在大模型方面的進(jìn)展。在過(guò)去近一年的時(shí)間內(nèi),阿里云視頻云在大模型方面做了深入探索,開發(fā)了多個(gè)算法,所做工作涉及音視頻采集、生產(chǎn)、處理、媒資管理、傳輸分發(fā)、播放消費(fèi)全鏈路的多個(gè)環(huán)節(jié)。
正如上圖所示,在生產(chǎn)制作環(huán)節(jié),我們開發(fā)實(shí)景摳圖、聲音克隆、文生圖、圖生圖、AI作曲等多個(gè)基于大模型的算法;在媒資管理環(huán)節(jié),開發(fā)了基于大模型的視頻搜索、視頻標(biāo)簽、視頻概要等技術(shù);在處理環(huán)節(jié),我們開發(fā)了基于大模型的視頻修復(fù)、語(yǔ)音增強(qiáng)等算法。
目前我們已經(jīng)初步形成了較為完整的視頻云大模型算法陣列。這些算法中很多都已集成進(jìn)產(chǎn)品,并服務(wù)客戶。在這里,我將從生產(chǎn)制作、媒資管理、處理方面分別介紹一項(xiàng)典型算法實(shí)踐,即實(shí)景摳圖、視頻檢索、視頻修復(fù)。
實(shí)景摳圖是一項(xiàng)非常重要的底層技術(shù),它的應(yīng)用面非常廣,比如我們熟知的數(shù)字人制作、虛擬演播廳、影視特效、視頻剪輯、視頻會(huì)議等都會(huì)用到它。
阿里云視頻云在摳圖方面有多年的積累,已開發(fā)多種摳圖算法,可以應(yīng)對(duì)客戶端、服務(wù)器等的不同需求,也已在多種業(yè)務(wù)場(chǎng)景落地。
這里重點(diǎn)介紹的是面向服務(wù)器的基于大模型的摳圖技術(shù)。
一般情況下,想要得到高質(zhì)量的摳圖結(jié)果,都要采用搭建綠幕的方式。因?yàn)檫@種情況對(duì)光照、設(shè)備、去溢色等都有非常專業(yè)的要求,在一定程度上限制了綠幕摳圖的應(yīng)用范圍。
而在實(shí)際業(yè)務(wù)中,往往需要對(duì)實(shí)景拍攝的視頻,摳出前景來(lái)。由于拍攝環(huán)境多變、內(nèi)容多種多樣,用算法自動(dòng)進(jìn)行摳圖實(shí)現(xiàn)難度比較大。
如何對(duì)實(shí)景視頻實(shí)現(xiàn)高質(zhì)量摳圖呢?這涉及到算法選型的問(wèn)題。
我們先看下小模型方法能否實(shí)現(xiàn)高質(zhì)量摳圖。經(jīng)過(guò)深入調(diào)研,我們發(fā)現(xiàn)很多摳圖效果好的方法都采用人工干預(yù)的方法,這種方式對(duì)單幀圖像比較友好,但對(duì)于視頻,往往處理耗時(shí)久,不太實(shí)用。而采用非交互式方式的摳圖,魯棒性則較差,往往只能較好地?fù)溉讼?,難以在多場(chǎng)景推廣。
大模型分割算法的出現(xiàn),讓我們看到了采用大模型提升摳圖效果的可能性。以SAM為例,它的分割泛化能力非常強(qiáng),分割質(zhì)量高,對(duì)噪聲、陰影等也能做到很好的處理。
我們希望借助大模型分割的能力來(lái)實(shí)現(xiàn)高質(zhì)量的摳圖。
我們提出了一種基于大模型的實(shí)景摳圖方案。它能統(tǒng)一處理藍(lán)綠幕與實(shí)景摳圖,所以實(shí)際處理中不用再區(qū)分背景是藍(lán)綠幕還是實(shí)景。此外,該方案不僅可以摳人像,還可以摳與人連帶的附屬物,并且摳圖的質(zhì)量都非常高。
它的整體流程如下:首先用戶提供一些摳圖所需的信息,這些信息以文本形式嵌入,然后輸入圖像與文本嵌入向量逐步經(jīng)過(guò)目標(biāo)檢測(cè)、基于輕量化大模型的物體分割、基于小模型的摳圖網(wǎng)絡(luò)。
在這個(gè)框架中,模塊是可插拔的,而且采用的是大小模型結(jié)合的方式。小模型會(huì)充分吸收大模型的信息,比如這里的摳圖網(wǎng)絡(luò),它吸收來(lái)自分割模型的特征,提高了摳圖的效果。
我們重點(diǎn)看下分割大模型是如何做到輕量化的。
首先選擇一個(gè)各方面都表現(xiàn)比較好的基礎(chǔ)大模型(泛化性好、分割準(zhǔn)確度高、效果和性能平衡)。
接下來(lái)的工作是調(diào)整它,解決其適配業(yè)務(wù)場(chǎng)景的問(wèn)題,使它在業(yè)務(wù)場(chǎng)景下表現(xiàn)得比較完美。這里會(huì)進(jìn)行微調(diào),我們?cè)O(shè)計(jì)了Adapter結(jié)構(gòu),實(shí)踐中采用了MLP和低秩分解組合的形式。另外,Adapter的插入位置也進(jìn)行了很多嘗試。還有一點(diǎn)是訓(xùn)練數(shù)據(jù)的制作,以及數(shù)據(jù)配比等等都非常重要。
有了一個(gè)效果比較好的大模型,我們開始設(shè)計(jì)輕量化的大模型,這個(gè)模型采用輕量化的vit結(jié)構(gòu)作為backbone,使用前面訓(xùn)練好的大模型對(duì)它進(jìn)行蒸餾,使用剪枝等技術(shù)進(jìn)行優(yōu)化。
經(jīng)過(guò)這些操作,輕量化模型的參數(shù)下降到基礎(chǔ)大模型的2/3。在這個(gè)過(guò)程中,我們也沉淀了多個(gè)不同復(fù)雜度、不同摳圖能力的模型,把它們的能力送到知識(shí)庫(kù)中。實(shí)際業(yè)務(wù)使用時(shí),決策中心會(huì)根據(jù)要求調(diào)用合適的模型。
除了算法層面的優(yōu)化,我們還進(jìn)行了一些工程側(cè)的優(yōu)化,主要包含三方面:
1、工程架構(gòu)的優(yōu)化,這里采用了CPU、GPU異步并行;
2、網(wǎng)絡(luò)推理方面的優(yōu)化,如使用推理框架HRT,采用fp16、int8推理;
3、傳統(tǒng)算法模塊的優(yōu)化,如控制優(yōu)化、循環(huán)優(yōu)化、訪存優(yōu)化、線程優(yōu)化等。
經(jīng)過(guò)算法、工程兩方面的優(yōu)化,對(duì)于輸入的1080p視頻,我們?cè)贏10上實(shí)現(xiàn)了33fps的高質(zhì)量摳圖。
我們看下?lián)笀D的效果。對(duì)于輸入圖像,我們實(shí)現(xiàn)了摳人像、以及摳人像加桌子/化妝品/手機(jī)等附屬物的效果。這個(gè)摳圖質(zhì)量還是比較高的,特別是發(fā)絲摳圖效果非常細(xì)膩,人物、物體的摳圖邊緣都很精細(xì)。
另外,我們也開發(fā)了前背景和諧化的技術(shù),解決了摳出的前景與被貼入背景在光照、對(duì)比度、色彩等方面不協(xié)調(diào)的問(wèn)題。
在剛剛過(guò)去的云棲大會(huì),我們也展示了一個(gè)摳圖的應(yīng)用,在開放環(huán)境中,實(shí)現(xiàn)異地多人實(shí)時(shí)連麥+虛擬背景的功能。右圖是現(xiàn)場(chǎng)演示的圖像。
我們?cè)倏聪旅劫Y管理中的視頻搜索。它的應(yīng)用也非常廣,包括廣電傳媒、云導(dǎo)播、云盤管理、短視頻內(nèi)容推薦、視頻監(jiān)控等。
這里先介紹下傳統(tǒng)的視頻檢索方法。
它通常采用小模型方法對(duì)視頻內(nèi)容進(jìn)行識(shí)別,包括人臉識(shí)別、物體識(shí)別、Log識(shí)別、OCR、ASR等等,然后生成標(biāo)簽,這些標(biāo)簽是文本關(guān)鍵詞形式的,且大部分是實(shí)體標(biāo)簽。這些標(biāo)簽都會(huì)送到數(shù)據(jù)庫(kù)中。對(duì)于用戶輸入的查詢語(yǔ)句,進(jìn)行標(biāo)簽的查詢,并返回對(duì)應(yīng)視頻的片段。
這里存在一個(gè)比較大的問(wèn)題,即搜索往往是實(shí)體的搜索,而對(duì)于實(shí)體的動(dòng)作、相互之間關(guān)系等很難檢索到正確的視頻,另外,搜索往往對(duì)查詢?cè)~很敏感。
我們看到多模態(tài)表征技術(shù)將圖像和文本映射到統(tǒng)一的高維空間中,實(shí)現(xiàn)了實(shí)體、實(shí)體關(guān)系等的高質(zhì)量檢索,并對(duì)文本中的同義詞、近義詞不敏感。這些典型的表征技術(shù)包括CLIP、BLIP技術(shù)等,還有針對(duì)中文的ChineseCLIP、TEAM等。但這些技術(shù)是針對(duì)單幀圖像的,而我們的場(chǎng)景都是視頻。那如何實(shí)現(xiàn)視頻的檢索?如何提升高維向量檢索的時(shí)效性呢?
我們提出了一種基于嵌入模型的視頻檢索算法。
對(duì)于視頻而言,同一個(gè)鏡頭,最好用同一個(gè)或少數(shù)幾個(gè)embedding vector表示。這樣做的好處是減少了embedding向量的數(shù)量,也就減少了存儲(chǔ)的空間和檢索的計(jì)算量,同時(shí),由于是對(duì)鏡頭進(jìn)行處理,表征的質(zhì)量更高,檢索的質(zhì)量也就更高。我們通過(guò)三步達(dá)到這個(gè)目標(biāo):
1、首先,對(duì)視頻內(nèi)容分析,結(jié)合固定步長(zhǎng)抽幀和自適應(yīng)抽幀,初步過(guò)濾掉一些信息冗余的幀;
2、其次,采用相鄰采樣幀,進(jìn)行時(shí)空維度的特征編碼;
3、最后,對(duì)嵌入向量,從檢索角度,進(jìn)行多級(jí)聚類和量化。
經(jīng)過(guò)這三個(gè)過(guò)程,在同一鏡頭內(nèi),得到的最終向量只有非常少數(shù),大大降低了向量的存儲(chǔ)空間,提升了檢索的效率,而且也提高了檢索質(zhì)量。
這里我們?cè)O(shè)計(jì)了多幀的視覺編碼器,采用微調(diào)、蒸餾等方法保證了它的效果,并實(shí)現(xiàn)了它與文本的對(duì)齊。
在前面方法的基礎(chǔ)上,我們又提出了一種信息融合的視頻檢索算法。這里解決的問(wèn)題是:
一是實(shí)現(xiàn)視覺+聲音與文本間的檢索,比如檢索出小鳥在樹上叫的視頻片段,二是實(shí)現(xiàn)更細(xì)粒度的檢索,比如某位名人在某個(gè)著名景點(diǎn)的活動(dòng)。
針對(duì)這兩個(gè)問(wèn)題,我們分別設(shè)計(jì)了時(shí)空視聽嵌入模塊和關(guān)鍵實(shí)體識(shí)別模塊,分別提取不同粒度的表征信息。在檢索階段,我們會(huì)分別對(duì)兩種粒度的嵌入向量進(jìn)行檢索,再對(duì)二者的信息進(jìn)行融合,最終實(shí)現(xiàn)更好的檢索效果。
此算法發(fā)揮了不同模型優(yōu)勢(shì),融合了多模態(tài)的信息,并提升了檢索的適用范圍。
我們?cè)倏聪露嗄B(tài)融合是如何實(shí)現(xiàn)的。整個(gè)過(guò)程如上圖所示。
它實(shí)現(xiàn)了同一場(chǎng)景視覺與聽覺的特征融合,也實(shí)現(xiàn)了視聽特征與文本的模態(tài)對(duì)齊。我們借鑒了ImageBind的方法,把音頻、文本都對(duì)齊到了視覺空間。
目前,該功能已經(jīng)集成進(jìn)媒體服務(wù)產(chǎn)品中。這里展示了一些視頻搜索的效果,我們可以看到新方法的一些效果,它對(duì)動(dòng)作、時(shí)間、數(shù)量等都有比較好的檢索能力。
最后看下處理方面的視頻修復(fù)算法。視頻修復(fù)的應(yīng)用場(chǎng)景非常廣泛,比如體育賽事、綜藝節(jié)目、影視劇、紀(jì)錄片、動(dòng)漫、老歌MV等場(chǎng)景。
視頻修復(fù)的維度非常多樣,比如針對(duì)瑕疵、拍攝或制作中的噪聲、細(xì)節(jié)、色彩等,都可以進(jìn)行修復(fù)。這里講的視頻修復(fù)針對(duì)的是直播、點(diǎn)播等場(chǎng)景中,在制作、編輯、轉(zhuǎn)碼中引入的細(xì)節(jié)退化問(wèn)題。如左圖所示,我們能看到明顯的細(xì)節(jié)退化,比如模糊、塊效應(yīng)、邊緣鋸齒等。
那用什么方法來(lái)解決細(xì)節(jié)退化呢?這里牽扯到算法選型的問(wèn)題。
從我們之前積累的經(jīng)驗(yàn)看,GAN方法對(duì)一些垂直領(lǐng)域的、退化不是非常嚴(yán)重的場(chǎng)景,可以有比較好的效果。但當(dāng)片源或流的質(zhì)量比較差時(shí),GAN方法的細(xì)節(jié)恢復(fù)就顯得不夠了,而且此時(shí)生成的效果也不太自然。此外RealESRGAN的效果,一定程度上也印證了我們的結(jié)論。
我們發(fā)現(xiàn),基于SD預(yù)訓(xùn)練模型的StableSR可以取得更好的細(xì)節(jié)生成效果,具體表現(xiàn)為:它對(duì)源質(zhì)量適應(yīng)性強(qiáng),效果自然、穩(wěn)定,細(xì)節(jié)恢復(fù)質(zhì)量高。因此我們選擇SD來(lái)應(yīng)對(duì)這樣的修復(fù)場(chǎng)景。
下面介紹我們的方案。該算法借鑒了StableSR的一些想法,網(wǎng)絡(luò)層面也是由UNet和VAEFGAN組成的。我們結(jié)合業(yè)務(wù)場(chǎng)景進(jìn)行深入的設(shè)計(jì)和調(diào)整,特別是針對(duì)badcase的處理做了大量工作。這里簡(jiǎn)單介紹幾方面:
1、在訓(xùn)練數(shù)據(jù)方面,采用了離線和在線結(jié)合的數(shù)據(jù)降質(zhì)模擬策略;
2、針對(duì)VAEGAN中編碼器處理后有信息損失的問(wèn)題,我們采用了編碼器特征導(dǎo)引解碼器的網(wǎng)絡(luò)形式,并對(duì)他們進(jìn)行聯(lián)合微調(diào);
3、在訓(xùn)練策略上,通過(guò)引入HR編碼器特征,把擴(kuò)散模型與VAEGAN解耦;
4、此外我們也采用了多階段訓(xùn)練策略。
這里展示了SD修復(fù)的效果。從圖中不難看出,新方法對(duì)人像和自然物都有很好的修復(fù),比如,頭發(fā)上的很多細(xì)節(jié)都恢復(fù)出來(lái)了,人的五官變得更清晰了,遠(yuǎn)處船上及繩索上的細(xì)節(jié)、建筑物的細(xì)節(jié)也恢復(fù)出來(lái)了。
04 音視頻大模型的思考
關(guān)于音視頻大模型的思考,這里介紹四個(gè)方面:
第一是端側(cè)智能。隨著終端芯片對(duì)大模型支持的力度越來(lái)越大,比如apple、高通等公司都發(fā)布了大模型終端芯片,大模型在端側(cè)落地已是必然趨勢(shì)。目前我們從端側(cè)大模型設(shè)計(jì)、推理優(yōu)化兩方面入手,針對(duì)高端機(jī)型,進(jìn)行了端側(cè)大模型落地的探索。
第二是云端一體。從技術(shù)層面講,需要解決兩方面的問(wèn)題,第一個(gè)是如何劃分大模型云、端的計(jì)算負(fù)載,第二個(gè)是大模型的特征編碼。
第三是模型的統(tǒng)一。這里重點(diǎn)強(qiáng)調(diào)兩個(gè)統(tǒng)一,視覺模型backbone的統(tǒng)一、以及多模態(tài)encoder的統(tǒng)一。在有了統(tǒng)一的基座模型之后,可以針對(duì)業(yè)務(wù)場(chǎng)景對(duì)下游任務(wù)進(jìn)行finetune。
第四是大模型的決策能力。我們希望大模型不僅能解決單點(diǎn)問(wèn)題,還希望它有規(guī)劃、行動(dòng)的能力,也就是Agent的概念?,F(xiàn)在在算法層面,我們已經(jīng)做了一些工作,接下來(lái)我們希望用大模型來(lái)提升引擎、調(diào)度、業(yè)務(wù)層的智能化水平。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-823315.html
我的分享就到這里,謝謝!文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-823315.html
到了這里,關(guān)于AI浪潮下,大模型如何在音視頻領(lǐng)域運(yùn)用與實(shí)踐?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!