隨著5G時代的到來,互聯(lián)網(wǎng)短視頻、電影電視劇、電商直播、游戲直播、視頻會議等音視頻業(yè)務呈井噴式發(fā)展。
作為通用云端轉(zhuǎn)碼平臺,阿里云視頻云的窄帶高清需要處理海量、不同質(zhì)量的視頻。對于中高質(zhì)量的視頻,現(xiàn)有的窄帶高清1.0就能提供滿意的轉(zhuǎn)碼效果,并帶來達30%的帶寬成本降低;而對于有明顯壓縮失真和成像噪聲的低質(zhì)量視頻,需要使用性能更好的窄帶高清2.0進行去壓縮失真、去噪和增強處理從而得到更好的觀看體驗。
在2022稀土開發(fā)者大會上,阿里云智能視頻云技術專家周明才以《阿里云窄帶高清的演進突破與場景實戰(zhàn)》為主題,深度分享阿里云視頻云在窄帶高清上的研發(fā)思考與實踐。
01 窄帶高清的源起
談及窄帶高清之前,先來聊聊普通的云端轉(zhuǎn)碼流程。轉(zhuǎn)碼本質(zhì)上是一個先解碼再編碼的過程。從下圖可以看到,普通云端轉(zhuǎn)碼是在用戶端先形成一個原始視頻,經(jīng)過編碼之后以視頻流的形式傳到服務端,在服務端解碼之后做轉(zhuǎn)碼,然后再編碼通過CDN(內(nèi)容分發(fā)網(wǎng)絡)分發(fā)出去,此時普通轉(zhuǎn)碼主要的功能就是做視頻格式的統(tǒng)一,并在一定程度上降低碼率。
窄帶高清是什么?它與普通轉(zhuǎn)碼的主要區(qū)別是什么?通過窄帶高清的字面意思可以理解,“窄帶”是指讓視頻經(jīng)過窄帶高清轉(zhuǎn)碼之后,對帶寬的需求變得更小。同時,“高清”是指經(jīng)過轉(zhuǎn)碼后的畫質(zhì)仍然能夠保持高清、豐富的視覺體驗。
上圖的下半部分也就是窄帶高清的流程,與普通轉(zhuǎn)碼流程不同點在于,在云端做了解碼之后,窄帶高清還會對視頻質(zhì)量做增強處理,以及利用編碼信息來輔助提升視頻質(zhì)量。經(jīng)過質(zhì)量提升后,再用針對主觀質(zhì)量做過優(yōu)化的編碼器進行編碼,最后進行分發(fā)。
總結(jié)來說,窄帶高清本質(zhì)上解決的是質(zhì)量提升和壓縮的問題,其主要目標是追求質(zhì)量、碼率和成本的最優(yōu)均衡。
阿里云早在2015年就已經(jīng)提出了窄帶高清這一概念。在2016年正式推出窄帶高清這一技術品牌并且進行了產(chǎn)品化。
今年,阿里云推出了窄帶高清2.0極致修復生成版本。相較于先前版本,最大特點是能生成細節(jié)紋理做到極致修復。
窄帶高清全景圖
窄帶高清在做自適應參數(shù)決策時主要考慮三個維度:業(yè)務場景、視頻熱度、視頻內(nèi)容。
由于業(yè)務場景的不同,比如電商直播、游戲直播、賽事直播,所需要的視頻增強和編碼參數(shù)不一樣;對于一些高熱內(nèi)容,如:在手淘場景中可以用窄帶高清2.0啟動二次轉(zhuǎn)碼來實現(xiàn)質(zhì)量的進一步提升和碼率的節(jié)??;在視頻內(nèi)容維度,會針對當前的視頻做一些High-level和 Low-level的分析,High-level包含語義的分析,特別是ROI的檢測,Low-level包括視頻壓縮程度、模糊程度、噪聲程度的視頻質(zhì)量分析。
根據(jù)以上這些維度的分析,可以得到自適應參數(shù)的決策結(jié)果。根據(jù)此結(jié)果,窄帶高清再去做相應的視頻修復和視頻增強。具體來說,視頻修復包括強壓縮失真、降噪等,視頻增強包含細節(jié)增強、色彩增強、對比度增強等。
02 視頻內(nèi)容分析
ROI
ROI的主要目的是在碼率受限或碼率一致的情況下,將碼率盡可能分配到人眼更關注的區(qū)域,比如在電影電視劇中,觀眾會更多關注主角的臉。
基于ROI的處理和壓縮,有以下兩個難點:一是如何得到低成本的ROI算法,二是如何基于ROI進行碼控決策,例如:保證ROI區(qū)域主觀質(zhì)量提升的同時,非ROI區(qū)域的主觀質(zhì)量不會明顯下降;同時做到時域連續(xù)、不閃爍。
在低成本ROI計算方面,阿里云自研了自適應決策的人臉檢測跟蹤算法,這是一款低成本、高精度的算法。在極大部分時間只需要做計算量極小的人臉跟蹤,只有少部分時間做人臉檢測,從而在保證高精度的情況下,實現(xiàn)超低成本和快速ROI獲取。
從下圖表格里面可以看到,阿里云自研算法相比開源人臉檢測算法,精度和召回基本上沒有損失,同時復雜度和計算耗時有明顯數(shù)量級的下降。
在有了ROI算法之后,需要對場景、視頻質(zhì)量的自適應碼率分配進行決策。針對此難題,主要考慮與編碼器結(jié)合,在主觀和客觀之間取得均衡,同時保證時域的一致。
JND
傳統(tǒng)視頻壓縮方法主要基于信息理論,從預測結(jié)構(gòu)的角度減小時域冗余、空間冗余、統(tǒng)計冗余,但這對視覺冗余挖掘是遠遠不夠的。
在JND算法里,主要采用了兩個算法,一個是空域JND算法,一個是時域JND算法,拿到這些JND算法后,我們再基于MOS的自適應碼控算法,對QP做自適應的分配,最終實現(xiàn)在通用場景及主觀情況下,碼率可以節(jié)省30%以上。
03 視頻修復增強
細節(jié)增強
講到視頻修復增強,提及最多的就是細節(jié)增強部分,效果確實會比較明顯。
通常的細節(jié)增強基于UnSharp Mask的框架。阿里云視頻云自研的細節(jié)增強算法,有以下三個特點:第一是有更精細的圖像紋理細節(jié)提取方式,能提取不同尺寸,不同特征的圖像紋理結(jié)構(gòu),增強效果更優(yōu);第二,算法可以通過對圖像內(nèi)容紋理結(jié)構(gòu)分析,根據(jù)區(qū)域紋理復雜度實現(xiàn)局部區(qū)域自適應增強;第三個特點是算法可以和與編碼結(jié)合,根據(jù)編碼器的編碼信息反饋來自適應調(diào)整增強策略。
色彩增強
通常采集的視頻素材,因為采集的設備或者光線亮度的原因,導致素材顏色可能看起來會比較暗淡。特別是在短視頻場景,這類視頻會失去視覺吸引力,因此需要色彩增強。
色彩增強存在哪些難點問題?具體如何做色彩增強?
像Ffmpeg里面有EQ filter,EQ filter會用UV通道去做色彩增強。而在我們的自研算法里,實際上是在RGB顏色空間去做增強,即會根據(jù)當前顏色點的飽和度,去做一些局部的自適應。同時,也會根據(jù)當前畫面整體的情況,做一個整體的自適應。
在膚色保護這塊,因為傳統(tǒng)的色彩增強完之后,人臉區(qū)域會泛紅,主觀視覺上不自然。為了解決這一問題,我們采用了膚色保護的方法,對膚色區(qū)域做一個額外的保護。
這是一個色彩增強前跟增強后的效果對比。可以看到增強后的綠色的蔬菜、肉,整個的顏色看著會更飽滿,對于美食類視頻來講更能夠激發(fā)起觀眾的食欲。
對比度增強
在對比度增強中,使用了經(jīng)典的CLAHE算法,其思路是對一個視頻幀做分塊,通常分成8x8個分塊,在每一塊統(tǒng)計直方圖。然后統(tǒng)計直方圖的時候,對直方圖做一個Clip,就是所謂的對比度受限的直方圖均衡,這主要是克服過度放大噪聲的問題。基于CLAHE的視頻對比度增強其實有一個難點,就是時域閃爍問題。這在學術界也是一個較難的問題,到目前為止,還沒有得到非常徹底的解決。
降噪
降噪在ffmpeg里面有很多算法,比如像BM3D、BM4D、 NLM,這些算法的去噪效果好,但是復雜度非常高,會導致速度慢成本高,可能還需要配合噪聲估計模塊來一起使用。
另外還有一些相對均衡的算法,速度比較快,但是效果不強。如果想要提升它的去噪強度,通常會引入一些偽影或細節(jié)丟失的問題。
基于這些調(diào)研,我們自研的降噪算法采用基于多分辨率分解在上面做濾波框架。首先是對輸入圖像會做小波分解,得到高頻跟低頻信息。對于高頻做軟閾值處理。對于低頻采用雙邊濾波降噪。經(jīng)過這種濾波或者軟閾值之后,再重新合成回去,就可以達到去噪目的。算法的核心難點在于如何去做加速,使得成本和運算速度能夠滿足轉(zhuǎn)碼要求,尤其是實時轉(zhuǎn)碼場景,對速度要求是非常高的。
加速
算法團隊對于小波變換加速做了包括整形化很多的嘗試,總是存在一些累積誤差。所以我們最后采用了浮點型加速方式,用avx2浮點加速能夠達到大概三倍的提升。
另外是雙邊濾波這部分的加速,傳統(tǒng)的雙邊濾波基于鄰域像素的操作。這種基于鄰域的操作其實非常慢的。因此,我們采用了RBF這個快速算法,把二維的濾波分解成一維的,同時采用遞歸的方式去從左到右,從右到左,從上到下,從下到上,這樣的一維操作,就可以實現(xiàn)類似于原始雙邊濾波效果。通過采用RBF這個快速算法,我們可以獲得大概13倍的加速。此外我們還做了這種AVX2匯編的優(yōu)化,這塊能夠額外加速十倍左右。
上圖是SDR+的整體效果圖,在經(jīng)過SDR+的處理之后,畫面整體的對比度、亮度、清晰度會有很大的提升,以上這些是針對視頻增強做的一些工作。
CDEF去振鈴
首先是CDEF去振鈴,CDEF本身是源自于AV 1的一個技術,在CDEF處理之前,強邊緣附近會有很多的毛刺和振鈴。經(jīng)過CDEF處理之后,畫面中的噪聲得到很大的剔除。
CDEF算法的核心步驟,其實是一個平滑濾波的過程,只不過它的平滑濾波的權(quán)重、偏差都做了一些特殊的處理。特別是它的濾波權(quán)重,跟當前像素點所在的8x8像素區(qū)域的主要方向是有關系,也就是圖中左下角這里展示的,它會去做一個最優(yōu)方向的一個搜索。搜索完了之后,根據(jù)主方向來確定它的這個濾波器抽頭的方向和權(quán)重。此外,CDEF有兩部分的權(quán)重,一個是主方向的WP,另一個是輔助方向WS。然后對于鄰域點和當前點的灰度偏差做截斷,這可以避免過平滑。
去壓縮失真
除了用CDEF基于傳統(tǒng)的圖像處理算法做去振鈴之外,還做了基于深度學習的去壓縮失真的算法。這個算法是基于多幀的方案,更利于幀間連續(xù)性,不易出現(xiàn)幀間閃爍?!罢瓗Ц咔濉彼惴ǚ殖蓛纱髩K:一個是質(zhì)量檢測模塊,一個是去壓縮模塊。質(zhì)量檢測模塊可以識別不同質(zhì)量視頻源的壓縮程度,然后輸出QP MAP作為壓縮強度衡量指標。另一個是去壓縮模塊,輸入多幀視頻和對應幀的QP MAP,利用QP MAP進行自適應去壓縮。
極致修復生成
極致修復生成主要是針對畫質(zhì)比較差的場景,去除較強的壓縮失真的同時,生成一些因壓縮而丟失的細節(jié)。在極致修復生成研發(fā)中,有以下幾個要點:一是構(gòu)建訓練數(shù)據(jù)(在訓練數(shù)據(jù)構(gòu)建時,參照了Real-ESRGAN的二階退化思路);二是對比較敏感的人臉區(qū)域,保證人臉生成穩(wěn)定性;三是做模型壓縮時,使得模型計算量低的同時保持良好的效果;四是模型部署。
極致修復的場景實戰(zhàn)
在六月份NBA決賽直播時,百視TV希望通過使用我們的窄帶高清2.0修復生成技術,來提升他們賽事直播的質(zhì)量。如中間這個截圖所示,截圖的上半部分是主播直接推過來的視頻效果,下半部分是經(jīng)過極致修復生成之后的效果。
可以看到修復之后,Youtube這幾個字母邊緣會更清晰、干凈,不再毛躁。其他籃球場景相關的,比如球員身后的數(shù)字及球員的身體輪廓,也會變得特別清晰。另外也有些生成效果,比如地板上有生成一些紋理,使整體的賽事觀感大大提升。
除了自研的算法,阿里云也有一些高校合作項目,字幕修復就是其中一個合作項目的成果??梢钥磮D中右下角實際修復字幕例子。該字幕取自一個老片MV,上面一行是原始MV里的字幕,可以看到“話”字的言字旁幾條橫筆畫會有一些粘連,此外文字邊緣還有很多的噪聲。下面一行是經(jīng)過字幕修復之后的效果,能夠看到會變得很干凈、清晰。
未來,窄帶高清技術也將持續(xù)升級,通過算法能力進一步提升修復生成效果、降低碼率和優(yōu)化成本,通過打通前后端的處理,以及探索落地更多沉浸式場景,如:針對VR領域的窄帶高清。與此同時,該項技術也將應用于更多的頂級賽事活動,在成本優(yōu)化調(diào)和之上,實現(xiàn)視效體驗的全新升級。文章來源:http://www.zghlxwxcb.cn/news/detail-539856.html
「視頻云技術」你最值得關注的音視頻技術公眾號,每周推送來自阿里云一線的實踐技術文章,在這里與音視頻領域一流工程師交流切磋。公眾號后臺回復【技術】可加入阿里云視頻云產(chǎn)品技術交流群,和業(yè)內(nèi)大咖一起探討音視頻技術,獲取更多行業(yè)最新信息。 ? ?文章來源地址http://www.zghlxwxcb.cn/news/detail-539856.html
到了這里,關于從技術全景到場景實戰(zhàn),透析「窄帶高清」的演進突破的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!