論文標(biāo)題
OpenDMC: An Open-Source Library and Performance Evaluation for Deep-learning-based Multi-frame Compression
論文來源
ACM MultiMedia
論文鏈接
https://www.acmmm2023.org/open-source-program/
代碼鏈接
https://openi.pcl.ac.cn/OpenDMC/OpenDMC
昇思MindSpore作為開源的AI框架,為產(chǎn)學(xué)研和開發(fā)人員帶來端邊云全場(chǎng)景協(xié)同、極簡開發(fā)、極致性能、安全可信的體驗(yàn),支持超大規(guī)模AI預(yù)訓(xùn)練,自2020年3月28日開源來已超過6百萬的下載量。昇思MindSpore已支持?jǐn)?shù)百篇AI頂會(huì)論文,走入Top100+高校教學(xué),通過HMS在5000+App上商用,擁有數(shù)量眾多的開發(fā)者,在AI計(jì)算中心、智能制造、金融、云、無線、數(shù)通、能源、消費(fèi)者1+8+N、智能汽車等端邊云車全場(chǎng)景廣泛應(yīng)用,是Gitee指數(shù)最高的開源軟件。歡迎大家參與開源貢獻(xiàn)、套件、模型眾智、行業(yè)創(chuàng)新與應(yīng)用、算法創(chuàng)新、學(xué)術(shù)合作、AI書籍合作等,貢獻(xiàn)您在云側(cè)、端側(cè)、邊側(cè)以及安全領(lǐng)域的應(yīng)用案例。
在科技界、學(xué)術(shù)界和工業(yè)界對(duì)昇思MindSpore的廣泛支持下,基于昇思MindSpore的AI論文2023年在所有AI框架中占比7%,連續(xù)兩年進(jìn)入全球第二,感謝CAAI和各位高校老師支持,我們一起繼續(xù)努力做好AI科研創(chuàng)新。昇思MindSpore社區(qū)支持頂級(jí)會(huì)議論文研究,持續(xù)構(gòu)建原創(chuàng)AI成果。我會(huì)不定期挑選一些優(yōu)秀的論文來推送和解讀,希望更多的產(chǎn)學(xué)研專家跟昇思MindSpore合作,一起推動(dòng)原創(chuàng)AI研究,昇思MindSpore社區(qū)會(huì)持續(xù)支撐好AI創(chuàng)新和AI應(yīng)用,本文是MindSpore AI頂會(huì)論文系列第22篇,我選擇了來自北京大學(xué)高偉老師團(tuán)隊(duì)的一篇論文解讀,感謝各位專家教授同學(xué)的投稿。
昇思MindSpore旨在實(shí)現(xiàn)易開發(fā)、高效執(zhí)行、全場(chǎng)景覆蓋三大目標(biāo)。通過使用體驗(yàn),昇思MindSpore這一深度學(xué)習(xí)框架的發(fā)展速度飛快,它的各類API的設(shè)計(jì)都在朝著更合理、更完整、更強(qiáng)大的方向不斷優(yōu)化。此外,昇思不斷涌現(xiàn)的各類開發(fā)工具也在輔助這一生態(tài)圈營造更加便捷強(qiáng)大的開發(fā)手段,例如MindSpore Insight,它可以將模型架構(gòu)以圖的形式呈現(xiàn)出來,也可以動(dòng)態(tài)監(jiān)控模型運(yùn)行時(shí)各個(gè)指標(biāo)和參數(shù)的變化,使開發(fā)過程更加方便。
01
?
研究背景
如今,視頻流媒體已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠?。?shù)十億人在互聯(lián)網(wǎng)上的視頻應(yīng)用帶來了對(duì)于高效的視頻傳輸和存儲(chǔ)的巨大需求。盡管很多優(yōu)秀的視頻編碼算法已被提出,但是目前缺乏一個(gè)算法庫能有效對(duì)這些算法進(jìn)行分類和組織、能夠用不同標(biāo)準(zhǔn)對(duì)算法表現(xiàn)進(jìn)行評(píng)價(jià),并且能夠支持這些算法在多個(gè)平臺(tái),特別是昇思MindSpore這一新興高效的平臺(tái)上的實(shí)現(xiàn)。
02
?
團(tuán)隊(duì)介紹
高偉,北京大學(xué)信息工程學(xué)院助理教授/研究員/博士生導(dǎo)師,IEEE/CCF/CSIG Senior Member。團(tuán)隊(duì)在相關(guān)領(lǐng)域高水平國際期刊(如IEEE TPAMI、TIP、TCSVT、TMM、TNNLS、TCYB、TGRS等)和高水平國際會(huì)議(如CVPR、ECCV、AAAI、ACM MM、DCC等)上發(fā)表論文100余篇,申請(qǐng)或授權(quán)美國/中國/PCT專利80余項(xiàng),積極參與多媒體與人工智能技術(shù)的標(biāo)準(zhǔn)制定工作并提交技術(shù)提案40余項(xiàng)。多篇論文入選ESI高被引論文和優(yōu)秀論文獎(jiǎng)(2篇論文入選ESI高被引,4篇論文獲得優(yōu)秀論文獎(jiǎng))。由于在3D沉浸式媒體方面的研究榮獲2021年IEEE多媒體學(xué)術(shù)新星獎(jiǎng)項(xiàng)(IEEE Multimedia Rising Star)。榮獲2022年CCF優(yōu)秀圖形開源軟件獎(jiǎng)項(xiàng)、2021年CCF-騰訊犀牛鳥優(yōu)秀專利獎(jiǎng)、2020年和2019年連續(xù)兩年CCF-騰訊犀牛鳥基金。
03
?
論文簡介
OpenDMC,第一個(gè)專門為視頻壓縮任務(wù)設(shè)計(jì)的開源深度學(xué)習(xí)算法庫。盡管在壓縮領(lǐng)域有CompressAI等庫珠玉在前,但這些庫主要針對(duì)的是圖像壓縮算法,而沒有針對(duì)視頻數(shù)據(jù)進(jìn)行算法支持,OpenDMC的出現(xiàn)填補(bǔ)了視頻壓縮算法庫領(lǐng)域的空白。OpenDMC橫跨MindSpore等多個(gè)平臺(tái),支持多種經(jīng)典的視頻壓縮算法如DVC、DCVC、SSFVC、DVC-P等,并提出多種分類標(biāo)準(zhǔn)對(duì)上述算法進(jìn)行了組織整理,如根據(jù)編碼方式分為基于殘差編碼的方法(Residue-based)和基于條件編碼的方法(Condition-based),根據(jù)監(jiān)督方式分為客觀監(jiān)督方法(Objective)和感知監(jiān)督方法(Perceptual),根據(jù)時(shí)空線索利用方式分為雙向時(shí)空建模方法(Bi-directional)和單向時(shí)空建模方法(Uni-directional)等。同時(shí),在OpenDMC中我們還采用了多個(gè)評(píng)價(jià)指標(biāo)對(duì)算法進(jìn)行評(píng)估,包括RD表現(xiàn)、運(yùn)行時(shí)間、顯存占用等,如下圖所示。
圖1 OpenDMC所支持跨平臺(tái)算法及相關(guān)評(píng)價(jià)指標(biāo)
DVC是深度視頻編碼領(lǐng)域最早的工作之一,其應(yīng)用了一個(gè)編碼器-解碼器光流卷積網(wǎng)絡(luò)來估計(jì)幀間運(yùn)動(dòng),然后對(duì)殘差進(jìn)行壓縮以節(jié)省比特率。參考幀通過預(yù)測(cè)的光流被扭曲到目標(biāo)幀,然后得到了殘差。然后,殘差經(jīng)過非線性神經(jīng)網(wǎng)絡(luò)進(jìn)行更好的量化處理。SSFVC提出了尺度空間流估計(jì)和尺度空間扭曲技術(shù)。一個(gè)尺度場(chǎng)被添加為傳統(tǒng)的2通道流場(chǎng)的第三維,以便更好地處理困難情況,并在無法進(jìn)行基于流的預(yù)測(cè)時(shí)實(shí)現(xiàn)更加優(yōu)雅的降級(jí)。DCVC利用可學(xué)習(xí)的高維度時(shí)間上下文特征作為幀壓縮的條件。為了解決由運(yùn)動(dòng)補(bǔ)償引起的空間不連續(xù)性,DCVC應(yīng)用了一個(gè)上下文精化模塊來生成最終的上下文特征。這些上下文特征然后被用作編碼器和解碼器的條件輸入,采用并行和串聯(lián)的架構(gòu)。DVC-P提出了一個(gè)帶有感知優(yōu)化的深度視頻壓縮框架。其指出僅僅通過優(yōu)化視頻壓縮以提高PSNR并不總是能夠增強(qiáng)解碼后視頻的感知質(zhì)量具體來說,并受到生成對(duì)抗網(wǎng)絡(luò)的啟發(fā),DVC-P將鑒別器網(wǎng)絡(luò)和混合損失加入框架優(yōu)化過程中。
04
?
實(shí)驗(yàn)結(jié)果
本文相關(guān)實(shí)驗(yàn)的環(huán)境搭建、訓(xùn)練和推理過程均由昇思MindSpore框架實(shí)現(xiàn)。得益于詳細(xì)的文檔、龐大的社區(qū)和高效的底層實(shí)現(xiàn),使用昇思MindSpore搭建實(shí)驗(yàn)環(huán)境十分方便,且取得了與其他深度學(xué)習(xí)框架如PyTorch/TensorFlow相當(dāng)?shù)哪P捅憩F(xiàn)與推理時(shí)間。具體實(shí)驗(yàn)結(jié)果如以下圖表所示。從表1可以看出,DCVC、SSFVC和DVC-P在BD-MSSSIM指標(biāo)上獲得了比BD-PSNR指標(biāo)更大的性能提升。相關(guān)效率可在圖2看出,此處用運(yùn)行時(shí)間和GPU占用兩個(gè)指標(biāo)衡量,其中運(yùn)行時(shí)間是UVG數(shù)據(jù)集中所有序列中幀的總和。顯然,最快的算法是采用了尺度空間扭曲的SSFVC,而最慢的是DCVC,其在DCVC中采用的預(yù)測(cè)上下文的自回歸模型顯著增加了時(shí)間復(fù)雜度,這也是其耗時(shí)的重要原因。
表1 OpenDMC所支持算法在不同數(shù)據(jù)集合上與原生DVC算法比較的PSNR與MS-SSIM指標(biāo)比較
圖2 OpenDMC所支持跨平臺(tái)算法效率指標(biāo)表現(xiàn)
05
?
總結(jié)與展望文章來源:http://www.zghlxwxcb.cn/news/detail-782771.html
在本文中,我們發(fā)布了第一個(gè)基于深度學(xué)習(xí)的開源視頻壓縮算法庫,OpenDMC。OpenDMC在多個(gè)平臺(tái)均具備具體實(shí)現(xiàn)支持。在本文開頭,本文首先簡要介紹了視頻壓縮庫中使用的算法及分類依據(jù)。隨后,我們對(duì)代表性的基于深度學(xué)習(xí)的視頻壓縮算法進(jìn)行了性能測(cè)試,并對(duì)每個(gè)模型的性能進(jìn)行了精細(xì)分析,包括RD性能、時(shí)間復(fù)雜度和空間復(fù)雜度。本文相關(guān)代碼已全部開源。得益于昇思MindSpore詳細(xì)的文檔與完備的社區(qū)支持,本文實(shí)驗(yàn)可輕松復(fù)現(xiàn),我們希望OpenDMC能在包括昇思MindSpore在內(nèi)的多個(gè)社區(qū)中為開發(fā)者提供代碼支持,完善視頻壓縮生態(tài),并引領(lǐng)更優(yōu)秀的開源工作。文章來源地址http://www.zghlxwxcb.cn/news/detail-782771.html
到了這里,關(guān)于論文精講 | 基于昇思MindSpore打造首個(gè)深度學(xué)習(xí)開源視頻壓縮算法庫OpenDMC,支持跨平臺(tái)和多種評(píng)價(jià)指標(biāo)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!