Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos
Basic Information:
Title: Ef?cient Semantic Segmentation by Altering Resolutions for Compressed Videos (通過改變壓縮視頻的分辨率實現(xiàn)高效的語義分割)
Authors: Yubin Hu, Yuze He, Yanghao Li, Jisheng Li, Yuxing Han, Jiangtao Wen, Yong-Jin Liu (胡宇斌, 何宇澤, 李洋浩, 李繼升, 韓宇星, 溫江濤, 劉永金)
Affiliation: Department of Computer Science and Technology, Tsinghua University (清華大學計算機科學與技術系)
Keywords: Video semantic segmentation, altering resolution, compressed videos, computational cost, feature fusion (視頻語義分割,改變分辨率,壓縮視頻,計算成本,特征融合)
論文簡要 :
通過改變壓縮視頻的分辨率,提出了一種名為AR-Seg的高效語義分割框架,通過特征融合和特征相似性訓練策略,實現(xiàn)了對非關鍵幀的低分辨率處理,從而顯著降低了計算成本,同時保持了高的分割準確性。
背景信息:
論文背景: 視頻語義分割是一項計算量巨大的任務,由于需要對高幀率視頻進行逐幀預測。過去的工作主要集中在設計緊湊模型或自適應網(wǎng)絡策略來提高語義分割的效率,但沒有考慮到影響計算成本的重要因素:輸入分辨率。
過去方案: 過去的方法主要集中在設計緊湊和高效的圖像分割架構,以減少每幀的計算開銷,或者通過在關鍵幀上使用深度模型,在非關鍵幀上使用淺層網(wǎng)絡來避免重復計算。
論文的Motivation: 通過觀察發(fā)現(xiàn),過去的方法忽略了輸入分辨率對計算成本的影響。本文提出了一種新的方法,通過利用視頻中的時序相關性,使用壓縮視頻中的運動矢量來推斷和豐富低分辨率幀中缺失的局部特征,從而避免了降低分辨率帶來的分割準確性損失。本文的研究動機是基于對現(xiàn)有方法的不足之處,并從背景知識出發(fā),提出了新的研究思路。
方法:
a. 理論背景:
本文提出了一種名為AR-Seg的改變分辨率框架,用于壓縮視頻中高效的視頻語義分割(VSS)。AR-Seg旨在通過在非關鍵幀上使用低分辨率來減少計算成本。為了防止性能下降,設計了一種名為Cross Resolution Feature Fusion(CReFF)模塊,用于將高分辨率關鍵幀的特征映射到低分辨率非關鍵幀,以實現(xiàn)更好的空間對齊。提出了Feature Similarity Training(FST)策略,通過使用高分辨率特征對聚合特征進行監(jiān)督,以保持分割準確性。在CamVid和Cityscapes數(shù)據(jù)集上的實驗結果表明,AR-Seg在使用PSPNet18骨干網(wǎng)絡時實現(xiàn)了最先進的性能,并節(jié)省了67%的計算成本,同時保持了高的分割準確性。
b. 技術路線:
AR-Seg框架由兩個分支組成:一個用于關鍵幀的高分辨率(HR)分支和一個用于非關鍵幀的低分辨率(LR)分支。HR分支在高分辨率上預測分割結果,并提供中間特征作為LR分支的參考。LR分支與HR分支使用相同的骨干網(wǎng)絡,并使用CReFF模塊將HR特征聚合到LR特征中。聚合特征然后轉換為像素級的語義標簽。
結果:
a. 詳細的實驗設置:
在CamVid和Cityscapes數(shù)據(jù)集上評估了AR-Seg框架,用于街景視頻語義分割。實驗結果表明,AR-Seg在節(jié)省計算成本的同時,實現(xiàn)了與基于圖像的方法相當或更好的性能。AR0.5-模型在減少67%計算成本的同時,實現(xiàn)了與1.0x分辨率基準相似的性能。與其他基于視頻的方法相比,AR-Seg模型在保持單幀骨干模型準確性的同時,減少了55%以上的計算成本。文章來源:http://www.zghlxwxcb.cn/news/detail-615165.html
b. 詳細的實驗結果:
實驗結果表明,AR0.6-Bise18模型在準確性和計算成本方面都表現(xiàn)出色。在CamVid數(shù)據(jù)集上進行了消融研究,評估了CReFF和FST方法中不同組件的重要性。驗證了對關鍵幀特征進行變形和使用局部注意力進行融合的必要性。評估了FLA組件的設計,發(fā)現(xiàn)7x7鄰域在計算和準確性之間取得了良好的平衡。將CReFF組件放置在最終的1x1卷積層之前可以獲得最佳性能。FST策略包括MSE Loss和共享的最終卷積層,提高了分割性能。調整了LR分支的分辨率,發(fā)現(xiàn)AR-Seg在所有分辨率下都提高了兩個骨干網(wǎng)絡的準確性。研究了幀之間的時間間隔,發(fā)現(xiàn)AR0.5-PSP18在與關鍵幀的所有距離上都保持了高的準確性。文章來源地址http://www.zghlxwxcb.cn/news/detail-615165.html
到了這里,關于【通過改變壓縮視頻的分辨率實現(xiàn)高效的視頻語義分割】CVPR2022論文精度的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!