国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【通過改變壓縮視頻的分辨率實現(xiàn)高效的視頻語義分割】CVPR2022論文精度

2年前作者：Deep Learning小舟分類：Toy博客閱讀(87)違法舉報

這篇具有很好參考價值的文章主要介紹了【通過改變壓縮視頻的分辨率實現(xiàn)高效的視頻語義分割】CVPR2022論文精度。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos

Basic Information:

Title: Ef?cient Semantic Segmentation by Altering Resolutions for Compressed Videos (通過改變壓縮視頻的分辨率實現(xiàn)高效的語義分割)
Authors: Yubin Hu, Yuze He, Yanghao Li, Jisheng Li, Yuxing Han, Jiangtao Wen, Yong-Jin Liu (胡宇斌, 何宇澤, 李洋浩, 李繼升, 韓宇星, 溫江濤, 劉永金)
Affiliation: Department of Computer Science and Technology, Tsinghua University (清華大學計算機科學與技術系)
Keywords: Video semantic segmentation, altering resolution, compressed videos, computational cost, feature fusion (視頻語義分割，改變分辨率，壓縮視頻，計算成本，特征融合)

論文簡要 :

通過改變壓縮視頻的分辨率，提出了一種名為AR-Seg的高效語義分割框架，通過特征融合和特征相似性訓練策略，實現(xiàn)了對非關鍵幀的低分辨率處理，從而顯著降低了計算成本，同時保持了高的分割準確性。

背景信息:

論文背景: 視頻語義分割是一項計算量巨大的任務，由于需要對高幀率視頻進行逐幀預測。過去的工作主要集中在設計緊湊模型或自適應網(wǎng)絡策略來提高語義分割的效率，但沒有考慮到影響計算成本的重要因素：輸入分辨率。
過去方案: 過去的方法主要集中在設計緊湊和高效的圖像分割架構，以減少每幀的計算開銷，或者通過在關鍵幀上使用深度模型，在非關鍵幀上使用淺層網(wǎng)絡來避免重復計算。
論文的Motivation: 通過觀察發(fā)現(xiàn)，過去的方法忽略了輸入分辨率對計算成本的影響。本文提出了一種新的方法，通過利用視頻中的時序相關性，使用壓縮視頻中的運動矢量來推斷和豐富低分辨率幀中缺失的局部特征，從而避免了降低分辨率帶來的分割準確性損失。本文的研究動機是基于對現(xiàn)有方法的不足之處，并從背景知識出發(fā)，提出了新的研究思路。
方法:

a. 理論背景:

本文提出了一種名為AR-Seg的改變分辨率框架，用于壓縮視頻中高效的視頻語義分割（VSS）。AR-Seg旨在通過在非關鍵幀上使用低分辨率來減少計算成本。為了防止性能下降，設計了一種名為Cross Resolution Feature Fusion（CReFF）模塊，用于將高分辨率關鍵幀的特征映射到低分辨率非關鍵幀，以實現(xiàn)更好的空間對齊。提出了Feature Similarity Training（FST）策略，通過使用高分辨率特征對聚合特征進行監(jiān)督，以保持分割準確性。在CamVid和Cityscapes數(shù)據(jù)集上的實驗結果表明，AR-Seg在使用PSPNet18骨干網(wǎng)絡時實現(xiàn)了最先進的性能，并節(jié)省了67%的計算成本，同時保持了高的分割準確性。

b. 技術路線:

AR-Seg框架由兩個分支組成：一個用于關鍵幀的高分辨率（HR）分支和一個用于非關鍵幀的低分辨率（LR）分支。HR分支在高分辨率上預測分割結果，并提供中間特征作為LR分支的參考。LR分支與HR分支使用相同的骨干網(wǎng)絡，并使用CReFF模塊將HR特征聚合到LR特征中。聚合特征然后轉換為像素級的語義標簽。

結果:

a. 詳細的實驗設置:

在CamVid和Cityscapes數(shù)據(jù)集上評估了AR-Seg框架，用于街景視頻語義分割。實驗結果表明，AR-Seg在節(jié)省計算成本的同時，實現(xiàn)了與基于圖像的方法相當或更好的性能。AR0.5-模型在減少67%計算成本的同時，實現(xiàn)了與1.0x分辨率基準相似的性能。與其他基于視頻的方法相比，AR-Seg模型在保持單幀骨干模型準確性的同時，減少了55%以上的計算成本。

b. 詳細的實驗結果:

實驗結果表明，AR0.6-Bise18模型在準確性和計算成本方面都表現(xiàn)出色。在CamVid數(shù)據(jù)集上進行了消融研究，評估了CReFF和FST方法中不同組件的重要性。驗證了對關鍵幀特征進行變形和使用局部注意力進行融合的必要性。評估了FLA組件的設計，發(fā)現(xiàn)7x7鄰域在計算和準確性之間取得了良好的平衡。將CReFF組件放置在最終的1x1卷積層之前可以獲得最佳性能。FST策略包括MSE Loss和共享的最終卷積層，提高了分割性能。調整了LR分支的分辨率，發(fā)現(xiàn)AR-Seg在所有分辨率下都提高了兩個骨干網(wǎng)絡的準確性。研究了幀之間的時間間隔，發(fā)現(xiàn)AR0.5-PSP18在與關鍵幀的所有距離上都保持了高的準確性。文章來源地址http://www.zghlxwxcb.cn/news/detail-615165.html

到了這里，關于【通過改變壓縮視頻的分辨率實現(xiàn)高效的視頻語義分割】CVPR2022論文精度的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

【音視頻原理】視頻幀的 I P B 幀概念 ① ( 碼率 / 幀率 / 分辨率視頻信息 | I 幀 - 內部編碼幀 | I 幀 - 關鍵幀壓縮法 | P 幀 - 前向預測幀 )
使用 MediaInfo 軟件打開一個 mp4 文件 , 查看其屬性 ; 該視頻的屬性如下 : 碼率 : 212kb/s , 這是視頻文件的視頻信息在單位時間內的數(shù)據(jù)流量 , 碼率越大 , 單位時間內采樣率越大 , 數(shù)據(jù)流精度越高 , 視頻質量越高 ; 視頻幀率 : 5fps , 1 秒中有 5 幀的信息 , 幀率越高 , 視頻越流暢
2024年02月20日
瀏覽(23)
【視頻超分辨率】視頻超分辨率的介紹（定義，評價指標，分類）
視頻超分率起源于圖像超分率，旨在根據(jù)已有的低分辨率視頻序列生成具有真實細節(jié)和內容連續(xù)的高分辨率視頻序列。視頻超分辨率技術可以將低分辨率（低清晰度）視頻轉換為高分辨率（高清晰度）視頻，以提供更多的細節(jié)和清晰度。視頻超分辨率技術主要分為傳統(tǒng)方法
2024年02月04日
瀏覽(25)
【多維定向濾波器組和表面波】表面變換：用于高效表示多維 s 的多分辨率變換（Matlab代碼實現(xiàn)）
???????? 歡迎來到本博客 ???????? ??博主優(yōu)勢： ?????? 博客內容盡量做到思維縝密，邏輯清晰，為了方便讀者。 ?? 座右銘：行百里者，半于九十。 ?????? 本文目錄如下： ?????? 目錄 ??1 概述 ??2 運行結果 ??3?參考文獻 ??4 Matlab代碼實現(xiàn) 文獻來源
2024年02月13日
瀏覽(17)
一步一步學OAK之四:實現(xiàn)如何在低延遲下使用高分辨率視頻
2023年06月29日
瀏覽(20)
ELAN：用于圖像超分辨率的高效遠程注意力網(wǎng)絡
Efficient Long-Range Attention Network for Image Super-resolution 文章目錄前言一、Introduction 二、Method 1、Network Architecture 2、Local feature extraction 3、Group-wise multi-scale self-attention (GMSA) 4、Accelerated self-attention (ASA) 5、Shared Attention 6、Shifted Window 2. Experiments Comparison with classic SR models Quantitative
2024年03月23日
瀏覽(21)
FPGA基于VDMA實現(xiàn)任意分辨率視頻輸出顯示，高度貼近真實項目，提供工程源碼和技術支持
之前寫過一篇FPGA純verilog實現(xiàn)任意分辨率視頻輸出顯示，高度貼近真實項目，提供工程源碼和技術支持的文章，講述了基于AXI協(xié)議的FDMA實現(xiàn)任意分辨率視頻輸出顯示，但對于習慣使用zynq或者Microblaze的兄弟來說，更喜歡用VDMA，本設計就是基于VDMA實現(xiàn)任意分辨率視頻輸出顯示，
2024年02月12日
瀏覽(14)
Python獲取視頻分辨率大小
可以使用 Python 的 cv2 庫來獲取視頻的分辨率大小。具體來說，需要執(zhí)行以下步驟： 1、首先，你需要安裝 cv2 庫。你可以使用 pip 安裝： 2、然后，需要導入 cv2 庫并打開視頻文件。就可以使用 cv2.VideoCapture 函數(shù)來打開視頻文件： 3、接著，可以使用 cv2.VideoCapture.get 函數(shù)獲取視
2024年02月15日
瀏覽(45)
多視角視頻MAE；把任意人像插入到任意場景中；高分辨率可編輯視頻卡通化；顯示建模運動實現(xiàn)一致且可控的視頻生成
本文首發(fā)于公眾號：機器感知多視角視頻MAE；把任意人像插入到任意場景中；高分辨率可編輯視頻卡通化；顯示建模運動實現(xiàn)一致且可控的視頻生成 Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding As large-scale text-to-image generation models have made remarkable progr
2024年02月21日
瀏覽(18)
視頻分辨率/幀率/碼率選擇參考
1. 視頻碼率與分辨率的參考表 ? ? 1080＊720的分辨率，用5000K左右； ? ? 720＊576的分辨率，用3500K左右； ? ? 640＊480的分辨率，用1500K左右。 2. 計算公式基本算法：碼率（kbps）＝文件大?。↘B）＊8／時間（秒）舉例：視頻文件的容量為3．446G，視頻長度100分鐘（6000秒），計
2024年02月06日
瀏覽(23)
java獲取視頻時長、分辨率、幀率、碼率
1、先導包 2、獲取時長
2024年02月15日
瀏覽(38)