国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<input id="zltw4"></input>

<delect id="zltw4"><strong id="zltw4"></strong></delect>

<source id="zltw4"><strong id="zltw4"></strong></source>

<thead id="zltw4"><strong id="zltw4"></strong></thead>

【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles

2年前作者：XD742971636分類：Toy博客閱讀(20)違法舉報

這篇具有很好參考價值的文章主要介紹了【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

摘要

盡管在桌面GPU上取得了視頻目標(biāo)檢測的最近成功，但其架構(gòu)對于移動設(shè)備來說仍然過于沉重。目前尚不清楚在非常有限的計算資源下，稀疏特征傳播和多幀特征聚合的關(guān)鍵原則是否適用。在本文中，我們提出了一種適用于移動設(shè)備的輕量級視頻目標(biāo)檢測網(wǎng)絡(luò)架構(gòu)。我們在稀疏關(guān)鍵幀上應(yīng)用了輕量級圖像目標(biāo)檢測器。設(shè)計了一個非常小的網(wǎng)絡(luò)，名為Light Flow，用于在幀之間建立對應(yīng)關(guān)系。我們還設(shè)計了一個流引導(dǎo)的GRU模塊，以有效地聚合關(guān)鍵幀上的特征。

對于非關(guān)鍵幀，進行了稀疏特征傳播。整個網(wǎng)絡(luò)可以端到端地進行訓(xùn)練。所提出的系統(tǒng)在移動設(shè)備上（例如華為Mate 8）以25.6 fps的速度在ImageNet VID驗證集上實現(xiàn)了60.2％的mAP分數(shù)。

【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles,深度學(xué)習(xí)機器學(xué)習(xí),深度學(xué)習(xí),目標(biāo)檢測,人工智能

Introduction

近年來，利用深度神經(jīng)網(wǎng)絡(luò)進行目標(biāo)檢測取得了顯著的進展[1]。一般趨勢是構(gòu)建更深、更復(fù)雜的目標(biāo)檢測網(wǎng)絡(luò)[2,3,4,5,6,7,8,9,10,11]，以達到更高的準(zhǔn)確性。然而，這些提高準(zhǔn)確性的進展未必能使網(wǎng)絡(luò)在尺寸和速度方面更加高效。在許多實際應(yīng)用中，如機器人、自動駕駛汽車、增強現(xiàn)實和移動手機等，目標(biāo)檢測任務(wù)需要在計算資源有限的平臺上實時執(zhí)行。

最近，越來越多的人開始關(guān)注構(gòu)建非常小、低延遲的模型，以便輕松適應(yīng)移動和嵌入式視覺應(yīng)用的設(shè)計要求，例如SqueezeNet [12]、MobileNet [13] 和ShuffleNet [14]。這些結(jié)構(gòu)是通用的，但并非專門為目標(biāo)檢測任務(wù)設(shè)計。為此，已經(jīng)探索了一些適用于靜態(tài)圖像目標(biāo)檢測的小型深度神經(jīng)網(wǎng)絡(luò)架構(gòu)，如YOLO [15]、YOLOv2 [11]、Tiny YOLO [16] 和Tiny SSD [17]。然而，直接將這些檢測器應(yīng)用于視頻面臨新的挑戰(zhàn)。首先，在所有視頻幀上應(yīng)用深度網(wǎng)絡(luò)會帶來無法承受的計算成本。其次，識別準(zhǔn)確度會受到視頻中很少在靜止圖像中觀察到的惡化外觀的影響，如運動模糊、視頻散焦、罕見的姿勢等。

為了解決這些問題，當(dāng)前的最佳實踐[19,20,21]利用了時間信息來加速和提高視頻的檢測準(zhǔn)確性。一方面，在[19,21]中使用稀疏特征傳播來節(jié)省大部分幀上昂貴的特征計算。在這些幀上的特征從稀疏的關(guān)鍵幀傳播而來。另一方面，在[20,21]中進行了多幀特征聚合，以提高特征質(zhì)量和檢測準(zhǔn)確性。

基于這兩個原則，最新的工作[21]在桌面GPU上實現(xiàn)了很好的速度-準(zhǔn)確性權(quán)衡。然而，該架構(gòu)對于移動設(shè)備來說并不友好。例如，作為特征傳播和聚合的關(guān)鍵和共同組成部分，流估計在移動設(shè)備上的實時計算需求仍然遠遠不夠。具有長期依賴性的聚合也受到移動設(shè)備有限運行時內(nèi)存的限制。

本文描述了一種適用于移動設(shè)備的輕量級視頻目標(biāo)檢測網(wǎng)絡(luò)架構(gòu)。它主要基于兩個原則——在大多數(shù)非關(guān)鍵幀上傳播特征，同時在稀疏的關(guān)鍵幀上計算和聚合特征。然而，我們需要仔細重新設(shè)計這兩個結(jié)構(gòu)，以考慮速度、尺寸和準(zhǔn)確性。在所有幀上，我們提出了Light Flow，一個非常小的深度神經(jīng)網(wǎng)絡(luò)，用于估計特征流，可在移動設(shè)備上立即使用。在稀疏關(guān)鍵幀上，我們提出了基于流引導(dǎo)的門控循環(huán)單元（GRU）特征聚合，這是在內(nèi)存有限的平臺上的有效聚合。此外，我們還利用了輕量級圖像目標(biāo)檢測器來在關(guān)鍵幀上計算特征，其中使用了先進而高效的技術(shù)，如深度可分離卷積 [22] 和Light-Head R-CNN [23]。

所提出的技術(shù)統(tǒng)一為一個端到端的學(xué)習(xí)系統(tǒng)。全面的實驗表明，該模型穩(wěn)步推進了性能（速度-準(zhǔn)確性權(quán)衡）的界限，朝著在移動設(shè)備上實現(xiàn)高性能的視頻目標(biāo)檢測前進。例如，我們在移動設(shè)備上（例如華為Mate 8）以25.6幀每秒的速度，在ImageNet VID驗證集上實現(xiàn)了60.2%的mAP分數(shù)。它比先前在快速目標(biāo)檢測方面的最佳努力速度快一個數(shù)量級，并且準(zhǔn)確性相當(dāng)（見圖1）。據(jù)我們所知，我們首次在移動設(shè)備上實現(xiàn)了具有合理準(zhǔn)確性的實時視頻目標(biāo)檢測。

Revisiting Video Object Detection Baseline

在靜態(tài)圖像中的目標(biāo)檢測在近年來利用深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）取得了顯著的進展[1]。最先進的檢測器共享相似的網(wǎng)絡(luò)架構(gòu)，包括兩個概念步驟。第一個步驟是特征網(wǎng)絡(luò)，它通過一個完全卷積的主干網(wǎng)絡(luò)[24,25,26,27,28,29,30,13,14]從輸入圖像I中提取一組卷積特征圖F，表示為Nf eat(I) = F。第二個步驟是檢測網(wǎng)絡(luò)，它通過在特征圖F上執(zhí)行區(qū)域分類和邊界框回歸，使用多分支子網(wǎng)絡(luò)生成檢測結(jié)果y，可以是針對稀疏物體提案[2,3,4,5,6,7,8,9]或密集滑動窗口[10,15,11,31]，即Ndet(F) = y。

它是隨機初始化并與Nf eat一起進行訓(xùn)練。

將這些檢測器直接應(yīng)用于視頻目標(biāo)檢測面臨兩個方面的挑戰(zhàn)。就速度而言，將單一圖像檢測器應(yīng)用于所有視頻幀并不高效，因為主干網(wǎng)絡(luò)Nf eat通常較深且較慢。

就準(zhǔn)確性而言，檢測準(zhǔn)確性會受到視頻中很少在靜態(tài)圖像中觀察到的惡化外觀的影響，如運動模糊、視頻散焦、罕見的姿勢。

目前的最佳實踐[19,20,21]通過稀疏特征傳播和多幀特征聚合分別利用時間信息來解決速度和準(zhǔn)確性問題。

稀疏特征傳播由于連續(xù)幀之間的內(nèi)容之間存在很強的關(guān)聯(lián)性，不必在大多數(shù)幀上進行詳盡的特征提取計算。深度特征流[19]提供了一種高效的方法，它僅在稀疏的關(guān)鍵幀（例如每10幀）上計算昂貴的特征網(wǎng)絡(luò)，并將關(guān)鍵幀特征圖傳播到大多數(shù)非關(guān)鍵幀，從而實現(xiàn)了5倍的速度提升，但準(zhǔn)確性略微降低。

在推斷過程中，任何非關(guān)鍵幀i上的特征圖都是通過從其前面的關(guān)鍵幀k傳播而來的，即：

【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles,深度學(xué)習(xí)機器學(xué)習(xí),深度學(xué)習(xí),目標(biāo)檢測,人工智能
多幀特征聚合為了提高檢測準(zhǔn)確性，流導(dǎo)引特征聚合（FGFA）[20]從附近的幀中聚合特征圖，這些特征圖通過估計的光流進行了很好的對齊。

在幀i上的聚合特征圖 ?Fi 是通過加權(quán)平均附近幀的特征圖得到的，其表達式為：
【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles,深度學(xué)習(xí)機器學(xué)習(xí),深度學(xué)習(xí),目標(biāo)檢測,人工智能

為了避免在所有幀上進行密集的聚合，[21] 提出了稀疏遞歸特征聚合，僅在稀疏的關(guān)鍵幀上操作。這種方法保留了聚合的特征質(zhì)量，同時降低了計算成本。

具體而言，在連續(xù)的兩個關(guān)鍵幀 k 和 k0 上，幀 k0 上的聚合特征被計算為：

【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles,深度學(xué)習(xí)機器學(xué)習(xí),深度學(xué)習(xí),目標(biāo)檢測,人工智能

Practice for Mobiles

由于稀疏特征傳播和多幀特征聚合這兩個原則在桌面GPU上產(chǎn)生了最佳實踐，以實現(xiàn)高性能（速度和準(zhǔn)確性的權(quán)衡）的視頻目標(biāo)檢測[21]。然而，在移動設(shè)備上的計算能力和運行時內(nèi)存非常有限，因此需要探索適用于移動設(shè)備的原則。

特征提取和聚合僅在稀疏的關(guān)鍵幀上操作，而在大多數(shù)非關(guān)鍵幀上執(zhí)行輕量級特征傳播。
流估計是特征傳播和聚合的關(guān)鍵。然而，在[19、20、21]中使用的流網(wǎng)絡(luò)Nf low在移動實時處理方面仍然遠遠不夠。具體而言，F(xiàn)lowNet [32] 在相同的輸入分辨率下是MobileNet [13] 的11.8倍FLOPs。即使在[19]中使用的最小的FlowNet Inception也多了1.6倍的FLOPs。因此，需要更加輕量級的Nf low。
特征聚合應(yīng)該在根據(jù)光流對齊的特征圖上進行操作。否則，由于大目標(biāo)運動引起的位移會導(dǎo)致聚合嚴重錯誤。聚合中的長期依賴也是受歡迎的，因為可以融合更多的時間信息以獲得更好的特征質(zhì)量。
單張圖像檢測器的主干網(wǎng)絡(luò)應(yīng)盡可能小，因為我們需要它來計算稀疏關(guān)鍵幀上的特征。

Model Architecture for Mobiles

基于上述原則，我們設(shè)計了一個更小的移動視頻目標(biāo)檢測網(wǎng)絡(luò)架構(gòu)。推理管道如圖2所示。

【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles,深度學(xué)習(xí)機器學(xué)習(xí),深度學(xué)習(xí),目標(biāo)檢測,人工智能

【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles,深度學(xué)習(xí)機器學(xué)習(xí),深度學(xué)習(xí),目標(biāo)檢測,人工智能

【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles,深度學(xué)習(xí)機器學(xué)習(xí),深度學(xué)習(xí),目標(biāo)檢測,人工智能

接下來，我們將介紹兩種專門為移動設(shè)備設(shè)計的新技術(shù)，包括Light Flow，一種更有效的移動設(shè)備流量網(wǎng)絡(luò)，以及一種基于流導(dǎo)向GRU的特征聚合，用于更好地建模長期依賴關(guān)系，從而獲得更好的質(zhì)量和準(zhǔn)確性。

Light Flow

FlowNet [32]最初是為像素級光流估計而提出的。它設(shè)計為編碼-解碼模式，后面是多分辨率光流預(yù)測器。兩個輸入的RGB幀被連接在一起形成一個6通道的輸入。在編碼器中，通過一系列卷積層，輸入被轉(zhuǎn)換成在空間維度上縮小到輸入大小的1/64的特征圖束。在解碼器中，特征圖被饋送到多個反卷積層，以實現(xiàn)高分辨率的光流預(yù)測。在每個反卷積層之后，特征圖與編碼器中的最后特征圖連接在一起，它們具有相同的空間分辨率和上采樣的粗糙光流預(yù)測。每個解碼器中連接的特征圖后面跟隨多個光流預(yù)測器。對每個預(yù)測器應(yīng)用損失函數(shù)，但在推斷過程中僅使用最精細的預(yù)測。

為了極大地加速流網(wǎng)絡(luò)Nf low，我們提出了Light Flow，它是一個基于FlowNet [32]進行若干有意設(shè)計的輕量級流網(wǎng)絡(luò)。它在準(zhǔn)確性方面只會帶來輕微的降低（端點誤差增加了15%），但在理論上速度提高了近65倍（見表2）。
在編碼器部分，卷積始終是計算的瓶頸。受MobileNet [13]的啟發(fā)，我們將所有的卷積替換為3×3的深度可分離卷積[22]（每個3×3的深度可分離卷積后面跟著一個1×1的點卷積）。與標(biāo)準(zhǔn)的3×3卷積相比，3×3深度可分離卷積的計算成本減少了8～9倍，而準(zhǔn)確性略有降低[13]。

在解碼器部分，每個反卷積操作都被最近鄰上采樣和隨后的深度可分離卷積所取代。[33]用最近鄰上采樣代替了反卷積，然后是標(biāo)準(zhǔn)卷積，以解決反卷積引起的棋盤狀偽影。相比之下，我們借鑒了這個想法，進一步將標(biāo)準(zhǔn)卷積替換為深度可分離卷積，以減少計算成本。

最后，我們采用了一種簡單有效的方式來考慮多分辨率的預(yù)測。這受到了FCN [34]的啟發(fā)，F(xiàn)CN在明確的求和方式下融合了多分辨率的語義分割預(yù)測作為最終預(yù)測。

與[32]不同，我們在推斷過程中不僅使用最精細的光流預(yù)測作為最終預(yù)測。相反，多分辨率的預(yù)測被上采樣到與最精細預(yù)測相同的空間分辨率，然后求平均作為最終預(yù)測。此外，在訓(xùn)練期間，僅對平均光流預(yù)測應(yīng)用單個損失函數(shù)，而不是在每個預(yù)測之后應(yīng)用多個損失函數(shù)。這種方法可以將端點誤差減少近10%。

Light Flow的網(wǎng)絡(luò)架構(gòu)和實現(xiàn)在表1中進行了說明。每個卷積操作之后都跟隨批量歸一化[35]和Leaky ReLU非線性變換[36]，斜率固定為0.1。與[32,37]類似，Light Flow在Flying Chairs數(shù)據(jù)集上進行了預(yù)訓(xùn)練。在訓(xùn)練Light Flow時，使用Adam [38]作為優(yōu)化方法，權(quán)重衰減為0.00004。在4個GPU上進行了70k次迭代，每個GPU持有64個圖像對。

采用了熱身學(xué)習(xí)率策略，首先訓(xùn)練學(xué)習(xí)率為0.001的模型進行10k次迭代。然后使用學(xué)習(xí)率為0.01進行20k次迭代，并在每10k次迭代后將學(xué)習(xí)率除以2。

在將Light Flow應(yīng)用于我們的方法時，為了進一步提速，進行了兩個修改。首先，與[19,20,21]一樣，Light Flow應(yīng)用于輸入分辨率為特征網(wǎng)絡(luò)的一半，并且輸出步幅為4的圖像。由于特征網(wǎng)絡(luò)的輸出步幅為16，流場被下采樣以匹配特征圖的分辨率。其次，由于Light Flow非常小，計算量與檢測網(wǎng)絡(luò)Ndet相當(dāng)，因此在檢測網(wǎng)絡(luò)的中間特征圖上應(yīng)用稀疏特征傳播（參見第3.3節(jié)，RPN [5]中的256維特征圖和Light-Head R-CNN [23]中的490維特征圖），以進一步減少非關(guān)鍵幀的計算量。

后面略文章來源地址http://www.zghlxwxcb.cn/news/detail-646712.html

到了這里，關(guān)于【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Detecting Everything in the Open World: Towards Universal Object Detection
論文題目《Detecting Everything in the Open World: Towards Universal Object Detection》發(fā)表情況，CVPR2023 [論文地址][https://arxiv.org/pdf/2303.11749.pdf] [代碼地址][https://github.com/zhenyuw16/UniDetector] 本文旨在解決通用目標(biāo)檢測問題，也即檢測任意場景、任意類別的目標(biāo) 。對手工標(biāo)注的依賴、有限的
2024年02月13日
瀏覽(23)
【論文筆記】Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing
原文鏈接：https://arxiv.org/abs/2310.11346 最近，多相機3D目標(biāo)檢測（MC3D-Det）多使用BEV方法以進行有效的多相機信息融合，但當(dāng)測試環(huán)境與訓(xùn)練環(huán)境有很大不同時，這些方法會有嚴重的性能下降。兩種減輕域偏移的方向是域泛化（DG）和無監(jiān)督域自適應(yīng)（UDA）。DG方法通常解耦并消
2024年03月14日
瀏覽(28)
手把手寫深度學(xué)習(xí)(23)：視頻擴散模型之Video DataLoader
手把手寫深度學(xué)習(xí)(0)：專欄文章導(dǎo)航前言：訓(xùn)練自己的視頻擴散模型的第一步就是準(zhǔn)備數(shù)據(jù)集，而且這個數(shù)據(jù)集是text-video或者image-video的多模態(tài)數(shù)據(jù)集，這篇博客手把手教讀者如何寫一個這樣擴散模型的的Video DataLoader。目錄準(zhǔn)備工作下載數(shù)據(jù)集視頻數(shù)據(jù)打標(biāo)簽
2024年03月21日
瀏覽(26)
【未完待續(xù)】綜述：用于視頻分割（Video Segmentation）的深度學(xué)習(xí)
A Survey on Deep Learning Technique for Video Segmentation 本文回顧視頻分割的兩條基本研究路線：視頻目標(biāo)分割（object segmentation）和視頻語義分割（semantic segmentation）。本文介紹它們各自的task setting、背景概念、感知需求、發(fā)展歷史以及主要挑戰(zhàn)。本文詳細概述相關(guān)的方法和數(shù)據(jù)集的代
2024年02月02日
瀏覽(25)
[論文筆記]小目標(biāo)識別文獻綜述Towards large-scale small object detection: Survey and Benchmarks
2022_cite=12_Cheng——Towards large-scale small object detection: Survey and Benchmarks https://shaunyuan22.github.io/SODA/ 小目標(biāo)檢測= small object detection = SOD Datasets: SODA-D: OneDrvie; BaiduNetDisk SODA-A: OneDrvie; BaiduNetDisk Codes The official codes of our benchmark, which mainly includes data preparation and evaluation , are released belo
2024年02月10日
瀏覽(22)
目標(biāo)檢測（Object Detection）學(xué)習(xí)筆記（概述與傳統(tǒng)算法與基于深度學(xué)習(xí)算法）
本文為課程研討需要，對目標(biāo)檢測算法進行理論學(xué)習(xí)，無實戰(zhàn)內(nèi)容，歡迎交流探討目標(biāo)檢測（Object Detection）的任務(wù)是找出圖像中所有感興趣的目標(biāo)（物體），不同于分類和回歸問題，目標(biāo)檢測還需要確定目標(biāo)在圖像中的位置（定位），而確定識別目標(biāo)的類別和位置（分類
2024年02月02日
瀏覽(21)
Video Object Segmentation[VOS][視頻目標(biāo)分割]
點擊這里跳過前言前言: 本文寫作的動機，是筆者最近開始接觸video處理，希望能從社區(qū)中找到快速入門的文檔，但是翻來覆去，對于VOS任務(wù)的文檔都很少，質(zhì)量也不高，因此筆者在閱讀過VOS綜述和文章后，寫下這篇VOS的review。希望能夠幫助讀者快速入門VOS以及Video Processing相
2024年04月12日
瀏覽(57)
[深度學(xué)習(xí)]Open Vocabulary Object Detection 部署開放域目標(biāo)檢測模型使用感受
Open Vocabulary Object Detection (OpenVOD) 是一種新型的目標(biāo)檢測方法，它使用開放詞匯的概念來識別和檢測圖像中的對象。與傳統(tǒng)的目標(biāo)檢測方法相比，OpenVOD具有更高的靈活性和可擴展性，因為它允許用戶自定義對象類別和詞匯，從而能夠適應(yīng)各種不同的應(yīng)用場景和需求。 OpenVOD的核
2024年01月22日
瀏覽(24)
Video anomaly detection with spatio-temporal dissociation 論文閱讀
文章信息：發(fā)表于：Pattern Recognition（CCF A類）原文鏈接：https://www.sciencedirect.com/science/article/pii/S0031320321003940 源代碼：https://github.com/ChangYunPeng/VideoAnomalyDetection 視頻中的異常檢測仍然是一項具有挑戰(zhàn)性的任務(wù)，主要由于異常的定義模糊不清以及真實視頻數(shù)據(jù)中視覺場景的復(fù)雜
2024年02月03日
瀏覽(25)
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀
文章標(biāo)題：Feature Prediction Diffusion Model for Video Anomaly Detection 文章信息：發(fā)表于：ICCV 2023 原文鏈接：https://openaccess.thecvf.com/content/ICCV2023/papers/Yan_Feature_Prediction_Diffusion_Model_for_Video_Anomaly_Detection_ICCV_2023_paper.pdf 源代碼：https://github.com/daidaidouer/FPDM 在視頻異常檢測是一個重要的研
2024年01月17日
瀏覽(27)

<source id="g91df"></source>

<small id="g91df"><samp id="g91df"></samp></small>

<ul id="g91df"></ul>