国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<strike id="4bcme"></strike>

【論文閱讀】多目標跟蹤—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box

2年前作者：小叮當(dāng)了個當(dāng)分類：Toy博客閱讀(23)違法舉報

這篇具有很好參考價值的文章主要介紹了【論文閱讀】多目標跟蹤—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

（一）Title

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

寫在前面： ByteTrack作者今年3月的新作品，升級了的V2版本并不是僅僅將ByteTrack擴展到三維場景，而是在二階段匹配的框架下，結(jié)合了JDT和TBD常用的兩種基于運動模型進行匹配的方法，提出了一種新的運動匹配模式，思路新穎，在三維MOT數(shù)據(jù)集nuScence上也達到了state-of-the-art。注意該筆記是針對初稿版本！！

（二）Abstract

背景介紹

MOT的任務(wù)是estimating bounding boxes and identities of objects。從具體任務(wù)上大致有3部分工作:檢測(估計對象的bounding boxes)，匹配和預(yù)測(確定對象的identities),目前檢測任務(wù)上的改進的主要思路還是基于當(dāng)前一些SOTA的檢測框架，在本文中提供了一個匹配上的改進思路。

當(dāng)前方法存在的問題

隨著目標運動場景的變化，其檢測分數(shù)也隨隨著變化，目前的做法一般為obtain identities by associating detection boxes whose scores are higher than a threshold。對于分數(shù)低的bounding boxes會直接丟棄，最終導(dǎo)致true object misssing以及fragmented trajectories。簡單來說，從檢測任務(wù)到下游跟蹤任務(wù)時，通常為了防止過高的False Positive，采用一個比較高的固定閾值過濾掉檢測器輸出的低分邊界框，使得檢測信息出現(xiàn)丟失,造成跟蹤過程出現(xiàn)中斷的情況，使得跟蹤任務(wù)對檢測任務(wù)的要求過高。

本文方法

提出了一種簡單、有效、通用的association方法，該方法可用于二維或三維場景。對每一個檢測框而不是高分檢測框進行跟蹤，對于low score的檢測框利用他們同軌跡的相似性恢復(fù)真實目標，并過濾掉背景。將檢測得到的邊界框和預(yù)測結(jié)果進行二次關(guān)聯(lián)，減少由遮擋產(chǎn)生的Fragmented trajectories和ID switch

在三維場景中，提出了一種將檢測速度和Kalman Filter相結(jié)合的互補運動策略來處理短期遮擋和運動突變等情況。

實驗表現(xiàn)

在相機(56.4% AMOT A)和激光雷達(70.1% AMOT A)模式上都領(lǐng)先于nuScenes 3D MOT排行榜。

（三）Introduction

ByteTrack

最基本的Tracking by Detection范式，由檢測、運動預(yù)測和數(shù)據(jù)關(guān)聯(lián)組成。首先通過目標檢測器生成2D or 3D的bounding box 和置信度confidence。隨后利用運動預(yù)測模塊，通常是Kalman Filter，預(yù)測下一幀的軌跡位置。最后根據(jù)一定的空間相似性將檢測框和軌跡的預(yù)測位置關(guān)聯(lián)起來。

但是當(dāng)前多目標跟蹤存在著的一個難于解決的問題是：如下圖中的(a)所示,當(dāng)前目標檢測的框架通過置信度閾值輸出最終的邊界框,當(dāng)設(shè)置的閾值過大時，會出現(xiàn)missing detection以及。作者分析其原因為在將檢測的bounding boxes給到data association時設(shè)置了較高的閾值，導(dǎo)致一些低置信度的bounding boxes信息出現(xiàn)丟失，而這些低置信度的bounding boxes往往包含著被遮擋的目標。
bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

這種高閾值的設(shè)置是目前MOT中常常使用的方式,但是造成跟蹤任務(wù)的missing detection的影響是不可逆的。

為了避免低分檢測框信息的丟失，需要額外的解決low confidence帶來的False Positive問題。因此，作者引入了二次關(guān)聯(lián)，將能夠同tracklets匹配上的low confidence boxes加入到tracklets中，而無法匹配的boxes視作背景，成功解決掉當(dāng)前問題。

具體的實現(xiàn)方法為：

首先基于motion similarity將高置信度的detection boxes匹配到tracklets上。同樣使用kalman濾波器預(yù)測當(dāng)前軌跡在下一幀的位置。motion similarity的計算方式，通過計算kalman預(yù)測的boxes和low confidence boxes之間的IoU表示。
然后將unmatched tracklets和low confidence boxes通過IOU進行二次匹配。此時因遮擋的低置信度邊界框能夠得到很好地匹配，恢復(fù)身份，同時背景也能夠過濾出來。

ByteTrackV2

以往基于運動預(yù)測的方法主要分為兩種，一是基于速度檢測，該方法在遇到不可預(yù)測的速度突變和低幀率視頻時具有較好的魯棒性，但是由于缺乏歷史運動信息，該方法很難進行長期關(guān)聯(lián)；二是基于Kalman Filter，該方法結(jié)合了歷史信息會產(chǎn)生更加平滑的運動預(yù)測，但很難應(yīng)對速度突變等情況

三維MOT中物體短暫的速度突變和遮擋可能會導(dǎo)致ID的變化。與二維場景不同，三維天然補充了深度信息，相比于二維，其運動信息更加豐富，空間相似性更容易區(qū)分物體。

Different from 2D MOT, it is easier for trackers to predict accurate velocities in the world coordinate.

不是很能理解，為什么三維可以更準確的預(yù)測其速度？

為了解決物體突然運動和短期消失的問題，作者提出了一種將檢測到的物體速度和Kalman Filter相結(jié)合的互補運動預(yù)測方法。

具體的實現(xiàn)方法為：

通過檢測器檢測到的速度進行反向預(yù)測進行短期關(guān)聯(lián)，這對突然運動具有更好的魯棒性；當(dāng)目標由于遮擋短期消失時，Kalman Filter通過前向預(yù)測missing object的位置可以平滑保持其位置，并在目標再次出現(xiàn)時關(guān)聯(lián)從而恢復(fù)其身份。

這個方法很妙，利用速度預(yù)測關(guān)聯(lián)往往是JDT的做法，比如centertrack等；而KF則是TBD一貫的做法，作者將JDT中比較work的思想引入到了TBD中，使KF面對復(fù)雜的運動變化更具有魯棒性。何為反向預(yù)測，何為前向預(yù)測，具體做法將在方法論中展開介紹。

ByteTrack專注于如何利用低分數(shù)的檢測框來減少數(shù)據(jù)關(guān)聯(lián)策略中missing detection和 fragmented trajectories，是一個大的數(shù)據(jù)關(guān)聯(lián)框架創(chuàng)新；而ByteTrackV2則聚焦于如何提高frame by frame 的關(guān)聯(lián)質(zhì)量，是一個細化的關(guān)聯(lián)方法創(chuàng)新。在ByteTrack的基礎(chǔ)上引入了這項互補運動預(yù)測方法，成為了ByteTrackV2，使其不僅在2D MOT中能有優(yōu)秀的表現(xiàn)，在3D MOT中也能應(yīng)對更復(fù)雜的運動環(huán)境。

本文的貢獻如下：

1、Unified 2D and 3D Data Association. 將兩階段數(shù)據(jù)關(guān)聯(lián)應(yīng)用在2D 3D MOT中。

2、Complementary 3D Motion Prediction. 將速度預(yù)測和KF預(yù)測結(jié)合，成為一種新的互補運動預(yù)測方法。

3、Thorough Experiments on 3D MOT Benchmarks under Different Modalities. 在nuScenes上針對不同模態(tài)的輸入進行詳細實驗，并達到了SOTA性能，證明其可行性。

（四）Related Work

主要介紹了四部分的內(nèi)容，2D/3D detection 2D/3D tracking，原文寫的比較詳細，這里只針對部分內(nèi)容進行一個概述

1、2D Object Detection

2、3D Object Detection

基于激光雷達的三維目標檢測方法包含了準確的三維結(jié)構(gòu)信息，精度很高，但是高成本限制了其應(yīng)用。

基于相機的方法由于其低成本和豐富的上下文信息受到廣泛關(guān)注，但是從2D圖像進行3D感知本身就是一個ill-posed問題，因為圖像本身缺乏最重要的深度信息，哪怕轉(zhuǎn)換為偽深度圖像，其不準確的深度信息會嚴重影響網(wǎng)絡(luò)對三維空間的理解，

以視覺為中心的多視角BEV感知方法（多相機） 縮小了基于相機和基于激光雷達的性能差距，是一種主流趨勢。

目前3D MOT主流的檢測器使用的是激光雷達，因其能提供準確的位置信息，其次，基于圖像的三維目標檢測器也開始被應(yīng)用，因為圖像信息可以提供外觀線索。

ByteTrackV2的跟蹤框架與輸入模態(tài)無關(guān)，因此可以對接任何形式的3D目標檢測器

3、 2D Multi-Object Tracking

data association是多目標跟蹤任務(wù)的核心,它首先計算軌跡同檢測框之間的相似度，然后根據(jù)相似度來進行匹配。主要涉及兩個核心問題：如何計算檢測框和軌跡的相似度，如何根據(jù)相似度實現(xiàn)檢測框和軌跡的匹配

4、3D Multi-Object Tracking

3D MOT與2D MOT有許多方面都類似，特別是數(shù)據(jù)關(guān)聯(lián)。由于額外引入了深度信息，因此使用位置和運動線索進行關(guān)聯(lián)，會得到更加準確和可靠的結(jié)果。

AB3DMOT是SORT在三維場景中的衍生，根據(jù)3D IOU進行匹配；

CenterPoint是基于CenterTrack，將基于中心點跟蹤的范式擴展到了三維場景，利用預(yù)測的物體速度作為等速運動模型，在突發(fā)運動條件下具有較好的效果；

還有許多三維跟蹤器都是基于二維跟蹤器進行改進。

ByteTrackV2只是用了運動線索進行數(shù)據(jù)關(guān)聯(lián)，方便用同一個框架進行2D和3D的MOT。

（五）Method

ByteTrack pipeline，終于來了，僅僅是針對二階段匹配的官方流程圖：

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

1、Preliminary

2D object detector

作者采用anchor-free的YOLOX作為2D MOT的detector

目前很多2D MOT算法都是采用這個檢測器，當(dāng)然不同的訓(xùn)練技巧對最后的結(jié)果影響也很大，ByteTrack系列就是針對不同數(shù)據(jù)集都精心設(shè)計了不同的訓(xùn)練技巧以此達到了一個SOTA的成績。

Camera-based 3D object detector

使用基于BEV的多相機目標檢測器PETRv2。

不了解這個檢測器，好像是曠視去年的作品。作者提到該檢測器是基于transformer架構(gòu)的，并且利用了前一幀的時間信息來提高檢測性能，因此也能預(yù)測速度

LiDAR-based 3D object detector

使用了Center-Point和TransFusion-L作為基于激光雷達的目標檢測器

前者是YOLO同期作品centernet在3D場景中的衍生，后者是22年CVPR上的作品，簡單了解了一下是基于transformer架構(gòu)處理Lidar-Camera Fusion的目標檢測器

==注意：==由于該跟蹤框架通用性強，本身與輸入模態(tài)無關(guān)，與對接的檢測器無關(guān)，因此本人并沒有深入去了解這些detector，有興趣可以去了解學(xué)習(xí)一下近幾年來的比較流行的感知算法。

Basic motion model

使用恒速運動Kalman Filter和線性觀測模型作為基本運動模型。

在二維場景中，定義狀態(tài)向量為 $(u,v,a,b,\dot{u},\dot{v},\dot{a},\dot)$ ，其中 $P^{2d}=(u,v,a,b)$ 表示二維檢測框的中心點坐標、長寬比、邊界框高度； $V^{2d}=(\dot{u},\dot{v},\dot{a},\dot)$ 表示對應(yīng)的變化速度。

在三維場景中，定義狀態(tài)向量為 $(x,y,z,\theta,l,w,h,\dot{x},\dot{y},\dot{z})$ ，其中 $P^{3d}=(x,y,z)$ 表示三維檢測框的中心點坐標， $(l, w, h)$ 表示邊界框的長寬高、 $\theta$ 表示檢測框的偏航角度； $V^{3d}=(\dot{x},\dot{y},\dot{z})$ 表示中心點對應(yīng)的變化速度。

Different from [7], we define the state space in the 3D world coordinates to eliminate the effects of ego-motion.

原文當(dāng)中這句話沒看懂，可能是太久沒看AB3DMOT了，下次重新讀一下之后來更新解釋

2D和3D跟蹤場景中第 $t + 1$ 幀的運動預(yù)測過程可表示為:
$P^{2d}_{t+1}=P^{2d}_{t}+V^{2d}_{t}$

$P^{3d}_{t+1}=P^{3d}_{t}+V^{3d}_{t}$

最后由Kalman Filter的更新步將檢測和預(yù)測框進行融合更新，作為當(dāng)前幀的軌跡。

2、Complementary 3D Motion Prediction

該節(jié)中提出了一種互補的三維運動預(yù)測策略，以解決駕駛場景中的突然運動和短期物體消失問題。具體而言，作者采用檢測速度進行短期關(guān)聯(lián)，卡爾曼濾波進行長期關(guān)聯(lián)。

做MOT的都很熟悉卡爾曼濾波來進行運動預(yù)測這個套路了，在開始前，回顧一下怎么利用預(yù)測速度進行運動預(yù)測

舉CenterTrack來說明，有三個輸入分支，分別是當(dāng)前幀/上一幀的RGB圖像、前一幀目標中心分布的heatmap，有四個輸出分支，分別是Heatmap、Confidence、Height&Width以及Displacement Prediction，其中最后一個輸出分支輸出的就是當(dāng)前幀相對于前一幀的速度，通過預(yù)測的速度回溯到前一幀目標可能存在的位置，并根據(jù)相似程度進行關(guān)聯(lián)。

這是一個很經(jīng)典的JDT跟蹤器，由于只是預(yù)測兩幀間的速度，所以用這個方法更多側(cè)重于幀與幀之間的關(guān)聯(lián)，很難形成長期的關(guān)聯(lián)和依賴，哪怕是短時遮擋也很容易造成ID switch，這也是基于速度預(yù)測的運動模型的缺點。

在三維場景中，得益于一些檢測器的發(fā)展，能夠通過時間建模準確預(yù)測短期速度，可以很好應(yīng)對速度突變，在短期關(guān)聯(lián)上很有優(yōu)勢；而卡爾曼濾波通過基于歷史信息的狀態(tài)更新對平穩(wěn)的長期速度進行建模，有利于在丟失檢測后也能平滑維持軌跡的狀態(tài)。因此，作者通過雙邊預(yù)測策略最大化了兩種運動模型的優(yōu)勢。

1、采用卡爾曼濾波進行前向預(yù)測，前向預(yù)測用于丟失軌跡的長期關(guān)聯(lián)；

2、采用檢測到的物體速度進行后向預(yù)測，后向預(yù)測負責(zé)存活軌跡的短期關(guān)聯(lián)；

前向預(yù)測：Kalman Filter的預(yù)測步是基于當(dāng)前時刻的后驗狀態(tài)，通過運動方程預(yù)測下一時刻的先驗狀態(tài)，預(yù)測的是未來的狀態(tài)，因此稱之為前向預(yù)測；

反向預(yù)測：基于檢測器的速度預(yù)測（如CenterTrack）是輸入t幀和t-1幀的圖像信息，來預(yù)測兩幀之間目標的位移量，也就是速度；注意，這里的速度是由t-1幀到t幀產(chǎn)生的，因此可以通過這個速度，把t時刻產(chǎn)生的這個檢測回溯到t-1時刻的位置，因此稱之為反向預(yù)測；

假設(shè)在 $t$ 時刻有 $M$ 個檢測目標 $D^t\in{R^{M\times7}}$ 以及在 $x, y$ 方向上他們的速度為 $V^t\in{R^{M\times2}}$ 。通過反向預(yù)測 $t ? 1$ 時刻的位置可以描述為：
$\hat{D^{t-1}_x}=D^{t}_x-V^{t}_x$

$\hat{D^{t-1}_y}=D^{t}_y-V^{t}_y$

假設(shè)在 $t ? 1$ 時刻有 $N$ 條軌跡 $T^{t-1}\in{R^{N\times7}}$ ，根據(jù)上文公式，通過卡爾曼濾波前向預(yù)測后，t時刻的位置為：
$T^t_{x,y,z}=T^{t-1}_{x,y,z}+\dot{T}^{t-1}_{x,y,z}$
在雙邊預(yù)測之后，使用ByteTrack中提到的二階段匹配。在第一個高分關(guān)聯(lián)中，反向預(yù)測的檢測結(jié)果 $D^{t-1}$ 和軌跡 $T^{t-1}$ 之間的相似度矩陣 $S_{t}\in{R^{M\times N}}$ 可以由以下公式計算
$S_{t}(i,j)=GIOU(D^{t-1}_i,T^{t-1}_j)$

當(dāng)前幀檢測和軌跡的相似度，來源于檢測反向傳播到前一幀的位置和前一幀軌跡的GIOU。

作者用的是GIOU，原因是因為三維場景目標運動速度較大或者幀率較低，相鄰兩幀同一目標的IOU較小甚至為0，可能會被直接過濾掉導(dǎo)致錯誤關(guān)聯(lián)

最后還是利用匈牙利算法對相似度矩陣進行分配。在成功關(guān)聯(lián)后，利用匹配的t幀檢測和軌跡t幀的前向預(yù)測結(jié)果按照卡爾曼更新步驟進行更新。

當(dāng)軌跡丟失的時候，只利用前向預(yù)測，較為“平滑”的更新保留軌跡的位置，以便觀測出現(xiàn)時的重新關(guān)聯(lián)，這一步驟作者稱為“rebirth”（其實就是遮擋后的身份恢復(fù)）

在第二階段的匹配中，也就是低分檢測和未關(guān)聯(lián)上的軌跡進行匹配，關(guān)聯(lián)的方法遵循第一階段匹配的方法。
bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

通常做法中判斷檢測屬于哪個ID，是通過計算檢測和軌跡KF預(yù)測的相似度進行分配的。

而ByteTrackV2中，作者給出判斷當(dāng)前幀檢測屬于哪個id的方法，就是通過速度反向預(yù)測該觀測在前一幀中的位置，看與哪個軌跡的GIOU最大，就把該軌跡的id賦給該觀測，然后通過KF的更新步，將該觀測和該軌跡的t時刻KF預(yù)測結(jié)果進行更新；

說白了，KF的前向預(yù)測每一幀都進行，當(dāng)運動場景簡單，無遮擋情況下，KF預(yù)測結(jié)果只作更新使用；若出現(xiàn)遮擋等情況，KF前向預(yù)測的作用就是為了暫時延續(xù)該軌跡；

另外，作者受到GIAOTracker中NSA Kalman的啟發(fā)，將檢測分數(shù)融合進卡爾曼更新步驟中，自適應(yīng)更新卡爾曼濾波中觀測協(xié)方差矩陣R：
$\hat{R^j_t}=\alpha(1-s^j_t)^2R^j_t$

將檢測分數(shù)帶入不確定性矩陣，使KF濾波對不同質(zhì)量的檢測具有更強的魯棒性

3、Unified 2D and 3D Data Association

實現(xiàn)過程與ByteTrack類似:

首先，使用所有的檢測框,將檢測框分為高分檢測框和低分檢測框。 t時刻，基于高分檢測框匹配已有的軌跡，對于當(dāng)前沒有邊界框能夠匹配得上的軌跡，分析原因是occlusion或者motion blur產(chǎn)生的low confidence的邊界框將低置信度的匹配框同未匹配軌跡進行二次匹配，恢復(fù)低置信度邊界框，同時將背景過濾掉
對應(yīng)偽代碼實現(xiàn)過程:

這里注意幾個細節(jié)：

Track rebirth： 軌跡丟失檢測后最多保留30幀，超過即刪除
Track birth： 在第一次關(guān)聯(lián)中，未匹配上的高分檢測框，作為新生目標，初始化為新的軌跡

作者解釋了二階段關(guān)聯(lián)這個框架比較work的原因是因為當(dāng)遮擋發(fā)生的時候，往往檢測分數(shù)會下降，高分檢測框代表著那些未被遮擋的目標，因此要先將他們進行匹配。如果有tracklet不匹配任何的高分框，則極有可能該軌跡被遮擋，檢測分數(shù)對應(yīng)下降，因此在第二階段關(guān)聯(lián)中，要把低分框和這些未匹配上的tracklet進行匹配，以此來跟蹤被遮擋的目標。對于低分的FP，因為沒有軌跡與之匹配，也相應(yīng)的被過濾掉。

（六）DATASETS AND METRICS

這部分主要講了使用的數(shù)據(jù)集和評價指標。

主要使用的數(shù)據(jù)集為：

MOT17 dataset

MOT20 dataset

HiEve dataset

BDD100K dataset

nuScenes dataset

具體訓(xùn)練細節(jié)可以參照原文，這里不多說明

（七）EXPERIMENTS

7.1 Implementation Details

介紹了2D和3D的訓(xùn)練方法和超參數(shù)設(shè)置

比較有意思的是，作者針對不同的數(shù)據(jù)集都設(shè)計了不同的訓(xùn)練技巧用于刷榜。具體操作可以看原文，這里不多介紹。

7.2 2D MOT

這部分與ByteTrack內(nèi)容一樣，所謂ByteTrackV2在2D MOT中的應(yīng)用，就是ByteTrack

7.2.1 Ablation Studies

Similarity analysis

二階段匹配中每個階段使用的相似性度量，發(fā)現(xiàn)在高分框的第一次匹配中，使用IOU和Re-ID都能獲得不錯的效果，IOU更有利于MOTA，而Re-ID更有利于IDF1；而在第二次對低分框進行匹配中，使用IOU效果更好，原因在于遮擋情況下，Re-ID提取到的外觀特征并不可靠。

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

Comparisons with other association methods

比較了二階段關(guān)聯(lián)Byte和其他關(guān)聯(lián)算法，發(fā)現(xiàn)Byte在精度和速度上都很有優(yōu)勢；說明在檢測精度足夠高的情況下，僅僅用IOU也能獲得不錯的效果

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

Robustness to detection score threshold

Byte對檢測閾值變化的魯棒性更強，因為Byte恢復(fù)了低分檢測框匹配的權(quán)力，可以恢復(fù)更多因遮擋產(chǎn)生的漏檢

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

Analysis on low score detection boxes

可以看到Byte能在低分檢測框中恢復(fù)更多的TP，而不會引入更多的FP

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

7.2.1 Benchmark Evaluation

MOT 17

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

MOT 20

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

HiEve

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

BDD100K

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

作者還給了具體的可視化結(jié)果，對于嚴重遮擋的低分檢測目標，Byte依舊能夠成功關(guān)聯(lián)其身份信息，大大減少了FN和ID switch。

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

7.3 3D MOT

7.3.1 Ablation Studies

Complementary motion prediction

可以看到在相機模式下和激光雷達模式下，KF 和DV的差距不同，說明了激光雷達下可以得到更加準確的檢測結(jié)果，有利于KF濾波器得到更準確的估計；

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

Data association strategy

說明二階段關(guān)聯(lián)算法Byte在三維場景下的可行性，并且不需要考慮不同的輸入模態(tài)

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

Hyperparameter search

檢測分數(shù)的閾值和GIOU匹配分數(shù)閾值的消融實驗。
從圖8左邊看到由于AMOTA對對象的召回率要求比較高，所以檢測分數(shù)閾值越低，AMOTA越高；然而降低檢測分數(shù)閾值會帶來大量錯誤關(guān)聯(lián)，從而影響跟蹤性能，通過網(wǎng)格搜索，發(fā)現(xiàn)基于Camera的最佳閾值為0.25，基于Lidar的最佳閾值為0.2；

右邊觀察到無論是Camera還是Lidar匹配分數(shù)閾值在0.5左右AMOTA最高

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

7.3.1 Benchmark Evaluation

在nuScenes上分別使用Camera和Lidar對其驗證集和測試集進行性能測試

Camera modality

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

LiDAR modality

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

（七）Conclusion

本文在二維場景中ByteTrack基礎(chǔ)上，擴展到三維場景，并提出了一種基于速度預(yù)測和卡爾曼濾波預(yù)測融合的互補運動預(yù)測策略，在二維和三維的不同數(shù)據(jù)集上都能到達SOTA指標。該算法對遮擋環(huán)境比較魯棒，并且可以對接不同模態(tài)的檢測器輸入。

本文的思路：

首先分析了通常算法會設(shè)置一個較高的檢測閾值來過濾掉不可靠的檢測，以減少False Positive。但這種做法實則是舍棄low confidence對應(yīng)的occluded objects，這種做法是不可逆的，相當(dāng)于在后續(xù)跟蹤過程中無法將這些the occluded objects與tracklets進行關(guān)聯(lián)，從而導(dǎo)致missing detection以及fragmented trajectories，同時由于沒有檢測的更新，KF參數(shù)也會隨著遮擋時間的增加而發(fā)散，導(dǎo)致遮擋結(jié)束后依然會發(fā)生錯誤關(guān)聯(lián)。

接著，考慮使用low confidence的boxes用于數(shù)據(jù)關(guān)聯(lián)。但同時也要思考如何解決引入低置信度帶來的false positive問題。

最后提出二階段匹配的關(guān)聯(lián)模式，第一次采用高置信度的boxes匹配tracklets(高置信度是為了避免引入背景)，接著將low confidence的box與一階段中未匹配的tracklets進行匹配（unmatched tracklets可能是因為目標被遮擋而得到了一個low confidence），同時由低分檢測引入的背景因沒匹配的軌跡也將被過濾。

在三維場景中，考慮了目標可能容易出現(xiàn)運動突變或者幀率較低等情況，除了使用KF預(yù)測以保持軌跡的長期運動信息外，還結(jié)合了JDT模式中的速度預(yù)測，用于短期的數(shù)據(jù)關(guān)聯(lián)，作者稱之為互補運動預(yù)測。文章來源地址http://www.zghlxwxcb.cn/news/detail-766923.html

到了這里，關(guān)于【論文閱讀】多目標跟蹤—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

偽裝目標檢測模型論文閱讀之：Zoom in and out
論文鏈接：https://arxiv.org/abs/2203.02688 代碼;https://github.com/lartpang/zoomnet 最近提出的遮擋對象檢測（COD）試圖分割視覺上與其周圍環(huán)境融合的對象，這在現(xiàn)實場景中是非常復(fù)雜和困難的。除了與它們的背景具有高度的內(nèi)在相似性之外，這些對象通常在尺度上是多樣的，外觀上是模
2024年01月16日
瀏覽(30)
【論文閱讀】通過3D和2D網(wǎng)絡(luò)的交叉示教實現(xiàn)稀疏標注的3D醫(yī)學(xué)圖像分割(CVPR2023)
論文：3D Medical Image Segmentation with Sparse Annotation via Cross-Teaching between 3D and 2D Networks 代碼：https://github.com/hengcai-nju/3d2dct 問題1 ：醫(yī)學(xué)圖像分割通常需要大量且精確標注的數(shù)據(jù)集。但是獲取像素級標注是一項勞動密集型的任務(wù)，需要領(lǐng)域?qū)＜腋冻鼍薮蟮呐?，這使得在實際臨床場
2024年02月05日
瀏覽(82)
[論文閱讀]PillarNeXt——基于LiDAR點云的3D目標檢測網(wǎng)絡(luò)設(shè)計
PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds 基于LiDAR點云的3D目標檢測網(wǎng)絡(luò)設(shè)計論文網(wǎng)址：PillarNeXt 代碼：PillarNeXt 這篇論文\\\"PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds\\\"重新思考了用于激光雷達點云3D目標檢測的網(wǎng)絡(luò)設(shè)計。主要的貢獻
2024年02月08日
瀏覽(28)
[論文閱讀]MV3D——用于自動駕駛的多視角3D目標檢測網(wǎng)絡(luò)
Multi-View 3D Object Detection Network for Autonomous Driving 用于自動駕駛的多視角3D目標檢測網(wǎng)絡(luò) 論文網(wǎng)址：MV3D 這篇論文提出了一個多視角3D目標檢測網(wǎng)絡(luò)(MV3D),用于自動駕駛場景下高精度的3D目標檢測。主要的創(chuàng)新點有: 提出了一種緊湊的多視角表示方法來編碼稀疏的3D點云數(shù)據(jù)。該方法
2024年02月08日
瀏覽(24)
【論文閱讀】【3d目標檢測】Embracing Single Stride 3D Object Detector with Sparse Transformer
論文標題：Embracing Single Stride 3D Object Detector with Sparse Transformer 源碼地址：https://github.com/TuSimple/SST CVPR2022 文章寫得很好！文章從2d 3d目標檢測目標的尺寸的不同入手，在2d目標檢測中確實由于圖像近大遠小的尺寸關(guān)系存在著圖像中物體尺寸長尾的問題：如coco數(shù)據(jù)集中，大小
2023年04月15日
瀏覽(25)
[論文閱讀]H3DNet——基于混合幾何基元的3D目標檢測
3D Object Detection Using Hybrid Geometric Primitives 論文網(wǎng)址：H3DNet 這篇論文提出了H3DNet,一個用于3D對象檢測的端到端神經(jīng)網(wǎng)絡(luò)。該方法的關(guān)鍵創(chuàng)新點是預(yù)測一個混合的、過完備的幾何基元集合(包括邊界框中心、面中心和邊中心),然后擬合檢測到的對象以契合這些原語及其相關(guān)特征。主
2024年02月07日
瀏覽(23)
[論文閱讀]MVX-Net——基于3D目標檢測的多模態(tài)VoxelNet
MVX-Net: Multimodal VoxelNet for 3D Object Detection 基于3D目標檢測的多模態(tài)VoxelNet 論文網(wǎng)址：MVX-Net 這篇論文主要提出了兩種多模態(tài)融合方法,PointFusion和VoxelFusion,用于將RGB圖像特征與點云特征結(jié)合,從而提高3D目標檢測的性能。論文的主要內(nèi)容和貢獻總結(jié)如下: 提出了兩種簡單有效的多模
2024年02月07日
瀏覽(137)
[論文閱讀]MVF——基于 LiDAR 點云的 3D 目標檢測的端到端多視圖融合
End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds 論文網(wǎng)址：MVF 論文代碼：這篇論文提出了一個端到端的多視角融合(Multi-View Fusion, MVF)算法,用于在激光雷達點云中進行3D目標檢測。論文的主要貢獻有兩個: 提出了動態(tài)體素化(Dynamic Voxelization)的概念。相比傳統(tǒng)的硬體素
2024年01月23日
瀏覽(18)
[論文閱讀]Voxel R-CNN——邁向高性能基于體素的3D目標檢測
Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection 邁向高性能基于體素的3D目標檢測論文網(wǎng)址：Voxel R-CNN 論文代碼：Voxel R-CNN 該論文提出了 Voxel R-CNN，這是一種基于體素的高性能 3D 對象檢測框架。作者認為，原始點的精確定位對于準確的目標檢測并不重要，粗體素粒度可
2024年02月07日
瀏覽(83)
目標跟蹤 | 3D目標跟蹤高級入門！
點擊下方卡片，關(guān)注“ 自動駕駛之心 ”公眾號 ADAS巨卷干貨，即可獲取點擊進入→ 自動駕駛之心【目標跟蹤】技術(shù)交流群后臺回復(fù) 【目標跟蹤綜述】獲取單目標、多目標、基于學(xué)習(xí)方法的領(lǐng)域綜述！當(dāng)我從事自動駕駛工作的時候，曾經(jīng)接到了一個任務(wù): 指導(dǎo)一組感知實
2024年02月01日
瀏覽(21)