(一)Title
寫在前面: ByteTrack作者今年3月的新作品,升級了的V2版本并不是僅僅將ByteTrack擴展到三維場景,而是在二階段匹配的框架下,結(jié)合了JDT和TBD常用的兩種基于運動模型進行匹配的方法,提出了一種新的運動匹配模式,思路新穎,在三維MOT數(shù)據(jù)集nuScence上也達到了state-of-the-art。注意該筆記是針對初稿版本!!
(二)Abstract
背景介紹
MOT的任務(wù)是estimating bounding boxes and identities of objects。從具體任務(wù)上大致有3部分工作:檢測(估計對象的bounding boxes),匹配和預(yù)測(確定對象的identities),目前檢測任務(wù)上的改進的主要思路還是基于當(dāng)前一些SOTA的檢測框架,在本文中提供了一個匹配上的改進思路。
當(dāng)前方法存在的問題
隨著目標運動場景的變化,其檢測分數(shù)也隨隨著變化,目前的做法一般為obtain identities by associating detection boxes whose scores are higher than a threshold。對于分數(shù)低的bounding boxes會直接丟棄,最終導(dǎo)致true object misssing以及fragmented trajectories。簡單來說,從檢測任務(wù)到下游跟蹤任務(wù)時,通常為了防止過高的False Positive,采用一個比較高的固定閾值過濾掉檢測器輸出的低分邊界框,使得檢測信息出現(xiàn)丟失,造成跟蹤過程出現(xiàn)中斷的情況,使得跟蹤任務(wù)對檢測任務(wù)的要求過高。
本文方法
提出了一種簡單、有效、通用的association方法,該方法可用于二維或三維場景。對每一個檢測框而不是高分檢測框進行跟蹤,對于low score的檢測框利用他們同軌跡的相似性恢復(fù)真實目標,并過濾掉背景。將檢測得到的邊界框和預(yù)測結(jié)果進行二次關(guān)聯(lián),減少由遮擋產(chǎn)生的Fragmented trajectories和ID switch
在三維場景中,提出了一種將檢測速度和Kalman Filter相結(jié)合的互補運動策略來處理短期遮擋和運動突變等情況。
實驗表現(xiàn)
- 在相機(56.4% AMOT A)和激光雷達(70.1% AMOT A)模式上都領(lǐng)先于nuScenes 3D MOT排行榜。
(三)Introduction
ByteTrack
最基本的Tracking by Detection范式,由檢測、運動預(yù)測和數(shù)據(jù)關(guān)聯(lián)組成。首先通過目標檢測器生成2D or 3D的bounding box 和置信度confidence。隨后利用運動預(yù)測模塊,通常是Kalman Filter,預(yù)測下一幀的軌跡位置。最后根據(jù)一定的空間相似性將檢測框和軌跡的預(yù)測位置關(guān)聯(lián)起來。
但是當(dāng)前多目標跟蹤存在著的一個難于解決的問題是:如下圖中的(a)所示,當(dāng)前目標檢測的框架通過置信度閾值輸出最終的邊界框,當(dāng)設(shè)置的閾值過大時,會出現(xiàn)missing detection以及。作者分析其原因為在將檢測的bounding boxes給到data association時設(shè)置了較高的閾值,導(dǎo)致一些低置信度的bounding boxes信息出現(xiàn)丟失,而這些低置信度的bounding boxes往往包含著被遮擋的目標。
這種高閾值的設(shè)置是目前MOT中常常使用的方式,但是造成跟蹤任務(wù)的missing detection的影響是不可逆的。
為了避免低分檢測框信息的丟失,需要額外的解決low confidence帶來的False Positive問題。因此,作者引入了二次關(guān)聯(lián),將能夠同tracklets匹配上的low confidence boxes加入到tracklets中,而無法匹配的boxes視作背景,成功解決掉當(dāng)前問題。
具體的實現(xiàn)方法為:
- 首先基于motion similarity將高置信度的detection boxes匹配到tracklets上。同樣使用kalman濾波器預(yù)測當(dāng)前軌跡在下一幀的位置。motion similarity的計算方式,通過計算kalman預(yù)測的boxes和low confidence boxes之間的IoU表示。
- 然后將unmatched tracklets和low confidence boxes通過IOU進行二次匹配。此時因遮擋的低置信度邊界框能夠得到很好地匹配,恢復(fù)身份,同時背景也能夠過濾出來。
ByteTrackV2
以往基于運動預(yù)測的方法主要分為兩種,一是基于速度檢測,該方法在遇到不可預(yù)測的速度突變和低幀率視頻時具有較好的魯棒性,但是由于缺乏歷史運動信息,該方法很難進行長期關(guān)聯(lián);二是基于Kalman Filter,該方法結(jié)合了歷史信息會產(chǎn)生更加平滑的運動預(yù)測,但很難應(yīng)對速度突變等情況
三維MOT中物體短暫的速度突變和遮擋可能會導(dǎo)致ID的變化。與二維場景不同,三維天然補充了深度信息,相比于二維,其運動信息更加豐富,空間相似性更容易區(qū)分物體。
Different from 2D MOT, it is easier for trackers to predict accurate velocities in the world coordinate.
不是很能理解,為什么三維可以更準確的預(yù)測其速度?
為了解決物體突然運動和短期消失的問題,作者提出了一種將檢測到的物體速度和Kalman Filter相結(jié)合的互補運動預(yù)測方法。
具體的實現(xiàn)方法為:
通過檢測器檢測到的速度進行反向預(yù)測進行短期關(guān)聯(lián),這對突然運動具有更好的魯棒性;當(dāng)目標由于遮擋短期消失時,Kalman Filter通過前向預(yù)測missing object的位置可以平滑保持其位置,并在目標再次出現(xiàn)時關(guān)聯(lián)從而恢復(fù)其身份。
這個方法很妙,利用速度預(yù)測關(guān)聯(lián)往往是JDT的做法,比如centertrack等;而KF則是TBD一貫的做法,作者將JDT中比較work的思想引入到了TBD中,使KF面對復(fù)雜的運動變化更具有魯棒性。何為反向預(yù)測,何為前向預(yù)測,具體做法將在方法論中展開介紹。
ByteTrack專注于如何利用低分數(shù)的檢測框來減少數(shù)據(jù)關(guān)聯(lián)策略中missing detection和 fragmented trajectories,是一個大的數(shù)據(jù)關(guān)聯(lián)框架創(chuàng)新;而ByteTrackV2則聚焦于如何提高frame by frame 的關(guān)聯(lián)質(zhì)量,是一個細化的關(guān)聯(lián)方法創(chuàng)新。在ByteTrack的基礎(chǔ)上引入了這項互補運動預(yù)測方法,成為了ByteTrackV2,使其不僅在2D MOT中能有優(yōu)秀的表現(xiàn),在3D MOT中也能應(yīng)對更復(fù)雜的運動環(huán)境。
本文的貢獻如下:
1、Unified 2D and 3D Data Association. 將兩階段數(shù)據(jù)關(guān)聯(lián)應(yīng)用在2D 3D MOT中。
2、Complementary 3D Motion Prediction. 將速度預(yù)測和KF預(yù)測結(jié)合,成為一種新的互補運動預(yù)測方法。
3、Thorough Experiments on 3D MOT Benchmarks under Different Modalities. 在nuScenes上針對不同模態(tài)的輸入進行詳細實驗,并達到了SOTA性能,證明其可行性。
(四)Related Work
主要介紹了四部分的內(nèi)容,2D/3D detection 2D/3D tracking,原文寫的比較詳細,這里只針對部分內(nèi)容進行一個概述
1、2D Object Detection
2、3D Object Detection
基于激光雷達的三維目標檢測方法包含了準確的三維結(jié)構(gòu)信息,精度很高,但是高成本限制了其應(yīng)用。
基于相機的方法由于其低成本和豐富的上下文信息受到廣泛關(guān)注,但是從2D圖像進行3D感知本身就是一個ill-posed問題,因為圖像本身缺乏最重要的深度信息,哪怕轉(zhuǎn)換為偽深度圖像,其不準確的深度信息會嚴重影響網(wǎng)絡(luò)對三維空間的理解,
以視覺為中心的多視角BEV感知方法(多相機) 縮小了基于相機和基于激光雷達的性能差距,是一種主流趨勢。
目前3D MOT主流的檢測器使用的是激光雷達,因其能提供準確的位置信息,其次,基于圖像的三維目標檢測器也開始被應(yīng)用,因為圖像信息可以提供外觀線索。
ByteTrackV2的跟蹤框架與輸入模態(tài)無關(guān),因此可以對接任何形式的3D目標檢測器
3、 2D Multi-Object Tracking
data association是多目標跟蹤任務(wù)的核心,它首先計算軌跡同檢測框之間的相似度,然后根據(jù)相似度來進行匹配。主要涉及兩個核心問題:如何計算檢測框和軌跡的相似度,如何根據(jù)相似度實現(xiàn)檢測框和軌跡的匹配
4、3D Multi-Object Tracking
3D MOT與2D MOT有許多方面都類似,特別是數(shù)據(jù)關(guān)聯(lián)。由于額外引入了深度信息,因此使用位置和運動線索進行關(guān)聯(lián),會得到更加準確和可靠的結(jié)果。
AB3DMOT是SORT在三維場景中的衍生,根據(jù)3D IOU進行匹配;
CenterPoint是基于CenterTrack,將基于中心點跟蹤的范式擴展到了三維場景,利用預(yù)測的物體速度作為等速運動模型,在突發(fā)運動條件下具有較好的效果;
還有許多三維跟蹤器都是基于二維跟蹤器進行改進。
ByteTrackV2只是用了運動線索進行數(shù)據(jù)關(guān)聯(lián),方便用同一個框架進行2D和3D的MOT。
(五)Method
ByteTrack pipeline,終于來了,僅僅是針對二階段匹配的官方流程圖:
1、Preliminary
-
2D object detector
作者采用anchor-free的YOLOX作為2D MOT的detector
目前很多2D MOT算法都是采用這個檢測器,當(dāng)然不同的訓(xùn)練技巧對最后的結(jié)果影響也很大,ByteTrack系列就是針對不同數(shù)據(jù)集都精心設(shè)計了不同的訓(xùn)練技巧以此達到了一個SOTA的成績。
-
Camera-based 3D object detector
使用基于BEV的多相機目標檢測器PETRv2。
不了解這個檢測器,好像是曠視去年的作品。作者提到該檢測器是基于transformer架構(gòu)的,并且利用了前一幀的時間信息來提高檢測性能,因此也能預(yù)測速度
-
LiDAR-based 3D object detector
使用了Center-Point和TransFusion-L作為基于激光雷達的目標檢測器
前者是YOLO同期作品centernet在3D場景中的衍生,后者是22年CVPR上的作品,簡單了解了一下是基于transformer架構(gòu)處理Lidar-Camera Fusion的目標檢測器
==注意:==由于該跟蹤框架通用性強,本身與輸入模態(tài)無關(guān),與對接的檢測器無關(guān),因此本人并沒有深入去了解這些detector,有興趣可以去了解學(xué)習(xí)一下近幾年來的比較流行的感知算法。
-
Basic motion model
使用恒速運動Kalman Filter和線性觀測模型作為基本運動模型。
在二維場景中,定義狀態(tài)向量為 ( u , v , a , b , u ˙ , v ˙ , a ˙ , b ˙ ) (u,v,a,b,\dot{u},\dot{v},\dot{a},\dot) (u,v,a,b,u˙,v˙,a˙,b˙),其中 P 2 d = ( u , v , a , b ) P^{2d}=(u,v,a,b) P2d=(u,v,a,b)表示二維檢測框的中心點坐標、長寬比、邊界框高度; V 2 d = ( u ˙ , v ˙ , a ˙ , b ˙ ) V^{2d}=(\dot{u},\dot{v},\dot{a},\dot) V2d=(u˙,v˙,a˙,b˙)表示對應(yīng)的變化速度。
在三維場景中,定義狀態(tài)向量為 ( x , y , z , θ , l , w , h , x ˙ , y ˙ , z ˙ ) (x,y,z,\theta,l,w,h,\dot{x},\dot{y},\dot{z}) (x,y,z,θ,l,w,h,x˙,y˙?,z˙),其中 P 3 d = ( x , y , z ) P^{3d}=(x,y,z) P3d=(x,y,z)表示三維檢測框的中心點坐標, ( l , w , h ) (l,w,h) (l,w,h)表示邊界框的長寬高、 θ \theta θ表示檢測框的偏航角度; V 3 d = ( x ˙ , y ˙ , z ˙ ) V^{3d}=(\dot{x},\dot{y},\dot{z}) V3d=(x˙,y˙?,z˙)表示中心點對應(yīng)的變化速度。
Different from [7], we define the state space in the 3D world coordinates to eliminate the effects of ego-motion.
原文當(dāng)中這句話沒看懂,可能是太久沒看AB3DMOT了,下次重新讀一下之后來更新解釋
2D和3D跟蹤場景中第
t
+
1
t + 1
t+1幀的運動預(yù)測過程可表示為:
P
t
+
1
2
d
=
P
t
2
d
+
V
t
2
d
P^{2d}_{t+1}=P^{2d}_{t}+V^{2d}_{t}
Pt+12d?=Pt2d?+Vt2d?
P t + 1 3 d = P t 3 d + V t 3 d P^{3d}_{t+1}=P^{3d}_{t}+V^{3d}_{t} Pt+13d?=Pt3d?+Vt3d?
最后由Kalman Filter的更新步將檢測和預(yù)測框進行融合更新,作為當(dāng)前幀的軌跡。
2、Complementary 3D Motion Prediction
該節(jié)中提出了一種互補的三維運動預(yù)測策略,以解決駕駛場景中的突然運動和短期物體消失問題。具體而言,作者采用檢測速度進行短期關(guān)聯(lián),卡爾曼濾波進行長期關(guān)聯(lián)。
做MOT的都很熟悉卡爾曼濾波來進行運動預(yù)測這個套路了,在開始前,回顧一下怎么利用預(yù)測速度進行運動預(yù)測
舉CenterTrack來說明,有三個輸入分支,分別是當(dāng)前幀/上一幀的RGB圖像、前一幀目標中心分布的heatmap,有四個輸出分支,分別是Heatmap、Confidence、Height&Width以及Displacement Prediction,其中最后一個輸出分支輸出的就是當(dāng)前幀相對于前一幀的速度,通過預(yù)測的速度回溯到前一幀目標可能存在的位置,并根據(jù)相似程度進行關(guān)聯(lián)。
這是一個很經(jīng)典的JDT跟蹤器,由于只是預(yù)測兩幀間的速度,所以用這個方法更多側(cè)重于幀與幀之間的關(guān)聯(lián),很難形成長期的關(guān)聯(lián)和依賴,哪怕是短時遮擋也很容易造成ID switch,這也是基于速度預(yù)測的運動模型的缺點。
在三維場景中,得益于一些檢測器的發(fā)展,能夠通過時間建模準確預(yù)測短期速度,可以很好應(yīng)對速度突變,在短期關(guān)聯(lián)上很有優(yōu)勢;而卡爾曼濾波通過基于歷史信息的狀態(tài)更新對平穩(wěn)的長期速度進行建模,有利于在丟失檢測后也能平滑維持軌跡的狀態(tài)。因此,作者通過雙邊預(yù)測策略最大化了兩種運動模型的優(yōu)勢。
1、采用卡爾曼濾波進行前向預(yù)測,前向預(yù)測用于丟失軌跡的長期關(guān)聯(lián);
2、采用檢測到的物體速度進行后向預(yù)測,后向預(yù)測負責(zé)存活軌跡的短期關(guān)聯(lián);
前向預(yù)測:Kalman Filter的預(yù)測步是基于當(dāng)前時刻的后驗狀態(tài),通過運動方程預(yù)測下一時刻的先驗狀態(tài),預(yù)測的是未來的狀態(tài),因此稱之為前向預(yù)測;
反向預(yù)測:基于檢測器的速度預(yù)測(如CenterTrack)是輸入t幀和t-1幀的圖像信息,來預(yù)測兩幀之間目標的位移量,也就是速度;注意,這里的速度是由t-1幀到t幀產(chǎn)生的,因此可以通過這個速度,把t時刻產(chǎn)生的這個檢測回溯到t-1時刻的位置,因此稱之為反向預(yù)測;
假設(shè)在
t
t
t時刻有
M
M
M個檢測目標
D
t
∈
R
M
×
7
D^t\in{R^{M\times7}}
Dt∈RM×7以及在
x
,
y
x,y
x,y方向上他們的速度為
V
t
∈
R
M
×
2
V^t\in{R^{M\times2}}
Vt∈RM×2。通過反向預(yù)測
t
?
1
t-1
t?1時刻的位置可以描述為:
D
x
t
?
1
^
=
D
x
t
?
V
x
t
\hat{D^{t-1}_x}=D^{t}_x-V^{t}_x
Dxt?1?^?=Dxt??Vxt?
D y t ? 1 ^ = D y t ? V y t \hat{D^{t-1}_y}=D^{t}_y-V^{t}_y Dyt?1?^?=Dyt??Vyt?
假設(shè)在
t
?
1
t-1
t?1時刻有
N
N
N條軌跡
T
t
?
1
∈
R
N
×
7
T^{t-1}\in{R^{N\times7}}
Tt?1∈RN×7,根據(jù)上文公式,通過卡爾曼濾波前向預(yù)測后,t時刻的位置為:
T
x
,
y
,
z
t
=
T
x
,
y
,
z
t
?
1
+
T
˙
x
,
y
,
z
t
?
1
T^t_{x,y,z}=T^{t-1}_{x,y,z}+\dot{T}^{t-1}_{x,y,z}
Tx,y,zt?=Tx,y,zt?1?+T˙x,y,zt?1?
在雙邊預(yù)測之后,使用ByteTrack中提到的二階段匹配。在第一個高分關(guān)聯(lián)中,反向預(yù)測的檢測結(jié)果
D
t
?
1
D^{t-1}
Dt?1和軌跡
T
t
?
1
T^{t-1}
Tt?1之間的相似度矩陣
S
t
∈
R
M
×
N
S_{t}\in{R^{M\times N}}
St?∈RM×N可以由以下公式計算
S
t
(
i
,
j
)
=
G
I
O
U
(
D
i
t
?
1
,
T
j
t
?
1
)
S_{t}(i,j)=GIOU(D^{t-1}_i,T^{t-1}_j)
St?(i,j)=GIOU(Dit?1?,Tjt?1?)
當(dāng)前幀檢測和軌跡的相似度,來源于檢測反向傳播到前一幀的位置和前一幀軌跡的GIOU。
作者用的是GIOU,原因是因為三維場景目標運動速度較大或者幀率較低,相鄰兩幀同一目標的IOU較小甚至為0,可能會被直接過濾掉導(dǎo)致錯誤關(guān)聯(lián)
最后還是利用匈牙利算法對相似度矩陣進行分配。在成功關(guān)聯(lián)后,利用匹配的t幀檢測和軌跡t幀的前向預(yù)測結(jié)果按照卡爾曼更新步驟進行更新。
當(dāng)軌跡丟失的時候,只利用前向預(yù)測,較為“平滑”的更新保留軌跡的位置,以便觀測出現(xiàn)時的重新關(guān)聯(lián),這一步驟作者稱為“rebirth”(其實就是遮擋后的身份恢復(fù))
在第二階段的匹配中,也就是低分檢測和未關(guān)聯(lián)上的軌跡進行匹配,關(guān)聯(lián)的方法遵循第一階段匹配的方法。
通常做法中判斷檢測屬于哪個ID,是通過計算檢測和軌跡KF預(yù)測的相似度進行分配的。
而ByteTrackV2中,作者給出判斷當(dāng)前幀檢測屬于哪個id的方法,就是通過速度反向預(yù)測該觀測在前一幀中的位置,看與哪個軌跡的GIOU最大,就把該軌跡的id賦給該觀測,然后通過KF的更新步,將該觀測和該軌跡的t時刻KF預(yù)測結(jié)果進行更新;
說白了,KF的前向預(yù)測每一幀都進行,當(dāng)運動場景簡單,無遮擋情況下,KF預(yù)測結(jié)果只作更新使用;若出現(xiàn)遮擋等情況,KF前向預(yù)測的作用就是為了暫時延續(xù)該軌跡;
另外,作者受到GIAOTracker中NSA Kalman的啟發(fā),將檢測分數(shù)融合進卡爾曼更新步驟中,自適應(yīng)更新卡爾曼濾波中觀測協(xié)方差矩陣R:
R
t
j
^
=
α
(
1
?
s
t
j
)
2
R
t
j
\hat{R^j_t}=\alpha(1-s^j_t)^2R^j_t
Rtj?^?=α(1?stj?)2Rtj?
將檢測分數(shù)帶入不確定性矩陣,使KF濾波對不同質(zhì)量的檢測具有更強的魯棒性
3、Unified 2D and 3D Data Association
實現(xiàn)過程與ByteTrack類似:
首先,使用所有的檢測框,將檢測框分為高分檢測框和低分檢測框。 t時刻,基于高分檢測框匹配已有的軌跡,對于當(dāng)前沒有邊界框能夠匹配得上的軌跡,分析原因是occlusion或者motion blur產(chǎn)生的low confidence的邊界框 將低置信度的匹配框同未匹配軌跡進行二次匹配,恢復(fù)低置信度邊界框,同時將背景過濾掉
對應(yīng)偽代碼實現(xiàn)過程:
這里注意幾個細節(jié):
- Track rebirth: 軌跡丟失檢測后最多保留30幀,超過即刪除
- Track birth: 在第一次關(guān)聯(lián)中,未匹配上的高分檢測框,作為新生目標,初始化為新的軌跡
作者解釋了二階段關(guān)聯(lián)這個框架 比較work的原因是因為當(dāng)遮擋發(fā)生的時候,往往檢測分數(shù)會下降,高分檢測框代表著那些未被遮擋的目標,因此要先將他們進行匹配。如果有tracklet不匹配任何的高分框,則極有可能該軌跡被遮擋,檢測分數(shù)對應(yīng)下降,因此在第二階段關(guān)聯(lián)中,要把低分框和這些未匹配上的tracklet進行匹配,以此來跟蹤被遮擋的目標。對于低分的FP,因為沒有軌跡與之匹配,也相應(yīng)的被過濾掉。
(六)DATASETS AND METRICS
這部分主要講了使用的數(shù)據(jù)集和評價指標。
主要使用的數(shù)據(jù)集為:
MOT17 dataset
MOT20 dataset
HiEve dataset
BDD100K dataset
nuScenes dataset
具體訓(xùn)練細節(jié)可以參照原文,這里不多說明
(七)EXPERIMENTS
7.1 Implementation Details
介紹了2D和3D的訓(xùn)練方法和超參數(shù)設(shè)置
比較有意思的是,作者針對不同的數(shù)據(jù)集都設(shè)計了不同的訓(xùn)練技巧用于刷榜。具體操作可以看原文,這里不多介紹。
7.2 2D MOT
這部分與ByteTrack內(nèi)容一樣,所謂ByteTrackV2在2D MOT中的應(yīng)用,就是ByteTrack
7.2.1 Ablation Studies
- Similarity analysis
二階段匹配中每個階段使用的相似性度量,發(fā)現(xiàn)在高分框的第一次匹配中,使用IOU和Re-ID都能獲得不錯的效果,IOU更有利于MOTA,而Re-ID更有利于IDF1;而在第二次對低分框進行匹配中,使用IOU效果更好,原因在于遮擋情況下,Re-ID提取到的外觀特征并不可靠。
- Comparisons with other association methods
比較了二階段關(guān)聯(lián)Byte和其他關(guān)聯(lián)算法,發(fā)現(xiàn)Byte在精度和速度上都很有優(yōu)勢;說明在檢測精度足夠高的情況下,僅僅用IOU也能獲得不錯的效果
- Robustness to detection score threshold
Byte對檢測閾值變化的魯棒性更強,因為Byte恢復(fù)了低分檢測框匹配的權(quán)力,可以恢復(fù)更多因遮擋產(chǎn)生的漏檢
- Analysis on low score detection boxes
可以看到Byte能在低分檢測框中恢復(fù)更多的TP,而不會引入更多的FP
7.2.1 Benchmark Evaluation
MOT 17
MOT 20
HiEve
BDD100K
作者還給了具體的可視化結(jié)果,對于嚴重遮擋的低分檢測目標,Byte依舊能夠成功關(guān)聯(lián)其身份信息,大大減少了FN和ID switch。
7.3 3D MOT
7.3.1 Ablation Studies
- Complementary motion prediction
可以看到在相機模式下和激光雷達模式下,KF 和DV的差距不同,說明了激光雷達下可以得到更加準確的檢測結(jié)果,有利于KF濾波器得到更準確的估計;
- Data association strategy
說明二階段關(guān)聯(lián)算法Byte在三維場景下的可行性,并且不需要考慮不同的輸入模態(tài)
- Hyperparameter search
檢測分數(shù)的閾值和GIOU匹配分數(shù)閾值的消融實驗。
從圖8左邊看到由于AMOTA對對象的召回率要求比較高,所以檢測分數(shù)閾值越低,AMOTA越高;然而降低檢測分數(shù)閾值會帶來大量錯誤關(guān)聯(lián),從而影響跟蹤性能,通過網(wǎng)格搜索,發(fā)現(xiàn)基于Camera的最佳閾值為0.25,基于Lidar的最佳閾值為0.2;右邊觀察到無論是Camera還是Lidar匹配分數(shù)閾值在0.5左右AMOTA最高
7.3.1 Benchmark Evaluation
在nuScenes上分別使用Camera和Lidar對其驗證集和測試集進行性能測試
Camera modality
LiDAR modality
(七)Conclusion
本文在二維場景中ByteTrack基礎(chǔ)上,擴展到三維場景,并提出了一種基于速度預(yù)測和卡爾曼濾波預(yù)測融合的互補運動預(yù)測策略,在二維和三維的不同數(shù)據(jù)集上都能到達SOTA指標。該算法對遮擋環(huán)境比較魯棒,并且可以對接不同模態(tài)的檢測器輸入。
本文的思路:
首先分析了通常算法會設(shè)置一個較高的檢測閾值來過濾掉不可靠的檢測,以減少False Positive。但這種做法實則是舍棄low confidence對應(yīng)的occluded objects,這種做法是不可逆的,相當(dāng)于在后續(xù)跟蹤過程中無法將這些the occluded objects與tracklets進行關(guān)聯(lián),從而導(dǎo)致missing detection以及fragmented trajectories,同時由于沒有檢測的更新,KF參數(shù)也會隨著遮擋時間的增加而發(fā)散,導(dǎo)致遮擋結(jié)束后依然會發(fā)生錯誤關(guān)聯(lián)。
接著,考慮使用low confidence的boxes用于數(shù)據(jù)關(guān)聯(lián)。但同時也要思考如何解決引入低置信度帶來的false positive問題。
最后提出二階段匹配的關(guān)聯(lián)模式,第一次采用高置信度的boxes匹配tracklets(高置信度是為了避免引入背景),接著將low confidence的box與一階段中未匹配的tracklets進行匹配(unmatched tracklets可能是因為目標被遮擋而得到了一個low confidence),同時由低分檢測引入的背景因沒匹配的軌跡也將被過濾。文章來源:http://www.zghlxwxcb.cn/news/detail-766923.html
在三維場景中,考慮了目標可能容易出現(xiàn)運動突變或者幀率較低等情況,除了使用KF預(yù)測以保持軌跡的長期運動信息外,還結(jié)合了JDT模式中的速度預(yù)測,用于短期的數(shù)據(jù)關(guān)聯(lián),作者稱之為互補運動預(yù)測。文章來源地址http://www.zghlxwxcb.cn/news/detail-766923.html
到了這里,關(guān)于【論文閱讀】多目標跟蹤—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!