国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀】多目標跟蹤—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box

這篇具有很好參考價值的文章主要介紹了【論文閱讀】多目標跟蹤—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

(一)Title

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

寫在前面: ByteTrack作者今年3月的新作品,升級了的V2版本并不是僅僅將ByteTrack擴展到三維場景,而是在二階段匹配的框架下,結(jié)合了JDT和TBD常用的兩種基于運動模型進行匹配的方法,提出了一種新的運動匹配模式,思路新穎,在三維MOT數(shù)據(jù)集nuScence上也達到了state-of-the-art。注意該筆記是針對初稿版本!!

(二)Abstract

背景介紹

MOT的任務(wù)是estimating bounding boxes and identities of objects。從具體任務(wù)上大致有3部分工作:檢測(估計對象的bounding boxes),匹配和預(yù)測(確定對象的identities),目前檢測任務(wù)上的改進的主要思路還是基于當(dāng)前一些SOTA的檢測框架,在本文中提供了一個匹配上的改進思路。

當(dāng)前方法存在的問題

隨著目標運動場景的變化,其檢測分數(shù)也隨隨著變化,目前的做法一般為obtain identities by associating detection boxes whose scores are higher than a threshold。對于分數(shù)低的bounding boxes會直接丟棄,最終導(dǎo)致true object misssing以及fragmented trajectories。簡單來說,從檢測任務(wù)到下游跟蹤任務(wù)時,通常為了防止過高的False Positive,采用一個比較高的固定閾值過濾掉檢測器輸出的低分邊界框,使得檢測信息出現(xiàn)丟失,造成跟蹤過程出現(xiàn)中斷的情況,使得跟蹤任務(wù)對檢測任務(wù)的要求過高。

本文方法

提出了一種簡單、有效、通用的association方法,該方法可用于二維或三維場景。對每一個檢測框而不是高分檢測框進行跟蹤,對于low score的檢測框利用他們同軌跡的相似性恢復(fù)真實目標,并過濾掉背景。將檢測得到的邊界框和預(yù)測結(jié)果進行二次關(guān)聯(lián),減少由遮擋產(chǎn)生的Fragmented trajectories和ID switch

在三維場景中,提出了一種將檢測速度和Kalman Filter相結(jié)合的互補運動策略來處理短期遮擋和運動突變等情況。

實驗表現(xiàn)

  • 在相機(56.4% AMOT A)和激光雷達(70.1% AMOT A)模式上都領(lǐng)先于nuScenes 3D MOT排行榜。

(三)Introduction

ByteTrack

最基本的Tracking by Detection范式,由檢測、運動預(yù)測和數(shù)據(jù)關(guān)聯(lián)組成。首先通過目標檢測器生成2D or 3D的bounding box 和置信度confidence。隨后利用運動預(yù)測模塊,通常是Kalman Filter,預(yù)測下一幀的軌跡位置。最后根據(jù)一定的空間相似性將檢測框和軌跡的預(yù)測位置關(guān)聯(lián)起來。

但是當(dāng)前多目標跟蹤存在著的一個難于解決的問題是:如下圖中的(a)所示,當(dāng)前目標檢測的框架通過置信度閾值輸出最終的邊界框,當(dāng)設(shè)置的閾值過大時,會出現(xiàn)missing detection以及。作者分析其原因為在將檢測的bounding boxes給到data association時設(shè)置了較高的閾值,導(dǎo)致一些低置信度的bounding boxes信息出現(xiàn)丟失,而這些低置信度的bounding boxes往往包含著被遮擋的目標。
bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

這種高閾值的設(shè)置是目前MOT中常常使用的方式,但是造成跟蹤任務(wù)的missing detection的影響是不可逆的。

為了避免低分檢測框信息的丟失,需要額外的解決low confidence帶來的False Positive問題。因此,作者引入了二次關(guān)聯(lián),將能夠同tracklets匹配上的low confidence boxes加入到tracklets中,而無法匹配的boxes視作背景,成功解決掉當(dāng)前問題。

具體的實現(xiàn)方法為:

  • 首先基于motion similarity將高置信度的detection boxes匹配到tracklets上。同樣使用kalman濾波器預(yù)測當(dāng)前軌跡在下一幀的位置。motion similarity的計算方式,通過計算kalman預(yù)測的boxes和low confidence boxes之間的IoU表示。
  • 然后將unmatched tracklets和low confidence boxes通過IOU進行二次匹配。此時因遮擋的低置信度邊界框能夠得到很好地匹配,恢復(fù)身份,同時背景也能夠過濾出來。

ByteTrackV2

以往基于運動預(yù)測的方法主要分為兩種,一是基于速度檢測,該方法在遇到不可預(yù)測的速度突變和低幀率視頻時具有較好的魯棒性,但是由于缺乏歷史運動信息,該方法很難進行長期關(guān)聯(lián);二是基于Kalman Filter,該方法結(jié)合了歷史信息會產(chǎn)生更加平滑的運動預(yù)測,但很難應(yīng)對速度突變等情況

三維MOT中物體短暫的速度突變和遮擋可能會導(dǎo)致ID的變化。與二維場景不同,三維天然補充了深度信息,相比于二維,其運動信息更加豐富,空間相似性更容易區(qū)分物體。

Different from 2D MOT, it is easier for trackers to predict accurate velocities in the world coordinate.

不是很能理解,為什么三維可以更準確的預(yù)測其速度?

為了解決物體突然運動和短期消失的問題,作者提出了一種將檢測到的物體速度和Kalman Filter相結(jié)合的互補運動預(yù)測方法。

具體的實現(xiàn)方法為:

通過檢測器檢測到的速度進行反向預(yù)測進行短期關(guān)聯(lián),這對突然運動具有更好的魯棒性;當(dāng)目標由于遮擋短期消失時,Kalman Filter通過前向預(yù)測missing object的位置可以平滑保持其位置,并在目標再次出現(xiàn)時關(guān)聯(lián)從而恢復(fù)其身份。

這個方法很妙,利用速度預(yù)測關(guān)聯(lián)往往是JDT的做法,比如centertrack等;而KF則是TBD一貫的做法,作者將JDT中比較work的思想引入到了TBD中,使KF面對復(fù)雜的運動變化更具有魯棒性。何為反向預(yù)測,何為前向預(yù)測,具體做法將在方法論中展開介紹。

ByteTrack專注于如何利用低分數(shù)的檢測框來減少數(shù)據(jù)關(guān)聯(lián)策略中missing detection和 fragmented trajectories,是一個大的數(shù)據(jù)關(guān)聯(lián)框架創(chuàng)新;而ByteTrackV2則聚焦于如何提高frame by frame 的關(guān)聯(lián)質(zhì)量,是一個細化的關(guān)聯(lián)方法創(chuàng)新。在ByteTrack的基礎(chǔ)上引入了這項互補運動預(yù)測方法,成為了ByteTrackV2,使其不僅在2D MOT中能有優(yōu)秀的表現(xiàn),在3D MOT中也能應(yīng)對更復(fù)雜的運動環(huán)境。

本文的貢獻如下:

1、Unified 2D and 3D Data Association. 將兩階段數(shù)據(jù)關(guān)聯(lián)應(yīng)用在2D 3D MOT中。

2、Complementary 3D Motion Prediction. 將速度預(yù)測和KF預(yù)測結(jié)合,成為一種新的互補運動預(yù)測方法。

3、Thorough Experiments on 3D MOT Benchmarks under Different Modalities. 在nuScenes上針對不同模態(tài)的輸入進行詳細實驗,并達到了SOTA性能,證明其可行性。

(四)Related Work

主要介紹了四部分的內(nèi)容,2D/3D detection 2D/3D tracking,原文寫的比較詳細,這里只針對部分內(nèi)容進行一個概述

1、2D Object Detection

2、3D Object Detection

基于激光雷達的三維目標檢測方法包含了準確的三維結(jié)構(gòu)信息,精度很高,但是高成本限制了其應(yīng)用。

基于相機的方法由于其低成本和豐富的上下文信息受到廣泛關(guān)注,但是從2D圖像進行3D感知本身就是一個ill-posed問題,因為圖像本身缺乏最重要的深度信息,哪怕轉(zhuǎn)換為偽深度圖像,其不準確的深度信息會嚴重影響網(wǎng)絡(luò)對三維空間的理解,

以視覺為中心的多視角BEV感知方法(多相機) 縮小了基于相機和基于激光雷達的性能差距,是一種主流趨勢。

目前3D MOT主流的檢測器使用的是激光雷達,因其能提供準確的位置信息,其次,基于圖像的三維目標檢測器也開始被應(yīng)用,因為圖像信息可以提供外觀線索。

ByteTrackV2的跟蹤框架與輸入模態(tài)無關(guān),因此可以對接任何形式的3D目標檢測器

3、 2D Multi-Object Tracking

data association是多目標跟蹤任務(wù)的核心,它首先計算軌跡同檢測框之間的相似度,然后根據(jù)相似度來進行匹配。主要涉及兩個核心問題:如何計算檢測框和軌跡的相似度如何根據(jù)相似度實現(xiàn)檢測框和軌跡的匹配

4、3D Multi-Object Tracking

3D MOT與2D MOT有許多方面都類似,特別是數(shù)據(jù)關(guān)聯(lián)。由于額外引入了深度信息,因此使用位置和運動線索進行關(guān)聯(lián),會得到更加準確和可靠的結(jié)果。

AB3DMOT是SORT在三維場景中的衍生,根據(jù)3D IOU進行匹配;

CenterPoint是基于CenterTrack,將基于中心點跟蹤的范式擴展到了三維場景,利用預(yù)測的物體速度作為等速運動模型,在突發(fā)運動條件下具有較好的效果;

還有許多三維跟蹤器都是基于二維跟蹤器進行改進。

ByteTrackV2只是用了運動線索進行數(shù)據(jù)關(guān)聯(lián),方便用同一個框架進行2D和3D的MOT。

(五)Method

ByteTrack pipeline,終于來了,僅僅是針對二階段匹配的官方流程圖:

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

1、Preliminary

  • 2D object detector

作者采用anchor-free的YOLOX作為2D MOT的detector

目前很多2D MOT算法都是采用這個檢測器,當(dāng)然不同的訓(xùn)練技巧對最后的結(jié)果影響也很大,ByteTrack系列就是針對不同數(shù)據(jù)集都精心設(shè)計了不同的訓(xùn)練技巧以此達到了一個SOTA的成績。

  • Camera-based 3D object detector

使用基于BEV的多相機目標檢測器PETRv2。

不了解這個檢測器,好像是曠視去年的作品。作者提到該檢測器是基于transformer架構(gòu)的,并且利用了前一幀的時間信息來提高檢測性能,因此也能預(yù)測速度

  • LiDAR-based 3D object detector

使用了Center-Point和TransFusion-L作為基于激光雷達的目標檢測器

前者是YOLO同期作品centernet在3D場景中的衍生,后者是22年CVPR上的作品,簡單了解了一下是基于transformer架構(gòu)處理Lidar-Camera Fusion的目標檢測器

==注意:==由于該跟蹤框架通用性強,本身與輸入模態(tài)無關(guān),與對接的檢測器無關(guān),因此本人并沒有深入去了解這些detector,有興趣可以去了解學(xué)習(xí)一下近幾年來的比較流行的感知算法。

  • Basic motion model

使用恒速運動Kalman Filter和線性觀測模型作為基本運動模型。

在二維場景中,定義狀態(tài)向量為 ( u , v , a , b , u ˙ , v ˙ , a ˙ , b ˙ ) (u,v,a,b,\dot{u},\dot{v},\dot{a},\dot) (u,v,a,b,u˙,v˙,a˙,b˙),其中 P 2 d = ( u , v , a , b ) P^{2d}=(u,v,a,b) P2d=(u,v,a,b)表示二維檢測框的中心點坐標、長寬比、邊界框高度; V 2 d = ( u ˙ , v ˙ , a ˙ , b ˙ ) V^{2d}=(\dot{u},\dot{v},\dot{a},\dot) V2d=(u˙,v˙,a˙,b˙)表示對應(yīng)的變化速度。

在三維場景中,定義狀態(tài)向量為 ( x , y , z , θ , l , w , h , x ˙ , y ˙ , z ˙ ) (x,y,z,\theta,l,w,h,\dot{x},\dot{y},\dot{z}) (x,y,z,θ,l,w,h,x˙,y˙?,z˙),其中 P 3 d = ( x , y , z ) P^{3d}=(x,y,z) P3d=(x,y,z)表示三維檢測框的中心點坐標, ( l , w , h ) (l,w,h) (l,w,h)表示邊界框的長寬高、 θ \theta θ表示檢測框的偏航角度; V 3 d = ( x ˙ , y ˙ , z ˙ ) V^{3d}=(\dot{x},\dot{y},\dot{z}) V3d=(x˙,y˙?,z˙)表示中心點對應(yīng)的變化速度。

Different from [7], we define the state space in the 3D world coordinates to eliminate the effects of ego-motion.

原文當(dāng)中這句話沒看懂,可能是太久沒看AB3DMOT了,下次重新讀一下之后來更新解釋

2D和3D跟蹤場景中第 t + 1 t + 1 t+1幀的運動預(yù)測過程可表示為:
P t + 1 2 d = P t 2 d + V t 2 d P^{2d}_{t+1}=P^{2d}_{t}+V^{2d}_{t} Pt+12d?=Pt2d?+Vt2d?

P t + 1 3 d = P t 3 d + V t 3 d P^{3d}_{t+1}=P^{3d}_{t}+V^{3d}_{t} Pt+13d?=Pt3d?+Vt3d?

最后由Kalman Filter的更新步將檢測和預(yù)測框進行融合更新,作為當(dāng)前幀的軌跡。

2、Complementary 3D Motion Prediction

該節(jié)中提出了一種互補的三維運動預(yù)測策略,以解決駕駛場景中的突然運動和短期物體消失問題。具體而言,作者采用檢測速度進行短期關(guān)聯(lián),卡爾曼濾波進行長期關(guān)聯(lián)。

做MOT的都很熟悉卡爾曼濾波來進行運動預(yù)測這個套路了,在開始前,回顧一下怎么利用預(yù)測速度進行運動預(yù)測

舉CenterTrack來說明,有三個輸入分支,分別是當(dāng)前幀/上一幀的RGB圖像、前一幀目標中心分布的heatmap,有四個輸出分支,分別是Heatmap、Confidence、Height&Width以及Displacement Prediction,其中最后一個輸出分支輸出的就是當(dāng)前幀相對于前一幀的速度,通過預(yù)測的速度回溯到前一幀目標可能存在的位置,并根據(jù)相似程度進行關(guān)聯(lián)。

這是一個很經(jīng)典的JDT跟蹤器,由于只是預(yù)測兩幀間的速度,所以用這個方法更多側(cè)重于幀與幀之間的關(guān)聯(lián),很難形成長期的關(guān)聯(lián)和依賴,哪怕是短時遮擋也很容易造成ID switch,這也是基于速度預(yù)測的運動模型的缺點。

在三維場景中,得益于一些檢測器的發(fā)展,能夠通過時間建模準確預(yù)測短期速度,可以很好應(yīng)對速度突變,在短期關(guān)聯(lián)上很有優(yōu)勢;而卡爾曼濾波通過基于歷史信息的狀態(tài)更新對平穩(wěn)的長期速度進行建模,有利于在丟失檢測后也能平滑維持軌跡的狀態(tài)。因此,作者通過雙邊預(yù)測策略最大化了兩種運動模型的優(yōu)勢。

1、采用卡爾曼濾波進行前向預(yù)測,前向預(yù)測用于丟失軌跡的長期關(guān)聯(lián);

2、采用檢測到的物體速度進行后向預(yù)測,后向預(yù)測負責(zé)存活軌跡的短期關(guān)聯(lián);

前向預(yù)測:Kalman Filter的預(yù)測步是基于當(dāng)前時刻的后驗狀態(tài),通過運動方程預(yù)測下一時刻的先驗狀態(tài),預(yù)測的是未來的狀態(tài),因此稱之為前向預(yù)測;

反向預(yù)測:基于檢測器的速度預(yù)測(如CenterTrack)是輸入t幀和t-1幀的圖像信息,來預(yù)測兩幀之間目標的位移量,也就是速度;注意,這里的速度是由t-1幀到t幀產(chǎn)生的,因此可以通過這個速度,把t時刻產(chǎn)生的這個檢測回溯到t-1時刻的位置,因此稱之為反向預(yù)測;

假設(shè)在 t t t時刻有 M M M個檢測目標 D t ∈ R M × 7 D^t\in{R^{M\times7}} DtRM×7以及在 x , y x,y x,y方向上他們的速度為 V t ∈ R M × 2 V^t\in{R^{M\times2}} VtRM×2。通過反向預(yù)測 t ? 1 t-1 t?1時刻的位置可以描述為:
D x t ? 1 ^ = D x t ? V x t \hat{D^{t-1}_x}=D^{t}_x-V^{t}_x Dxt?1?^?=Dxt??Vxt?

D y t ? 1 ^ = D y t ? V y t \hat{D^{t-1}_y}=D^{t}_y-V^{t}_y Dyt?1?^?=Dyt??Vyt?

假設(shè)在 t ? 1 t-1 t?1時刻有 N N N條軌跡 T t ? 1 ∈ R N × 7 T^{t-1}\in{R^{N\times7}} Tt?1RN×7,根據(jù)上文公式,通過卡爾曼濾波前向預(yù)測后,t時刻的位置為:
T x , y , z t = T x , y , z t ? 1 + T ˙ x , y , z t ? 1 T^t_{x,y,z}=T^{t-1}_{x,y,z}+\dot{T}^{t-1}_{x,y,z} Tx,y,zt?=Tx,y,zt?1?+T˙x,y,zt?1?
在雙邊預(yù)測之后,使用ByteTrack中提到的二階段匹配。在第一個高分關(guān)聯(lián)中,反向預(yù)測的檢測結(jié)果 D t ? 1 D^{t-1} Dt?1和軌跡 T t ? 1 T^{t-1} Tt?1之間的相似度矩陣 S t ∈ R M × N S_{t}\in{R^{M\times N}} St?RM×N可以由以下公式計算
S t ( i , j ) = G I O U ( D i t ? 1 , T j t ? 1 ) S_{t}(i,j)=GIOU(D^{t-1}_i,T^{t-1}_j) St?(i,j)=GIOU(Dit?1?,Tjt?1?)

當(dāng)前幀檢測和軌跡的相似度,來源于檢測反向傳播到前一幀的位置和前一幀軌跡的GIOU。

作者用的是GIOU,原因是因為三維場景目標運動速度較大或者幀率較低,相鄰兩幀同一目標的IOU較小甚至為0,可能會被直接過濾掉導(dǎo)致錯誤關(guān)聯(lián)

最后還是利用匈牙利算法對相似度矩陣進行分配。在成功關(guān)聯(lián)后,利用匹配的t幀檢測和軌跡t幀的前向預(yù)測結(jié)果按照卡爾曼更新步驟進行更新。

當(dāng)軌跡丟失的時候,只利用前向預(yù)測,較為“平滑”的更新保留軌跡的位置,以便觀測出現(xiàn)時的重新關(guān)聯(lián),這一步驟作者稱為“rebirth”(其實就是遮擋后的身份恢復(fù))

第二階段的匹配中,也就是低分檢測和未關(guān)聯(lián)上的軌跡進行匹配,關(guān)聯(lián)的方法遵循第一階段匹配的方法。
bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

通常做法中判斷檢測屬于哪個ID,是通過計算檢測和軌跡KF預(yù)測的相似度進行分配的。

而ByteTrackV2中,作者給出判斷當(dāng)前幀檢測屬于哪個id的方法,就是通過速度反向預(yù)測該觀測在前一幀中的位置,看與哪個軌跡的GIOU最大,就把該軌跡的id賦給該觀測,然后通過KF的更新步,將該觀測和該軌跡的t時刻KF預(yù)測結(jié)果進行更新;

說白了,KF的前向預(yù)測每一幀都進行,當(dāng)運動場景簡單,無遮擋情況下,KF預(yù)測結(jié)果只作更新使用;若出現(xiàn)遮擋等情況,KF前向預(yù)測的作用就是為了暫時延續(xù)該軌跡;

另外,作者受到GIAOTracker中NSA Kalman的啟發(fā),將檢測分數(shù)融合進卡爾曼更新步驟中,自適應(yīng)更新卡爾曼濾波中觀測協(xié)方差矩陣R
R t j ^ = α ( 1 ? s t j ) 2 R t j \hat{R^j_t}=\alpha(1-s^j_t)^2R^j_t Rtj?^?=α(1?stj?)2Rtj?

將檢測分數(shù)帶入不確定性矩陣,使KF濾波對不同質(zhì)量的檢測具有更強的魯棒性

3、Unified 2D and 3D Data Association

實現(xiàn)過程與ByteTrack類似:

首先,使用所有的檢測框,將檢測框分為高分檢測框和低分檢測框。 t時刻,基于高分檢測框匹配已有的軌跡,對于當(dāng)前沒有邊界框能夠匹配得上的軌跡,分析原因是occlusion或者motion blur產(chǎn)生的low confidence的邊界框 將低置信度的匹配框同未匹配軌跡進行二次匹配,恢復(fù)低置信度邊界框,同時將背景過濾掉
對應(yīng)偽代碼實現(xiàn)過程:
bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

這里注意幾個細節(jié):

  • Track rebirth: 軌跡丟失檢測后最多保留30幀,超過即刪除
  • Track birth: 在第一次關(guān)聯(lián)中,未匹配上的高分檢測框,作為新生目標,初始化為新的軌跡

作者解釋了二階段關(guān)聯(lián)這個框架 比較work的原因是因為當(dāng)遮擋發(fā)生的時候,往往檢測分數(shù)會下降,高分檢測框代表著那些未被遮擋的目標,因此要先將他們進行匹配。如果有tracklet不匹配任何的高分框,則極有可能該軌跡被遮擋,檢測分數(shù)對應(yīng)下降,因此在第二階段關(guān)聯(lián)中,要把低分框和這些未匹配上的tracklet進行匹配,以此來跟蹤被遮擋的目標。對于低分的FP,因為沒有軌跡與之匹配,也相應(yīng)的被過濾掉。

(六)DATASETS AND METRICS

這部分主要講了使用的數(shù)據(jù)集和評價指標。

主要使用的數(shù)據(jù)集為:

MOT17 dataset

MOT20 dataset

HiEve dataset

BDD100K dataset

nuScenes dataset

具體訓(xùn)練細節(jié)可以參照原文,這里不多說明

(七)EXPERIMENTS

7.1 Implementation Details

介紹了2D和3D的訓(xùn)練方法和超參數(shù)設(shè)置

比較有意思的是,作者針對不同的數(shù)據(jù)集都設(shè)計了不同的訓(xùn)練技巧用于刷榜。具體操作可以看原文,這里不多介紹。

7.2 2D MOT

這部分與ByteTrack內(nèi)容一樣,所謂ByteTrackV2在2D MOT中的應(yīng)用,就是ByteTrack

7.2.1 Ablation Studies
  • Similarity analysis

二階段匹配中每個階段使用的相似性度量,發(fā)現(xiàn)在高分框的第一次匹配中,使用IOU和Re-ID都能獲得不錯的效果,IOU更有利于MOTA,而Re-ID更有利于IDF1;而在第二次對低分框進行匹配中,使用IOU效果更好,原因在于遮擋情況下,Re-ID提取到的外觀特征并不可靠。

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

  • Comparisons with other association methods

比較了二階段關(guān)聯(lián)Byte和其他關(guān)聯(lián)算法,發(fā)現(xiàn)Byte在精度和速度上都很有優(yōu)勢;說明在檢測精度足夠高的情況下,僅僅用IOU也能獲得不錯的效果

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

  • Robustness to detection score threshold

Byte對檢測閾值變化的魯棒性更強,因為Byte恢復(fù)了低分檢測框匹配的權(quán)力,可以恢復(fù)更多因遮擋產(chǎn)生的漏檢

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

  • Analysis on low score detection boxes

可以看到Byte能在低分檢測框中恢復(fù)更多的TP,而不會引入更多的FP

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

7.2.1 Benchmark Evaluation

MOT 17

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

MOT 20

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

HiEve

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

BDD100K

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

作者還給了具體的可視化結(jié)果,對于嚴重遮擋的低分檢測目標,Byte依舊能夠成功關(guān)聯(lián)其身份信息,大大減少了FN和ID switch。

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法
bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

7.3 3D MOT

7.3.1 Ablation Studies
  • Complementary motion prediction

可以看到在相機模式下和激光雷達模式下,KF 和DV的差距不同,說明了激光雷達下可以得到更加準確的檢測結(jié)果,有利于KF濾波器得到更準確的估計;

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

  • Data association strategy

說明二階段關(guān)聯(lián)算法Byte在三維場景下的可行性,并且不需要考慮不同的輸入模態(tài)

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

  • Hyperparameter search

檢測分數(shù)的閾值和GIOU匹配分數(shù)閾值的消融實驗。
從圖8左邊看到由于AMOTA對對象的召回率要求比較高,所以檢測分數(shù)閾值越低,AMOTA越高;然而降低檢測分數(shù)閾值會帶來大量錯誤關(guān)聯(lián),從而影響跟蹤性能,通過網(wǎng)格搜索,發(fā)現(xiàn)基于Camera的最佳閾值為0.25,基于Lidar的最佳閾值為0.2;

右邊觀察到無論是Camera還是Lidar匹配分數(shù)閾值在0.5左右AMOTA最高

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

7.3.1 Benchmark Evaluation

在nuScenes上分別使用Camera和Lidar對其驗證集和測試集進行性能測試

Camera modality

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

LiDAR modality

bytetrack流程圖,論文閱讀,目標跟蹤,計算機視覺,人工智能,深度學(xué)習(xí),算法

(七)Conclusion

本文在二維場景中ByteTrack基礎(chǔ)上,擴展到三維場景,并提出了一種基于速度預(yù)測和卡爾曼濾波預(yù)測融合的互補運動預(yù)測策略,在二維和三維的不同數(shù)據(jù)集上都能到達SOTA指標。該算法對遮擋環(huán)境比較魯棒,并且可以對接不同模態(tài)的檢測器輸入。

本文的思路:

首先分析了通常算法會設(shè)置一個較高的檢測閾值來過濾掉不可靠的檢測,以減少False Positive。但這種做法實則是舍棄low confidence對應(yīng)的occluded objects,這種做法是不可逆的,相當(dāng)于在后續(xù)跟蹤過程中無法將這些the occluded objects與tracklets進行關(guān)聯(lián),從而導(dǎo)致missing detection以及fragmented trajectories,同時由于沒有檢測的更新,KF參數(shù)也會隨著遮擋時間的增加而發(fā)散,導(dǎo)致遮擋結(jié)束后依然會發(fā)生錯誤關(guān)聯(lián)。

接著,考慮使用low confidence的boxes用于數(shù)據(jù)關(guān)聯(lián)。但同時也要思考如何解決引入低置信度帶來的false positive問題。

最后提出二階段匹配的關(guān)聯(lián)模式,第一次采用高置信度的boxes匹配tracklets(高置信度是為了避免引入背景),接著將low confidence的box與一階段中未匹配的tracklets進行匹配(unmatched tracklets可能是因為目標被遮擋而得到了一個low confidence),同時由低分檢測引入的背景因沒匹配的軌跡也將被過濾。

在三維場景中,考慮了目標可能容易出現(xiàn)運動突變或者幀率較低等情況,除了使用KF預(yù)測以保持軌跡的長期運動信息外,還結(jié)合了JDT模式中的速度預(yù)測,用于短期的數(shù)據(jù)關(guān)聯(lián),作者稱之為互補運動預(yù)測。文章來源地址http://www.zghlxwxcb.cn/news/detail-766923.html

到了這里,關(guān)于【論文閱讀】多目標跟蹤—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 偽裝目標檢測模型論文閱讀之:Zoom in and out

    偽裝目標檢測模型論文閱讀之:Zoom in and out

    論文鏈接:https://arxiv.org/abs/2203.02688 代碼;https://github.com/lartpang/zoomnet 最近提出的遮擋對象檢測(COD)試圖分割視覺上與其周圍環(huán)境融合的對象,這在現(xiàn)實場景中是非常復(fù)雜和困難的。除了與它們的背景具有高度的內(nèi)在相似性之外,這些對象通常在尺度上是多樣的,外觀上是模

    2024年01月16日
    瀏覽(30)
  • 【論文閱讀】通過3D和2D網(wǎng)絡(luò)的交叉示教實現(xiàn)稀疏標注的3D醫(yī)學(xué)圖像分割(CVPR2023)

    【論文閱讀】通過3D和2D網(wǎng)絡(luò)的交叉示教實現(xiàn)稀疏標注的3D醫(yī)學(xué)圖像分割(CVPR2023)

    論文:3D Medical Image Segmentation with Sparse Annotation via Cross-Teaching between 3D and 2D Networks 代碼:https://github.com/hengcai-nju/3d2dct 問題1 :醫(yī)學(xué)圖像分割通常需要大量且精確標注的數(shù)據(jù)集。但是獲取像素級標注是一項勞動密集型的任務(wù),需要領(lǐng)域?qū)<腋冻鼍薮蟮呐?,這使得在實際臨床場

    2024年02月05日
    瀏覽(82)
  • [論文閱讀]PillarNeXt——基于LiDAR點云的3D目標檢測網(wǎng)絡(luò)設(shè)計

    [論文閱讀]PillarNeXt——基于LiDAR點云的3D目標檢測網(wǎng)絡(luò)設(shè)計

    PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds 基于LiDAR點云的3D目標檢測網(wǎng)絡(luò)設(shè)計 論文網(wǎng)址:PillarNeXt 代碼:PillarNeXt 這篇論文\\\"PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds\\\"重新思考了用于激光雷達點云3D目標檢測的網(wǎng)絡(luò)設(shè)計。主要的貢獻

    2024年02月08日
    瀏覽(28)
  • [論文閱讀]MV3D——用于自動駕駛的多視角3D目標檢測網(wǎng)絡(luò)

    [論文閱讀]MV3D——用于自動駕駛的多視角3D目標檢測網(wǎng)絡(luò)

    Multi-View 3D Object Detection Network for Autonomous Driving 用于自動駕駛的多視角3D目標檢測網(wǎng)絡(luò) 論文網(wǎng)址:MV3D 這篇論文提出了一個多視角3D目標檢測網(wǎng)絡(luò)(MV3D),用于自動駕駛場景下高精度的3D目標檢測。主要的創(chuàng)新點有: 提出了一種緊湊的多視角表示方法來編碼稀疏的3D點云數(shù)據(jù)。該方法

    2024年02月08日
    瀏覽(24)
  • 【論文閱讀】【3d目標檢測】Embracing Single Stride 3D Object Detector with Sparse Transformer

    【論文閱讀】【3d目標檢測】Embracing Single Stride 3D Object Detector with Sparse Transformer

    論文標題:Embracing Single Stride 3D Object Detector with Sparse Transformer 源碼地址:https://github.com/TuSimple/SST CVPR2022 文章寫得很好! 文章從2d 3d目標檢測目標的尺寸的不同入手,在2d目標檢測中確實由于圖像近大遠小的尺寸關(guān)系 存在著圖像中物體尺寸長尾的問題: 如coco數(shù)據(jù)集中,大小

    2023年04月15日
    瀏覽(25)
  • [論文閱讀]H3DNet——基于混合幾何基元的3D目標檢測

    [論文閱讀]H3DNet——基于混合幾何基元的3D目標檢測

    3D Object Detection Using Hybrid Geometric Primitives 論文網(wǎng)址:H3DNet 這篇論文提出了H3DNet,一個用于3D對象檢測的端到端神經(jīng)網(wǎng)絡(luò)。該方法的關(guān)鍵創(chuàng)新點是預(yù)測一個混合的、過完備的幾何基元集合(包括邊界框中心、面中心和邊中心),然后擬合檢測到的對象以契合這些原語及其相關(guān)特征。主

    2024年02月07日
    瀏覽(23)
  • [論文閱讀]MVX-Net——基于3D目標檢測的多模態(tài)VoxelNet

    [論文閱讀]MVX-Net——基于3D目標檢測的多模態(tài)VoxelNet

    MVX-Net: Multimodal VoxelNet for 3D Object Detection 基于3D目標檢測的多模態(tài)VoxelNet 論文網(wǎng)址:MVX-Net 這篇論文主要提出了兩種多模態(tài)融合方法,PointFusion和VoxelFusion,用于將RGB圖像特征與點云特征結(jié)合,從而提高3D目標檢測的性能。論文的主要內(nèi)容和貢獻總結(jié)如下: 提出了兩種簡單有效的多模

    2024年02月07日
    瀏覽(137)
  • [論文閱讀]MVF——基于 LiDAR 點云的 3D 目標檢測的端到端多視圖融合

    [論文閱讀]MVF——基于 LiDAR 點云的 3D 目標檢測的端到端多視圖融合

    End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds 論文網(wǎng)址:MVF 論文代碼: 這篇論文提出了一個端到端的多視角融合(Multi-View Fusion, MVF)算法,用于在激光雷達點云中進行3D目標檢測。論文的主要貢獻有兩個: 提出了動態(tài)體素化(Dynamic Voxelization)的概念。相比傳統(tǒng)的硬體素

    2024年01月23日
    瀏覽(18)
  • [論文閱讀]Voxel R-CNN——邁向高性能基于體素的3D目標檢測

    [論文閱讀]Voxel R-CNN——邁向高性能基于體素的3D目標檢測

    Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection 邁向高性能基于體素的3D目標檢測 論文網(wǎng)址:Voxel R-CNN 論文代碼:Voxel R-CNN 該論文提出了 Voxel R-CNN,這是一種基于體素的高性能 3D 對象檢測框架。作者認為,原始點的精確定位對于準確的目標檢測并不重要,粗體素粒度可

    2024年02月07日
    瀏覽(83)
  • 目標跟蹤 | 3D目標跟蹤高級入門!

    目標跟蹤 | 3D目標跟蹤高級入門!

    點擊下方 卡片 ,關(guān)注“ 自動駕駛之心 ”公眾號 ADAS巨卷干貨,即可獲取 點擊進入→ 自動駕駛之心【目標跟蹤】技術(shù)交流群 后臺回復(fù) 【目標跟蹤綜述】 獲取單目標、多目標、基于學(xué)習(xí)方法的領(lǐng)域綜述! 當(dāng)我從事自動駕駛工作的時候,曾經(jīng)接到了一個任務(wù): 指導(dǎo)一組感知實

    2024年02月01日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包