在本文中,研究者提出了一個完全稀疏且以體素為基礎(chǔ)的3D物體檢測和跟蹤框架VoxelNeXt。它采用簡單的技術(shù),運行快速,沒有太多額外的成本,并且可以在沒有NMS后處理的情況下以優(yōu)雅的方式工作。VoxelNeXt在大規(guī)模數(shù)據(jù)集nuScenes、Waymo和Argoverse2上表現(xiàn)出很好的速度和精度;在Argoverse2 3D檢測和nuScenes 3D LiDAR跟蹤上取得了SOTA的結(jié)果。
想要關(guān)注該項工作的更多內(nèi)容?歡迎查看來自本文作者陳玉康帶來的Talk分享!
正在上傳…重新上傳取消https://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650447242&idx=1&sn=91d75e69b9486ccbe0818123a3c079e4&scene=21#wechat_redirect
論文鏈接:https://arxiv.org/abs/2303.11301
代碼鏈接:https://github.com/dvlab-research/VoxelNeXt
一、摘要
目前,自動駕駛場景的3D檢測方法大多采用稠密特征的檢測頭,而3D點云數(shù)據(jù)本身是稀疏的,這無疑是一種低效和浪費計算量的做法。我們提出了一種全稀疏的3D 檢測框架 VoxelNeXt. 該方法可以直接從稀疏的體素特征來預測3D物體,無需借助成anchor, center, voting等中間狀態(tài)的媒介。
此外,該方法在取得檢測速度優(yōu)勢的同時,還能很好地幫助多目標跟蹤。VoxelNeXt在大規(guī)模公開數(shù)據(jù)集nuScenes、Waymo、Argoverse2上都取得了很好的效果,并在Argoverse2 LiDAR 檢測和nuScenes LiDAR多目標跟蹤上取得SOTA。此外,VoxelNeXt由于其全稀疏的特性,能夠很好地結(jié)合 Segment Anything [1],在點擊圖像的同時不僅能獲得2D mask,還能獲得 3D box,可以在很大程度上方便3D物體的標注https://github.com/dvlab-research/3D-Box-Segment-Anything。
二、背景介紹
3D感知是自主駕駛系統(tǒng)中的一個基本組成部分。3D檢測網(wǎng)絡(luò)以稀疏點云或體素作為輸入。大多數(shù)3D目標檢測器[2, 3, 4]通常使用稀疏卷積網(wǎng)絡(luò)(Sparse CNNs)[5]進行特征提取,因其效率高。受2D目標檢測框架啟發(fā),現(xiàn)有的方法通常用錨點[2, 3]或中心點[4]來預測,即CenterPoint [4]中的密集點錨點。它們都是手工制作的,作為3D對象的中間代理。
然而,錨點和中心點設(shè)計初衷是針對常規(guī)和網(wǎng)格結(jié)構(gòu)的圖像數(shù)據(jù),并不考慮三維數(shù)據(jù)的稀疏性和不規(guī)則性。為了使用這些代理表示法,主流的檢測器將3D稀疏特征轉(zhuǎn)換為二維密集特征,以構(gòu)建有序錨點或中心的密集檢測頭。雖然有用,但這種dense head的方式顯然是不夠高效的。
圖 1 CenterPoint 點云輸入和BEV heatmap
在圖1中,我們展示了CenterPoint[4]中的熱力圖。很明顯,大部分空間幾乎沒有預測得分。由于固有的稀疏性和許多背景點,只有少數(shù)點有響應,在nuScenes驗證集上Car類平均少于1%的點。然而,現(xiàn)有的檢測頭會在特征圖中所有位置進行計算,它們不僅浪費了很多計算資源,還用冗余的預測使檢測管道變得更加復雜。需要使用非極大值抑制(NMS)之類的后處理方法來消除重復的檢測結(jié)果。這些限制促使我們尋求替代的稀疏檢測解決方案。
圖 2 VoxelNeX和主流檢測框架結(jié)構(gòu)對比
三 、方法介紹
在本文中,我們提出了VoxelNeXt。它是一種簡單,高效且無需后處理的3D物體檢測器。我們設(shè)計的核心是直接從體素特征中預測3D物體,使用一種強大的完全稀疏卷積網(wǎng)絡(luò)。如圖2所示,我們方法的關(guān)鍵優(yōu)勢在于,可以擺脫錨點代理,稀疏轉(zhuǎn)密集,區(qū)域建議網(wǎng)絡(luò)和其他復雜的組件。
圖 3 VoxelNeXt 框架具體細節(jié)
VoxelNeXt 包含了4個實現(xiàn)細節(jié):1)?多下采樣兩次,2) 將3D稀疏體素壓縮成2D 稀疏體素,3)sparse max pooling (可以和NMS替代),4)用3x3 sparse conv或FC來預測物體。
圖 4 多下采樣兩次對于預測結(jié)果和感受野的影響
其中,“多下采樣兩次”是對于效果來說最重要的操作。想實現(xiàn)“從稀疏的體素直接預測物體”的前提是體素特征需要有足夠大的感受野。而“多下采樣兩次”剛好彌補了感受野的不足,如圖4所示。且非常好實現(xiàn),也不會增加太多額外的計算量。
四 、實驗分析
我們統(tǒng)計了用于預測物體的體素 (query voxel) 和相應預測框之間的關(guān)系表格,如表1所示??梢钥闯?,大多數(shù)的物體都是基于靠近物體邊界的體素預測出來的,而非靠近中心的體素。對于一些比較小的物體,如Pedestrian,甚至可以用物體以外的體素進行預測,如圖5所示。
表 1 預測物體的體素和預測框之間的位置關(guān)系
圖 5 預測物體的體素(query voxel)和預測框
我們還對比了和基于中心點預測的傳統(tǒng)方法CenterPoint的結(jié)果,發(fā)現(xiàn)VoxelNeXt相比于CenterPoint的優(yōu)勢主要來自于在物體方向(Orientation)上的精準預測。相比于中心點,靠近物體邊界的體素可能對物體方向有著更好的把控。
此外,我們還在Argoverse2數(shù)據(jù)集上進行了實驗。相比于Waymo, nuScenes等75m半徑的檢測范圍,Argoverse2最大的檢測范圍是200m半徑。如圖6所示,CenterPoint這種稠密的檢測頭會隨著檢測范圍的增加而急劇增加。而FSD [5] 和 VoxelNeXt 這類全稀疏的檢測器速度恒定,其中VoxelNeXt由于其簡潔性,速度快。
圖 6 在Argoverse2數(shù)據(jù)集上,不同檢測范圍消耗的計算時間
五 、結(jié)合 Segment Anything
圖 7 結(jié)合Segment Anything和VoxelNeXt進行 promtable 3D檢測
我們在 Segment Anything 的基礎(chǔ)上加入了VoxelNeXt 3D物體檢測??梢灾苯狱c擊圖像,不僅能獲得2D mask,還能獲得3D框。這樣的結(jié)合把3D檢測變成了promtable的,可以在很大程度上方便3D物體的標注。
六 、后記
我們提出了一個完全稀疏且以體素為基礎(chǔ)的3D物體檢測和跟蹤框架VoxelNeXt。它采用簡單的技術(shù),運行快速,沒有太多額外的成本,并且可以在沒有NMS后處理的情況下以優(yōu)雅的方式工作。我們首次展示了直接基于體素的預測是可行和有效的。因此,錨點或中心以及密集頭變得不必要。VoxelNeXt在大規(guī)模數(shù)據(jù)集nuScenes [7]、Waymo [8] 和Argoverse2 [9]?上表現(xiàn)出很好的速度和精度。VoxelNeXt在Argoverse2 3D檢測和nuScenes 3D LiDAR跟蹤上取得了SOTA的結(jié)果。
參考文獻
[1]?Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Doll{'a}r, Ross Girshick
[2]?Shaoshuai Shi, Chaoxu Guo, Li Jiang, Zhe Wang, Jianping Shi, Xiaogang Wang, and Hongsheng Li. PV-RCNN: pointvoxel feature set abstraction for 3d object detection. In CVPR, pages 10526–10535, 2020.
[3]?Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, and Houqiang Li. Voxel R-CNN: towards high performance voxel-based 3d object detection. In AAAI, pages 1201–1209, 2021.
[4]?Tianwei Yin, Xingyi Zhou, and Philipp Krahenbuhl. Centerbased 3d object detection and tracking. In CVPR, pages 11784–11793, 2021.
[5]?Benjamin Graham, Martin Engelcke, and Laurens van der Maaten. 3d semantic segmentation with submanifold sparse convolutional networks. In CVPR, pages 9224–9232, 2018.
[6]?Lue Fan, Feng Wang, Naiyan Wang, Zhaoxiang Zhang, Fully Sparse 3D Object Detection, NeurIPS 2022
[7]?Holger Caesar and at.al. nuscenes: A multimodal dataset for autonomous driving. In CVPR, pages 11618–11628, 2020.
[8]?Pei Sun and et. al. Scalability in perception for autonomous driving: Waymo open dataset. In CVPR, pages 2443–2451, 2020.
[9]?Benjamin Wilson and et. al. Argoverse 2: Next generation datasets for self-driving perception and forecasting. In NeurIPS, 2021.
作者:陳玉康
Illustration by IconScout Store from IconScout文章來源:http://www.zghlxwxcb.cn/news/detail-485156.html
-The End-文章來源地址http://www.zghlxwxcb.cn/news/detail-485156.html
到了這里,關(guān)于CVPR 2023 | VoxelNeXt實現(xiàn)全稀疏3D檢測跟蹤,還能結(jié)合Seg Anything的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!