點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）

這篇具有很好參考價值的文章主要介紹了點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

聲明：此翻譯僅為個人學(xué)習(xí)記錄

文章信息

標(biāo)題：RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection (ICCV 2021)

作者：Lue Fan^*, Xuan Xiong^*, Feng Wang, Naiyan Wang, Zhaoxiang Zhang (^*The first two authors contribute equally to this work and are listed in the alphabetical order.)

文章鏈接：https://openaccess.thecvf.com/content/ICCV2021/papers/Fan_RangeDet_In_Defense_of_Range_View_for_LiDAR-Based_3D_Object_ICCV_2021_paper.pdf

文章代碼：https://github.com/TuSimple/RangeDet

摘要

??在本文中，我們提出了一種基于無錨單級激光雷達的3D目標(biāo)檢測器——RangeDet。與以前的工作最顯著的區(qū)別是，我們的方法完全基于距離視圖表示。與常用的體素化或鳥瞰圖（BEV）表示相比，距離視圖表示更緊湊，沒有量化誤差。盡管有工作將其用于語義分割，但其在目標(biāo)檢測中的性能在很大程度上落后于體素化或BEV對應(yīng)物。我們首先分析了現(xiàn)有的基于距離視圖的方法，并發(fā)現(xiàn)了先前工作中忽略的兩個問題：1）附近和遠(yuǎn)處目標(biāo)之間的尺度變化；2）特征提取中使用的2D距離圖像坐標(biāo)與輸出中使用的3D笛卡爾坐標(biāo)之間的不一致。然后我們在RangeDet中故意設(shè)計了三個組件來解決這些問題。我們在大規(guī)模Waymo開放數(shù)據(jù)集（WOD）中測試了RangeDet。我們的最佳模型在車輛/行人/騎車人上實現(xiàn)了72.9/75.9/65.8 3D AP。這些結(jié)果在很大程度上優(yōu)于其他基于距離視圖的方法，總體上與最先進的基于多視圖的方法相當(dāng)。代碼將發(fā)布于https://github.com/TuSimple/RangeDet。

1. 引言

??基于激光雷達的三維目標(biāo)檢測是自動駕駛場景中不可或缺的技術(shù)。盡管有一些相似之處，但3D稀疏點云中的目標(biāo)檢測與2D中的目標(biāo)檢測有著本質(zhì)上的不同。關(guān)鍵是有效地表示稀疏和無序的點云，以便后續(xù)處理。幾種常見的表示包括鳥瞰圖（BEV）[9、38、37]、點視圖（PV）[25]、距離視圖（RV）[11、18]以及它們的融合[24、44、33]，如圖1所示。其中，BEV最受歡迎。然而，當(dāng)將空間劃分為體素或柱體時，它會引入量化誤差，這對于可能只有幾個點的遠(yuǎn)處目標(biāo)來說是不友好的。為了克服這一缺點，通常采用點視圖表示法。點視圖算子[22，23，34，31，35，30，17]可以從無序的點云中提取有效的特征，但它們很難有效地擴展到大規(guī)模的點云數(shù)據(jù)。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

圖1. 基于LiDAR的3D目標(biāo)檢測中的不同視圖。

??距離視圖在語義分割任務(wù)中被廣泛采用[19，36，42，43]，但很少單獨用于目標(biāo)檢測。然而，在本文中，我們認(rèn)為距離視圖本身是表示LiDAR點云的最緊湊和信息最豐富的方式，因為它是從單個視點生成的。它基本上形成了2.5D[7]場景，而不是完整的3D點云。因此，在距離視圖中組織點云不會遺漏任何信息。緊湊性還支持基于距離圖像坐標(biāo)的快速鄰域查詢，而點視圖方法通常需要耗時的球查詢算法[23]來獲取鄰域。此外，基于距離視圖的檢測器的有效檢測距離可以盡可能遠(yuǎn)地接近傳感器的可用性，而我們必須為基于BEV的3D檢測器的檢測距離設(shè)置閾值。盡管有其優(yōu)點，但一個有趣的問題是，為什么基于距離視圖的激光雷達檢測結(jié)果不如其他表示形式？

??事實上，一些作品試圖利用距離視圖，從開創(chuàng)性作品VeloFCN[11]到LaserNet[18]，再到最近提出的RCD[1]。然而，基于純距離視圖的方法和基于BEV的方法之間仍然存在巨大的差距。例如，在Waymo開放數(shù)據(jù)集（WOD）[29]上，它們?nèi)匀淮蟠蟮陀谧钕冗M的方法。

??為了解放距離視圖表示的能力，我們檢查了當(dāng)前基于距離視圖的檢測器的設(shè)計，并發(fā)現(xiàn)了幾個被忽略的事實。這些觀點看似簡單明了，但我們發(fā)現(xiàn)魔鬼在細(xì)節(jié)上。正確處理這些挑戰(zhàn)是高性能基于距離視圖的檢測的關(guān)鍵。

??首先，在BEV中檢測具有稀疏點的目標(biāo)的挑戰(zhàn)被轉(zhuǎn)換為距離圖像中的尺度變化的挑戰(zhàn)，這在基于距離視圖的3D檢測器中從未被認(rèn)真考慮過。

??第二，2D距離視圖自然緊湊，這使得可以采用高分辨率輸出而無需巨大的計算負(fù)擔(dān)。然而，當(dāng)前基于距離圖像的設(shè)計忽略了如何利用這些特性來提高檢測器的性能。

??第三，也是最重要的，與2D圖像不同，盡管距離圖像上的卷積是在2D像素坐標(biāo)上進行的，而輸出是在3D空間中。這一點表明，當(dāng)前基于距離視圖的檢測器的設(shè)計較差：標(biāo)準(zhǔn)卷積的核權(quán)重和聚合策略都忽略了這種不一致性，即使從網(wǎng)絡(luò)的一開始，這也會導(dǎo)致嚴(yán)重的幾何信息丟失。

??在本文中，我們提出了一種基于純距離視圖的框架——RangeDet，它是一種單級無錨檢測器，旨在解決上述挑戰(zhàn)。我們分析了現(xiàn)有基于距離視圖的3D檢測器的缺陷，并指出了需要解決的上述三個關(guān)鍵挑戰(zhàn)。對于第一個挑戰(zhàn)，我們提出了一個簡單但有效的距離條件金字塔來緩解它。對于第二個挑戰(zhàn)，使用加權(quán)非最大抑制來解決這個問題。對于第三種，我們提出元核來從2D距離視圖表示中捕獲3D幾何信息。除了這些技術(shù)，我們還探討了如何將常見的數(shù)據(jù)增強技術(shù)從3D空間轉(zhuǎn)移到距離視圖。結(jié)合所有技術(shù)，我們的最佳模型在多個視圖中獲得了與最先進的作品相當(dāng)?shù)慕Y(jié)果。在車輛檢測中，我們超過了以前的基于純距離視圖的檢測器20個3D AP。有趣的是，與普遍的看法相反，RangeDet對于更遠(yuǎn)或更小的目標(biāo)比BEV表示更有利。

2. 相關(guān)工作

基于BEV的3D檢測器?；贚iDAR的3D檢測的幾種方法將整個3D空間離散化。3DFCN[10]和PIXOR[38]將手工特征編碼為體素，而VoxelNet[45]是第一個使用端到端學(xué)習(xí)體素特征的。SECOND[37]通過稀疏卷積加速VoxelNet。PointPillars[9]在特征縮減方面非常激進，它應(yīng)用PointNet首先折疊高度維度，然后將其視為偽圖像。

基于點視圖的3D檢測器。F-PointNet[21]首先生成與2D感興趣區(qū)域（ROI）相對應(yīng)的平截頭體，然后使用PointNet[22]分割前景點并回歸3D邊界框。PointRCNN[25]直接從整個點云生成3D建議，而不是通過在建議生成和細(xì)化中使用PointNet++[23]使用點云進行3D檢測的2D圖像。IPOD[39]和STD[40]都是兩個階段的方法，它們使用前景點云作為種子來生成建議，并在第二階段對其進行細(xì)化。最近，LiDAR RCNN[13]提出了一種通用的提案細(xì)化結(jié)構(gòu)，解決了提案的大小模糊問題。

基于距離視圖的3D檢測器。VeloFCN[11]是距離圖像檢測領(lǐng)域的一項開創(chuàng)性工作，它將點云投影到2D，并應(yīng)用2D卷積來密集預(yù)測每個前景點的3D框。LaserNet[18]使用完全卷積網(wǎng)絡(luò)來預(yù)測每個點的多模態(tài)分布，以生成最終預(yù)測。最近，RCD[1]通過學(xué)習(xí)尺度變化的動態(tài)擴展和偽LiDAR[32]中指出的“邊界模糊”問題的軟距離門控，解決了基于距離視圖的檢測中的挑戰(zhàn)。

基于多視圖的3D檢測器。MV3D[2]是第一個融合前視圖、BEV和相機視圖中的特征用于3D目標(biāo)檢測的工作。PV-RCNN[24]聯(lián)合編碼點和體素信息，以生成高質(zhì)量的3D建議。MVF[44]從不同角度為每個點提供了豐富的上下文信息，以改進小目標(biāo)的檢測。

2D檢測器。尺度變化是二維目標(biāo)檢測中的一個長期問題。SNIP[27]和SNIPER[28]基于圖像金字塔的思想將提案重新縮放到標(biāo)準(zhǔn)化大小。FPN[14]及其變體[16，20]構(gòu)建了特征金字塔，這已成為現(xiàn)代檢測器不可或缺的組件。TridentNet[12]構(gòu)建權(quán)重共享分支，但使用不同的擴展來構(gòu)建比例感知特征圖。

3. 距離視圖表示的回顧

??在本節(jié)中，我們將快速回顧激光雷達數(shù)據(jù)的距離視圖表示。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

圖2. 此處距離圖像的圖示。

??對于在一個掃描周期內(nèi)具有m個光束和n次測量的LiDAR，一次掃描的返回值形成一個m×n矩陣，稱為距離圖像（圖1）。距離圖像的每一列共享一個方位角，距離圖像的各行共享一個傾角。它們表示返回點相對于激光雷達原點的相對垂直和水平角度。距離圖像中的像素值包含對應(yīng)點的距離（深度）、返回的激光脈沖的幅度（稱為強度）和其他輔助信息。距離圖像中的一個像素至少包含三個幾何值：距離r、方位角θ和傾角φ。然后，這三個值定義了球面坐標(biāo)系。圖2說明了距離圖像的形成和這些幾何值。通常使用的具有笛卡爾坐標(biāo)的點云數(shù)據(jù)實際上是從球面坐標(biāo)系解碼的：
點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺
其中x，y，z表示點的笛卡爾坐標(biāo)。請注意，距離視圖僅對從一個視點進行的掃描有效。它不適用于一般點云，因為它們可能在距離圖像中重疊一個像素。

??與其他激光雷達數(shù)據(jù)集不同，WOD直接提供原生距離圖像。除了距離和強度值，WOD還提供了另一種信息，稱為伸長率[29]。伸長測量激光脈沖的寬度被拉長的程度，這有助于區(qū)分假目標(biāo)。

4. 方法

??在本節(jié)中，我們首先詳細(xì)介紹RangeDet的三個組件。然后給出了完整的體系結(jié)構(gòu)。

4.1 距離條件金字塔

??在2D檢測中，通常采用基于特征金字塔的方法，如特征金字塔網(wǎng)絡(luò)（FPN）[14]來解決尺度變化問題。我們首先構(gòu)建FPN中的特征金字塔，如圖4所示。盡管特征金字塔的構(gòu)造與二維目標(biāo)檢測中的FPN相似，但不同之處在于如何將每個目標(biāo)分配到不同的層進行訓(xùn)練。在原始FPN中，根據(jù)其在2D圖像中的面積指定真值邊界框。然而，簡單地采用這種分配方法忽略了2D目標(biāo)圖像和3D笛卡爾空間之間的差異。附近的客車可能與遠(yuǎn)處的卡車有相似的區(qū)域，但它們的掃描模式有很大不同。因此，我們指定具有相似距離的目標(biāo)由同一層處理，而不是純粹使用FPN中的區(qū)域。因此，我們將我們的結(jié)構(gòu)命名為距離條件金字塔（RCP）。

4.2 元核卷積

??與RGB圖像相比，深度信息賦予距離圖像以笛卡爾坐標(biāo)系，然而標(biāo)準(zhǔn)卷積被設(shè)計用于規(guī)則像素坐標(biāo)上的2D圖像。對于卷積核內(nèi)的每個像素，權(quán)重僅取決于相對像素坐標(biāo)，這不能充分利用來自笛卡爾坐標(biāo)的幾何信息。在本文中，我們設(shè)計了一種新的算子，它從相對笛卡爾坐標(biāo)或更多元數(shù)據(jù)中學(xué)習(xí)動態(tài)權(quán)重，使卷積更適合于距離圖像。

??為了更好地理解，我們首先將標(biāo)準(zhǔn)卷積分解為四個部分：采樣、權(quán)重獲取、乘法和聚合。

1）取樣。標(biāo)準(zhǔn)卷積中的采樣位置是規(guī)則網(wǎng)格G，其具有k_h×k_w相對像素坐標(biāo)。例如，具有擴張1的常見3×3采樣網(wǎng)格為：
點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺
對于輸入特征映射F上的每個位置p₀，我們通常使用im2col運算對其鄰居F（p₀+p_n），p_n∈G的特征向量進行采樣。

2）權(quán)重獲取。每個采樣位置（p₀+p_n）的權(quán)重矩陣W（p_n）∈R^Cout×Cin取決于p_n，并且對于給定的特征圖是固定的。這也被稱為卷積的“權(quán)重共享”機制。

3）乘法。我們將標(biāo)準(zhǔn)卷積的矩陣乘法分解為兩個步驟。第一步是逐像素矩陣乘法。對于每個采樣點（p₀+p_n），其輸出定義為
點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺
4）聚合。乘法之后，第二步是對G中的所有o_p0（p_n）求和，這被稱為按通道道求和。

??總之，標(biāo)準(zhǔn)卷積可以表示為：
點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺
??在我們的距離視圖卷積中，我們期望卷積運算能夠感知局部3D結(jié)構(gòu)。因此，我們通過元學(xué)習(xí)方法使權(quán)重自適應(yīng)于局部3D結(jié)構(gòu)。

??對于權(quán)重獲取，我們首先收集每個采樣位置的元信息，并將該關(guān)系向量表示為h（p₀，p_n）。h（p₀，p_n）通常包含相對笛卡爾坐標(biāo)、距離值等。然后我們基于h（p₀，p_n）生成卷積權(quán)重W_p0（p_n）。具體而言，我們應(yīng)用具有兩個完全連接層的多層感知器（MLP）：
點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺
??對于乘法，而不是矩陣乘法，我們簡單地使用逐元素乘積來獲得op0（pn），如下所示：

我們不使用矩陣乘法，因為我們的算法在大型點云上運行，并且節(jié)省形狀為H×W×C_out×k_h×k_w×C_in的權(quán)重張量需要太多GPU內(nèi)存。受深度卷積的啟發(fā)，元素乘積從權(quán)重張量中消除了C_out維數(shù)，這大大減少了內(nèi)存消耗。然而，在逐元素積中沒有跨通道融合。我們把它留給聚合步驟。

??對于聚合，而不是按通道求和，我們連接所有o_p0（p_n），?p_n∈G，并將其傳遞到完全連接的層，以聚合來自不同通道和不同采樣位置的信息。

??綜上所述，元內(nèi)核可以公式化為：
點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺
其中A是包含級聯(lián)和完全連接層的聚合操作。圖3提供了元內(nèi)核的清晰圖示。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

圖3. 元內(nèi)核的圖示（最好用彩色查看）。以3x3采樣網(wǎng)格為例，我們可以獲得中心九個鄰居的相對笛卡爾坐標(biāo)。共享MLP將這些相對坐標(biāo)作為輸入，生成九個權(quán)重向量：w₁、w₂、··、w₉。然后我們采樣九個輸入特征向量：f₁、f₂、··、f₉。o_i是w_i和f_i的元素乘積。通過將來自9個鄰居的o_i級聯(lián)到1×1卷積，我們聚合來自不同通道和不同采樣位置的信息，并獲得輸出特征向量。

與基于點的運算符進行比較。盡管與基于點的卷積類算子有一些相似之處，但元內(nèi)核與它們有三個顯著的區(qū)別。（1）定義空間。元內(nèi)核是在2D距離視圖中定義的，而其他內(nèi)核是在3D空間中定義的。因此，元核具有規(guī)則的n×n鄰域，而基于點的算子具有不規(guī)則的鄰域。（2）聚合。三維空間中的點是無序的，因此基于點的算子中的聚合步驟通常是置換不變的。最大池和求和被廣泛采用。RV中的n×n個鄰居是置換變量，這是元核采用級聯(lián)和全連接層作為聚合步驟的自然優(yōu)勢。（3）效率。基于點的運算符涉及耗時的關(guān)鍵點采樣和鄰居查詢。例如，在單個2080Ti GPU中，使用最遠(yuǎn)點采樣（FPS）[23]將160K點下采樣到16K需要6.5秒，這也在RandLA Net中進行了分析[8]。一些基于點的算子，如PointConv[35]、KPConv[30]和Continuous Conv[31]的原生版本，為每個點生成權(quán)重矩陣或特征矩陣，因此它們在處理大規(guī)模點云時面臨嚴(yán)重的內(nèi)存問題。這些缺點使基于點的算子無法應(yīng)用于自動駕駛場景中的大規(guī)模點云（超過105點）。

4.3 加權(quán)非最大抑制

??如前所述，如何利用距離視圖表示的緊湊性來提高基于距離圖像的檢測器的性能是一個重要課題。在常見的目標(biāo)檢測器中，提案不可避免地與提案分布的平均值存在隨機偏差。要得到一個偏差較小的提案，最直接的方法就是選擇一個置信度最高的提案。而消除偏差的更好、更有力的方法是使用所有可用提案的多數(shù)票?，F(xiàn)成的技術(shù)正好符合我們的需求——加權(quán)NMS[5]。我們的方法有一個優(yōu)點：緊湊性的性質(zhì)使得RangeDet可以在全分辨率特征圖中生成提案，而無需巨大的計算成本，但是對于大多數(shù)基于BEV或基于點視圖的方法來說，這是不可行的。有了更多的提案，偏差將得到更好的消除。

??我們首先過濾出得分低于預(yù)定義閾值0.5的提案，然后按照標(biāo)準(zhǔn)NMS中的預(yù)測得分對提案進行排序。對于當(dāng)前排名靠前的提案b₀，我們找出具有b₀的IoU高于0.5的提案。b₀的輸出邊界框是這些提案的加權(quán)平均值，可以描述為：
點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺
其中b_k和s_k表示其他提案和相應(yīng)的分?jǐn)?shù)。t是IoU閾值，為0.5。I（·）是指示函數(shù)。

4.4 距離視圖中的數(shù)據(jù)增強

??隨機全局旋轉(zhuǎn)、隨機全局翻轉(zhuǎn)和復(fù)制粘貼是基于激光雷達的三維目標(biāo)檢測器的三種典型數(shù)據(jù)增強。盡管它們在3D空間中很簡單，但在保留RV結(jié)構(gòu)的同時，將它們轉(zhuǎn)移到RV是非常重要的。

??點云的旋轉(zhuǎn)可以視為距離圖像沿方位角方向的平移。3D空間中的翻轉(zhuǎn)對應(yīng)于相對于一個或兩個垂直軸的距離圖像的翻轉(zhuǎn)（我們在補充材料中提供了清晰的說明）。從最左邊的列到最右邊，方位角的跨度為（?π，π）。因此，與2D RGB圖像的增強不同，我們計算每個點的新坐標(biāo)以使其與方位角保持一致。對于復(fù)制粘貼[37]，目標(biāo)將使用其原始垂直像素坐標(biāo)粘貼到新距離圖像上。我們只能保持RV（非均勻垂直角分辨率）的結(jié)構(gòu)，并通過這種處理避免目標(biāo)大量偏離地面。此外，遠(yuǎn)處的汽車不應(yīng)貼在附近墻壁的前面，因此我們進行“距離測試”以避免這種情況。

4.5 體系結(jié)構(gòu)

整體管道。RangeDet的架構(gòu)如圖4所示。八個輸入距離圖像通道包括距離、強度、延伸率、x、y、z、方位角和傾角，如第3節(jié)所述。元內(nèi)核被放置在第二個基本塊[6]中。特征圖被向下采樣到步幅16，并逐漸向上采樣到全分辨率。接下來，我們根據(jù)框中心的距離，將每個真值邊界框分配給RCP中步幅1、2、4的層。對應(yīng)點位于真值3D邊界框中的所有位置都被視為正樣本，否則為負(fù)樣本。最后，我們采用加權(quán)NMS來消除提案的重復(fù)并生成高質(zhì)量的結(jié)果。

RCP和元內(nèi)核。在WOD中，點的距離從0m到80m不等。根據(jù)真值邊界框中的點分布，我們將[0，80]劃分為3個區(qū)間：[0，15），[15，30），[30，80]。我們使用具有64個濾波器的兩層MLP從相對笛卡爾坐標(biāo)生成權(quán)重。采用ReLU作為激活。

IoU預(yù)測頭。在分類分支中，我們采用了一項非常新的工作——變焦損失[41]來預(yù)測預(yù)測邊界框和真值邊界框之間的IoU。我們的分類損失定義為：
點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺
其中M是有效點數(shù)，i是點索引。VFL_i是每個點的變焦距損失：

其中p是預(yù)測得分，q是預(yù)測邊界框和真值邊界框之間的IoU。α和γ在焦損中起著類似的作用[15]。

回歸頭。回歸分支還包含四個3×3 Conv，與分類分支相同。我們首先將包含點i（這里，點實際上是特征地圖中的一個位置，并對應(yīng)于笛卡爾坐標(biāo)。為了更好地理解，我們?nèi)匀环Q之為一個點。）的真值邊界框公式化為 $(x^g_i，y^g_i，z^g_i，l^g_i，w^g_i，h^g_i，θ^g_i)$ ，以分別表示邊界框中心、維度和方向的坐標(biāo)。點i的笛卡爾坐標(biāo)為 $x_i，y_i，z_i)$ 。我們將點i和包含點i的邊界框中心之間的偏移定義為 $?r_i=r^g_i?r_i$ ，r∈{x，y，z}。對于點i，我們將其方位角方向視為其局部x軸，這與LaserNet中的相同[18]。我們制定這種轉(zhuǎn)換公式如下（圖5提供了一個清晰的說明）：
點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺
其中，αi表示點i的方位角，以及 $x_i，?y_i，?z_i]$ 是要回歸的變換坐標(biāo)偏移。這樣的變換目標(biāo)適合于基于距離圖像的檢測，因為目標(biāo)在距離圖像中的外觀不會隨著固定距離內(nèi)的方位角而改變。因此，使回歸目標(biāo)的方位不變是合理的。所以對于每個點，我們將方位角方向視為局部x軸。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

圖4. RangeDet的整體架構(gòu)。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

圖5. 兩種回歸目標(biāo)的圖示。左：對于所有點，以自我為中心的坐標(biāo)系的x軸被視為局部x軸。右：對于每個點，其方位角方向視為局部x軸。在計算回歸損失之前，我們首先將第一類目標(biāo)轉(zhuǎn)換為后者。

??我們將點i的真值目標(biāo)集Q_i表示為 $\{?x^g_i, ?y^g_i, ?z^g_i, log\ l^g_i, log\ w^g_i, log\ h^g_i, cos\ φ^g_i, sin\ φ^g_i\}$ 。因此回歸損失定義為
點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺
其中p_i是q_i的預(yù)測對應(yīng)物。N是真值邊界框的數(shù)量，n_i是包含點i的邊界框中的點數(shù)?？倱p失是L_cls和L_reg的總和。

5. 實驗

??我們在大規(guī)模Waymo開放數(shù)據(jù)集（WOD）上進行了實驗，這是唯一提供原生距離圖像的數(shù)據(jù)集。我們報告了所有實驗中的LEVEL_1平均精度，以與其他方法進行比較。有關(guān)管道的詳細(xì)結(jié)果和配置，請參閱補充材料。使用整個訓(xùn)練數(shù)據(jù)集在表1、表3和表9中進行實驗。我們?yōu)槠渌麑嶒灲y(tǒng)一采樣了25%的訓(xùn)練數(shù)據(jù)（約40k幀）。

5.1 元核卷積的研究

??在本節(jié)中，我們進行了大量實驗來消融元內(nèi)核。這些實驗不涉及數(shù)據(jù)擴充。我們通過用2D 3×3卷積替換元內(nèi)核來構(gòu)建基線。

不同的輸入特征。表2顯示了作為輸入的不同元信息的結(jié)果。毫不奇怪，與基線相比，使用相對像素坐標(biāo)（E4）只帶來了邊際改善，證明了在核權(quán)重中使用笛卡爾信息的必要性。

放置元內(nèi)核的不同位置。我們將元內(nèi)核置于不同階段。結(jié)果如表4所示，這表明元內(nèi)核在較低級別上更突出。這一結(jié)果是合理的，因為低層與幾何結(jié)構(gòu)有著更密切的聯(lián)系，而元內(nèi)核在幾何結(jié)構(gòu)中起著至關(guān)重要的作用。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

表4. 當(dāng)元內(nèi)核被放置在不同步伐的不同階段時，車輛類的性能。

在小目標(biāo)上的性能。對于距離視圖中的小目標(biāo)（例如行人），邊界信息比大目標(biāo)更重要，以避免被背景稀釋。元核通過捕獲局部幾何特征來增強邊界信息，因此它在小目標(biāo)檢測中特別強大。表5顯示了顯著的效果。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

表5. 行人的元內(nèi)核消融。

與基于點的算子進行比較。我們在第4.2節(jié)中討論了元內(nèi)核和基于點的運算符之間的主要區(qū)別。為了公平比較，我們在具有固定3×3鄰域的2D距離圖像上實現(xiàn)了一些典型的基于點的算子，就像我們的元核一樣。實施細(xì)節(jié)請參考補充材料。由于內(nèi)存成本巨大，一些運算符（如KPConv[30]、PointConv[35]）未實現(xiàn)。如表6所示，這些方法都獲得了較差的結(jié)果。我們歸功于他們在無序點云中用于聚合的策略，這將在接下來詳細(xì)描述。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

表1. 在車輛檢測中消融我們的部件。DA代表數(shù)據(jù)增強。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

表2。元內(nèi)核不同輸入的性能比較。在基線實驗中，元核被3×3 2D卷積代替。（x_i，y_i，z_i）、（u_i，v_i）和r_i分別表示笛卡爾坐標(biāo)、像素坐標(biāo)和距離。

不同的聚合方式。與其他基于點的算子一樣，我們嘗試以通道方式進行最大池和求和，而不是級聯(lián)，表7顯示了結(jié)果。當(dāng)使用最大池或求和時，性能會顯著下降，因為它們對來自不同位置的特征一視同仁。這些結(jié)果證明了在距離視圖中保持和利用相對順序的重要性。請注意，由于點云的無序性，其他視圖不能采用串聯(lián)。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

表6. 與基于點的算子進行比較。后綴“RV”表示該方法基于RV中固定的3×3鄰域，而不是3D空間中的動態(tài)鄰域。此表中的ContinuousConv是高效版本。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

表7. 不同聚合策略的結(jié)果。

5.2 距離條件金字塔的研究

??我們嘗試其他三種策略來指定邊界框，而不是限制范圍：方位跨度、投影面積和可見面積。邊界框的方位跨度與其在距離圖像中的寬度成比例。投影面積是投影到距離圖像中的長方體的面積。可見區(qū)域是可見目標(biāo)部分的區(qū)域。注意，面積是2D檢測中的標(biāo)準(zhǔn)分配標(biāo)準(zhǔn)。為了公平比較，我們在這些策略之間保持一定步長內(nèi)的真值框的數(shù)量一致。結(jié)果見表8。我們將較差的結(jié)果歸因于姿勢變化和遮擋，這會使同一個目標(biāo)落入不同的層，具有不同的姿勢或遮擋條件。這樣的結(jié)果表明，僅考慮距離圖像中的尺度變化是不夠的，因為一些其他物理特征，例如強度、密度，會隨著距離而變化。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

表8. 不同分配策略的比較。

5.3 加權(quán)非最大抑制研究

??為了支持我們在第4.3節(jié)中的主張，我們基于MMDetection3D（https://github.com/open-mmlab/mmdetection3d）中的強基線，在兩種典型的基于體素的方法中應(yīng)用加權(quán)NMS——PointPillars[9]和SECOND[37]。表9顯示，加權(quán)NMS在RangeDet中的改進比基于體素的方法要好得多。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

表3. WOD驗證劃分評估車輛和行人的結(jié)果。騎車人的詳細(xì)成績請參考補充材料。BEV：鳥瞰圖。RV：距離視圖。CV：圓柱形視圖[33]。PV：點視圖。?：由MMDetection3D實施。最好的結(jié)果和第二個結(jié)果分別用紅色和藍色標(biāo)記。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

表9. 不同檢測器的加權(quán)NMS結(jié)果。

5.4 消融實驗

??我們進一步對我們使用的組件進行消融實驗。表1總結(jié)了結(jié)果。元內(nèi)核在不同的環(huán)境中都是有效和健壯的。RCP和加權(quán)NMS都顯著提高了整個系統(tǒng)的性能。雖然IoU預(yù)測是最近3D檢測器的常見實踐[24，26]，但它對RangeDet有相當(dāng)大的影響，因此我們在表1中對其進行了描述。

5.5 與現(xiàn)有技術(shù)方法的比較

??表3顯示RangeDet優(yōu)于其他基于純距離視圖的方法，并且略落后于最先進的基于BEV的兩階段方法。在所有的結(jié)果中，我們觀察到了一個有趣的現(xiàn)象：與距離視圖在遠(yuǎn)程檢測中處于劣勢的刻板印象不同，RangeDet在遠(yuǎn)程度量（即50m-inf）方面優(yōu)于大多數(shù)其他比較方法，尤其是在行人類中。與視野不同，BEV中的行人非常小。這再次驗證了距離視圖表示的優(yōu)越性以及我們對距離視圖輸入和3D笛卡爾輸出空間之間的不一致性的補救措施的有效性。

5.6 KITTI結(jié)果

??基于距離視圖的檢測器比基于BEV的檢測器更需要數(shù)據(jù)，這在LaserNet[18]中得到了證明。盡管廣泛使用的KITTI數(shù)據(jù)集[4]沒有包含足夠的訓(xùn)練數(shù)據(jù)來揭示RangeDet的潛力，但我們從官方測試服務(wù)器報告了KITTI的結(jié)果，以便與以前基于距離視圖的方法進行公平比較。表10顯示RangeDet的結(jié)果比以前的基于距離的方法要好得多，包括從WOD預(yù)訓(xùn)練中微調(diào)的RCD模型。

點云 3D 目標(biāo)檢測 - RangeDet（ICCV 2021）,# 點云檢測,目標(biāo)檢測,3d,計算機視覺

表10. KITTI汽車測試劃分上的BEV性能。RCD-FT從WOD預(yù)訓(xùn)練中進行微調(diào)。

5.7 運行時評估

??在Waymo開放數(shù)據(jù)集上，我們的模型在單個2080Ti GPU上實現(xiàn)了12 FPS，無需刻意優(yōu)化。注意，我們的方法的運行時速度不受有效檢測距離的擴展的影響，而基于BEV的方法的速度將隨著最大檢測距離的擴大而迅速減慢。

6. 結(jié)論

??我們提出了RangeDet，這是一個基于距離視圖的檢測框架，由元內(nèi)核、距離條件金字塔和加權(quán)NMS組成。通過我們的特殊設(shè)計，RangeDet利用距離視圖的特性來克服一些挑戰(zhàn)。RangeDet與最先進的基于多視圖的檢測器相比，性能相當(dāng)。

Acknowledgements

This work was supported in part by the Major Project for New Generation of AI (No.2018AAA0100400) the National Natural Science Foundation of China (No. 61836014, No. 61773375, No. 62072457), and in part by the TuSimple Collaborative Research Project.

References

[1] Alex Bewley, Pei Sun, Thomas Mensink, Dragomir Anguelov, and Cristian Sminchisescu. Range Conditioned Dilated Convolutions for Scale Invariant 3D Object Detection. In Conference on Robot Learning (CoRL), 2020. 2, 8
[2] Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, and Tian Xia. Multi-View 3D Object Detection Network for Autonomous Driving. In CVPR, pages 1907–1915, 2017. 2
[3] Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, and Houqiang Li. Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection. 2021.8
[4] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In CVPR, pages 3354–3361. IEEE, 2012. 8
[5] Spyros Gidaris and Nikos Komodakis. Object detection via a multi-region semantic segmentation-aware CNN model. In ICCV, pages 1134–1142, 2015. 5
[6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep Residual Learning for Image Recognition. In CVPR, pages 770–778, 2016. 5
[7] Peiyun Hu, Jason Ziglar, David Held, and Deva Ramanan. What you see is what you get: Exploiting visibility for 3d object detection. In CVPR, pages 11001–11009, 2020. 1
[8] Qingyong Hu, Bo Yang, Linhai Xie, Stefano Rosa, Yulan Guo, Zhihua Wang, Niki Trigoni, and Andrew Markham. RandLA-Net: Efficient semantic segmentation of large-scale point clouds. In CVPR, pages 11108–11117, 2020. 4, 7
[9] Alex H Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, and Oscar Beijbom. PointPillars: Fast Encoders for Object Detection from Point Clouds. In CVPR, pages 12697–12705, 2019. 1, 2, 7, 8
[10] Bo Li. 3D Fully Convolutional Network for Vehicle Detection in Point Cloud. In IROS, pages 1513–1518, 2017. 2
[11] Bo Li, Tianlei Zhang, and Tian Xia. Vehicle Detection from 3D Lidar Using Fully Convolutional Network. 2016. 1, 2
[12] Yanghao Li, Yuntao Chen, Naiyan Wang, and Zhaoxiang Zhang. Scale-Aware Trident Networks for Object Detection. In ICCV, pages 6054–6063, 2019. 2
[13] Zhichao Li, Feng Wang, and Naiyan Wang. LiDAR R-CNN: An Efficient and Universal 3D Object Detector. In CVPR, pages 7546–7555, 2021. 2
[14] Tsung-Yi Lin, Piotr Doll′ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature Pyramid Networks for Object Detection. In CVPR, pages 2117–2125, 2017. 2, 3
[15] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Doll′ar. Focal Loss for Dense Object Detection. In ICCV, pages 2980–2988, 2017. 5
[16] Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia. Path Aggregation Network for Instance Segmentation. In CVPR, pages 8759–8768, 2018. 2
[17] Yongcheng Liu, Bin Fan, Shiming Xiang, and Chunhong Pan. Relation-Shape Convolutional Neural Network for Point Cloud Analysis. In CVPR, pages 8895–8904, 2019. 1, 7
[18] Gregory P Meyer, Ankit Laddha, Eric Kee, Carlos Vallespi Gonzalez, and Carl K Wellington. LaserNet: An Efficient Probabilistic 3D Object Detector for Autonomous Driving. In CVPR, pages 12677–12686, 2019. 1, 2, 5, 8
[19] Andres Milioto, Ignacio Vizzo, Jens Behley, and Cyrill Stachniss. RangeNet++: Fast and Accurate LiDAR Semantic Segmentation. In IROS, pages 4213–4220, 2019. 1
[20] Jiangmiao Pang, Kai Chen, Jianping Shi, Huajun Feng, Wanli Ouyang, and Dahua Lin. Libra R-CNN: Towards Balanced Learning for Object Detection. In CVPR, pages 821–830, 2019. 2
[21] Charles R Qi, Wei Liu, Chenxia Wu, Hao Su, and Leonidas J Guibas. Frustum PointNets for 3D Object Detection from RGB-D Data. In CVPR, pages 918–927, 2018. 2
[22] Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. In CVPR, pages 652–660, 2017. 1, 2, 7
[23] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space. In NeurIPS, pages 5099–5108, 2017. 1, 2, 4
[24] Shaoshuai Shi, Chaoxu Guo, Li Jiang, Zhe Wang, Jianping Shi, Xiaogang Wang, and Hongsheng Li. PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection. In CVPR, pages 10529–10538, 2020. 1, 2, 8
[25] Shaoshuai Shi, Xiaogang Wang, and Hongsheng Li. PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud. In CVPR, pages 770–779, 2019. 1, 2
[26] Shaoshuai Shi, Zhe Wang, Jianping Shi, Xiaogang Wang, and Hongsheng Li. From Points to Parts: 3D Object Detection from Point Cloud with Part-aware and Part-aggregation Network. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. 8
[27] Bharat Singh and Larry S Davis. An Analysis of Scale Invariance in Object Detection - SNIP. In CVPR, pages 3578–3587, 2018. 2
[28] Bharat Singh, Mahyar Najibi, and Larry S Davis. SNIPER: Efficient Multi-Scale Training. In NeurIPS, pages 9310–9320, 2018. 2
[29] Pei Sun, Henrik Kretzschmar, Xerxes Dotiwalla, Aurelien Chouard, Vijaysai Patnaik, Paul Tsui, James Guo, Yin Zhou, Yuning Chai, Benjamin Caine, et al. Scalability in Perception for Autonomous Driving: Waymo Open Dataset. In CVPR, pages 2446–2454, 2020. 2, 3
[30] Hugues Thomas, Charles R Qi, Jean-Emmanuel Deschaud, Beatriz Marcotegui, Franc?ois Goulette, and Leonidas J Guibas. KPConv: Flexible and deformable convolution for point clouds. In ICCV, pages 6411–6420, 2019. 1, 4, 7
[31] Shenlong Wang, Simon Suo, Wei-Chiu Ma, Andrei Pokrovsky, and Raquel Urtasun. Deep parametric continuous convolutional neural networks. In CVPR, pages 2589–2597, 2018. 1, 4, 7
[32] Yan Wang, Wei-Lun Chao, Divyansh Garg, Bharath Hariharan, Mark Campbell, and Kilian Q Weinberger. Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving. In CVPR, pages 8445–8453, 2019. 2
[33] Yue Wang, Alireza Fathi, Abhijit Kundu, David Ross, Caroline Pantofaru, Tom Funkhouser, and Justin Solomon. Pillarbased Object Detection for Autonomous Driving. In ECCV, 2020. 1, 8
[34] Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E Sarma, Michael M Bronstein, and Justin M Solomon. Dynamic graph cnn for learning on point clouds. Acm Transactions On Graphics (tog), 38(5):1–12, 2019. 1, 7
[35] Wenxuan Wu, Zhongang Qi, and Li Fuxin. PointConv: Deep convolutional networks on 3d point clouds. In CVPR, pages 9621–9630, 2019. 1, 4, 7
[36] Chenfeng Xu, Bichen Wu, Zining Wang, Wei Zhan, Peter Vajda, Kurt Keutzer, and Masayoshi Tomizuka. SqueezeSegV3: Spatially-Adaptive Convolution for Efficient PointCloud Segmentation. arXiv preprint arXiv:2004.01803, 2020. 1
[37] Yan Yan, Yuxing Mao, and Bo Li. SECOND: Sparsely Embedded Convolutional Detection. Sensors, 18(10):3337, 2018. 1, 2, 5, 8
[38] Bin Yang, Wenjie Luo, and Raquel Urtasun. PIXOR: Realtime 3D Object Detection from Point Clouds. In CVPR, pages 7652–7660, 2018. 1, 2
[39] Zetong Yang, Yanan Sun, Shu Liu, Xiaoyong Shen, and Jiaya Jia. IPOD: Intensive Point-based Object Detector for Point Cloud. arXiv preprint arXiv:1812.05276, 2018. 2
[40] Zetong Yang, Yanan Sun, Shu Liu, Xiaoyong Shen, and Jiaya Jia. STD: Sparse-to-Dense 3D Object Detector for Point Cloud. In ICCV, pages 1951–1960, 2019. 2
[41] Haoyang Zhang, Ying Wang, Feras Dayoub, and Niko S¨underhauf. VarifocalNet: An IoU-aware Dense Object Detector. arXiv preprint arXiv:2008.13367, 2020. 5
[42] Yang Zhang, Zixiang Zhou, Philip David, Xiangyu Yue, Zerong Xi, Boqing Gong, and Hassan Foroosh. PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation. In CVPR, pages 9601–9610, 2020. 1
[43] Hui Zhou, Xinge Zhu, Xiao Song, Yuexin Ma, Zhe Wang, Hongsheng Li, and Dahua Lin. Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation. arXiv preprint arXiv:2008.01550, 2020. 1
[44] Yin Zhou, Pei Sun, Yu Zhang, Dragomir Anguelov, Jiyang Gao, Tom Ouyang, James Guo, Jiquan Ngiam, and Vijay Vasudevan. End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds. In CoRL, pages 923–932, 2020. 1, 2, 8
[45] Yin Zhou and Oncel Tuzel. VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection. In CVPR, pages 4490–4499, 2018. 2文章來源地址http://www.zghlxwxcb.cn/news/detail-529912.html