RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection
論文:https://arxiv.org/pdf/2103.10039.pdf
代碼:https://github.com/tusen-ai/RangeDet
問題
提出了一個名為RangeDet的新型3D物體檢測技術(shù),利用激光雷達(dá)數(shù)據(jù)。
RangeDet的核心在于使用了一種緊湊的表示方法,稱為范圍視圖,與其他常用方法相比,它避免了計算誤差。
根據(jù)論文中的討論,使用范圍視圖(range view)表示法面臨幾個挑戰(zhàn):
-
尺寸變化問題: 范圍視圖的一個主要問題是,它繼承了傳統(tǒng)2D圖像檢測中的一個典型問題,即物體因距離不同而呈現(xiàn)出的“近大遠(yuǎn)小”現(xiàn)象,這導(dǎo)致物體尺寸變化多端,給物體檢測帶來挑戰(zhàn)。相比之下,鳥瞰圖(Bird’s Eye View, BEV)表示法不會遇到這種問題,但BEV的主要問題在于數(shù)據(jù)稀疏性和量化損失。
-
處理難度: 第二個挑戰(zhàn)是不能簡單地采用傳統(tǒng)的2D卷積網(wǎng)絡(luò)處理范圍圖像。因為在范圍圖像中,每個像素點(diǎn)都有一個明確的距離值,使得相鄰像素之間的實際空間距離各不相同。這一特性要求在處理時必須考慮到像素間的這種空間距離差異。
-
稠密特征的利用: 盡管范圍圖像相比點(diǎn)云和BEV視圖具有更稠密的特征,這理論上可以使得特征學(xué)習(xí)更加高效,但如何有效地利用這些稠密特征來提高檢測精度是一個問題。稠密特征提供了更豐富的信息,但同時也需要更復(fù)雜的方法來正確地解析這些信息,并轉(zhuǎn)化為對物體檢測有利的形式。
笛卡爾坐標(biāo)
在論文中提到,對于一個掃描周期內(nèi)包含m個光束和n次測量的激光雷達(dá),其一次掃描返回的數(shù)據(jù)構(gòu)成了一個m乘以n的矩陣,被稱為測距儀圖像。此測距圖像的每一列對應(yīng)一個方位角,每一行對應(yīng)一個傾角,這些角度代表了返回點(diǎn)與激光雷達(dá)原點(diǎn)之間的相對垂直和水平位置。測距圖像中的像素值不僅包括了相應(yīng)點(diǎn)的距離(深度)、返回激光脈沖的強(qiáng)度(即強(qiáng)度值)等信息,還可能包含其他輔助信息。在測距圖像中,每個像素至少囊括了三個幾何參數(shù):測距(r)、方位角(θ)和傾角(φ)。
結(jié)構(gòu)圖
這個過程針對處理激光雷達(dá)的范圍圖像(Range Image)采用了一種特殊的框架,其中范圍圖像被看作是一個具有8個通道的2D圖像。這些通道分別代表不同的測量和幾何特性,包括距離、反射率、伸長率、X、Y、Z坐標(biāo)、方位角和傾角。這樣的多維表示富含了環(huán)境的詳細(xì)信息,對于后續(xù)的處理至關(guān)重要。
接下來,這個8通道的2D圖像會依次經(jīng)過兩個基礎(chǔ)塊(BasicBlock),這是何凱明等人在ResNet架構(gòu)中提出的一種結(jié)構(gòu)單元。第一個BasicBlock按照原始設(shè)計進(jìn)行處理,而第二個BasicBlock則采用了一種被稱為Meta-Kernel的特殊卷積核,旨在捕獲和提煉更豐富的特征信息,生成所謂的特征圖(Featuremap)。
在第二個BasicBlock中,作者還引入了特征金字塔網(wǎng)絡(luò)(FPN)的結(jié)構(gòu),通過不同尺度的特征圖上采樣和聚合,進(jìn)一步豐富了特征表示。這一步驟在處理深度學(xué)習(xí)任務(wù)中常見,特別是在需要捕獲多尺度信息的視覺任務(wù)中。
文章中的另一大創(chuàng)新點(diǎn)是范圍條件金字塔分配(Range Conditioned Pyramid Assignment),這個方法根據(jù)物體距離的遠(yuǎn)近,將標(biāo)簽分配到不同尺度的特征圖中。這種策略使得模型能夠針對不同距離范圍的目標(biāo),更加精準(zhǔn)地處理信息,尤其是對近距離和遠(yuǎn)距離的目標(biāo)進(jìn)行了優(yōu)化處理。
最后,模型通過四個3x3的卷積層分別構(gòu)造了分類和回歸的頭部(head),并采用了Varifocal loss和Smooth L1 Loss作為損失函數(shù)來優(yōu)化模型。這些設(shè)計和優(yōu)化策略共同提高了模型對于3D物體檢測的性能,特別是在處理復(fù)雜的激光雷達(dá)數(shù)據(jù)時的準(zhǔn)確性和魯棒性。
Varifocal loss
Smooth L1 Loss
IoU target calculation
-
左圖: 描述的是一個方法,其中對于模型考慮的每一個點(diǎn),都將以該點(diǎn)為中心,而且該點(diǎn)的x軸被定義為局部x軸。這種方法簡單地將每個點(diǎn)自身作為坐標(biāo)系的起點(diǎn),而不考慮任何外部的方向信息或者點(diǎn)的方位角。
-
右圖: 在這個方法中,每個點(diǎn)的方位角方向被定義為局部x軸。這意味著,與左圖的方法相比,局部坐標(biāo)系的定義考慮到了每個點(diǎn)的方位,使得局部x軸的定義更加動態(tài),依賴于每個點(diǎn)相對于全局坐標(biāo)系的方向。
在模型處理回歸任務(wù),特別是在計算回歸損失之前,將采用左圖的目標(biāo)方式轉(zhuǎn)換成右圖的目標(biāo)方式。這樣的轉(zhuǎn)換是為了利用方位角信息,從而更精確地定義局部坐標(biāo)系,提高模型對于物體位置和方向的估計精度。
Meta-Kernel Convolution
在這個過程中,首先通過一個3x3的采樣網(wǎng)格,我們確定了九個鄰近點(diǎn)的位置,這些位置的坐標(biāo)被轉(zhuǎn)換成相對于中心點(diǎn)的直角坐標(biāo)系統(tǒng)下的位置。這一步驟的目的是獲取空間上鄰近點(diǎn)的布局信息。
接著,使用一個共享的多層感知器_MLP對這些相對坐標(biāo)進(jìn)行處理。MLP是一種簡單的神經(jīng)網(wǎng)絡(luò),它可以從輸入數(shù)據(jù)中學(xué)習(xí)復(fù)雜的函數(shù)映射。在這里,它被用來根據(jù)鄰近中心的相對坐標(biāo)生成九個不同的權(quán)重向量(w1到w9)。這些權(quán)重向量反映了每個鄰近點(diǎn)相對于中心點(diǎn)的空間重要性或貢獻(xiàn)度。
然后,對應(yīng)于這九個位置的輸入特征向量(f1到f9)被采樣。這些特征向量可能包含了那些位置上的物體的形狀、紋理等信息。
最后,通過一個特殊的操作,將這九個鄰域的輸出(oi)組合起來。這通常通過連接(concatenating)這些輸出并應(yīng)用一個1x1的卷積來實現(xiàn)。1x1卷積在這里的作用是將來自不同通道和不同采樣位置的信息匯總,生成一個輸出特征向量。這個輸出特征向量綜合了周圍鄰域的信息。
總結(jié)來說,這個過程通過分析鄰近點(diǎn)的空間布局和特征信息,以及它們相對于中心點(diǎn)的重要性,有效地生成了融合了局部信息的輸出特征向量。這種方法可以增強(qiáng)模型對于空間信息的理解和利用,從而提高其性能。
參考文章來源:http://www.zghlxwxcb.cn/news/detail-849965.html
https://zhuanlan.zhihu.com/p/526985263文章來源地址http://www.zghlxwxcb.cn/news/detail-849965.html
到了這里,關(guān)于論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!