來源ICCV2023
0、摘要
LiDAR分割對于自動駕駛感知至關重要。最近的趨勢有利于基于點或體素的方法,因為它們通常產(chǎn)生比傳統(tǒng)的距離視圖表示更好的性能。在這項工作中,我們揭示了建立強大的距離視圖模型的幾個關鍵因素。我們觀察到,“多對一”的映射,語義不連貫性,形狀變形的可能障礙對有效的學習從距離視圖投影。我們提出的RangeFormer -一個全周期的框架,包括跨網(wǎng)絡架構(gòu),數(shù)據(jù)增強和后處理的新穎設計-更好地處理學習和處理LiDAR點云從范圍的角度。我們進一步介紹了一個可擴展的訓練范圍視圖(Scalable Training from Range view STR)的策略,訓練任意低分辨率的2D范圍圖像,同時仍然保持令人滿意的3D分割精度。我們表明,第一次,范圍視圖方法是能夠超越點,體素,和多視圖融合同行競爭的LiDAR語義和全景分割基準,即SemanticKITTI、nuScenes和ScribbleKITTI。
1. Introduction
????????LiDAR點云具有獨特的特性。作為現(xiàn)實世界場景的直接反映,它們往往是多樣和無序的,從而給學習帶來額外的困難[27,42]。不可避免地,高效和有效的LiDAR點云處理需要良好的表示[67]。
????????盡管存在如Tab.1,主流方法主要基于點視圖[33,64],體素視圖[15,63,87,29]和多視圖融合[43,75,54]。然而,這些方法需要計算密集的鄰域搜索[53],3D卷積運算[45]或多分支網(wǎng)絡[2,25],這些方法在訓練和推理階段通常效率低下?;谕队暗谋硎?,如范圍視圖[71,48]和鳥瞰視圖[83,86],是更容易處理的選項。3D到2D光柵化和成熟的2D算子為快速和可擴展的車載LiDAR感知打開了大門[48,74,67]。不幸的是,當前基于投影的方法[85,13,83]的分割精度仍然遠遠落后于趨勢[77,75,79]。
????????從投影LiDAR掃描中學習的挑戰(zhàn)來自LiDAR數(shù)據(jù)表示的潛在有害因素[48]。如圖1、距離視圖投影常常遇到幾個困難,包括1)由于水平角分辨率有限而引起的相鄰點的“多對一”沖突; 2)由于3D稀疏性和傳感器中斷導致的距離圖像中的“洞”;以及3)光柵化過程中的潛在形狀變形。雖然這些問題在范圍視圖學習中是普遍存在的,但以前的作品幾乎沒有考慮解決它們。源于圖像分割社區(qū)[82],現(xiàn)有技術廣泛采用全卷積網(wǎng)絡(FCN)[46,8]用于范圍視圖LiDAR分割[48,85,13,36]。有限的接受領域的FCNs不能直接模擬長期的依賴性,因此在處理上述障礙是不太有效的。
????????在這項工作中,我們尋求一種替代目前的范圍視圖激光雷達分割模型。受Vision Transformer(ViT)及其后續(xù)產(chǎn)品[19,70,73,44,60]的成功啟發(fā),我們設計了一個名為RangeFormer的新框架,以更好地處理距離視圖中LiDAR點云的學習和處理。我們將范圍視圖網(wǎng)格的分割公式化為seq 2seq問題,并采用標準的自我注意模塊[69]以“全局”方式捕獲豐富的上下文信息,這在FCN中經(jīng)常被省略[48,1,13]。然后,利用這種全局感知提取的分層特征被饋送到多層感知(MLP)中以進行解碼。以這種方式,距離圖像中的每個點都能夠建立與其他點的交互-無論是近還是遠以及有效還是空-并且進一步導致從LiDAR距離視圖進行更有效的表示學習。
????????值得注意的是,這種架構(gòu)雖然簡單,但仍然存在一些困難。第一個問題與數(shù)據(jù)多樣性有關。流行的LiDAR分割數(shù)據(jù)集[7,21,5,62]包含數(shù)萬個用于訓練的LiDAR掃描。然而,這些掃描在以順序方式收集它們的意義上是不太多樣的。這阻礙了基于Transformer的架構(gòu)的訓練,因為它們通常依賴于足夠的樣本和強大的數(shù)據(jù)增強[19]。為了更好地處理這個問題,我們設計了一個增強組合,是為范圍視圖量身定制的。受最近的3D增強技術[86,37,49]的啟發(fā),我們通過行混合,視圖移動,復制粘貼和網(wǎng)格填充來操縱范圍視圖網(wǎng)格。正如我們將在以下部分中展示的那樣,這些輕量級操作可以顯著提高SoTA范圍視圖方法的性能。
????????第二個問題來自數(shù)據(jù)后處理。先前的工作采用CRF [71]或k-NN [48]來平滑/推斷范圍視圖預測。然而,通常很難在無監(jiān)督方式下找到3D標簽的欠平滑和過平滑之間的良好平衡[35]。相比之下,我們設計了一種監(jiān)督后處理方法,首先將整個LiDAR點云子采樣為等間隔的“子云”,然后推斷其語義,這從整體上降低了混疊范圍視圖網(wǎng)格的不確定性。
????????為了進一步減少范圍視圖學習的開銷,我們提出了STR -一個可擴展的范圍視圖訓練范例。STR首先將整個LiDAR掃描沿方位方向沿著“劃分”為多個組,然后“征服”每個組。這將高水平分辨率的距離圖像轉(zhuǎn)換為低分辨率的距離圖像的堆疊,同時可以更好地保持最佳可能的粒度,以緩解“多對一”的沖突。經(jīng)驗上,我們發(fā)現(xiàn)STR有助于降低訓練過程中的復雜性,而不會犧牲太多的收斂速度和分割精度。
????????在現(xiàn)有的基準上,從LiDAR分割精度和效率方面展示了RangeFormer和STR的優(yōu)勢。具體而言,我們在SemanticKITTI [5]上實現(xiàn)了73.3%的mIoU和64.2%的PQ,顯著超過了先前的范圍視圖方法[85,13],也優(yōu)于基于SoTA融合的方法[77,31,79]。我們還在nuScenes [21](稀疏點云)和ScribbleKITTI [68](弱監(jiān)督)數(shù)據(jù)集上建立了優(yōu)勢,這驗證了我們的可擴展性。雖然更有效,但我們的方法比最近的體素[87,63]和融合[75,77]方法快2倍到5倍,并且可以以傳感器幀速率運行。
2. Related Work
2.1 LiDAR Representation
????????LiDAR傳感器被設計為捕獲高保真3D結(jié)構(gòu)信息,該信息可以通過各種形式表示,即,原始點[52,53,64]、范圍視圖[32,72,74,1]、鳥瞰視圖(BEV)[83]、體素[45,15,87,79,10]和多視圖融合[43,75,77],如表1中所總結(jié)。1.點和稀疏體素方法是流行的,但具有O(N · d)的復雜度,其中N是點數(shù),通常在105的數(shù)量級[67]。BEV提供了一種有效的表示,但僅產(chǎn)生低于標準的性能[9]。至于基于融合的方法,它們通常包含多個網(wǎng)絡,這些網(wǎng)絡太重,無法產(chǎn)生合理的訓練開銷和推理延遲[54,79,61]。在所有表示中,范圍視圖是直接反映LiDAR采樣過程的視圖[65,20,66]。因此,我們專注于這種模態(tài),以進一步擁抱其緊湊性和豐富的語義/結(jié)構(gòu)線索。
2.2 Architecture
????????以前的范圍視圖方法建立在成熟的FCN結(jié)構(gòu)上[46,71,72,74,3]。RangeNet++ [48]提出了一種基于DarkNet [56]的編碼器-解碼器FCN。SalsaNext [17]使用擴張的卷積來進一步擴大感受野。Lite-HDSeg [55]提出采用諧波卷積來減少計算開銷。EfficientLPS [58]提出了一個鄰近卷積模塊來利用范圍圖像中的鄰域點。FIDNet [85]和CENet [13]將編碼器切換到ResNet,并用簡單的插值替換解碼器。與使用FCNs相比,我們建立RangeFormer自我關注,并展示了在范圍視圖學習中進行遠程依賴建模的潛力和優(yōu)勢。
2.3?Augmentation
????????大多數(shù)3D數(shù)據(jù)增強技術是以對象為中心的[81,11,57,39],因此不能推廣到場景。Panoptic-PolarNet [86]在訓練過程中對稀有實例點進行過采樣。Mix 3D [49]通過從一個場景到另一個場景補充點來提出上下文外混合。MaskRange [26]設計了一個加權(quán)的粘貼下降增強,以減輕過擬合和改善類平衡。LaserMix [37]提出沿著傾斜軸混合標記和未標記的LiDAR掃描,以實現(xiàn)有效的半監(jiān)督學習。在這項工作中,我們提出了一種新穎的輕量級增強組合,專為范圍視圖學習,結(jié)合混合,移動,工會和復制粘貼操作直接在柵格化的網(wǎng)格,同時仍然保持場景的結(jié)構(gòu)一致性。
2.4 Post-Processing
盡管它是距離視圖LiDAR分割的不可或缺的模塊,但先前的工作幾乎沒有考慮改進后處理過程[67]。大多數(shù)作品遵循CRF [71]或k-NN [48]來平滑或推斷沖突點的語義。最近,趙等。提出了另一種名為NLA的無監(jiān)督方法用于最近標簽分配[85]。我們通過從全點云創(chuàng)建“子云”并推斷每個子集的標簽,以監(jiān)督的方式解決這個問題,這直接減少了信息丟失,并有助于緩解“多對一”問題。
3. Technical Approach
????????在本節(jié)中,我們首先回顧范圍視圖光柵化的細節(jié)(第3.1節(jié))為了更好地解決距離視圖學習中的障礙,我們引入了RangeFormer(3.2)和STR(Sec.3.3)其分別強調(diào)可擴展LiDAR分割的有效性和效率。
3.1. Preliminaries
安裝在車頂上的自我車輛(如圖所示)。1),旋轉(zhuǎn)LiDAR傳感器以預定義角度發(fā)射各向同性激光束,并通過掃描周期中的時間測量來感知周圍環(huán)境的位置和反射強度。具體地,每個LiDAR掃描在單個掃描周期中捕獲并返回N個點,其中掃描中的每個點pn由笛卡爾坐標。
光柵化。對于給定的LiDAR點云,我們將該掃描內(nèi)的點光柵化為2D圓柱投影R(u,v)(也稱為,范圍圖像),其中H和W分別是高度和寬度。每個點pn的光柵化過程可以公式化如下:
其中(un,vn)表示距離圖像R(u,v)中的點pn的網(wǎng)格坐標; pd n = p(pxn)2 +(py n)2 +(pz n)2是點與LiDAR傳感器(自我車輛)之間的深度; ξ =| ?up|+的|向下傾斜|表示傳感器的垂直視場(FOV),并且向上和向下分別是向上和向下方向的傾斜角。請注意,H通常由LiDAR傳感器的光束編號預定義,而W可以根據(jù)要求設置。(該操作很常見,把點云映射到一個柱狀平面)
最終的距離圖像由六個光柵化特征嵌入組成,即:坐標(px,py,pz)、深度pd、強度pi和存在pe(指示網(wǎng)格是否被有效點占據(jù))。范圍語義標簽y(u,v)∈ R(H,W)-其從3D中的每點標簽光柵化-與R(u,v)共享相同的光柵化索引和分辨率。3D分割問題現(xiàn)在變成了2D問題,并且范圍圖像中的網(wǎng)格預測然后可以以Eq1反映射。(一般channel是5,這里多增加了一個是否占據(jù),應該是前文有提到空洞)
3.2. RangeFormer: A Full-Cycle Framework
????????如前所述,在圖1的距離視圖表示中存在潛在的有害因素。Eq.(1)的一對一映射通通常不成立,因為H ×W遠小于N?,F(xiàn)有技術[48,2,13]采用(H,W)=(64,512)來對每個約120k個點的激光雷達掃描進行光柵掃描[5],導致超過70%的信息損失2。深度圖像中有限的水平角分辨率和大量的空網(wǎng)格會給模型訓練帶來額外的困難,如形狀變形、語義不一致等。
3.2.1?Architecture.
為了追求更大的感受野和更長的依賴建模,我們設計了一個基于自我注意的網(wǎng)絡,包括標準的Transformer塊和MLP頭,如圖所示2.給定一批光柵化的距離圖像R(u,v),由三層MLP層組成的距離嵌入模塊(REM)首先將網(wǎng)格中的每個點映射到更高維度的嵌入。這與PointNet類似[52]。接下來,我們將F0劃分為大小為3 × 3的重疊面片,并將它們送入Transformer塊。類似于PVT [70],我們設計了一個金字塔結(jié)構(gòu)來促進多尺度特征融合,分別為四個階段產(chǎn)生{F1,F(xiàn)2,F(xiàn)3,F(xiàn)4},下采樣因子為1,2,4和8。每個階段由自定義數(shù)量的Transformer塊組成,每個塊包括兩個模塊。
1)多頭自注意[69],作為主要的計算瓶頸,可以公式化為:
其中,headi = Attention(QWQ i,KWK i,VWV i)表示Attention = σ(QK_dhead)V的自注意操作; σ表示softmax,dhead是每個頭的尺寸; WQ、WK、WV和WO是查詢Q、鍵K、值V和輸出O的權(quán)重矩陣。如[70]中所建議的,K和V的序列長度進一步減少因子R以保存計算開銷。
2)前饋網(wǎng)絡(FFN),由MLP和激活組成:
其中,R表示剩余連接[28]。與ViT [23]不同,我們放棄了顯式的位置嵌入,而是直接將其合并到特征嵌入中。如[73]中所介紹的,這可以通過在FFN中添加一個具有零填充的3 × 3卷積來實現(xiàn)。
3.2.2 Semantic Head
為了避免解碼中的繁重計算,我們采用簡單的MLP作為分割頭。在檢索了四個階段的所有特征后,我們首先統(tǒng)一了它們的維度。這通過兩個步驟實現(xiàn):1)信道統(tǒng)一,其中具有嵌入大小的每個Fi經(jīng)由一個MLP層統(tǒng)一。2)空間統(tǒng)一,其中來自最后三個階段的Fi通過簡單的雙線性插值被調(diào)整大小為范圍嵌入大小H × W。因此,階段i的解碼過程為:
????????如[85]中所證明的,范圍視圖網(wǎng)格的雙線性插值等效于PointNet++ [53]中的距離插值(具有四個鄰居)。在這里,前一種操作是更好的選擇,因為它完全沒有參數(shù)。最后,我們將四個Hi連接在一起并將其饋送到另外兩個MLP層中,其中信道維度逐漸映射到d_{cls},即類數(shù),以形成類概率分布。此外,我們?yōu)槊總€Hi添加一個額外的MLP層作為輔助磁頭。在訓練期間,分別監(jiān)督來自主頭和四個輔助頭的預測。至于推理,我們只保留主分割頭,丟棄輔助頭。
(所以有跳躍連接嗎?圖中似乎沒有,但是描述有,四個輔助分割頭 + 主分割頭)
3.2.3 Panoptic Head
????????類似于Panoptic-PolarNet [86],我們在RangeFormer之上添加了一個panoptic頭來估計實例中心和偏移,稱為Panoptic-RangeFormer。由于我們以自下而上的方式解決這個問題,因此事物類的語義預測被用作前景掩碼來形成3D中的實例組。接下來,我們通過預測XY平面上每個點的中心熱圖[12]和偏移量來進行2D類無關實例分組?;赱86],上述兩個方面的預測可以通過多數(shù)投票進行融合。正如我們將在實驗中展示的那樣,RangeFormer在語義學習方面的優(yōu)勢進一步產(chǎn)生了更好的全景分割性能。
3.2.4 RangeAug
????????數(shù)據(jù)增強通常有助于模型學習更一般的表示,從而提高準確性和魯棒性。LiDAR分割中的現(xiàn)有技術在點級進行一系列增強[87],即,全局旋轉(zhuǎn)、抖動、翻轉(zhuǎn)和隨機丟棄,我們將其稱為“常見”增強。為了更好地包含范圍視圖表示的豐富語義和結(jié)構(gòu)線索,我們提出了一個增強組合,包括以下四個操作。
RangeMix
????????其混合了沿傾角和方位角θ方向的兩個沿著掃描。這可以被解釋為切換兩個范圍圖像的某些行。在計算當前掃描和隨機采樣掃描的?和θ之后,我們?nèi)缓髮Ⅻc分成kmix相等的跨度傾斜范圍,即,不同的混合策略。然后切換來自兩次掃描的相同傾斜范圍中的對應點。在我們的實驗中,我們從組合中設計混合策略,kmix從列表中隨機抽樣[2,3,4,5,6]。
(個人理解是,要么沿著垂直要么沿著水平,將圖像分成n份,然后兩次掃面中隨機交換一份)
RangeUnion
????????其用來自另一個掃描的網(wǎng)格填充一個掃描的空網(wǎng)格。由于3D中的稀疏性和潛在的傳感器中斷,即使在光柵化之后,也有大量的網(wǎng)格是空的。因此,我們使用存在嵌入pe來搜索和填充這些空白網(wǎng)格,這進一步豐富了距離圖像的實際容量。給定一定數(shù)量的N空范圍視圖網(wǎng)格,我們隨機選擇k*N候選網(wǎng)格進行點填充,其中k設置為50%。(這個空洞填充的是什么數(shù)據(jù)呢)
RangePaste
????????其在距離圖像中的對應位置處將尾部類從一個掃描復制到另一個掃描。這促進了稀有類的學習,并且還在投影中保持對象的空間布局。隨機采樣掃描的地面實況語義標簽用于創(chuàng)建粘貼蒙版。要粘貼的類是那些在“tail”分布中的類,它形成了一個語義類列表(sem類)。在索引稀有類的點之后,我們將它們粘貼到當前掃描中,同時保持范圍圖像中的相應位置。(把不常見的類單獨復制出來到別的scan上)
RangeShift
????????其沿方位角方向θ = arctan(py/px)沿著滑動掃描以改變?nèi)治恢们度?。這對應于使用kshift行沿行方向沿著移動范圍視圖網(wǎng)格。在我們的實驗中,kshift是從W 4到3 W 4的范圍內(nèi)隨機采樣的。這四個增強是為范圍視圖量身定制的,可以在數(shù)據(jù)加載過程中實時操作,而不會在訓練過程中增加額外的開銷。正如我們將在下一節(jié)中展示的那樣,它們在提高范圍視圖分割模型的性能方面發(fā)揮著至關重要的作用。(整體向左平移一定角度)
3.2.5RangePost
????????廣泛使用的k-NN [48]以無監(jiān)督的方式為邊界附近的點投票和分配標簽,無法具體處理“多對一”沖突。因此,我們以監(jiān)督的方式處理這一問題。我們首先將整個點云子采樣為等間隔的“子云”。由于相鄰點屬于同一類的可能性很高,因此這些“子云”共享非常相似的語義。接下來,我們將這些子集堆疊并饋送到網(wǎng)絡。在獲得預測后,我們將它們縫合回原始位置。對于每次掃描,這將自動為在光柵化過程中合并的點分配標簽,只需一次向前傳遞,這直接減少了“多對一”映射造成的信息丟失。最后,可以將先前的后處理技術[48,85]應用于這些新的預測,以進一步增強重新光柵化過程。
3.3. STR: Scalable Training from Range View
????????為了追求更好的訓練效率,現(xiàn)有技術采用低水平角分辨率,即,在等式中W的較小值。(1),用于范圍圖像光柵化[48,2]。這不可避免地加劇了“多對一”的沖突,導致更嚴重的形狀扭曲,并導致低于標準的性能。
3.3.1 2D & 3D Occupancy.
我們不是直接為R(u,v)分配小W,而是首先查找最佳可能選項。我們發(fā)現(xiàn)在激光雷達掃描中的點的數(shù)量和范圍圖像的期望容量之間的“占用權(quán)衡”。如圖3、常規(guī)選擇,即,512、1024和2048不是最佳的。兩條線的交叉指示寬度1920的范圍圖像傾向于是信息量最大的表示。然而,這種配置不可避免地消耗比傳統(tǒng)使用的512或1024分辨率多得多的存儲器,并且進一步增加了訓練和推理開銷。
3.3.2?Multi-View Partition
????????為了在追求效率的同時保持W的相對高的分辨率,我們提出了一種“分而治之”的學習范式。具體來說,我們首先基于每個點的唯一方位角將LiDAR掃描中的點劃分為多個組,即,θi = arctan(py i /px i)。這將構(gòu)成Z個不重疊的“意見”的完整的360度全景范圍內(nèi)的看法,如圖4所示,其中Z是超參數(shù),并確定要分裂的組的總數(shù)。接下來,將以高水平分辨率分別對每組中的點進行柵格化,以緩解“多對一”和變形問題。以這種方式,距離圖像的實際水平訓練分辨率被放寬Z倍,即,,而每個“視圖”中的范圍視圖投影的粒度(網(wǎng)格的數(shù)量)被完美地保持。(意思是分成Z個塊?)
3.3.3?Training & Inference
????????在訓練過程中,對于每次LiDAR掃描,我們只隨機選擇一個Z點組進行光柵化。也就是說,模型將在每一步使用一批隨機抽樣的“視圖”進行訓練。在推理過程中,我們對給定掃描的所有組進行光柵掃描,并沿批次維度沿著堆疊范圍圖像。所有的“視圖”現(xiàn)在都可以在一個過程中推斷出來,然后將預測結(jié)果包裝起來形成完整的掃描。盡管是一個經(jīng)驗的設計,我們發(fā)現(xiàn)這個STR范式在訓練過程中具有高度的可擴展性。來自多個“視圖”的訓練的收斂率傾向于與傳統(tǒng)的訓練范例一致,即,STR可以使用相同的迭代次數(shù)獲得有競爭力的結(jié)果,而內(nèi)存消耗現(xiàn)在已經(jīng)減少到只有1/Z,這解放了小內(nèi)存GPU的使用,用于訓練。
4. Experimental Analysis
4.1. Settings
4.1.1 Benchmarks
我們在三個標準的LiDAR分割數(shù)據(jù)集上進行實驗。SemanticKITTI [5]提供了22個序列和19個語義類,由64束激光雷達傳感器捕獲。序列00至10(不包括08)、08和11至21分別用于訓練、驗證和測試。nuScenes [21]由從波士頓和新加坡收集的1000個駕駛場景組成,由于使用了32束傳感器,這些場景較為稀疏。將相似類和不常見類合并后,采用16類。ScribbleKITTI [68]與[5]共享完全相同的數(shù)據(jù)配置,但用線條涂鴉進行了弱注釋,這對應于訓練期間可用的約8.06%的語義標簽。
4.1.2 Evaluation Metrics
????????按照標準實踐,我們報告了類別i的交集(IoU)和所有類別的平均得分(mIoU),其中IoUi = TPi TPi+FPi+FNi。TPi、FPi和FNi是真陽性、假陽性和假陰性。對于全景分割,模型通過全景質(zhì)量(PQ)進行測量[34]
它包括分割質(zhì)量(SQ)和識別質(zhì)量(RQ)。我們還報告了事物和東西類的單獨得分,即,PQTh、SQTh、RQTh和PQSt、SQSt、RQSt。通過將每個填充類的PQ交換為其IoU,然后對所有類進行平均來定義PQ? [51]。
4.1.3 Network Configurations
????????在距離視圖光柵化之后,尺寸為6 ×H ×W的輸入R(u,v)首先被饋送到REM中用于距離視圖點嵌入。它由三個MLP層組成,分別將R(u,v)的嵌入dim從6映射到64、128和128,并使用批范數(shù)和GELU激活。REM的輸出大小為128 × H × W,用作Transformer模塊的輸入。具體地,對于四個階段中的每一個,補丁嵌入層將大小為Hemed、Wembed的輸入劃分為3 × 3補丁,其中重疊步幅等于1(對于第一階段)和2(對于最后三個階段)。在重疊補丁嵌入之后,使用標準多頭注意操作處理補丁,如[19,70,73]中所述。我們保留使用殘余連接和層規(guī)范化(Add & Norm)的默認設置。四個階段中的每一個的頭的數(shù)量是[3,4,6,3]。從不同階段提取的分層特征被存儲并用于解碼。具體地,四個階段中的每一個產(chǎn)生空間大小為[(H,W),(H 2,W 2),(H 4,W 4),(H 8,W 8)]的特征,其中通道維度為[128,128,320,512]。如前所述,我們執(zhí)行兩個統(tǒng)一步驟來統(tǒng)一不同特征圖的通道和空間大小。我們首先將它們的通道尺寸映射到256,即,[128,H,W] → [256,H,W],[128,H 2,W 2 ] → [256,H 2,W 2 ],[320,H 4,W 4 ] → [256,H 4,W 4 ],[512,H 8,W 8 ] → [256,H 8,W 8 ],然后,我們將四個特征圖插值到H ×W的空間大小。在RangeAug中進行四次擴增的概率設置為[0.9,0.2,0.9,1.0]。對于RangePost,我們將整個掃描分為三個“子云”,用于2D到3D的重新光柵化。
4.1.4?Implementation Details
按照常規(guī)設置[48,13],我們在SemanticKITTI [5]上進行了Wtrain = 512,1024,2048的實驗,在nuScenes [21]上進行了Wtrain = 1920的實驗。我們使用AdamW優(yōu)化器[47]和OneCycle調(diào)度器[59],其中l(wèi)r = 1 e-3。對于STR訓練,我們首先將點劃分為5個和2個視圖,然后分別將它們光柵化為SemanticKITTI [5]和nuScenes [21]的大小為64×1920(Wtrain = 384)和32×960(Wtrain = 480)的范圍圖像。模型在Cityscapes [16]上預訓練20個epoch,然后分別在SemanticKITTI [5]和ScribbleKITTI [68]上訓練60個epoch,在nuScenes [21]上訓練100個epoch,批量大小為32。與[55,13]類似,我們包括交叉熵骰子損失,Lovazz-Softmax損失[6]和邊界損失[55]來監(jiān)督模型訓練。所有模型都可以在單個NVIDIA A100/V100 GPU上訓練約32小時。
4.2. Comparative Study
4.2.1 Semantic Segmentation
首先,我們將所提出的RangeFormer與SemanticKITTI [5]上的13種先驗和SoTA距離視圖LiDAR分割方法進行比較(見表1)。2)的情況。在傳統(tǒng)的512、1024和2048設置中,我們觀察到比SoTA方法CENet [13]提高了9.3%、9.8%和8.6%的mIoU,比MaskRange [26]高7.2%的mIoU。這種優(yōu)勢是普遍的,幾乎所有的類,尤其是明顯的動態(tài)和小型的自行車和摩托車。在選項卡中。3.進一步比較了RangeFormer與其他模態(tài)的11種方法。我們可以看到,當前的趨勢有利于基于融合的方法,這些方法通常將點視圖和體素視圖聯(lián)合收割機結(jié)合起來[31,14]。雖然只使用范圍視圖,RangeFormer取得了迄今為止最好的成績;它超過最好的基于融合的方法2DPASS [77] 0.4% mIoU和最好的僅體素的方法GSTK [79] 2.9% mIoU。類似的觀察也適用于nuScenes [21](見表1)。(五)。
4.2.2 STR Paradigm
從Tab的最后三行可以看出。2,在STR范式(Wtrain = 384)下,F(xiàn)IDNet [85]和CENet [13]與其高分辨率(Wtrain = 2048)版本相比取得了更好的分數(shù)。RangeFormer使用STR實現(xiàn)了72.2%的mIoU,這比排行榜上的大多數(shù)方法都要好(參見表1)。3)同時比高訓練分辨率快13.5%(即,2048)選項(參見選項卡。5)節(jié)省了80%的內(nèi)存消耗。值得再次強調(diào)的是,收斂速度往往不會受到影響。相同數(shù)量的訓練時期被應用于STR和常規(guī)訓練,以確保比較是準確的。
4.2.3 Panoptic Segmentation.
????????RangeFormer在語義分割方面的優(yōu)勢進一步帶來了更好的全景分割性能。從Tab。4我們可以看到,Panoptic-RangeFormer在PQ,PQ?和RQ方面比最近的SoTA方法Panoptic-PHNet [41]獲得了更好的分數(shù)。這種優(yōu)越性在STR范式下仍然存在,并且對于物質(zhì)類來說尤其明顯。統(tǒng)一語義和實例LiDAR分割的能力進一步驗證了我們框架的可擴展性。
4.2.4 Weakly-Supervised Segmentation.
最近,[68]采用線條涂鴉來標記LiDAR點云,這進一步節(jié)省了注釋預算。從圖5a中,我們可以觀察到,在弱監(jiān)督下,范圍視圖方法的性能遠遠優(yōu)于基于體素的方法[15,63,87]。這歸功于范圍視圖的緊湊和語義豐富的屬性,它為學習保持了更好的表示。在沒有額外模塊或過程的情況下,RangeFormer實現(xiàn)了63.0%的mIoU,并在事物類和東西類方面表現(xiàn)出明顯的優(yōu)勢。
4.2.5 Accuracy vs. Efficiency
????????分割精度和推理運行時間之間的權(quán)衡對于車載LiDAR分割至關重要。選項卡.5總結(jié)了最近方法的延遲和mIoU分數(shù)。我們觀察到,由于密集和計算友好的2D表示,基于投影的方法[83,85,13]往往比基于體素和融合的方法[54,75,87]快得多。在所有方法中,RangeFormer產(chǎn)生最佳可能的權(quán)衡;它實現(xiàn)了比現(xiàn)有范圍視圖方法更高的mIoU分數(shù)[85,13],同時比體素和融合對應物快2倍至5倍[77,63,75]。此外,范圍視圖方法還受益于在圖像數(shù)據(jù)集上使用預先訓練的模型,例如,[18]如表中所示,ImageNet和Cityscapes [16]。
4.2.6?Qualitative Assessment.
????????圖6提供了SemanticKITTI [5]序列08上SoTA范圍視圖LiDAR分割方法[85,13]的一些可視化示例。如從誤差圖清楚地示出的,現(xiàn)有技術發(fā)現(xiàn)分割稀疏分布的區(qū)域是困難的,地形和人行道。相比之下,RangeFormer能夠?qū)﹂L距離依賴性進行建模并保持較大的感受野,能夠從整體上減輕錯誤。我們還發(fā)現(xiàn)在分割對象的形狀和邊界的優(yōu)勢。更多的視覺比較見附錄。
4.3. Ablation Study
在[13,74]之后,我們在SemanticKITTI [5]的瓦爾集合上使用大小為64 × 512的輸入探測RangeFormer中的每個組件。由于我們的貢獻是通用的,我們還報告了SoTA范圍視圖方法的結(jié)果[85,13]。
4.3.1 Augmentation
????????如圖5b,數(shù)據(jù)增強有助于緩解數(shù)據(jù)稀缺性,并大幅提高細分性能?;谧⒁饬Φ哪P透蕾囉跀?shù)據(jù)多樣性[19]。作為一個典型的例子,RangeFormer的“普通”版本產(chǎn)生的分數(shù)略低于CENet [13]。在所有三種方法中,RangeAug有助于顯著提高性能,并表現(xiàn)出明顯優(yōu)于常見增強和最近的Mix3D [49]。值得一提的是,RangeAug所需的額外開銷在GPU上可以忽略不計。
4.3.2?Post-Processing
圖5c再次證明了后處理在距離視圖LiDAR分割中的重要性。如果不應用它,“多對一”問題將導致嚴重的性能下降。與廣泛采用的k-NN [48]和最近的NLA [85]相比,RangePost可以更好地恢復正確的信息,因為相鄰點之間的混疊已經(jīng)整體減少。我們還發(fā)現(xiàn)額外的開銷可以忽略不計,因為“子云”是沿著批次維度沿著堆疊的,并且可以在一個向前傳遞中處理。值得注意的是,這種改進發(fā)生在訓練階段之后,并且對于各種范圍視圖分割方法是現(xiàn)成的和通用的。
4.3.3 Scalable Training
為了揭示STR中可能的最佳粒度,我們將點云分為4,5,6,8和10個視圖,并在圖中顯示其結(jié)果。7.我們對它們應用相同的訓練迭代,因此它們的實際內(nèi)存消耗變?yōu)? Z。我們看到,4或5個視圖的訓練往往會產(chǎn)生更好的分數(shù);而在更多視圖上,會聚速率將受到影響,這可能是由于低分辨率距離圖像中的有限相關性。總之,STR為距離視圖LiDAR分割開辟了一種新的訓練范例,可以更好地平衡準確性和效率。(實際上這個操作會損害性能,相當于輸入變少了)
5、Conclusion
????????在這項工作中,在防御傳統(tǒng)的范圍視圖表示,我們提出了RangeFormer,一個新的框架,實現(xiàn)上級性能比其他形式的語義和全景激光雷達分割。我們還引入了STR,這是一種更具可擴展性的處理LiDAR點云學習和處理的方法,可以產(chǎn)生更好的準確性和效率權(quán)衡。我們的方法為準確的車載LiDAR感知帶來了更多的可能性。在未來,我們將尋求更輕量級的自注意力結(jié)構(gòu)和計算,以進一步提高效率。
Appendix
在本附錄中,我們補充了更多的材料來支持本文的主體。具體而言,本附錄的結(jié)構(gòu)如下?!?/p>
6詳細闡述了所提出的方法和實驗的附加實現(xiàn)細節(jié)。
7提供了額外的定量結(jié)果,包括我們的比較研究和消融研究的類IoU評分。
8附加了額外的定性結(jié)果,包括更多的視覺比較(圖)和演示(視頻)。
9.承認在這項工作中使用的公共資源。
6. Additional Implementation Detail
????????在本節(jié)中,我們提供了更多的技術細節(jié),以幫助讀者更好地理解我們的方法。具體來說,我們首先詳細說明我們工作中使用的數(shù)據(jù)集和基準。然后,我們總結(jié)網(wǎng)絡配置,并提供更多的訓練和測試細節(jié)。
6.1. Benchmark
SemanticKITTI
作為KITTI視覺里程計基準的擴展,SemanticKITTI [5]數(shù)據(jù)集已被廣泛用于評估和比較模型性能。它由總共22個序列組成,收集自德國的街景。訓練、驗證和測試掃描的數(shù)量分別為19130、4071和20351。激光雷達點云由Velodyne HDL64E傳感器捕獲,每次掃描約120k個點,垂直角分辨率為64。因此,我們在3D到2D光柵化期間將H設置為64。在這項工作中采用了19個類的常規(guī)映射。
nuScenes
作為一個多模式自動駕駛數(shù)據(jù)集,nuScenes [7]是迄今為止最全面的基準。它是由Motional(前身為nuTonomy)的團隊開發(fā)的。數(shù)據(jù)收集自波士頓和新加坡。我們使用nuScenes中的lidarseg集[21]進行LiDAR分割。它包含28130個訓練掃描和6019個驗證掃描。Velodyne HDL32E傳感器用于數(shù)據(jù)收集,可產(chǎn)生約40k至50k點的稀疏點云。因此,我們在3D到2D光柵化期間將H設置為32。在這項工作中,我們采用了傳統(tǒng)的16個類從官方映射。
ScribbleKITTI
由于人工標注通常是昂貴和耗時的,越來越多的最近的作品已經(jīng)開始尋求弱注釋。ScribbleKITTI [68]用線條涂鴉重新標記了SemanticKITTI [5],從而保存了時間和精力。最終有效語義標簽占點數(shù)的比例為8.06%。我們采用與SemanticKITTI相同的3D到2D光柵化配置,因為這兩個集合共享相同的數(shù)據(jù)格式,即,64個波束,每次LiDAR掃描約120k個點,16個語義類。我們遵循作者的原始設置,并報告SemanticKITTI序列08的分數(shù)。
6.2. Model Configuration
Range Embedding Module (REM)在距離視圖光柵化之后,尺寸為6 ×H ×W的輸入R(u,v)首先被饋送到REM中用于距離視圖點嵌入。它由三個MLP層組成,分別將R(u,v)的嵌入dim從6映射到64、128和128,并使用批范數(shù)和GELU激活。
Overlap Patch Embedding.REM的輸出大小為128×H× W,用作Transformer模塊的輸入。具體地,對于四個階段中的每一個,補丁嵌入層將大小為Hemed、Wembed的輸入劃分為3×3補丁,其中重疊步幅等于1(對于第一階段)和2(對于最后三個階段)。
Multi-Head Attention & Feed-Forward.在重疊補丁嵌入之后,使用標準多頭注意操作處理補丁,如[19,70,73]中所述。我們保留使用殘余連接和層規(guī)范化(Add & Norm)的默認設置。四個階段中的每一個的頭的數(shù)量是[3,4,6,3]。
Segmentation Head.從不同階段提取的分層特征被存儲并用于解碼。具體地,四個階段中的每一個產(chǎn)生空間大小為[(H,W),(H 2,W 2),(H 4,W 4),(H 8,W 8)]的特征,其中通道維度為[128,128,320,512]。如正文所述,我們執(zhí)行兩個統(tǒng)一步驟來統(tǒng)一不同特征圖的通道和空間大小。我們首先將它們的通道尺寸映射到256,即,[128,H,W] → [256,H,W],[128,H 2,W 2 ] → [256,H 2,W 2 ],[320,H 4,W 4 ] → [256,H 4,W 4 ],[512,H 8,W 8 ] → [256,H 8,W 8 ],然后,我們將四個特征映射插值到H ×W的空間大小。
6.3. Training & Testing Configuration
我們的LiDAR分割模型使用PyTorch實現(xiàn)。所提出的數(shù)據(jù)擴充(RangeAug)、后處理技術(RangePost)和STR分區(qū)策略都是GPU輔助的,并且在數(shù)據(jù)準備過程中,這避免了在模型訓練期間增加額外的開銷。“共同”數(shù)據(jù)擴充的配置,即,縮放、全局旋轉(zhuǎn)、抖動、翻轉(zhuǎn)和隨機丟棄描述如下。
隨機縮放:點坐標(px,py,pz)的全局變換,其中每個點的坐標在?0.05%到0.05%的范圍內(nèi)隨機縮放。
全局旋轉(zhuǎn):XY平面內(nèi)點坐標(px,py)的全局變換,旋轉(zhuǎn)角度在0度到360度范圍內(nèi)隨機選擇。
隨機抖動:點坐標(px、py、pz)的全局變換,其中每個點的坐標在-0.3m 到0.3m 的范圍內(nèi)隨機抖動。
隨機翻轉(zhuǎn):點坐標(px,py)的全局變換,具有三種選項,即僅沿X 軸翻轉(zhuǎn)、僅沿Y 軸翻轉(zhuǎn)、沿X 軸和Y 軸翻轉(zhuǎn)。
隨機丟棄:全局變換,在范圍視圖光柵化之前從整個LiDAR 點云中隨機刪除一定比例的kdrop 點。在我們的實驗中,kdrop 設置為 10%。
另外,所提出的范圍視圖增強組合的配置描述如下
RangeMix:計算出當前掃描和隨機采樣掃描的所有傾角 和方位角 θ 后,我們將點分割為 kmix 等跨傾角范圍,即不同的混合策略。然后交換兩次掃描中相同傾角范圍內(nèi)的對應點。在我們的實驗中,我們從組合中設計混合策略,并且 kmix 從列表 [2,3,4,5,6] 中隨機采樣。
RangeUnion:點嵌入中的存在性pe用于創(chuàng)建潛在的掩模,然后將其用作用來自隨機采樣掃描的點(在相應位置)補充當前距離圖像中的空網(wǎng)格的指示符。給定多個 Nunion = P n pe n 空范圍視圖網(wǎng)格,我們隨機選擇 kunionNunion 候選網(wǎng)格進行點填充,其中 kunion 設置為 50%。
RangePaste:隨機采樣掃描的真實語義標簽用于創(chuàng)建粘貼蒙版。要粘貼的類是“尾部”分布中的類,它形成語義類列表(sem 類)。對稀有類的點進行索引后,我們將它們粘貼到當前掃描中,同時保持范圍圖像中的相應位置。
RangeShift:范圍視圖網(wǎng)格中的點相對于其方位角 θ 的全局變換。這對應于使用 kshift rows 沿著行方向移動范圍視圖網(wǎng)格。在我們的實驗中,kshift是從W 4 到3W 4 的范圍內(nèi)隨機采樣的。
訓練時,進行五種常見增強的概率設置為[1.0,1.0,1.0,1.0,0.9];而進行范圍視圖增強的概率設置為 [0.9, 0.2, 0.9, 1.0]。
在驗證期間,所有數(shù)據(jù)增強,即常見增強操作和建議的范圍視圖增強操作,都設置為 false。我們注意到最近的一些工作在驗證集上使用了一些技巧,例如測試時間增強、模型集成等。值得一提的是,我們沒有使用任何技巧來提高驗證性能,以便結(jié)果可以直接與遵循標準設置的方法。
在測試過程中,我們遵循 CENet [13] 中的常規(guī)設置,并在預測階段應用測試時間增強。我們使用 CENet 作者的代碼來實現(xiàn)這一點:它在多個增強輸入中進行投票以生成最終預測。三種常見的增強,即全局旋轉(zhuǎn)、隨機抖動和隨機翻轉(zhuǎn),用于產(chǎn)生增強輸入。投票數(shù)設置為 11。我們不使用模型集成來提高測試性能。按照慣例,我們報告了 SemanticKITTI 和 nuScenes 基準測試集的增強結(jié)果。對于 ScribbleKITTI [68],我們重現(xiàn)了 FIDNet [85]、CENet [13]、SPVCNN [63] 和 Cylinder3D [87],并報告它們在標準 ScribbleKITTI val 集上的分數(shù),而不使用測試時間增強或模型集成。
6.4. STR: Scalable Training Strategy
正如正文中所述,我們提出了一種可擴展的范圍視圖訓練(STR)策略,以節(jié)省訓練期間的計算成本。如圖 8 所示,STR 允許我們在任意低分辨率 2D 距離圖像上訓練距離視圖模型,同時仍然保持令人滿意的 3D 分割精度。它在精度和效率之間提供了更好的權(quán)衡,這是車載 LiDAR 分割的兩個最重要的因素。
6.5?Post-Processing Configuration
????????正如正文中所述,我們提出了一種新穎的 RangePost 技術,以更好地處理范圍視圖光柵化中的“多對一”沖突。算法 3 顯示了 RangeAug 操作的偽代碼。具體來說,我們首先將整個 LiDAR 點云子采樣為等間隔的“子云”,它們共享相似的語義。接下來,我們將點云的這些子集疊加并輸入到 LiDAR 分割模型中進行推理。獲得預測后,我們將它們縫合回原來的位置。正如我們在實驗中的幾種范圍視圖方法所驗證的那樣,RangePost可以更好地恢復正確的信息,因為相鄰點之間的混疊已經(jīng)得到了整體的減少。
7. Additional Quantitative Result
在本節(jié)中,我們提供了對三個測試的 LiDAR 分割數(shù)據(jù)集進行比較和消融研究的額外定量結(jié)果。
7.1. Comparative Study
????????我們對三個流行的 LiDAR 分割基準進行了廣泛的實驗,即 SemanticKITTI [5]、nuScenes [21] 和 ScribbleKITTI [68]。表 7 顯示了不同 LiDAR 語義分割方法在 SemanticKITTI [5] 測試集上的類 IoU 分數(shù)。在所有競爭對手中,我們觀察到 RangeFormer 及其 STR 版本相對于原始點、鳥瞰圖、范圍視圖和體素方法具有明顯的優(yōu)勢。當僅使用范圍視圖表示時,我們還獲得了比最近基于多視圖融合的方法[77,31,79,40]更好的分數(shù)。表8顯示了不同LiDAR語義分割方法在ScribbleKITTI [68]的val集上(與SemanticKITTI [5]的val集相同)的類別IoU分數(shù)。我們可以看到,在這個弱注釋數(shù)據(jù)集上,RangeFormer 比 SoTA 體素和范圍視圖方法產(chǎn)生更高的 IoU 分數(shù)。對于汽車、自行車、摩托車和人等動態(tài)類別,這種優(yōu)勢尤其明顯。還值得注意的是,我們的方法在僅使用 8.06% 語義標簽的情況下比一些完全監(jiān)督的方法取得了更好的分數(shù)(表 7)。標簽。 9 和選項卡。圖 10 分別顯示了不同 LiDAR 語義分割方法在 nuScenes [21] 的驗證集和測試集上的分類 IoU 分數(shù)。結(jié)果再次證明了 RangeFormer 和 STR 在 LiDAR 語義分割方面的優(yōu)勢。我們在涵蓋各種情況的三個基準上取得了新的 SoTA 結(jié)果,即密集/稀疏 LiDAR 點云以及完整/弱監(jiān)督信號。此外,選項卡。圖 11 顯示了 SemanticKITTI [5] 的 LiDAR 全景分割基準中 PQ、RQ、SQ 和 IoU 的類別分數(shù)。對于所有四個指標,我們觀察到 Panoptic-RangeFormer 和 STR 與最近的 SoTA LiDAR 全景分割方法相比都有優(yōu)勢 [41]。
7.2. Ablation Study
表14 顯示了 FIDNet [85]、CENet [13] 和 RangeFormer 在 STR 訓練策略下的類 IoU 分數(shù)。我們可以看到,距離視圖LiDAR分割方法能夠在非常小的分辨率范圍圖像上進行訓練,例如W = 192、W = 240和W = 320。在節(jié)省大量內(nèi)存消耗的同時,分割性能相對較低。穩(wěn)定的。例如,RangeFormer 在 W = 192 時可以達到 64.3% mIoU,這比之前的多種 LiDAR 分割方法都要好。水平分辨率越高,分割性能往往會得到改善。平衡準確性和效率的靈活性為從業(yè)者提供了更多的可能性和選擇。
8. Additional Qualitative Result
在本節(jié)中,我們提供了我們方法的額外定性結(jié)果,以進一步證明我們的優(yōu)勢。
8.1. Visual Comparison
圖 9 和圖 10 包括 RangeFormer 和 SoTA 距離視圖 LiDAR 分割方法的更多可視化結(jié)果 [85, 13]。與現(xiàn)有技術相比,我們可以看到RangeFormer產(chǎn)生了更好的LiDAR分割性能。它從整體上消除了圍繞自我車輛的錯誤預測,特別是對于多個類別聚集在一起的復雜區(qū)域。
8.2. Failure Case
盡管RangeFormer大幅提升了LiDAR分割性能,但仍然容易出現(xiàn)一些失敗案例。從圖9和圖10中的誤差圖可以看出,錯誤的預測很可能發(fā)生在物體和背景的邊界處(圖9中的第一個場景)。對于稀有類別(圖 10 中的第二個場景)和長距離區(qū)域(圖 10 中的第四個場景)也可能存在錯誤預測??紤]到此類情況的更復雜的設計可能會產(chǎn)生更好的激光雷達分割性能。
8.3. Video Demo
除了圖片之外,我們還在補充材料中附上了四個視頻演示,即 demo1.mp4、demo2.mp4、demo3.mp4 和 demo4.mp4。每個視頻演示由數(shù)百個幀組成,可以對我們提出的方法進行更全面的評估。這些視頻演示將在我們的網(wǎng)站上公開發(fā)布3。
自己總結(jié)(疑問):
1、整體很簡潔,但是沒開源,transfomer patch那里是怎么做的感覺沒看太懂。
2、STR理解是拆分成小塊,所以也算是一種數(shù)據(jù)增強? 384的寬度是怎么來的有點好奇,384*5=1920?但是原文消融實驗最高的結(jié)果是480的時候得到的。在cenet str有增強,但是在作者提出的網(wǎng)絡str沒有增強。如果把一個圖片分成N算,算完在拼接回去,時間為什么會更少呢?
3、Augmentation +10個點,傳統(tǒng)的增強+作者自己的增強文章來源:http://www.zghlxwxcb.cn/news/detail-784942.html
4、RangePost +8個點,先把結(jié)果分成幾份分別做推理,最后在推回去文章來源地址http://www.zghlxwxcb.cn/news/detail-784942.html
到了這里,關于論文閱讀:Rethinking Range View Representation for LiDAR Segmentation的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!