點云 3D 分割 - SqueezeSegV2（ICRA 2019）

這篇具有很好參考價值的文章主要介紹了點云 3D 分割 - SqueezeSegV2（ICRA 2019）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

聲明：此翻譯僅為個人學(xué)習(xí)記錄

文章信息

標(biāo)題：SqueezeSegV2: Improved Model Structure and Unsupervised Domain Adaptation for Road-Object Segmentation from a LiDAR Point Cloud (ICRA 2019)

作者：Bichen Wu^*, Xuanyu Zhou^*, Sicheng Zhao^*, Xiangyu Yue, Kurt Keutzer ( ^* Authors contributed equally)

文章鏈接：https://arxiv.org/pdf/1809.08495v1.pdf

文章代碼：https://github.com/xuanyuzhou98/SqueezeSegV2

摘要

??早期的工作證明了基于深度學(xué)習(xí)的點云分割方法的前景；然而，這些方法需要改進(jìn)，以使其實用。為此，我們引入了一個新模型SquezeSegV2，它對LiDAR點云中的脫落噪聲更為魯棒。通過改進(jìn)的模型結(jié)構(gòu)、訓(xùn)練損失、批量標(biāo)準(zhǔn)化和額外的輸入通道，SquezeSegV2在實際數(shù)據(jù)上訓(xùn)練時實現(xiàn)了顯著的準(zhǔn)確性提高。用于點云分割的訓(xùn)練模型需要大量標(biāo)記的點云數(shù)據(jù)，這很難獲得。為了避免收集和注釋的成本，可以使用GTA-V等模擬器來創(chuàng)建無限量的標(biāo)記合成數(shù)據(jù)。然而，由于領(lǐng)域轉(zhuǎn)移，基于合成數(shù)據(jù)訓(xùn)練的模型通常不能很好地推廣到現(xiàn)實世界。我們使用由三個主要組件組成的域自適應(yīng)訓(xùn)練管道來解決這個問題：1）學(xué)習(xí)強(qiáng)度渲染，2）測地相關(guān)對齊，和3）漸進(jìn)域校準(zhǔn)。當(dāng)在真實數(shù)據(jù)上進(jìn)行訓(xùn)練時，我們的新模型顯示出比原始SquezeSeg提高6.0-8.6%的分割精度。當(dāng)使用所提出的領(lǐng)域自適應(yīng)管道在合成數(shù)據(jù)上訓(xùn)練我們的新模型時，我們對真實世界數(shù)據(jù)的測試精度幾乎翻倍，從29.0%提高到57.4%。我們的源代碼和合成數(shù)據(jù)集將是開源的。

1. 引言

??對環(huán)境的準(zhǔn)確、實時和魯棒感知是自動駕駛系統(tǒng)中不可或缺的組成部分。對于高端自動駕駛汽車的感知，LiDAR（光探測和測距）傳感器發(fā)揮著重要作用。LiDAR傳感器可以直接提供距離測量，其分辨率和視野超過雷達(dá)和超聲波傳感器[1]。LiDAR傳感器在幾乎所有的照明條件下都是魯棒的：白天或夜晚，有或沒有眩光和陰影[2]。因此，基于激光雷達(dá)的感知已經(jīng)引起了重大的研究關(guān)注。

??最近，深度學(xué)習(xí)被證明對激光雷達(dá)感知任務(wù)非常有效。具體地說，Wu等人提出了SquezeSeg[2]，它專注于點云分割問題。SquezeSeg將3D LiDAR點云投影到球面上，并使用2D CNN預(yù)測點云的逐點標(biāo)簽。SquezeSeg非常高效——最快的版本可以達(dá)到每秒100幀以上的推理速度。然而，SquezeSeg仍然有幾個局限性：首先，它的精度仍然需要提高，才能實際使用。精度下降的一個重要原因是脫落噪聲——由有限的傳感范圍、傳感激光的鏡面擴(kuò)散或入射角抖動引起的傳感點云中的缺失點。這種脫落噪聲會破壞SquezeSeg早期層的輸出，從而降低精度。第二，訓(xùn)練SquezeSeg等深度學(xué)習(xí)模型需要數(shù)萬個標(biāo)記的點云；然而，收集和注釋這些數(shù)據(jù)甚至比從相機(jī)收集相當(dāng)?shù)臄?shù)據(jù)更耗時和昂貴。GTAV用于合成LiDAR點云，作為訓(xùn)練數(shù)據(jù)的額外來源[2]；然而，這種方法存在域轉(zhuǎn)移問題[3]-在合成數(shù)據(jù)上訓(xùn)練的模型通常在真實數(shù)據(jù)上災(zāi)難性地失敗，如圖1所示。域移位來自不同的源，但GTA-V中沒有脫落噪聲和強(qiáng)度信號是兩個重要因素。模擬真實的脫落噪聲和強(qiáng)度非常困難，因為它需要對LiDAR設(shè)備和環(huán)境進(jìn)行復(fù)雜的建模，這兩者都包含大量非確定性因素。因此，GTA-V生成的LiDAR點云不包含脫落噪聲和強(qiáng)度信號。模擬數(shù)據(jù)與實際數(shù)據(jù)的比較如圖1（a），（b）所示。

點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)

圖1. 域轉(zhuǎn)移的一個例子。將點云投影到球形表面上進(jìn)行可視化（紅色為汽車，藍(lán)色為行人）。我們的領(lǐng)域自適應(yīng)流水線改進(jìn)了從（c）到（d）的分段，同時對合成數(shù)據(jù)進(jìn)行了訓(xùn)練。

??在本文中，我們著重于應(yīng)對上述挑戰(zhàn)。首先，為了提高準(zhǔn)確性，我們通過提出上下文聚合模塊（CAM）來減輕脫落噪聲的影響，這是一種新的CNN模塊，它聚合來自更大感受野的上下文信息，并提高網(wǎng)絡(luò)對脫落噪聲的魯棒性。將CAM添加到SquezeSegV2的早期層中，不僅顯著提高了在真實數(shù)據(jù)上訓(xùn)練時的性能，還有效地減少了域差距，提高了在合成數(shù)據(jù)上訓(xùn)練的網(wǎng)絡(luò)的真實世界測試精度。除了CAM，我們對SquezeSeg進(jìn)行了幾項改進(jìn)，包括使用焦點損失[4]、批量歸一化[5]和LiDAR掩模作為輸入通道。這些改進(jìn)一起將轉(zhuǎn)換后的KITTI數(shù)據(jù)集上所有類別的SquezeSegV2的準(zhǔn)確性提高了6.0%-8.6%[2]。

??第二，為了更好地利用合成數(shù)據(jù)來訓(xùn)練模型，我們提出了一種域自適應(yīng)訓(xùn)練流水線，該流水線包含以下步驟：首先，在訓(xùn)練之前，我們通過學(xué)習(xí)的強(qiáng)度渲染在合成數(shù)據(jù)中渲染強(qiáng)度通道。我們訓(xùn)練一個以點坐標(biāo)為輸入的神經(jīng)網(wǎng)絡(luò)，并預(yù)測強(qiáng)度值。該渲染網(wǎng)絡(luò)可以在未標(biāo)記的真實數(shù)據(jù)上以“自我監(jiān)督”的方式進(jìn)行訓(xùn)練。訓(xùn)練網(wǎng)絡(luò)后，我們將合成數(shù)據(jù)輸入網(wǎng)絡(luò)，并渲染原始模擬中缺少的強(qiáng)度通道。其次，我們使用增強(qiáng)了渲染強(qiáng)度的合成數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)。同時，我們遵循[6]，并使用測地相關(guān)對齊來對齊真實數(shù)據(jù)和合成數(shù)據(jù)之間的批次統(tǒng)計。3）在訓(xùn)練之后，我們提出漸進(jìn)域校準(zhǔn)，以進(jìn)一步減少目標(biāo)域和訓(xùn)練網(wǎng)絡(luò)之間的差距。實驗表明，上述領(lǐng)域自適應(yīng)訓(xùn)練流水線在真實世界測試數(shù)據(jù)上顯著提高了用合成數(shù)據(jù)訓(xùn)練的模型的準(zhǔn)確性，從29.0%提高到57.4%。

??本文的貢獻(xiàn)有三方面：1）我們用CAM改進(jìn)了SquezeSeg的模型結(jié)構(gòu)，以提高其對脫落噪聲的魯棒性，這導(dǎo)致不同類別的準(zhǔn)確度顯著提高6.0%至8.6%。我們將新模型命名為SquezeSegV2。2）我們提出了一種領(lǐng)域自適應(yīng)訓(xùn)練管道，該管道顯著減少了合成數(shù)據(jù)和真實數(shù)據(jù)之間的分布差距。在合成數(shù)據(jù)上訓(xùn)練的模型比實際測試數(shù)據(jù)的精度提高了28.4%。3）我們創(chuàng)建了一個大規(guī)模的3D激光雷達(dá)點云數(shù)據(jù)集GTA-LiDAR，它由100000個合成點云樣本組成，并增強(qiáng)了渲染強(qiáng)度。源代碼和數(shù)據(jù)集將是開源的。

2. 相關(guān)工作

??3D LiDAR點云分割旨在通過預(yù)測逐點標(biāo)簽從點云中識別目標(biāo)。非深度學(xué)習(xí)方法[1]、[7]、[8]通常涉及幾個階段，如地面移除、聚類和分類。SquezeSeg[2]是將深度學(xué)習(xí)應(yīng)用于這個問題的一項早期工作。Piewak等人[9]采用了與SquezeSeg類似的問題闡述方式和管道，并提出了一種稱為LiLaNet的新網(wǎng)絡(luò)架構(gòu)。他們利用基于圖像的語義分割為LiDAR點云生成標(biāo)簽，從而創(chuàng)建了一個數(shù)據(jù)集。然而，數(shù)據(jù)集沒有發(fā)布，因此我們無法與他們的工作進(jìn)行直接比較。另一類方法基于PointNet[10]，[11]，它將點云視為一組無序的3D點。這對于諸如分類和分割之類的3D感知問題是有效的。受限于其計算復(fù)雜性；然而，PointNet主要用于處理點數(shù)有限的室內(nèi)場景。Frustum PointNet[12]被提出用于室外目標(biāo)檢測，但它依賴于圖像對象檢測來首先定位對象簇，并將簇（而不是整個點云）饋送到PointNet。

??無監(jiān)督域適配（UDA）旨在將模型從一個標(biāo)記的源域適配到另一個未標(biāo)記的目標(biāo)域。最近的UDA方法專注于傳遞深度神經(jīng)網(wǎng)絡(luò)表示[13]，[14]。通常，深度UDA方法使用具有兩個流的聯(lián)合架構(gòu)來分別表示源域和目標(biāo)域的模型。除了根據(jù)標(biāo)記的源數(shù)據(jù)計算的任務(wù)相關(guān)損失外，深度UDA模型通常與另一損失一起訓(xùn)練，例如差異損失[15]、[16]、[17]、[18]、[6]、對抗性損失[19]、[20]、[21]、[22]、[23]、[24]、標(biāo)記分布損失[18]或重建損失[25]、[26]。

??最相關(guān)的工作是對合成數(shù)據(jù)的探索[22]，[18]，[24]。通過實施自正則化損失，Shrivastava等人[22]提出了SimGAN，以使用未標(biāo)記的真實數(shù)據(jù)提高合成數(shù)據(jù)的真實性。另一類相關(guān)工作采用差異損失[15]，[16]，[17]，[6]，其明確地測量了兩個網(wǎng)絡(luò)流的相應(yīng)激活層上的源域和目標(biāo)域之間的差異。我們嘗試通過一種新的適應(yīng)管道來適應(yīng)合成的3D激光雷達(dá)點云，而不是處理2D圖像。

??模擬最近被用于創(chuàng)建用于訓(xùn)練目的的大規(guī)模真值數(shù)據(jù)。Richter等人[27]提供了一種為合成游戲圖像提取語義分割的方法。在[28]中，相同的游戲引擎用于提取圖像中對象的真值2D邊界框。Yue等人[29]提出了一種生成合成LiDAR點云的框架。Richter等人[30]和Kr¨ahenb¨uhl[31]從視頻游戲中提取了更多類型的信息。

3. 改進(jìn)模型結(jié)構(gòu)

??我們提出了SqueezeSegV2，通過改進(jìn)基礎(chǔ)SqueezSeg模型，添加上下文聚合模塊（CAM），添加LiDAR掩模作為輸入通道，使用批量歸一化[5]，并采用焦點損失[4]。SquezeSegV2的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

A. 上下文聚合模塊

??LiDAR點云數(shù)據(jù)包含許多缺失點，我們稱之為脫落噪聲，如圖1（b）所示。衰減噪聲主要由1）有限的傳感器范圍，2）傳感激光器在光滑表面上的鏡面反射（而不是擴(kuò)散反射），以及3）入射角的抖動引起。脫落噪聲對SquezeSeg有重大影響，尤其是在網(wǎng)絡(luò)的早期層。在卷積濾波器的接收場非常小的早期層，小鄰域中的缺失點會嚴(yán)重破壞濾波器的輸出。為了說明這一點，我們進(jìn)行了一個簡單的數(shù)值實驗，其中我們隨機(jī)采樣輸入張量，并將其輸入到3×3卷積濾波器中。我們從輸入張量中隨機(jī)丟棄一些像素，如圖4所示，隨著丟棄概率的增加，受損輸出和原始輸出之間的誤差也會增加。

點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)

圖2. 用于從3D LiDAR點云分割道路目標(biāo)的SqueezeSegV2模型的網(wǎng)絡(luò)結(jié)構(gòu)。

點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)

圖3. 上下文聚合模塊的結(jié)構(gòu)。

點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)

圖4. 我們將一個隨機(jī)張量輸入卷積濾波器，一個在3×3卷積濾波器之前具有CAM，另一個沒有CAM。我們隨機(jī)地在輸入端加入脫落噪聲，并測量輸出誤差。當(dāng)我們增加丟失概率時，誤差也會增加。對于所有丟失概率，添加CAM提高了對丟失噪聲的魯棒性，因此，誤差總是較小。

??這個問題不僅影響在真實數(shù)據(jù)上訓(xùn)練時的SquezeSeg，而且還導(dǎo)致合成數(shù)據(jù)和真實數(shù)據(jù)之間存在嚴(yán)重的域差距，因為模擬來自相同分布的真實脫落噪聲非常困難。

??為了解決這個問題，我們提出了一種新的上下文聚合模塊（CAM）來降低對脫落噪聲的敏感性。如圖3所示，CAM從具有相對較大內(nèi)核大小的最大池開始。最大池聚合了像素周圍的上下文信息，像素具有更大的感受野，并且它對其感受野中缺失的數(shù)據(jù)不太敏感。此外，即使內(nèi)核大小較大，也可以有效地計算最大池。最大池化層之后是兩個級聯(lián)卷積層，其間有ReLU激活。在[32]之后，我們使用S形函數(shù)對模塊的輸出進(jìn)行歸一化，并使用元素乘法將輸出與輸入組合。如圖4所示，所提出的模塊對脫落噪聲的敏感度要低得多——在相同的損壞輸入數(shù)據(jù)下，誤差顯著降低。

??在SquezeSegV2中，我們在前三個模塊（1個卷積層和2個FireModules）的輸出之后插入CAM，其中濾波器的接收場很小。從后面的實驗中可以看出，CAM 1）在真實數(shù)據(jù)上訓(xùn)練時顯著提高了準(zhǔn)確性，2）在合成數(shù)據(jù)上訓(xùn)練和在真實數(shù)據(jù)測試時顯著減少了域差距。

B. 焦點損失

??LiDAR點云具有非常不平衡的點類別分布——背景點比前景對象（如汽車、行人等）多得多。這種不平衡的分布使得模型更加關(guān)注于易于分類的背景點，這些背景點沒有提供有用的學(xué)習(xí)信號，而前景對象在訓(xùn)練期間沒有得到充分處理。

??為了解決這個問題，我們將SquezeSeg[2]的原始交叉熵?fù)p失替換為焦點損失[4]。焦點損失調(diào)制來自不同像素的損失貢獻(xiàn)，并聚焦于困難的樣本。對于給定的像素標(biāo)簽t和預(yù)測的p_t概率，焦點損失[4]將調(diào)制因子（1?p_t）^γ添加到交叉熵?fù)p失中。因此，該像素的焦點損失
點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)
??當(dāng)像素被錯誤分類并且p_t很小時，調(diào)制因子接近1，并且損失不受影響。作為p_t→ 1，因子變?yōu)?，并且對分類良好的像素的損失進(jìn)行下加權(quán)。聚焦參數(shù)γ平滑地調(diào)整了分類良好的樣本向下加權(quán)的速率。當(dāng)γ=0時，焦損相當(dāng)于交叉熵?fù)p失。隨著γ的增加，調(diào)制因子的作用也會增加。我們在實驗中選擇γ為2。

C. 其他改進(jìn)

??LiDAR掩模：除了原始（x、y、z、強(qiáng)度、深度）通道外，我們還添加了一個通道——一個二進(jìn)制掩模，指示每個像素是否缺失或存在。正如我們從表1中看到的，添加掩模通道顯著提高了騎車人的分割精度。

??批歸一化：與SquezeSeg[2]不同，我們還在每個卷積層之后添加批歸一化（BN）[5]。BN層旨在緩解內(nèi)部協(xié)變移位的問題，這是訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的常見問題。我們在表I中觀察到使用BN層后汽車分割的改進(jìn)。

點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)

圖5. 用于從合成GTA-LiDAR數(shù)據(jù)集到真實世界KITTI數(shù)據(jù)集的道路目標(biāo)分割的所提出的無監(jiān)督域自適應(yīng)方法的框架。

4. 領(lǐng)域適應(yīng)訓(xùn)練

??在本節(jié)中，我們將介紹我們的無監(jiān)督域自適應(yīng)流水線，該流水線在合成數(shù)據(jù)上訓(xùn)練SquezeSegV2，并提高其在真實數(shù)據(jù)上的性能。我們構(gòu)建了一個大型3D激光雷達(dá)點云數(shù)據(jù)集GTA-LiDAR，在GTA-V上模擬了100000次激光雷達(dá)掃描。為了處理域偏移問題，我們采用了三種策略：學(xué)習(xí)強(qiáng)度渲染、測地相關(guān)對齊和漸進(jìn)域校準(zhǔn)，如圖5所示。

A. GTA-LiDAR數(shù)據(jù)集

??我們在GTA-V中合成了100000個LiDAR點云，以訓(xùn)練SquezeSegV2。我們使用[31]中的框架生成深度語義分割圖，并使用[29]中的方法在GTA-V中進(jìn)行圖像LiDAR配準(zhǔn)。在[29]之后，我們通過部署虛擬汽車在虛擬世界中自主駕駛，收集了100000個點云掃描。GTA-V提供了各種各樣的場景、汽車類型、交通狀況等，這確保了我們合成數(shù)據(jù)的多樣性。合成點云中的每個點都包含一個標(biāo)簽、一個距離和x、y、z坐標(biāo)。然而，它不包含代表反射激光信號大小的強(qiáng)度。此外，合成數(shù)據(jù)不包含真實數(shù)據(jù)中的脫落噪聲。由于這種分布差異，基于合成數(shù)據(jù)訓(xùn)練的模型無法轉(zhuǎn)換為真實數(shù)據(jù)。

B. 學(xué)習(xí)強(qiáng)度渲染

??合成數(shù)據(jù)僅包含x、y、z和深度通道，沒有強(qiáng)度。如SquezeSeg[2]所示，強(qiáng)度是一個重要的信號。缺乏強(qiáng)度會導(dǎo)致嚴(yán)重的精度損失。渲染真實的強(qiáng)度是一項非常重要的任務(wù)，因為影響強(qiáng)度的許多因素，例如表面材料和激光雷達(dá)靈敏度，我們通常都不知道。

??為了解決這個問題，我們提出了一種稱為學(xué)習(xí)強(qiáng)度渲染的方法。其想法是使用網(wǎng)絡(luò)將點云的x、y、z、深度通道作為輸入，并預(yù)測強(qiáng)度。這種渲染網(wǎng)絡(luò)可以用未標(biāo)記的LiDAR數(shù)據(jù)訓(xùn)練，只要LiDAR傳感器可用，就可以容易地收集這些數(shù)據(jù)。如圖5（a）所示，我們以自我監(jiān)督的方式訓(xùn)練渲染網(wǎng)絡(luò)，將x、y、z通道作為網(wǎng)絡(luò)的輸入，將強(qiáng)度通道作為標(biāo)簽。渲染網(wǎng)絡(luò)的結(jié)構(gòu)幾乎與SquezeSeg相同，只是移除了CRF層。

??強(qiáng)度渲染可以看作是一個回歸問題，其中l(wèi)2損失是一個自然選擇。然而，l2無法捕捉強(qiáng)度的多模態(tài)分布——給定相同的x、y、z輸入，強(qiáng)度可能不同。為了對這一特性進(jìn)行建模，我們設(shè)計了一個包含分類和回歸的混合損失函數(shù)。我們將強(qiáng)度劃分為n=10個區(qū)域，每個區(qū)域都有一個參考強(qiáng)度值。網(wǎng)絡(luò)首先預(yù)測強(qiáng)度屬于哪個區(qū)域。一旦選擇了該區(qū)域，網(wǎng)絡(luò)進(jìn)一步預(yù)測與參考強(qiáng)度的偏差。這樣，分類預(yù)測可以捕獲強(qiáng)度的多模態(tài)分布，而偏差預(yù)測導(dǎo)致更準(zhǔn)確的估計。我們使用混合損失函數(shù)在KITTI[33]數(shù)據(jù)集上訓(xùn)練渲染網(wǎng)絡(luò)，并使用均方誤差（MSE）測量其精度。與l2損失相比，收斂MSE從0.033顯著下降3倍至0.011。圖6顯示了使用兩種不同損耗的幾個渲染結(jié)果。訓(xùn)練渲染網(wǎng)絡(luò)后，我們將合成GTA-LiDAR數(shù)據(jù)輸入到網(wǎng)絡(luò)中，以渲染逐點強(qiáng)度。

C. 測地相關(guān)對齊

??渲染強(qiáng)度后，我們在具有焦點損失的合成數(shù)據(jù)上訓(xùn)練SquezeSegV2。然而，由于合成數(shù)據(jù)和真實數(shù)據(jù)之間的分布差異，訓(xùn)練后的模型通常無法推廣到真實數(shù)據(jù)。

??為了減少這種區(qū)域差異，我們在訓(xùn)練期間采用測地相關(guān)對齊。如圖5（b）所示，在訓(xùn)練的每一步，我們向網(wǎng)絡(luò)輸入一批合成數(shù)據(jù)和一批真實數(shù)據(jù)。我們計算合成批次上的焦點損失，其中標(biāo)簽可用。同時，我們計算了兩個批次的輸出分布之間的測地線距離[6]?？倱p失現(xiàn)在包含焦點損失和測地線損失。當(dāng)焦點損失集中于訓(xùn)練網(wǎng)絡(luò)以從點云學(xué)習(xí)語義時，測地線損失懲罰來自兩個域的批統(tǒng)計之間的差異。注意，其他距離（例如歐幾里德距離）也可以用于對齊域統(tǒng)計。然而，我們選擇測地線距離而不是歐幾里德距離，因為它考慮了流形曲率。更多詳情見[6]。

點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)

圖6. 在KITTI數(shù)據(jù)集中渲染的v.s.真值強(qiáng)度。

點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)

??我們將輸入的合成數(shù)據(jù)表示為X_sim，合成標(biāo)簽表示為Y_sim，將輸入的真實數(shù)據(jù)表示為X_real。我們的損失函數(shù)可以計算為
點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)
其中FL表示合成標(biāo)簽和網(wǎng)絡(luò)預(yù)測之間的焦點損失，GL表示合成數(shù)據(jù)和真實數(shù)據(jù)的批次統(tǒng)計之間的測地線損失。λ是權(quán)重系數(shù)，我們在實驗中將其設(shè)置為10。注意，在這一步中，我們只需要未標(biāo)記的真實數(shù)據(jù)，只要LiDAR傳感器可用，這比注釋數(shù)據(jù)更容易獲得。

D. 漸進(jìn)域校準(zhǔn)

??在使用測地相關(guān)對齊對合成數(shù)據(jù)進(jìn)行SquezeSegV2訓(xùn)練后，網(wǎng)絡(luò)的每一層都學(xué)習(xí)從其輸入中識別模式并提取更高級別的特征。然而，由于網(wǎng)絡(luò)的非線性性質(zhì)，只有當(dāng)其輸入被限制在一定范圍內(nèi)時，每個層才能正常工作。以ReLU函數(shù)為例，如果其輸入分布以某種方式低于0，則ReLU的輸出將全部為零。否則，如果輸入移向大于0，則ReLU變?yōu)榫€性函數(shù)。對于具有多層的深度學(xué)習(xí)模型，來自輸入數(shù)據(jù)的分布差異會導(dǎo)致每一層輸出的分布偏移，這會在整個網(wǎng)絡(luò)中累積甚至放大，最終導(dǎo)致性能嚴(yán)重下降，如圖5（c）所示。

??為了解決這個問題，我們采用了一種稱為漸進(jìn)域校準(zhǔn)（PDC）的后訓(xùn)練程序。其思想是通過漸進(jìn)的逐層校準(zhǔn)來打破分布偏移在每個層中的傳播。對于基于合成數(shù)據(jù)訓(xùn)練的網(wǎng)絡(luò)，我們將真實數(shù)據(jù)輸入網(wǎng)絡(luò)。從第一層開始，我們計算給定輸入下的輸出統(tǒng)計（均值和方差），然后將輸出的均值重新歸一化為0，標(biāo)準(zhǔn)偏差為1，如圖5（c）所示。同時，我們使用新的統(tǒng)計信息更新層的批處理標(biāo)準(zhǔn)化參數(shù)（均值和方差）。我們對網(wǎng)絡(luò)的所有層逐步重復(fù)這個過程，直到最后一層。與測地相關(guān)對齊類似，該過程只需要未標(biāo)記的真實數(shù)據(jù)，而這些數(shù)據(jù)可能非常豐富。該算法總結(jié)在算法1中。[34]中提出了類似的想法，但PDC不同，因為它逐步執(zhí)行校準(zhǔn)，確保早期層的校準(zhǔn)不會影響后期層的校準(zhǔn)。

5. 實驗

??在本節(jié)中，我們將介紹實驗的細(xì)節(jié)。我們在轉(zhuǎn)換后的KITTI[33]數(shù)據(jù)集上訓(xùn)練和測試SquezeSegV2，如[2]。為了驗證泛化能力，我們進(jìn)一步在合成GTA-LiDAR數(shù)據(jù)集上訓(xùn)練SquezeSegV2，并在真實世界KITTI數(shù)據(jù)集上測試它。

A. 實驗設(shè)置

??我們將所提出的方法與SquezeSeg[2]進(jìn)行了比較，Squezeseg[2]是一種用于從3D LiDAR點云進(jìn)行語義分割的最先進(jìn)模型。我們使用KITTI[33]作為真實世界數(shù)據(jù)集。KITTI提供圖像、激光雷達(dá)掃描和按順序組織的3D邊界框。根據(jù)[2]，我們從3D邊界框獲得逐點標(biāo)簽，其中所有點都被視為目標(biāo)對象的一部分?？偣彩占?0848個帶有逐點標(biāo)簽的樣本。對于SquezeSegV2，數(shù)據(jù)集被分成具有8057個樣本的訓(xùn)練集和具有2791個樣本的測試集。對于域自適應(yīng)，我們在GTA-LiDAR上訓(xùn)練該模型，并在KITTI上對其進(jìn)行測試以進(jìn)行比較。

??與[2]類似，我們通過逐點比較預(yù)測結(jié)果與真值標(biāo)簽來評估我們的模型在類級分割任務(wù)上的性能。我們使用intersection-over-union（IoU）作為我們的評估度量，其定義為IoU_c= $\frac{|P_c∩G_c|}{|P_c∪G_c|}$ ，其中P_c和G_c分別表示屬于c類的預(yù)測和真值點集。|·|表示集合的基數(shù)。

B. 改進(jìn)的模型結(jié)構(gòu)

??表I顯示了所提出的SquezeSegV2模型和基線之間的性能比較（以IoU為單位）。圖7顯示了一些分割結(jié)果。

??從結(jié)果來看，我們有以下觀察結(jié)果。（1）批量歸一化和掩模通道都可以產(chǎn)生更好的分割結(jié)果&批量歸一化促進(jìn)了汽車的分割，而掩模通道促進(jìn)了騎車人的分割。（2）焦點損失改善了行人和騎車人的分割。相對于大量背景點，行人和騎車人相對應(yīng)的點的數(shù)量較少。這種類別失衡導(dǎo)致網(wǎng)絡(luò)對行人和騎車人類別的關(guān)注度降低。焦點損失通過將網(wǎng)絡(luò)集中于這兩個類別的優(yōu)化來緩解這個問題。（3） CAM通過降低網(wǎng)絡(luò)對脫落噪聲的敏感性，顯著提高了所有類的性能。

點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)

圖7. SqueezSeg[2]和SqueezsegV2（紅色：汽車，綠色：自行車）之間的分割結(jié)果比較。注意，在第一行中，SquezeSegV2為騎車人生成了更精確的分割。在第二排中，SqueezeSegV2避開了一輛被錯誤檢測到的汽車。

點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)

圖8. 域自適應(yīng)前后的分割結(jié)果比較（紅色：汽車，藍(lán)色：行人）。

表I. 在KITTI數(shù)據(jù)集上，所提出的SqueezeSegV2（+BN+M+FL+CAM）模型與最新基線之間的分割性能（IOU，%）比較。

點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)

表II. 從GTA-LIDAR到KITTI的提出的域自適應(yīng)流水線的分割性能（IOU，%）。

點云 3D 分割 - SqueezeSegV2（ICRA 2019）,# 點云分割,3d,人工智能,深度學(xué)習(xí)

C. 域適配管道

??表II顯示了提出的領(lǐng)域適應(yīng)管道和基線之間的性能比較（以IoU為單位）。一些分割結(jié)果如圖8所示。從結(jié)果來看，我們有以下觀察結(jié)果。（1）在源域上訓(xùn)練而沒有任何調(diào)整的模型表現(xiàn)不佳。由于區(qū)域差異的影響，觀測到的激光雷達(dá)和道路物體的聯(lián)合概率分布在兩個區(qū)域中有很大差異。這導(dǎo)致模型從源域到目標(biāo)域的低可轉(zhuǎn)移性。（2）所有的適應(yīng)方法都是有效的，組合管道表現(xiàn)最好，證明了其有效性。（3）將CAM添加到網(wǎng)絡(luò)中也顯著提高了真實數(shù)據(jù)的性能，支持了我們的假設(shè)，即脫落噪聲是域差異的重要來源。因此，改進(jìn)網(wǎng)絡(luò)以使其對脫落噪聲更為魯棒，可以幫助減少域間隙。（4）與[2]相比，SqueezeSeg模型在真實KITTI數(shù)據(jù)集上訓(xùn)練，但沒有強(qiáng)度，我們的SqueezSegV2模型僅在合成數(shù)據(jù)和未標(biāo)記的真實數(shù)據(jù)上訓(xùn)練，獲得了更好的精度，顯示了我們領(lǐng)域自適應(yīng)訓(xùn)練管道的有效性。（5）與我們在真實KITTI數(shù)據(jù)集上訓(xùn)練的最新SquezeSegV2模型相比，仍然存在明顯的性能差距。從合成激光雷達(dá)點云調(diào)整分割模型仍然是一個具有挑戰(zhàn)性的問題。

6. 結(jié)論

??在本文中，我們提出了具有比原始SquezeSeg更好的分割性能的SquezesegV2，以及具有更強(qiáng)傳輸性的域自適應(yīng)流水線。我們設(shè)計了一個上下文聚合模塊來減輕脫落噪聲的影響。與其他改進(jìn)（如焦點損失、批量歸一化和LiDAR掩模通道）一起，SqueezeSegV2在各種像素類別中的精度比原始SqueezSeg提高了6.0%至8.6%。我們還提出了一個具有三個組件的領(lǐng)域自適應(yīng)管道：學(xué)習(xí)強(qiáng)度渲染、測地相關(guān)對齊和漸進(jìn)領(lǐng)域校準(zhǔn)。所提出的管道顯著提高了在合成數(shù)據(jù)上訓(xùn)練的模型的真實世界準(zhǔn)確性28.4%，甚至超過了在真實數(shù)據(jù)集上訓(xùn)練的基線模型[2]。

ACKNOWLEDGEMENT
This work is partially supported by Berkeley Deep Drive (BDD), and partially sponsored by individual gifts from Intel and Samsung. We would like to thank Alvin Wan and Ravi Krishna for their constructive feedback.

REFERENCES

[1] F. Moosmann, O. Pink, and C. Stiller, “Segmentation of 3d lidar data in non-flflat urban environments using a local convexity criterion,” in IV, 2009, pp. 215–220.
[2] B. Wu, A. Wan, X. Yue, and K. Keutzer, “Squeezeseg: Convolutional neural nets with recurrent crf for real-time road-object segmentation from 3d lidar point cloud,” in ICRA, 2018.
[3] A. Torralba and A. A. Efros, “Unbiased look at dataset bias,” in CVPR, 2011, pp. 1521–1528.
[4] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Doll′ar, “Focal loss for dense object detection,” IEEE TPAMI, 2018.
[5] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in ICML, 2015, pp. 448–456.
[6] P. Morerio, J. Cavazza, and V. Murino, “Minimal-entropy correlation alignment for unsupervised deep domain adaptation,” in ICLR, 2018.
[7] B. Douillard, J. Underwood, N. Kuntz, V. Vlaskine, A. Quadros, P. Morton, and A. Frenkel, “On the segmentation of 3d lidar point clouds,” in ICRA, 2011, pp. 2798–2805.
[8] D. Zermas, I. Izzat, and N. Papanikolopoulos, “Fast segmentation of 3d point clouds: A paradigm on lidar data for autonomous vehicle applications,” in ICRA, 2017, pp. 5067–5073.
[9] F. Piewak, P. Pinggera, M. Sch¨afer, D. Peter, B. Schwarz, N. Schneider, D. Pfeiffer, M. Enzweiler, and M. Z¨ollner, “Boosting lidar-based semantic labeling by cross-modal training data generation,” arXiv preprint arXiv:1804.09915, 2018.
[10] C. R. Qi, H. Su, K. Mo, and L. J. Guibas, “Pointnet: Deep learning on point sets for 3d classifification and segmentation,” in CVPR, 2017, pp. 77–85.
[11] C. R. Qi, L. Yi, H. Su, and L. J. Guibas, “Pointnet++: Deep hierarchical feature learning on point sets in a metric space,” in NIPS, 2017, pp. 5099–5108.
[12] C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum pointnets for 3d object detection from rgb-d data,” arXiv preprint arXiv:1711.08488, 2017.
[13] V. M. Patel, R. Gopalan, R. Li, and R. Chellappa, “Visual domain adaptation: A survey of recent advances,” IEEE SPM, vol. 32, no. 3, pp. 53–69, 2015.
[14] G. Csurka, “Domain adaptation for visual applications: A comprehensive survey,” arXiv:1702.05374, 2017.
[15] M. Long, Y. Cao, J. Wang, and M. Jordan, “Learning transferable features with deep adaptation networks,” in ICML, 2015, pp. 97–105.
[16] B. Sun, J. Feng, and K. Saenko, “Correlation alignment for unsupervised domain adaptation,” in Domain Adaptation in Computer Vision Applications, 2017, pp. 153–171.
[17] J. Zhuo, S. Wang, W. Zhang, and Q. Huang, “Deep unsupervised convolutional domain adaptation,” in ACM MM, 2017, pp. 261–269.
[18] Y. Zhang, P. David, and B. Gong, “Curriculum domain adaptation for semantic segmentation of urban scenes,” in ICCV, 2017, pp. 2039–2049.
[19] M.-Y. Liu and O. Tuzel, “Coupled generative adversarial networks,” in NIPS, 2016, pp. 469–477.
[20] Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, and V. Lempitsky, “Domain-adversarial training of neural networks,” JMLR, vol. 17, no. 1, pp. 2096–2030, 2016.
[21] E. Tzeng, J. Hoffman, K. Saenko, and T. Darrell, “Adversarial discriminative domain adaptation,” in CVPR, 2017, pp. 2962–2971.
[22] A. Shrivastava, T. Pfister, O. Tuzel, J. Susskind, W. Wang, and R. Webb, “Learning from simulated and unsupervised images through adversarial training,” in CVPR, 2017, pp. 2242–2251.
[23] K. Bousmalis, N. Silberman, D. Dohan, D. Erhan, and D. Krishnan, “Unsupervised pixel-level domain adaptation with generative adversarial networks,” in CVPR, 2017, pp. 3722–3731.
[24] J. Hoffman, E. Tzeng, T. Park, J.-Y. Zhu, P. Isola, K. Saenko, A. A. Efros, and T. Darrell, “Cycada: Cycle-consistent adversarial domain adaptation,” in ICML, 2018.
[25] M. Ghifary, W. Bastiaan Kleijn, M. Zhang, and D. Balduzzi, “Domain generalization for object recognition with multi-task autoencoders,” in ICCV, 2015, pp. 2551–2559.
[26] M. Ghifary, W. B. Kleijn, M. Zhang, D. Balduzzi, and W. Li, “Deep reconstruction-classification networks for unsupervised domain adaptation,” in ECCV, 2016, pp. 597–613.
[27] S. R. Richter, V. Vineet, S. Roth, and V. Koltun, “Playing for data: Ground truth from computer games,” in ECCV, 2016, pp. 102–118.
[28] M. Johnson-Roberson, C. Barto, R. Mehta, S. N. Sridhar, K. Rosaen, and R. Vasudevan, “Driving in the matrix: Can virtual worlds replace human-generated annotations for real world tasks?” in ICRA, 2017, pp. 746–753.
[29] X. Yue, B. Wu, S. A. Seshia, K. Keutzer, and A. L. SangiovanniVincentelli, “A lidar point cloud generator: from a virtual world to autonomous driving,” in ICMR, 2018, pp. 458–464.
[30] S. R. Richter, Z. Hayder, and V. Koltun, “Playing for benchmarks,” in ICCV, 2017, pp. 2232–2241.
[31] P. Kr¨ahenb¨uhl, “Free supervision from video games,” in CVPR, 2018, pp. 2955–2964.
[32] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” in CVPR, 2018, pp. 7132–7141.
[33] A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? the kitti vision benchmark suite,” in CVPR, 2012, pp. 3354–3361.
[34] Y. Li, N. Wang, J. Shi, X. Hou, and J. Liu, “Adaptive batch normalization for practical domain adaptation,” PR, vol. 80, pp. 109–117, 2018.
[35] Y. Wang, T. Shi, P. Yun, L. Tai, and M. Liu, “Pointseg: Real-time semantic segmentation based on 3d lidar point cloud,” arXiv preprint arXiv:1807.06288, 2018.文章來源地址http://www.zghlxwxcb.cn/news/detail-674126.html