LIF-Seg:用于 3D LiDAR 語(yǔ)義分割的 LiDAR 和相機(jī)圖像融合
來(lái)源:華科 + 商湯 未發(fā)表2021
鏈接:https://arxiv.org/abs/2108.07511
個(gè)人覺(jué)得有用的和自己理解加粗和()內(nèi)表示,盡量翻譯的比較全,有一些官方話就沒(méi)有翻譯了,一些疑惑的地方歡迎大家探討。如果對(duì)整個(gè)領(lǐng)域比較熟悉看一、三兩章就可以了
0、摘要
攝像頭和 3D LiDAR 傳感器已成為現(xiàn)代自動(dòng)駕駛汽車(chē)中不可或缺的設(shè)備,其中攝像頭提供 2D 空間中的細(xì)粒度紋理、顏色信息,而 LiDAR 則捕捉周?chē)h(huán)境更精確和更遠(yuǎn)的距離測(cè)量值。來(lái)自這兩個(gè)傳感器的互補(bǔ)信息使雙模態(tài)融合成為理想的選擇。然而,相機(jī)和 LiDAR 之間融合的兩個(gè)主要問(wèn)題阻礙了它的性能,即如何有效融合這兩種模式以及如何精確對(duì)齊它們(遭受弱時(shí)空同步問(wèn)題)。在本文中,我們提出了一種由粗到細(xì)的 LiDAR 和基于相機(jī)融合的網(wǎng)絡(luò)(稱為 LIF-Seg)用于 LiDAR 分割。對(duì)于第一個(gè)問(wèn)題,與以前的這些以一對(duì)一的方式融合點(diǎn)云和圖像信息的工作不同,所提出的方法充分利用了圖像的上下文信息,并引入了一種簡(jiǎn)單但有效的早期融合策略。其次,由于弱時(shí)空同步問(wèn)題,設(shè)計(jì)了一種偏移校正方法來(lái)對(duì)齊這些雙模態(tài)特征。這兩個(gè)組件的合作促使了有效的相機(jī)-LiDAR 融合的成功。 nuScenes 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提出的 LIF-Seg 優(yōu)于現(xiàn)有方法的優(yōu)勢(shì)很大。消融研究和分析表明,我們提出的 LIF-Seg 可以有效解決弱時(shí)空同步問(wèn)題。
索引詞——LiDAR 和相機(jī)、LiDAR 分割、上下文信息、弱時(shí)空同步
1、引文INTRODUCTION
????????隨著自動(dòng)駕駛的快速發(fā)展,3 D場(chǎng)景感知近年來(lái)受到越來(lái)越多的關(guān)注,尤其是在計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)方面。LiDAR已成為自動(dòng)駕駛中不可或缺的3D傳感器。與其他傳感器(例如照相機(jī)和雷達(dá))的數(shù)據(jù)相比,LiDAR獲取的點(diǎn)云可以提供豐富的幾何、比例信息、精確的距離測(cè)量和精細(xì)的語(yǔ)義描述,這對(duì)于理解自動(dòng)駕駛規(guī)劃和執(zhí)行的3D場(chǎng)景非常有用。
????????LiDAR點(diǎn)云語(yǔ)義分割旨在為每個(gè)3 D點(diǎn)分配一個(gè)特殊的語(yǔ)義類(lèi)別,這是自動(dòng)駕駛的關(guān)鍵任務(wù)。此任務(wù)可幫助感知系統(tǒng)識(shí)別和定位動(dòng)態(tài)對(duì)象和可驅(qū)動(dòng)曲面。雖然3D對(duì)象檢測(cè)的經(jīng)典任務(wù)已經(jīng)開(kāi)發(fā)出相對(duì)成熟的解決方桉[1]、[2]、[3]來(lái)支持現(xiàn)實(shí)世界中的自動(dòng)駕駛,但難以識(shí)別和定位可行區(qū)域。一般來(lái)說(shuō),LiDAR點(diǎn)云稀疏,其稀疏度通常隨著反射距離的增加而增加,這使得語(yǔ)義分割模型很難在遠(yuǎn)處分割小物體,如圖1左側(cè)所示。
????????如上所述,雖然LiDAR點(diǎn)可以提供準(zhǔn)確的距離測(cè)量并捕獲物體的結(jié)構(gòu),但它們通常是稀疏的、無(wú)序的和不均勻的分布。 最近,一些僅基于LiDAR的方法[5]、[6]、[7]、[8]顯著改善了3D語(yǔ)義分割的性能,但這些方法的性能仍然有限,因?yàn)槿狈﹃P(guān)于對(duì)象的密集和豐富的信息,如其顏色和紋理,如圖1的右側(cè)所示。 與點(diǎn)云相比,攝像機(jī)圖像包含更規(guī)則和密集的像素并且具有更豐富的語(yǔ)義信息(例如,顏色、紋理)以區(qū)分不同的語(yǔ)義類(lèi)別,同時(shí)遭受缺乏深度和縮放信息的痛苦。 因此,來(lái)自LiDAR和攝像機(jī)的互補(bǔ)信息使得兩種模式融合成為期望的選擇。 然而,如何有效地融合這兩種模式,以便我們可以充分利用這兩個(gè)傳感器的優(yōu)勢(shì)來(lái)產(chǎn)生更好和更可靠的準(zhǔn)確的語(yǔ)義分割結(jié)果。
????????最近,出現(xiàn)了一些包含 LiDAR 點(diǎn)云和圖像的自動(dòng)駕駛數(shù)據(jù)集,例如 KITTI [9] 和 nuScenes [4]。這些數(shù)據(jù)集不僅為結(jié)合點(diǎn)云和圖像的優(yōu)勢(shì)提供了可能,而且對(duì)學(xué)術(shù)界和工業(yè)界點(diǎn)云語(yǔ)義分割的發(fā)展起到了重要的推動(dòng)作用。然而,如圖 2 所示,LiDAR 和相機(jī)之間存在弱時(shí)空同步問(wèn)題??梢允褂靡恍┎呗詠?lái)緩解這個(gè)問(wèn)題。例如,KITTI 和 nuScenes 將點(diǎn)云和圖像與帶時(shí)間戳的傳感器元數(shù)據(jù)重新對(duì)齊,但仍然存在一定偏差。弱時(shí)空同步問(wèn)題也限制了相機(jī)與激光雷達(dá)之間融合的性能。
????????受上述發(fā)現(xiàn)的啟發(fā),我們提出了一個(gè)由粗到精的框架,名為 LIF-Seg,以融合 LiDAR 和相機(jī)以進(jìn)行 3D LiDAR 點(diǎn)云語(yǔ)義分割。對(duì)于第一個(gè)問(wèn)題,與之前的這些以一對(duì)一的方式融合點(diǎn)云和圖像信息的工作不同,在粗糙階段,LiDAR 點(diǎn)被投影到每個(gè)相機(jī)圖像中,每個(gè)像素的 3×3 上下文信息是連接到 LiDAR 點(diǎn)的強(qiáng)度測(cè)量。連接的 LiDAR 點(diǎn)被饋送到 UNet 分割子網(wǎng)絡(luò)(例如,Cylinder3D [6])以獲得粗糙的 LiDAR 點(diǎn)特征。針對(duì)弱時(shí)空同步問(wèn)題,設(shè)計(jì)了一種偏移校正方法來(lái)對(duì)齊粗特征和圖像語(yǔ)義特征。具體來(lái)說(shuō),圖像語(yǔ)義分割子網(wǎng)絡(luò)(例如,DeepLabv3+ [10])用于提取圖像語(yǔ)義特征。粗特征被投影到每個(gè)圖像中。投影的粗糙特征進(jìn)一步與圖像語(yǔ)義特征融合,以預(yù)測(cè)每個(gè)投影點(diǎn)與相應(yīng)圖像語(yǔ)義像素之間的偏移量。預(yù)測(cè)的偏移量用于補(bǔ)償和對(duì)齊這些雙模態(tài)特征,然后將對(duì)齊的圖像語(yǔ)義特征與粗特征融合。在細(xì)化階段,融合的特征被送入子網(wǎng)絡(luò)以細(xì)化并生成更準(zhǔn)確的預(yù)測(cè)。 LIF-Seg不僅融合了激光雷達(dá)的點(diǎn)特征和不同層次的圖像特征,還有效地解決了激光雷達(dá)和相機(jī)之間時(shí)空同步較弱的問(wèn)題。
這項(xiàng)工作的主要貢獻(xiàn)如下:
( 1 )我們充分利用低級(jí)圖像上下文信息,并引入一個(gè)簡(jiǎn)單而有效的早期融合策略。
( 2 )我們提出了一種偏移整流方法來(lái)解決LiDAR和攝像機(jī)之間的弱時(shí)空同步問(wèn)題。
( 3 )我們構(gòu)建了一個(gè)粗糙到細(xì)的LiDAR和基于攝像機(jī)融合的網(wǎng)絡(luò)LIF-Seg用于LiDAR語(yǔ)義分割。 NuScenes數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果證明了我們方法的有效性。
2、相關(guān)工作 RELATED WORK
????????在本節(jié)中,我們將簡(jiǎn)要回顧與我們的方法相關(guān)的現(xiàn)有工作:3D 點(diǎn)云的深度學(xué)習(xí)、LiDAR 點(diǎn)云語(yǔ)義分割、LiDAR 和相機(jī)融合方法、圖像語(yǔ)義分割。特別是,我們主要關(guān)注僅 LiDAR 和基于融合的方法。
2.1 3D點(diǎn)云深度學(xué)習(xí) Deep learning for 3D Point Clouds??????
????????與2D圖像處理方法不同,點(diǎn)云處理是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)槠洳灰?guī)則和無(wú)序的特性。 PointNet [11]是通過(guò)共享多層Perceptron (MLP)和最大池直接學(xué)習(xí)基于原點(diǎn)云的點(diǎn)特征的首批作品之一。 一些后續(xù)作品[12] , [13] , [14] , [15] , [16] , [17] , [18] , [19] , [20]通?;谙闰?qū)作品(例如, PointNet , PointNet + + ) ,并進(jìn)一步提高采樣,分組和排序的有效性,以提高語(yǔ)義分割的性能。 其他方法[21] , [22] , [23]通過(guò)引入圖形網(wǎng)絡(luò)來(lái)提取分層點(diǎn)特征。 雖然這些方法在室內(nèi)點(diǎn)云上取得了有希望的細(xì)分結(jié)果,但由于密度不同,場(chǎng)景范圍廣泛,大多數(shù)方法無(wú)法直接訓(xùn)練或擴(kuò)展到大型室外LiDAR點(diǎn)云。 此外,許多點(diǎn)還導(dǎo)致這些方法在適應(yīng)戶外場(chǎng)景時(shí)具有昂貴的計(jì)算和存儲(chǔ)器消耗。
2.2 激光雷達(dá)點(diǎn)云語(yǔ)義分割LiDAR Point Cloud Semantic Segmentation
????????隨著公共數(shù)據(jù)集[4]、[24]的可用性增加,激光雷達(dá)點(diǎn)云語(yǔ)義分割研究正在發(fā)展。目前,這些方法可以分為三大類(lèi):基于投影的方法、基于體素的方法和基于多視圖融合的方法。
????????基于投影的方法側(cè)重于將 3D 點(diǎn)云映射到規(guī)則且密集的 2D 圖像,以便 2D CNN 可用于處理偽圖像。 SqueezeSeg [25]、SqueezeSegv2 [26]、RangeNet++ [27]、SalsaNext [28]和KPRNet [5]利用球面投影機(jī)制將點(diǎn)云轉(zhuǎn)換為距離圖像,并采用編碼器-解碼器網(wǎng)絡(luò)獲取語(yǔ)義信息.例如,KPRNet [5] 提出了一種改進(jìn)的架構(gòu),并通過(guò)使用強(qiáng)大的 ResNeXt-101 主干和 Atrous Spatial Pyramid Pooling (ASPP) 塊取得了可喜的結(jié)果,它還應(yīng)用 KPConv [29] 作為分割頭來(lái)取代低效的 KNN后期處理。 PolarNet [30] 使用鳥(niǎo)瞰圖 (BEV) 而不是標(biāo)準(zhǔn)的基于 2D 網(wǎng)格的 BEV 投影。然而,這些基于投影的方法不可避免地會(huì)丟失和改變?cè)纪負(fù)?,?dǎo)致幾何信息建模失敗。
????????基于體素的方法將點(diǎn)云轉(zhuǎn)換為體素,然后應(yīng)用普通 3D 卷積以獲得分割結(jié)果。最近,提出了一些工作 [31]、[32] 來(lái)加速 3D 卷積,并以更少的計(jì)算和內(nèi)存消耗提高性能。繼之前的工作 [31]、[32]、3D-MPA [15]、PointGroup [33] 和 OccuSeg [34] 在室內(nèi)點(diǎn)云上取得了顯著的分割結(jié)果。如上所述,由于室外點(diǎn)云的固有特性,包括稀疏性和變化的密度,這些方法不能直接用于室外 LiDAR 點(diǎn)云分割。此外,Cylinder3D [6]利用圓柱分區(qū)并設(shè)計(jì)了一個(gè)非對(duì)稱殘差塊以進(jìn)一步減少計(jì)算量。
???????基于多視圖融合的方法結(jié)合了基于體素、基于投影和/或逐點(diǎn)操作的 LiDAR 點(diǎn)云分割。為了提取更多的語(yǔ)義信息,一些最近的方法 [35]、[36]、[37]、[38]、[39]、[40]、[41]、[7]、[8] 混合了兩個(gè)或多個(gè)不同的視圖一起。例如,[38]、[39]在早期結(jié)合來(lái)自 BEV 和距離圖像的逐點(diǎn)信息,然后將其提供給后續(xù)網(wǎng)絡(luò)。 AMVNet [37] 利用不同視圖輸出的不確定性來(lái)進(jìn)行后期融合。 PCNN [35]、FusionNet [40] 和 (AF)2-S3Net [7] 使用點(diǎn)體素融合方案來(lái)獲得更好的分割結(jié)果。 RPVNet [8] 提出了一種深度融合網(wǎng)絡(luò),通過(guò)門(mén)控融合機(jī)制融合距離點(diǎn)體素三視圖。然而,由于 LiDAR 點(diǎn)云缺乏豐富的顏色和紋理,這些方法的性能也受到限制。
2.3 激光和相機(jī)融合方法 LiDAR and Camera Fusion Methods
????????為了充分利用相機(jī)和激光雷達(dá)傳感器的優(yōu)勢(shì),一些方法[42]、[43]、[44]、[45]、[46]、[47]、[48]、[49]、[50] ] 已經(jīng)提出用于相機(jī)和 LiDAR 融合,特別是在 3D 目標(biāo)檢測(cè)任務(wù)中。 PI-RCNN [47] 通過(guò)對(duì) 3D 點(diǎn)進(jìn)行逐點(diǎn)卷積并將點(diǎn)池化與聚合操作來(lái)融合相機(jī)和 LiDAR 特征。 CLOCs [48] 在任何 2D 和任何 3D 檢測(cè)器的非最大抑制之前對(duì)組合輸出候選進(jìn)行操作。 3DCVF [49] 通過(guò)使用交叉視圖空間特征融合策略結(jié)合相機(jī)和 LiDAR 特征以獲得更好的檢測(cè)性能。 EPNet [50] 提出了一個(gè) LiDAR 引導(dǎo)圖像融合模塊,以在多個(gè)尺度上增強(qiáng)具有相應(yīng)圖像語(yǔ)義特征的 LiDAR 點(diǎn)特征。 PointPainting [46] 將激光雷達(dá)點(diǎn)投影到純圖像語(yǔ)義分割網(wǎng)絡(luò)的輸出中,并將類(lèi)別分?jǐn)?shù)附加到每個(gè)點(diǎn),然后將其饋送到激光雷達(dá)檢測(cè)器。這些方法在 3D 對(duì)象檢測(cè)中取得了令人鼓舞的性能。然而,之前有一些工作通過(guò)結(jié)合相機(jī)和 LiDAR 的優(yōu)勢(shì)專注于 3D 語(yǔ)義分割,并解決相機(jī)和 LiDAR 之間傳感器的弱時(shí)空同步問(wèn)題。
2.4 圖像分割I(lǐng)mage Semantic Segmentation
????????圖像語(yǔ)義分割是計(jì)算機(jī)視覺(jué)中一項(xiàng)重要的基礎(chǔ)性任務(wù),取得了很大進(jìn)展。FCN [51]是直接采用全卷積層生成圖像語(yǔ)義分割結(jié)果的開(kāi)創(chuàng)性工作。DeepLab [10]系列利用atrous卷積和ASPP模塊來(lái)捕獲圖像的上下文信息。STDC2 [52]使用詳細(xì)指導(dǎo)模塊對(duì)低級(jí)空間信息進(jìn)行編碼,但性能相對(duì)較低,從而減少了推理的耗時(shí)。在效率和性能之間進(jìn)行權(quán)衡,我們?cè)诒竟ぷ髦胁捎肈eepLabv3+[10]作為圖像分割子模型。
3 我們的方法 PROPOSED METHOD
????????利用激光雷達(dá)和攝像機(jī)的優(yōu)點(diǎn)互補(bǔ),對(duì)于準(zhǔn)確的激光雷達(dá)點(diǎn)云語(yǔ)義分割非常重要。 然而,大多數(shù)現(xiàn)有的方法都沒(méi)有充分利用相機(jī)圖像上下文信息,而忽略了LiDAR和相機(jī)之間的空間時(shí)空同步問(wèn)題,限制了融合模型識(shí)別細(xì)粒度模式的能力。 本文提出了一個(gè)名為L(zhǎng)IFSeg的粗細(xì)框架,從兩個(gè)方面提高LiDAR分割的性能,包括早期低級(jí)圖像上下文信息融合,以及中期對(duì)齊的高層圖像語(yǔ)義信息融合。 LIF-Seg接受激光雷達(dá)點(diǎn)和攝像頭圖像作為輸入,并預(yù)測(cè)每個(gè)點(diǎn)的語(yǔ)義標(biāo)簽。 它由三個(gè)主要階段組成:粗特征提取階段、偏移學(xué)習(xí)階段和精煉階段。 我們將在以下幾個(gè)小節(jié)詳細(xì)介紹這三個(gè)方面。
3.1 粗特征提取階段Coarse Feature Extraction Stage
????????LiDAR 點(diǎn)可以提供精確的距離測(cè)量和捕獲物體的結(jié)構(gòu),并且相機(jī)圖像包含更規(guī)則和密集的像素并且具有更豐富的語(yǔ)義信息。一些方法 [46]、[47]、[48] 試圖在不同階段(例如,早期融合、中期融合和晚期融合)將 LiDAR 和相機(jī)視圖混合在一起以進(jìn)行 3D 對(duì)象檢測(cè)。大多數(shù)這些方法僅以一對(duì)一的方式融合低級(jí)或高級(jí)圖像信息。然而,在融合 LiDAR 和相機(jī)的視圖時(shí),圖像的上下文信息也很重要。在粗階段,我們?nèi)诤?LiDAR 點(diǎn)和低級(jí)圖像上下文信息以獲得粗特征。
????????如圖 3 和算法 1 所示,LiDAR 點(diǎn) L 中的每個(gè)點(diǎn)都具有空間位置(x,y,z)和反射率 r 等。LiDAR 點(diǎn)通過(guò)齊次變換和投影轉(zhuǎn)換為每個(gè)相機(jī)圖像的信息。這個(gè)過(guò)程可以表述如下:
其中 和 分別是相機(jī)圖像對(duì)應(yīng)的相機(jī)固有矩陣和齊次變換矩陣。是LiDAR點(diǎn)L在相機(jī)圖像上的索引(像素坐標(biāo)),其中N是LiDAR點(diǎn)數(shù)。一般變換由給出。對(duì)于 nuScenes 數(shù)據(jù)集,對(duì)每個(gè)攝像機(jī)的完整轉(zhuǎn)換是:
激光雷達(dá)點(diǎn)變換到相機(jī)坐標(biāo)后,對(duì)應(yīng)的相機(jī)矩陣Ki將這些點(diǎn)投影到圖像中。之后,每個(gè)投影點(diǎn)位置的 w×w(例如 3×3)圖像上下文信息被重塑并連接到相應(yīng)的 LiDAR 點(diǎn)。連接點(diǎn)被饋送到 UNet 語(yǔ)義分割子網(wǎng)絡(luò)(例如,Cylinder3D [6])以獲得粗特征 。
?3.2偏移學(xué)習(xí)階段 Offset Learning Stage
????????盡管早期融合和中期融合的方法在基準(zhǔn)數(shù)據(jù)集上取得了可喜的成果,但由于激光雷達(dá)和相機(jī)之間的時(shí)空同步問(wèn)題較弱,這些方法的性能也受到限制。為了解決上述問(wèn)題,我們提出的 LIF-Seg 預(yù)測(cè)了投影 LiDAR 點(diǎn)和相應(yīng)像素之間的偏移量。預(yù)測(cè)的偏移量用于補(bǔ)償和更新投影點(diǎn)特征的位置,然后將對(duì)齊的圖像語(yǔ)義特征與粗特征融合以更好地分割。
????????在這個(gè)階段,如圖4和算法1所示,我們首先利用圖像語(yǔ)義分割子網(wǎng)絡(luò)來(lái)獲得高層圖像語(yǔ)義特征。 效率和性能之間的權(quán)衡,我們采用DeepLabv3 + [10]作為我們的圖像分割子網(wǎng)絡(luò)來(lái)提取圖像特征。 同時(shí),粗糙外形也被投影到圖像特征圖中,并形成與圖像外形大小相同的偽圖像特征圖。特征圖 進(jìn)一步與圖像語(yǔ)義特征融合,以預(yù)測(cè)投影 LiDAR 點(diǎn)和相應(yīng)像素之間的偏移量。預(yù)測(cè)的Offset可用于補(bǔ)償和更新投影點(diǎn)在圖像特征中的位置。然后根據(jù)更新后的位置,將圖像語(yǔ)義特征反投影到3D空間,生成逐點(diǎn)特征。逐點(diǎn)圖像特征用于與粗特征 融合,以提高 LiDAR 分割的性能。
(融合后的信息指導(dǎo) 偏移 偏移負(fù)責(zé)選一些新的特征點(diǎn)出來(lái) 和之前的拼在一起)
3.3 細(xì)化階段?Refinement Stage
????????細(xì)化階段如圖5所示。在粗特征提取階段和偏移學(xué)習(xí)階段之后,我們通過(guò)連接融合點(diǎn)圖像特征圖像和粗特征。然后,連接的特征 F 被送入 UNet 分割子網(wǎng)絡(luò)以獲得更準(zhǔn)確的預(yù)測(cè)結(jié)果。為方便起見(jiàn),在細(xì)化階段,我們使用與粗特征提取階段相同的分割子網(wǎng)絡(luò)。
????????在訓(xùn)練時(shí),我們使用語(yǔ)義分割損失 來(lái)監(jiān)督 LIF-Seg 的學(xué)習(xí)。語(yǔ)義分割損失由兩項(xiàng)組成,包括經(jīng)典的交叉熵?fù)p失和 lovasz-softmax 損失 [53],分別用于最大化點(diǎn)精度和交叉聯(lián)合分?jǐn)?shù)。對(duì)于 III-B 小節(jié)中的偏移預(yù)測(cè),以 nuScenes [4] 數(shù)據(jù)集為例,沒(méi)有直接可用的偏移學(xué)習(xí)監(jiān)督信息,因?yàn)閷?duì)應(yīng)于 LiDAR 點(diǎn)云的相機(jī)圖像不提供像素級(jí)語(yǔ)義或?qū)嵗⒔?。在這項(xiàng)工作中,我們利用輔助損失來(lái)監(jiān)督偏移學(xué)習(xí)。具體來(lái)說(shuō),對(duì)于屬于前景類(lèi)別的點(diǎn),我們通過(guò) L1 回歸損失 來(lái)約束它們學(xué)習(xí)的逐點(diǎn)偏移:
????????
其中 m = {m1, . . . ,mN} 是二進(jìn)制掩碼。 mi = 1 如果點(diǎn) i 在圖像平面上的 2D 邊界框內(nèi),否則 mi = 0。是點(diǎn) i 所屬的 2D 邊界框的中心。因此,可以將表述如下:
其中g(shù) (i)將點(diǎn)i映射到包含點(diǎn)i的對(duì)應(yīng)2D邊界框的索引。 NB g (i)是2D邊界框Bg (i)中的點(diǎn)數(shù)。 為了確保這些點(diǎn)在水平方向上朝向其對(duì)應(yīng)的中心移動(dòng),我們利用方向損耗Ldir來(lái)約束預(yù)測(cè)的點(diǎn)偏移O的方向。在[33]之后, Ldir被公式化為減去余弦相似性的平均值:
因此,輔助損失可以被配方為。 我們的網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是。
α 是輔助細(xì)分損失的重量,并在我們的實(shí)驗(yàn)中設(shè)置為0.01。
(,sem就是語(yǔ)義分割損失,這里aux可以理解為偏移結(jié)構(gòu)的損失,同樣包含兩部分。
,reg是位置,dir是方向。損失都是越朝著中心點(diǎn)損失越小這也是loss函數(shù)優(yōu)化的方向)
?
4、實(shí)驗(yàn)
?????????在本節(jié)中,我們?cè)u(píng)估了我們?cè)?nuScenes [4] 數(shù)據(jù)集上的方法,以證明所提出的 LIFSeg 的有效性。在下文中,我們首先在第 IV-A 小節(jié)中簡(jiǎn)要介紹數(shù)據(jù)集和評(píng)估指標(biāo)。然后,在第 IV-B 小節(jié)中提供了實(shí)施細(xì)節(jié)。隨后,我們?cè)诘?IV-C 小節(jié)中展示了有關(guān) LiDAR-相機(jī)融合的詳細(xì)實(shí)驗(yàn)以及與 nuScenes 數(shù)據(jù)集上最先進(jìn)方法的比較。最后,我們進(jìn)行消融研究以驗(yàn)證 IV-D 小節(jié)中偏移學(xué)習(xí)的有效性。
4.1.? 數(shù)據(jù)集和評(píng)估度量 Dataset and Evaluation Metric
????????新發(fā)布的 nuScenes [4] 數(shù)據(jù)集是用于 LiDAR 語(yǔ)義分割的大規(guī)模多模態(tài)數(shù)據(jù)集,收集了來(lái)自波士頓和新加坡不同地區(qū)的 1000 多個(gè)場(chǎng)景。場(chǎng)景分為 28,130 個(gè)訓(xùn)練幀和 6,019 個(gè)驗(yàn)證幀。帶注釋的數(shù)據(jù)集最多提供 32 個(gè)類(lèi)。合并相似類(lèi)并去除稀有類(lèi)后,總共保留了 16 個(gè)用于 LiDAR 語(yǔ)義分割的類(lèi)。數(shù)據(jù)集是使用 Velodyne HDL-32E 傳感器、攝像頭和雷達(dá)收集的,具有完整的 360 度覆蓋范圍。在這項(xiàng)工作中,我們使用來(lái)自所有 6 個(gè)相機(jī)的 LiDAR 點(diǎn)云和 RGB 圖像。此外,該數(shù)據(jù)集在不同類(lèi)別中存在不平衡挑戰(zhàn)。特別是像汽車(chē)和行人這樣的類(lèi)是最常見(jiàn)的,而自行車(chē)和工程車(chē)輛的訓(xùn)練數(shù)據(jù)相對(duì)有限。此外,nuScenes 數(shù)據(jù)集具有挑戰(zhàn)性,因?yàn)樗菑牟煌奈恢煤筒煌奶鞖鈼l件下收集的。 nuScenes 的點(diǎn)云密度也較低,因?yàn)閭鞲衅鞯墓馐鴶?shù)量較少,水平角分辨率較低。
????????為了評(píng)估我們提出的方法的LiDAR語(yǔ)義分割性能,將所有類(lèi)別的平均交叉重合(mIoU)作為評(píng)估指標(biāo)。 MIoU可以被配制為
其中 C 是類(lèi)的數(shù)量,pij 表示從類(lèi) i 預(yù)測(cè)為類(lèi) j 的點(diǎn)數(shù)。
4.2 實(shí)施細(xì)節(jié) Implementation Details
????????圖像語(yǔ)義網(wǎng)絡(luò)細(xì)節(jié)。對(duì)于圖像語(yǔ)義分割子網(wǎng)絡(luò) DeepLabV3+ [10],它以 ResNet [54] 網(wǎng)絡(luò)為骨干以生成步長(zhǎng)為 16 的特征,并以 FCN [51] 分割頭生成全分辨率語(yǔ)義特征 Fimage ∈ Rn×H× W×C1 ,其中 n = 6 是攝像機(jī)的數(shù)量, C1 = 16 是特征的維度。但是,nuScenes 上沒(méi)有公開(kāi)的分割預(yù)訓(xùn)練模型,因此我們使用 nuImages 2 數(shù)據(jù)集訓(xùn)練 DeepLabV3+ 1。 nuImages 由 10 萬(wàn)張帶有語(yǔ)義分割標(biāo)簽的圖像組成。請(qǐng)注意,所有 nuImage 類(lèi)都是 nuScenes 的一部分。此外,nuImages的圖像幾乎不存在于nuScenes數(shù)據(jù)集的LiDAR點(diǎn)云對(duì)應(yīng)的圖像集中。
????????LiDAR網(wǎng)絡(luò)詳情:對(duì)于LiDAR點(diǎn)云分割粗細(xì)階段的子網(wǎng)絡(luò),采用Cylinder3D [6]作為這兩個(gè)階段的子網(wǎng)絡(luò)。 對(duì)于nuScenes數(shù)據(jù)集,圓柱形分區(qū)將LiDAR點(diǎn)云拆分為三維表示,大小為480 × 360 × 32 ,其中三維分別指示半徑、角度和高度。 另外,粗糙特征Fcoarse的特征尺寸C0被設(shè)置為C0 = C ,其中C是類(lèi)別的數(shù)量。 將圖像上下文信息的窗口大小w設(shè)置為3。
4.3. 結(jié)果表現(xiàn)和分析Performance Results and Analyses
????????在本小節(jié)中,我們首先對(duì) nuScenes [4] 數(shù)據(jù)集的驗(yàn)證集進(jìn)行廣泛的實(shí)驗(yàn),以驗(yàn)證不同 LiDAR-相機(jī)融合策略的有效性,包括 LiDAR 與相機(jī)圖像不同上下文之間的早期融合、中期融合LiDAR 點(diǎn)特征和圖像語(yǔ)義特征之間的關(guān)系。之后,我們展示了與 nuScenes 數(shù)據(jù)集上最先進(jìn)方法的比較。對(duì)于所有實(shí)驗(yàn),我們采用重新訓(xùn)練的 DeepLabV3+ [10] 來(lái)提取圖像特征,并采用 Cylinder3D [6] 作為 LiDAR 分割基線。為了更公平清晰的比較,我們使用作者在GitHub上發(fā)布的代碼重新訓(xùn)練基線網(wǎng)絡(luò)Cylinder3D 3 ,如果沒(méi)有額外注釋,我們使用相同的融合策略在所有模型中融合LiDAR和相機(jī)圖像。
????????早期融合和中期融合。對(duì)于早期融合,LiDAR 點(diǎn)通過(guò)變換矩陣和相機(jī)矩陣投影到相機(jī)圖像中。根據(jù)投影點(diǎn)的位置,我們可以查詢1×1、3×3、5×5等窗口大小為w×w的圖像的上下文信息。 w×w 上下文信息被重塑為向量并連接到相應(yīng)的 LiDAR 點(diǎn)。將拼接后的點(diǎn)送入基線網(wǎng)絡(luò)Cylinder3D得到分割結(jié)果,不同上下文信息融合的模型分別記為C+1×1、C+3×3和C+5×5。此外,DeepLabV3+獲得的通道圖像語(yǔ)義特征也被附加到每個(gè)LiDAR點(diǎn)以增強(qiáng)點(diǎn)特征(表示為C+Sem.)。此外,我們還在早期融合中融合了 3×3 圖像上下文信息和圖像語(yǔ)義特征(表示為 C+3×3+Sem.)。對(duì)于mid-fusion,圖像語(yǔ)義特征通過(guò)連接(表示為C+Mid.)與基線網(wǎng)絡(luò)獲得的LiDAR點(diǎn)特征融合。融合的特征應(yīng)用于兩個(gè)卷積層以生成分割結(jié)果。此外,我們還基于中期融合方法C+Mid融合了早期的3×3圖像上下文信息。 (表示為 C+3×3+Mid.)。最后,Cylinder3D也作為一個(gè)細(xì)化子網(wǎng)絡(luò)來(lái)替代C+3×3+Mid中的兩個(gè)卷積層。 (表示為 C+3×3+Mid.+Ref.)。
????????不同LiDAR-camera融合策略的LiDAR語(yǔ)義分割結(jié)果如表一所示。與基線方法Cylinder3D和C+1×1相比,我們可以看出直接融合LiDAR和圖像信息可以提高LiDAR的性能語(yǔ)義分割。與早期融合方法 C+1×1、C+3×3 和 C+5×5 相比,由于融合圖像上下文信息,C+3×3 獲得了最好的 mIoU 分?jǐn)?shù)。融合方法 C+1×1 缺乏上下文信息,限制了其識(shí)別細(xì)粒度模式的能力。融合方法C+5×5的上下文窗口尺寸過(guò)大,過(guò)多的冗余信息限制了中心點(diǎn)語(yǔ)義類(lèi)別的識(shí)別。類(lèi)似于 3D 檢測(cè)器 PointPainting [46],早期融合方法 C+Sem。還可以提高 LiDAR 分割的性能。此外,障礙自行車(chē)公共汽車(chē)建筑摩托車(chē)行人交通錐拖車(chē)卡車(chē)可駕駛其他人行道地形人造植被 C+3×3+Sem。表明融合激光雷達(dá)點(diǎn)、圖像上下文信息和語(yǔ)義特征可以有效提高語(yǔ)義分割的性能。融合方法C+Mid。和 C+3×3+中。由于缺少精心設(shè)計(jì)的 midfusion 模塊,因此也略好于基線。 C+3×3+Mid.+Ref.的??實(shí)驗(yàn)結(jié)果表明設(shè)計(jì)良好的中融合模塊可以有效提高分割性能。這些實(shí)驗(yàn)結(jié)果表明,圖像上下文信息和圖像語(yǔ)義特征有助于 LiDAR 分割。在這項(xiàng)工作中,激光雷達(dá)點(diǎn)和圖像上下文信息在粗階段融合,點(diǎn)特征和對(duì)齊圖像語(yǔ)義特征在細(xì)化階段融合。
????????與 SOTA 方法的比較。在 [6] 之后,我們對(duì) nuScenes [4] 數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),以評(píng)估我們方法的有效性。表 II 展示了在 nuScenes 驗(yàn)證集上的 LiDAR 語(yǔ)義分割結(jié)果。 RangeNet++ [27] 和 Salsanext [28] 執(zhí)行后處理。從表二可以看出,我們提出的方法比其他方法取得了更好的性能,并且在許多類(lèi)別中都處于領(lǐng)先地位。具體來(lái)說(shuō),所提出的方法優(yōu)于 Cylinder3D [6] 2.1 mIoU。此外,與最先進(jìn)的基于投影的方法(例如 RangeNet++ 和 Salsanext)相比,LIF-Seg 實(shí)現(xiàn)了大約 6% ~ 12% 的性能增益。請(qǐng)注意,nuScenes 的點(diǎn)非常稀疏(35k 點(diǎn)/幀),尤其是自行車(chē)、摩托車(chē)、交通錐和行人等。因此,LiDAR 分割任務(wù)更具挑戰(zhàn)性。從表 II 中,我們可以看出我們的方法在那些稀疏類(lèi)別中明顯優(yōu)于其他方法,因?yàn)?LIF-Seg 通過(guò)粗到細(xì)的框架有效地融合了 LiDAR 點(diǎn)、相機(jī)圖像上下文信息和圖像語(yǔ)義特征。 LiDAR 分割的定性結(jié)果如圖 6 所示。
4.4 消融實(shí)驗(yàn)
????????在本小節(jié)中,我們對(duì) nuScenes [4] 數(shù)據(jù)集的驗(yàn)證集進(jìn)行消融實(shí)驗(yàn),以驗(yàn)證偏移學(xué)習(xí)的有效性。為了更公平和清晰的比較,如果沒(méi)有額外的注釋,我們對(duì)所有模型使用相同的配置和順序融合策略。詳細(xì)的消融實(shí)驗(yàn)結(jié)果列于表 III 中。我們從完整流水線 LIF-Seg 中刪除了偏移學(xué)習(xí)階段,這導(dǎo)致 LiDAR 分割的性能從 78.2 mIoU 下降到 77.6 mIoU。偏移預(yù)測(cè)結(jié)果如圖 7 所示。從圖 7 中,我們可以看到投影點(diǎn)在水平方向上向其對(duì)應(yīng)的質(zhì)心移動(dòng),這使得這些點(diǎn)盡可能多地落在實(shí)例對(duì)象上。這些結(jié)果證明了我們方法的有效性。
5結(jié)論
????????在本文中,我們提出了一個(gè)從粗到精的框架 LIFSeg,從兩個(gè)方面提高 3D 語(yǔ)義分割性能,包括早期的低級(jí)圖像上下文信息融合,以及通過(guò)解決弱點(diǎn)對(duì)齊的高級(jí)圖像語(yǔ)義信息融合。 LiDAR 和相機(jī)之間的時(shí)空同步。 LIF-Seg 由三個(gè)主要階段組成:粗略階段、偏移學(xué)習(xí)階段和細(xì)化階段。在粗階段,激光雷達(dá)點(diǎn)和低級(jí)圖像上下文信息被融合并饋送到 UNet 子網(wǎng)絡(luò)中以生成粗特征。通過(guò)圖像分割子網(wǎng)絡(luò)獲得的粗特征和圖像語(yǔ)義特征被融合以預(yù)測(cè)每個(gè)投影 LiDAR 點(diǎn)和圖像像素之間的偏移。預(yù)測(cè)的偏移量用于對(duì)齊粗特征和圖像語(yǔ)義特征。在細(xì)化階段,粗特征和對(duì)齊的圖像語(yǔ)義特征被融合并饋入 UNet 子網(wǎng)絡(luò)以獲得更準(zhǔn)確的語(yǔ)義分割結(jié)果。 nuScenes 數(shù)據(jù)集上的廣泛實(shí)驗(yàn)結(jié)果證明了我們方法的有效性。未來(lái),可以將無(wú)監(jiān)督學(xué)習(xí)方法添加到我們的 LIF-Seg 中,以預(yù)測(cè) LiDAR 和相機(jī)之間的轉(zhuǎn)換矩陣,以徹底解決弱時(shí)空同步問(wèn)題,并進(jìn)一步提高 LiDAR 分割的性能。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-424889.html
整理不易,求點(diǎn)贊~文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-424889.html
到了這里,關(guān)于論文閱讀:LIF-Seg: LiDAR and Camera Image Fusion for 3DLiDAR Semantic Segmentation的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!