本文閱讀的文章是Scene as Occupancy,介紹了一種將物體表示為3D occupancy的新方法,以描述三維場(chǎng)景,并用于檢測(cè)、分割和規(guī)劃。
文章提出了OccNet和OpenOcc兩個(gè)核心概念。
OccNet 3D占用網(wǎng)絡(luò)是一種以多視圖視覺(jué)為中心的方法,通過(guò)層級(jí)化的體素解碼器,可以重建3D感知模型和3D占用,適用于多種下游任務(wù)。
OpenOCC是一種3D占用基準(zhǔn),第一個(gè)基于nuScenes的高密集、高質(zhì)量3D占用基準(zhǔn)。
論文和代碼地址
論文名稱(chēng):Scene as Occupancy
論文地址:https://arxiv.org/abs/2306.02851
代碼地址:https://github.com/OpenDriveLab/OccNet
本文由深圳季連科技有限公司AIgraphX自動(dòng)駕駛大模型團(tuán)隊(duì)編輯。如有錯(cuò)誤,歡迎在評(píng)論區(qū)指正。
Abstract
人類(lèi)駕駛員可以很容易地通過(guò)視覺(jué)系統(tǒng)描述復(fù)雜的交通場(chǎng)景。這種精確感知的能力對(duì)于駕駛員的規(guī)劃至關(guān)重要。為此,需要一種幾何感知表示,將物理3D場(chǎng)景量化為具有每個(gè)單元格語(yǔ)義標(biāo)簽的結(jié)構(gòu)化網(wǎng)格地圖,稱(chēng)為3D占用。與bounding box形式相比,occupancy的關(guān)鍵見(jiàn)解是它可以捕獲場(chǎng)景中關(guān)鍵障礙物的細(xì)粒度細(xì)節(jié),從而促進(jìn)后續(xù)任務(wù)。先前或當(dāng)前并發(fā)的文獻(xiàn)主要集中在單個(gè)場(chǎng)景任務(wù)完成上,我們可能會(huì)認(rèn)為這種占用表示的潛力可能會(huì)掩蓋更廣泛的影響。在本文中,我們提出了 OccNet,這是一種用具有級(jí)聯(lián)和時(shí)間體素解碼器,多視圖視覺(jué)中心管道來(lái)重建 3D 占用。OccNet的核心是用occupancy embedding來(lái)表示3D物理世界。這樣的表示可以應(yīng)用于廣泛的駕駛?cè)蝿?wù),包括檢測(cè)、分割和規(guī)劃。為了驗(yàn)證這個(gè)新表示和算法的有效性,我們提出了OpenOcc,這是第一個(gè)建立在nuScenes之上的密集、高質(zhì)量3D占用基準(zhǔn)。實(shí)證實(shí)驗(yàn)表明,多個(gè)任務(wù)之間存在明顯的性能提升,例如運(yùn)動(dòng)規(guī)劃可以使碰撞率降低15%-58%,證明了我們方法的優(yōu)越性。
Introduction
當(dāng)你在路上開(kāi)車(chē)時(shí),你會(huì)如何通過(guò)你的眼睛來(lái)描述3D空間中的場(chǎng)景?人類(lèi)駕駛員可以很容易地描述周?chē)沫h(huán)境,“在我的車(chē)左邊大約5英寸處有一輛奔馳”,“在前面大約50米處,有一輛卡車(chē)載有巨大突出的煤氣管”等等。能夠以“有”的形式描述現(xiàn)實(shí)世界,這對(duì)于實(shí)現(xiàn)安全自動(dòng)駕駛 (AD) 至關(guān)重要。然而這對(duì)于以視覺(jué)為中心的 AD 系統(tǒng)來(lái)說(shuō)并非易事,因?yàn)閳?chǎng)景中存在各種各樣的實(shí)體,包括汽車(chē)、SUV 和工程卡車(chē)等車(chē)輛,以及靜態(tài)障礙物、行人、背景建筑和植被。
將 3D 場(chǎng)景量化為帶有語(yǔ)義標(biāo)簽的結(jié)構(gòu)單元,稱(chēng)為 3D Occupancy,是一種直觀的解決方案。
這種形式在 Mobileye 和 Tesla ?等行業(yè)社區(qū)中也得到了提倡。與過(guò)度簡(jiǎn)化對(duì)象形狀的 3D box 相比,3D occupancy 是幾何感知的。它通過(guò)具有不同幾何結(jié)構(gòu)的 3D 立方體集合,描繪不同的對(duì)象和背景形狀。
如圖1(c-d)所示,3D box 只能描述施工車(chē)輛的主體,而 3D occupancy 可以保留施工車(chē)輛吊臂的細(xì)節(jié)。其他傳統(tǒng)的替代方案,如點(diǎn)云分割和鳥(niǎo)瞰(BEV)分割,雖然在AD的背景下被廣泛部署,但分別在成本和粒度上有其局限性。
詳細(xì)的對(duì)比見(jiàn)表1。3D占用的這些明顯優(yōu)勢(shì)促使人們對(duì)其增強(qiáng)傳統(tǒng)感知和下游規(guī)劃任務(wù)的潛力進(jìn)行研究。
在早期階段,類(lèi)似的工作已經(jīng)討論了3D占用。占用網(wǎng)格地圖(Occupancy grid map)在機(jī)器人技術(shù)中也有類(lèi)似的概念,是移動(dòng)導(dǎo)航中的典型表示,但只是作為規(guī)劃的搜索空間。3D語(yǔ)義場(chǎng)景補(bǔ)全(3D semantic scene completion, SSC)可以看作是評(píng)估3D占用想法的感知任務(wù)。利用時(shí)間信息作為幾何先驗(yàn)對(duì)于以視覺(jué)為中心的模型來(lái)說(shuō)是直觀的,可以重建幾何感知的 3D 占用,但之前的嘗試未能解決這一問(wèn)題。從粗到精的方法也有利于以可承受的成本改善三維幾何表示,而單階段方法卻忽略了這一點(diǎn)。此外,隨著以視覺(jué)為中心的解決方案盛行,業(yè)界仍在尋求一種實(shí)用的方法來(lái)評(píng)估全棧自動(dòng)駕駛精神下的3D占用。
針對(duì)上述問(wèn)題,我們提出了OccNet,這是一個(gè)以視覺(jué)為中心的多視圖管道,具有cascade voxel decoder,可以借助時(shí)間線索重建3D占用,以及支持廣泛駕駛?cè)蝿?wù)的特定頭部Head。OccNet的核心是一個(gè)緊湊的、具有代表性的三維占用嵌入來(lái)描述三維場(chǎng)景。
為了實(shí)現(xiàn)這一目標(biāo),OccNet不像以往文獻(xiàn)那樣直接從圖像特征中生成體素特征或單獨(dú)使用BEV特征,而是采用級(jí)聯(lián)方式從BEV特征中解碼3D占用特征。解碼器采用基于體素的時(shí)間自注意和空間交叉注意的漸進(jìn)方案來(lái)恢復(fù)高度信息,并與可變形的3D注意模塊綁定以提高效率。
有了這樣一個(gè)3D占位描述符,OccNet在支持一般3D感知任務(wù)的同時(shí),也為下游規(guī)劃任務(wù)提供了便利,即3D占位預(yù)測(cè)、3D檢測(cè)、BEV分割和運(yùn)動(dòng)規(guī)劃。為了公平比較不同的方法,我們基于nuScenes數(shù)據(jù)集構(gòu)建了OpenOcc,這是一個(gè)具有密集和高質(zhì)量注釋的3D占用基準(zhǔn)。它包含34149個(gè)帶注釋的幀,超過(guò)14億個(gè)3D占用單元,每個(gè)被分配到16個(gè)類(lèi)中的一個(gè)來(lái)描述前景物體和背景東西。與稀疏的替代方法相比,這種密集且語(yǔ)義豐富的標(biāo)注,利于用視覺(jué)模型來(lái)實(shí)現(xiàn)卓越的3D幾何學(xué)習(xí)。它還考慮了對(duì)象運(yùn)動(dòng)和方向流標(biāo)注,可擴(kuò)展到規(guī)劃任務(wù)。
我們?cè)贠penOcc基準(zhǔn)上對(duì)OccNet進(jìn)行了評(píng)估,實(shí)證研究從三個(gè)方面證明了3D占位作為場(chǎng)景表示優(yōu)于傳統(tǒng)替代方案:
1)更好的感知。3D占用有助于從純視覺(jué)模型中獲取3D幾何形狀,其點(diǎn)云分割性能可與基于lidar的方法相媲美,基于占用的預(yù)訓(xùn)練或聯(lián)合訓(xùn)練增強(qiáng)了3D檢測(cè)性能。
2)更好的規(guī)劃。更準(zhǔn)確的感知也轉(zhuǎn)化為更好的規(guī)劃性能。
3)越密集越好。純視覺(jué)監(jiān)督模型,密集的三維占用比稀疏的形式更有效。在OpenOcc基準(zhǔn)測(cè)試中,OccNet優(yōu)于最先進(jìn)的技術(shù),例如TPVFormer,在語(yǔ)義場(chǎng)景完成任務(wù)中相對(duì)提高了14%。與FCOS3D相比,在OccNet上預(yù)訓(xùn)練的檢測(cè)模型性能,在小規(guī)模數(shù)據(jù)上微調(diào)后提高了約10個(gè)點(diǎn)。對(duì)于基于3D占用的運(yùn)動(dòng)規(guī)劃任務(wù),與基于BEV分割或3D Box的規(guī)劃策略相比,我們可以將碰撞率降低15%-58%。
綜上所述,我們的貢獻(xiàn)有兩個(gè)方面:
1)我們提出了OccNet,這是一個(gè)以視覺(jué)為中心的管道,具有級(jí)聯(lián)體素解碼器cascade voxel decoder,可以使用時(shí)間線索生成3D占用。它可以更好地捕捉物理世界的細(xì)粒度細(xì)節(jié),并支持廣泛的駕駛?cè)蝿?wù)。
2)基于所提出的具有密集和高質(zhì)量注釋的OpenOcc基準(zhǔn),我們證明了ococnet在感知和規(guī)劃任務(wù)上的有效性,并取得了明顯的性能提升。一個(gè)初步的結(jié)論是,3D占用作為場(chǎng)景表示,優(yōu)于傳統(tǒng)的替代方案。
Related Work
3D object detection
3D目標(biāo)檢測(cè)采用3D box作為AD中的感知目標(biāo),因?yàn)閎ox形式對(duì)于下游基于規(guī)則的方法來(lái)說(shuō)結(jié)構(gòu)良好。這種表示法將具有不同形狀的3D對(duì)象抽象為標(biāo)準(zhǔn)化的長(zhǎng)方體,因此只關(guān)心前景對(duì)象,并過(guò)度簡(jiǎn)化對(duì)象形狀。相比之下,3D占用是對(duì)物理世界的細(xì)粒度描述,可以區(qū)分各種形狀的物體。
LiDAR segmentation
激光語(yǔ)義分割是對(duì)點(diǎn)級(jí)3D場(chǎng)景的理解。它需要點(diǎn)云作為輸入,既昂貴又不便攜。由于LiDAR在3D場(chǎng)景描述中固有的傳感范圍有限和稀疏性,使用這種管道對(duì)整體3D場(chǎng)景語(yǔ)義理解不友好。
3D reconstruction and rendering
從二維圖像中推斷物體或場(chǎng)景的三維幾何形狀是計(jì)算機(jī)視覺(jué)領(lǐng)域多年來(lái)普遍存在但具有挑戰(zhàn)性的問(wèn)題。該領(lǐng)域的大多數(shù)方法處理單個(gè)對(duì)象或場(chǎng)景。對(duì)于AD應(yīng)用來(lái)說(shuō),這是不可行的,因?yàn)樗枰軓?qiáng)的泛化能力。請(qǐng)注意,3D重建和渲染更注重場(chǎng)景幾何和視覺(jué)外觀的質(zhì)量。它不太關(guān)注模型效率和語(yǔ)義理解。
Semantic Scene Completion
本文討論的占用預(yù)測(cè)的定義與Semantic Scene Completion from a Single Depth lmage,SSC最相似。MonoScene首先采用U-Net從單眼RGB圖像中推斷出帶有語(yǔ)義標(biāo)簽的密集3D占用。最近在arXiv上發(fā)布了一系列相關(guān)的作品。我們認(rèn)為這些是與它們并發(fā)的工作,并在下面簡(jiǎn)要討論。VoxFormer利用深度估計(jì)在兩階段框架中設(shè)置體素查詢(xún)。OccDepth 在帶有蒸餾的立體設(shè)置中也采用了深度感知神經(jīng)來(lái)預(yù)測(cè)語(yǔ)義占用。TPVFormer采用基于lidar的稀疏3D占用作為監(jiān)督,提出三視角視圖表示來(lái)獲取特征。OpenOccupancy: A Large Scale Benchmark for Surrounding SemanticOccupancy Perception提供了一個(gè)精心設(shè)計(jì)的占用基準(zhǔn),可以促進(jìn)社區(qū)的發(fā)展。盡管我們?cè)赟emantic-KITTI和NYUv2(單目或RGB-D)上的研究設(shè)置不同,但之前或現(xiàn)在一些文獻(xiàn)一致忽略了時(shí)間上下文的采用。由特斯拉驗(yàn)證了利用歷史體素特征很簡(jiǎn)單,然而,沒(méi)有技術(shù)細(xì)節(jié)或向公眾報(bào)告。此外,我們的工作定位為第一個(gè)將占用作為一種通用descriptor,它可以增強(qiáng)檢測(cè)之外的多種任務(wù)。
Methodology - OccNet
在本文中,我們提出了一個(gè)有效且通用的框架OccNet,它從圖像中獲得魯棒的占用特征,并支持多種駕駛?cè)蝿?wù),如圖2所示。該方法分為兩個(gè)階段,即占用重建階段和占用開(kāi)發(fā)階段。我們將橋接部分稱(chēng)為占用描述符Occupancy Descriptor,即對(duì)駕駛場(chǎng)景的統(tǒng)一描述。
OccNet pipeline?OccNet的核心是獲取具有代表性的占用描述符,并將其應(yīng)用于各種駕駛?cè)蝿?wù)。算法包括兩個(gè)階段。
1 )占用重建。給定多個(gè)視覺(jué)輸入,我們首先從BEV編碼器生成特征。體素解碼器以級(jí)聯(lián)方式執(zhí)行,其中體素逐步細(xì)化。3D可變形注意力(attention)單元的功能與2D情況類(lèi)似。時(shí)間體素Vt?1也被納入。為簡(jiǎn)潔起見(jiàn),省略了一些連接。
2)占用利用。有了占用描述符,我們可以進(jìn)行包括語(yǔ)義場(chǎng)景補(bǔ)全和3D物體檢測(cè)在內(nèi)的任務(wù)。在BEV空間中壓縮得到BEV分割圖,直接輸入規(guī)劃管道。這樣的設(shè)計(jì)可以保證規(guī)劃任務(wù)得到理想的改進(jìn)。
Reconstruction of Occupancy
此階段的目標(biāo)是獲得支持下游任務(wù)的代表性占用描述符。受BEV感知快速發(fā)展的推動(dòng),OccNet旨在利用這一優(yōu)勢(shì)在3D空間中進(jìn)行體素預(yù)測(cè)任務(wù)。為了實(shí)現(xiàn)這一點(diǎn),在下游任務(wù)中單獨(dú)使用BEV功能,作為最簡(jiǎn)單的架構(gòu),并不適合3D空間中的高度感知任務(wù)。從一個(gè)極端到另一個(gè)極端,直接從圖像中構(gòu)造體素特征具有巨大的計(jì)算成本。我們將這兩個(gè)極端稱(chēng)為BEVNet和VoxelNet, OccNet的設(shè)計(jì)在兩者之間找到了平衡,以可承受的成本實(shí)現(xiàn)了最佳性能。重構(gòu)階段首先從周?chē)鷪D像中提取多視圖特征Ft,與歷史BEV特征Bt?1和當(dāng)前BEV查詢(xún)Qt一起輸入到BEV編碼器中,得到當(dāng)前BEV特征。BEV編碼器采用BEVFormer結(jié)構(gòu),其中歷史BEV特征Bt?1、當(dāng)前BEV查詢(xún)Qt和圖像特征Ft經(jīng)過(guò)一個(gè)時(shí)空變換塊得到當(dāng)前BEV特征。然后,通過(guò)級(jí)聯(lián)體素解碼器Cascade Voxel Decoder將圖像特征、歷史和當(dāng)前BEV特征一起解碼為占用描述符。解碼器的細(xì)節(jié)在第3.1節(jié)中給出。
Exploitation of Occupancy
基于重構(gòu)的占用描述符,可以部署到廣泛的駕駛?cè)蝿?wù)。受Uni-AD的啟發(fā),優(yōu)選每個(gè)表示的顯式設(shè)計(jì)。從直觀上來(lái)看,3D語(yǔ)義場(chǎng)景補(bǔ)全和3D物體檢測(cè)附加在占用描述符上。沿著高度擠壓3D占用網(wǎng)格圖和3D框生成BEV分割圖。這樣的地圖可以直接輸入到運(yùn)動(dòng)規(guī)劃頭部,連同高級(jí)指令采樣器,通過(guò)argmin和GRU模塊得到自車(chē)軌跡。第3.2節(jié)提供了詳細(xì)的說(shuō)明。
Cascade Voxel Decoder
為了有效地獲得更好的體素特征,我們?cè)诮獯a器中設(shè)計(jì)了級(jí)聯(lián)結(jié)構(gòu),逐步恢復(fù)體素特征中的高度信息。
From BEV to Cascaded Voxel
為便于閱讀,再次引用OccNet架構(gòu)圖。?
Voxel based Temporal Self-Attention
時(shí)間信息對(duì)于準(zhǔn)確表征駕駛場(chǎng)景至關(guān)重要。給定歷史體素特征V 't - 1,i,我們通過(guò)ego vehicle的位置將其與當(dāng)前占用特征V 't,i對(duì)齊。對(duì)于典型的self-attention,每次Q都會(huì)涉及到K和V值,因此計(jì)算成本非常巨大,在3D空間中甚至比在2D情況下增加Z*Z倍。為了降低計(jì)算成本,我們?cè)O(shè)計(jì)了一種基于體素的高效注意力,稱(chēng)為3D可變形注意力(3D- da)來(lái)處理計(jì)算負(fù)擔(dān)。通過(guò)將其應(yīng)用于基于體素的時(shí)間自關(guān)注,我們確保每個(gè)體素查詢(xún)只需要與感興趣的局部體素交互,從而使計(jì)算成本可以承受。
備注,關(guān)于可變形自注意如何實(shí)現(xiàn),請(qǐng)參見(jiàn)博主的Deformable attention論文。
3D Deformable Attention
Voxel-based Spatial Cross-Attention
在交叉注意中,體素特征V′t,i與具有二維可變形注意的多尺度圖像特征Ft相互作用。每個(gè)第 i 個(gè)解碼器直接從對(duì)應(yīng)體素中采樣Nref,i個(gè)3D點(diǎn)到圖像視圖中,并與采樣后的圖像特征交互。這樣的設(shè)計(jì)既保留了高度信息,又保證了體素特征的學(xué)習(xí)。
Exploiting Occupancy on Various Tasks
OccNet使用細(xì)粒度占用描述符在3D空間中描述場(chǎng)景,可以將其輸入到各種駕駛?cè)蝿?wù)中,而不會(huì)產(chǎn)生過(guò)多的計(jì)算開(kāi)銷(xiāo)。
Semantic Scene Completion
為了簡(jiǎn)單起見(jiàn),我們?cè)O(shè)計(jì)了MLP頭部來(lái)預(yù)測(cè)每個(gè)體素的語(yǔ)義標(biāo)簽,并應(yīng)用Focal loss來(lái)平衡被占用體素和空體素之間巨大的數(shù)值不平等。此外,附加了L1損失的flow head來(lái)估計(jì)每占用體素的流速。
3D Object Detection
受BEVFormer中頭部設(shè)計(jì)的啟發(fā),我們將占用描述符壓縮到BEV中,然后應(yīng)用基于查詢(xún)的檢測(cè)頭(Deformable DETR的不變量)來(lái)預(yù)測(cè)3D框。
BEV segmentation
遵循ST-P3中的時(shí)空融合感知結(jié)構(gòu)
從BEV特征預(yù)測(cè)地圖表示和語(yǔ)義分割,就像在3D物體檢測(cè)中一樣。純電動(dòng)汽車(chē)分割頭包括用于地圖表示的可行駛區(qū)域分割頭和車(chē)道線分割頭,用于語(yǔ)義分割中的車(chē)輛分割和行人分割。
Motion Planning
對(duì)于運(yùn)動(dòng)規(guī)劃任務(wù),可以將SSC或3D邊界框中預(yù)測(cè)的占用結(jié)果轉(zhuǎn)化為BEV分割,如圖OccNet架構(gòu)圖所示。
3D占用結(jié)果沿著高度維度和三維框進(jìn)行擠壓。
來(lái)自3D占用或3D框的每個(gè)BEV單元的所有語(yǔ)義標(biāo)簽都轉(zhuǎn)換為0-1格式,其中1表示單元被占用,0表示空。然后,將該BEV分割映射應(yīng)用于安全代價(jià)safety cost f函數(shù),計(jì)算采樣軌跡上的安全、舒適和進(jìn)度代價(jià)safety, comfort and progress cost。
需要注意的是,與3D框相比,占用場(chǎng)景補(bǔ)全的背景信息越豐富,安全成本函數(shù)越全面,因此需要在兩種BEV分割之間進(jìn)行安全成本值的歸一化。
所有候選軌跡通過(guò)隨機(jī)速度、加速度和曲率進(jìn)行采樣。在前進(jìn)、左轉(zhuǎn)、右轉(zhuǎn)等高級(jí)指令的指導(dǎo)下,輸出成本最低的特定指令所對(duì)應(yīng)的軌跡。
利用前視特征對(duì)該軌跡進(jìn)一步進(jìn)行ST-P3的GRU細(xì)化,得到最終軌跡。
OpenOcc: 3D Occupancy Benchmark
為了公平地評(píng)估文獻(xiàn)中的占用性能,我們引入了第一個(gè)3D占用基準(zhǔn),稱(chēng)為OpenOcc,它建立在流行的nuScenes數(shù)據(jù)集之上。與現(xiàn)有的同類(lèi)產(chǎn)品(如SemanticKITTI)相比,只有前置攝像頭,OpenOcc提供環(huán)視攝像頭視圖,并提供相應(yīng)的3D占用和流標(biāo)注。
Benchmark Overview
我們利用稀疏的LiDAR信息和3D box生成密集和高質(zhì)量的標(biāo)注占用數(shù)據(jù)。它包括所有700個(gè)訓(xùn)練場(chǎng)景和150個(gè)驗(yàn)證場(chǎng)景的34149個(gè)帶標(biāo)注的幀。我們?cè)诨鶞?zhǔn)測(cè)試中標(biāo)注了超過(guò)14億體素和16個(gè)類(lèi),包括10個(gè)前景對(duì)象和6個(gè)背景對(duì)象。此外,我們還考慮了前景物體的運(yùn)動(dòng),并對(duì)物體體素進(jìn)行了額外的流標(biāo)注。
我們將我們的占用率數(shù)據(jù)與表2中的其他基準(zhǔn)進(jìn)行了比較,表明我們的基準(zhǔn)可以提供最完整的場(chǎng)景表示,包括占用和流量信息。
Visual comparison on 3D occupancy annotations
與(a)稀疏占用和(b) OccData相比,我們使用(d)前景物體的額外流標(biāo)注生成(c)密集和高質(zhì)量的標(biāo)注,可用于運(yùn)動(dòng)規(guī)劃。
如圖3所示,SparseOcc僅使用了稀疏關(guān)鍵幀激光雷達(dá)數(shù)據(jù)來(lái)體素化三維空間,它太稀疏了,無(wú)法表示3D場(chǎng)景。相比之下,我們的占用可以用流信息表示完整的場(chǎng)景,并且可以高質(zhì)量地捕獲局部細(xì)粒度的場(chǎng)景幾何。
Generating High-quality Annotation
Independent Accumulation of Background and Foreground
為了生成密集表示,可以直觀地將K幀和中間幀的所有稀疏LiDAR點(diǎn)累加起來(lái),得到密集表示。但是,由于運(yùn)動(dòng)物體的存在,直接通過(guò)坐標(biāo)變換從中間幀積累點(diǎn)是有問(wèn)題的。
我們提出將激光雷達(dá)點(diǎn)基于3D box分割為靜態(tài)背景點(diǎn)和前景點(diǎn),分別進(jìn)行累積。
然后我們可以累積全局世界系統(tǒng)中的靜態(tài)背景點(diǎn)和物體坐標(biāo)系中的物體點(diǎn)來(lái)生成密集點(diǎn)。
Generation of Annotation
給定密集的背景和目標(biāo)點(diǎn),我們首先對(duì)3D空間進(jìn)行體素化,并根據(jù)體素中標(biāo)記點(diǎn)的多數(shù)投票對(duì)體素進(jìn)行標(biāo)記。不同于現(xiàn)有的基準(zhǔn),只有occupancy標(biāo)注。
我們根據(jù)3D box速度標(biāo)注體素的流速,以方便后續(xù)的運(yùn)動(dòng)規(guī)劃等任務(wù)。僅使用關(guān)鍵幀會(huì)導(dǎo)致生成的占用數(shù)據(jù)稀疏,因此我們?cè)谥車(chē)鷺?biāo)記體素的基礎(chǔ)上,用中間幀的未標(biāo)記LiDAR點(diǎn)對(duì)體素進(jìn)行標(biāo)注,進(jìn)一步提高數(shù)據(jù)密度。此外,由于nuScenes存在z軸平移缺失的問(wèn)題,我們通過(guò)場(chǎng)景補(bǔ)全來(lái)細(xì)化占用數(shù)據(jù),例如填充道路上的洞以獲得更高的質(zhì)量。此外,我們通過(guò)追蹤光線將部分體素設(shè)置為不可見(jiàn)的,這更適用于有相機(jī)輸入的任務(wù)。
Experiments
Main Results
Semantic Scene Completion
3D Occupancy Prediction in terms of Semantic Scene Completion
Qualitative results of occupancy prediction
我們的方法在場(chǎng)景細(xì)節(jié)和前景對(duì)象(如虛線區(qū)域的行人)的語(yǔ)義分類(lèi)精度方面優(yōu)于TPVFormer。
Occupancy for LiDAR Segmentation
Occupancy for 3D Detection
Joint training of 3D occupancy and 3D detection
在nuScenes驗(yàn)證集上報(bào)告的結(jié)果表明,聯(lián)合3D檢測(cè)訓(xùn)練和3D占用有助于后面的任務(wù)
Pretrained Occupancy for 3D Detection and BEV segmentation
不同模型和不同訓(xùn)練數(shù)據(jù)集規(guī)模下檢測(cè)器性能的比較。
Different pretraining tasks for BEV segmentation,占用任務(wù)可以幫助BEV分段任務(wù)實(shí)現(xiàn)更高的IoU。
Occupancy for Planning
Planning results with different scene representations.
占位表示有助于規(guī)劃任務(wù)在所有時(shí)間間隔內(nèi)實(shí)現(xiàn)更低的碰撞率和更準(zhǔn)確的L2距離。
Visualization of planning,藍(lán)線為規(guī)劃軌跡,下圖分別為邊界框和占用的柵格化結(jié)果。
Discussion
Model Efficiency
我們比較了不同模型在語(yǔ)義場(chǎng)景完成任務(wù)中的性能。與BEVNet和VoxelNet相比,OccNet在mIOU和IoUgeo方面的性能最好,效率高,效果好。
Irregular Object
如圖7所示,用3D方框表示不規(guī)則物體(如施工車(chē)輛)或背景物體(如交通標(biāo)志)是困難和不準(zhǔn)確的。我們將3D box轉(zhuǎn)換為體素,對(duì)比表9中不規(guī)則物體的3D檢測(cè)和占用任務(wù),驗(yàn)證占用可以更好地描述不規(guī)則物體。為了研究體素大小的影響,我們還生成了?s = 0.25m的數(shù)據(jù)集。隨著?s從0.5m減小到0.25m, 3D box與occupancy之間的性能差距增大,因?yàn)樵郊?xì)的粒度越能更好地描繪不規(guī)則物體。
Dense v.s. Sparse Occupancy
與稀疏占用相比,密集占用有助于更詳細(xì)地描繪背景和前景物體的完整幾何形狀。
直觀上看,密集占用更有利于3D感知和運(yùn)動(dòng)規(guī)劃,因?yàn)樾畔⑤斎敫S富。我們驗(yàn)證了在密集占用上預(yù)訓(xùn)練的模型更有利于下游的3D Detection任務(wù)。
Conclusion
We dive into the potential of the 3D occupancy as scene representation and propose a general framework OccNet to evaluate the idea. The experiments on various downstream tasks validate the effectiveness of our method. The OpenOcc benchmark with dense and high-quality labels is also provided for community.
Limitations and future work.
Currently, the annotation is still based on the well-established dataset. Utilizing selfsupervised learning to further reduce the human-annotation cost is a valuable direction. We hope occupancy framework can be the foundation model of autonomous driving.文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-836736.html
本文工作內(nèi)容和技巧多而復(fù)雜,要多研讀代碼,收獲會(huì)更大。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-836736.html
到了這里,關(guān)于51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!