国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀

這篇具有很好參考價(jià)值的文章主要介紹了51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

本文閱讀的文章是Scene as Occupancy,介紹了一種將物體表示為3D occupancy的新方法,以描述三維場(chǎng)景,并用于檢測(cè)、分割和規(guī)劃。

文章提出了OccNet和OpenOcc兩個(gè)核心概念。

OccNet 3D占用網(wǎng)絡(luò)是一種以多視圖視覺(jué)為中心的方法,通過(guò)層級(jí)化的體素解碼器,可以重建3D感知模型和3D占用,適用于多種下游任務(wù)。

OpenOCC是一種3D占用基準(zhǔn),第一個(gè)基于nuScenes的高密集、高質(zhì)量3D占用基準(zhǔn)。

論文和代碼地址

論文名稱(chēng):Scene as Occupancy

論文地址:https://arxiv.org/abs/2306.02851

代碼地址:https://github.com/OpenDriveLab/OccNet

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

本文由深圳季連科技有限公司AIgraphX自動(dòng)駕駛大模型團(tuán)隊(duì)編輯。如有錯(cuò)誤,歡迎在評(píng)論區(qū)指正。

Abstract

人類(lèi)駕駛員可以很容易地通過(guò)視覺(jué)系統(tǒng)描述復(fù)雜的交通場(chǎng)景。這種精確感知的能力對(duì)于駕駛員的規(guī)劃至關(guān)重要。為此,需要一種幾何感知表示,將物理3D場(chǎng)景量化為具有每個(gè)單元格語(yǔ)義標(biāo)簽的結(jié)構(gòu)化網(wǎng)格地圖,稱(chēng)為3D占用。與bounding box形式相比,occupancy的關(guān)鍵見(jiàn)解是它可以捕獲場(chǎng)景中關(guān)鍵障礙物的細(xì)粒度細(xì)節(jié),從而促進(jìn)后續(xù)任務(wù)。先前或當(dāng)前并發(fā)的文獻(xiàn)主要集中在單個(gè)場(chǎng)景任務(wù)完成上,我們可能會(huì)認(rèn)為這種占用表示的潛力可能會(huì)掩蓋更廣泛的影響。在本文中,我們提出了 OccNet,這是一種用具有級(jí)聯(lián)和時(shí)間體素解碼器,多視圖視覺(jué)中心管道來(lái)重建 3D 占用。OccNet的核心是用occupancy embedding來(lái)表示3D物理世界。這樣的表示可以應(yīng)用于廣泛的駕駛?cè)蝿?wù),包括檢測(cè)、分割和規(guī)劃。為了驗(yàn)證這個(gè)新表示和算法的有效性,我們提出了OpenOcc,這是第一個(gè)建立在nuScenes之上的密集、高質(zhì)量3D占用基準(zhǔn)。實(shí)證實(shí)驗(yàn)表明,多個(gè)任務(wù)之間存在明顯的性能提升,例如運(yùn)動(dòng)規(guī)劃可以使碰撞率降低15%-58%,證明了我們方法的優(yōu)越性。

Introduction

當(dāng)你在路上開(kāi)車(chē)時(shí),你會(huì)如何通過(guò)你的眼睛來(lái)描述3D空間中的場(chǎng)景?人類(lèi)駕駛員可以很容易地描述周?chē)沫h(huán)境,“在我的車(chē)左邊大約5英寸處有一輛奔馳”,“在前面大約50米處,有一輛卡車(chē)載有巨大突出的煤氣管”等等。能夠以“有”的形式描述現(xiàn)實(shí)世界,這對(duì)于實(shí)現(xiàn)安全自動(dòng)駕駛 (AD) 至關(guān)重要。然而這對(duì)于以視覺(jué)為中心的 AD 系統(tǒng)來(lái)說(shuō)并非易事,因?yàn)閳?chǎng)景中存在各種各樣的實(shí)體,包括汽車(chē)、SUV 和工程卡車(chē)等車(chē)輛,以及靜態(tài)障礙物、行人、背景建筑和植被。

將 3D 場(chǎng)景量化為帶有語(yǔ)義標(biāo)簽的結(jié)構(gòu)單元,稱(chēng)為 3D Occupancy,是一種直觀的解決方案。

這種形式在 Mobileye 和 Tesla ?等行業(yè)社區(qū)中也得到了提倡。與過(guò)度簡(jiǎn)化對(duì)象形狀的 3D box 相比,3D occupancy 是幾何感知的。它通過(guò)具有不同幾何結(jié)構(gòu)的 3D 立方體集合,描繪不同的對(duì)象和背景形狀。

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

如圖1(c-d)所示,3D box 只能描述施工車(chē)輛的主體,而 3D occupancy 可以保留施工車(chē)輛吊臂的細(xì)節(jié)。其他傳統(tǒng)的替代方案,如點(diǎn)云分割和鳥(niǎo)瞰(BEV)分割,雖然在AD的背景下被廣泛部署,但分別在成本和粒度上有其局限性。

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

詳細(xì)的對(duì)比見(jiàn)表1。3D占用的這些明顯優(yōu)勢(shì)促使人們對(duì)其增強(qiáng)傳統(tǒng)感知和下游規(guī)劃任務(wù)的潛力進(jìn)行研究。

在早期階段,類(lèi)似的工作已經(jīng)討論了3D占用。占用網(wǎng)格地圖(Occupancy grid map)在機(jī)器人技術(shù)中也有類(lèi)似的概念,是移動(dòng)導(dǎo)航中的典型表示,但只是作為規(guī)劃的搜索空間。3D語(yǔ)義場(chǎng)景補(bǔ)全(3D semantic scene completion, SSC)可以看作是評(píng)估3D占用想法的感知任務(wù)。利用時(shí)間信息作為幾何先驗(yàn)對(duì)于以視覺(jué)為中心的模型來(lái)說(shuō)是直觀的,可以重建幾何感知的 3D 占用,但之前的嘗試未能解決這一問(wèn)題。從粗到精的方法也有利于以可承受的成本改善三維幾何表示,而單階段方法卻忽略了這一點(diǎn)。此外,隨著以視覺(jué)為中心的解決方案盛行,業(yè)界仍在尋求一種實(shí)用的方法來(lái)評(píng)估全棧自動(dòng)駕駛精神下的3D占用。

針對(duì)上述問(wèn)題,我們提出了OccNet,這是一個(gè)以視覺(jué)為中心的多視圖管道,具有cascade voxel decoder,可以借助時(shí)間線索重建3D占用,以及支持廣泛駕駛?cè)蝿?wù)的特定頭部Head。OccNet的核心是一個(gè)緊湊的、具有代表性的三維占用嵌入來(lái)描述三維場(chǎng)景。

為了實(shí)現(xiàn)這一目標(biāo),OccNet不像以往文獻(xiàn)那樣直接從圖像特征中生成體素特征或單獨(dú)使用BEV特征,而是采用級(jí)聯(lián)方式從BEV特征中解碼3D占用特征。解碼器采用基于體素的時(shí)間自注意和空間交叉注意的漸進(jìn)方案來(lái)恢復(fù)高度信息,并與可變形的3D注意模塊綁定以提高效率。

有了這樣一個(gè)3D占位描述符,OccNet在支持一般3D感知任務(wù)的同時(shí),也為下游規(guī)劃任務(wù)提供了便利,即3D占位預(yù)測(cè)、3D檢測(cè)、BEV分割和運(yùn)動(dòng)規(guī)劃。為了公平比較不同的方法,我們基于nuScenes數(shù)據(jù)集構(gòu)建了OpenOcc,這是一個(gè)具有密集和高質(zhì)量注釋的3D占用基準(zhǔn)。它包含34149個(gè)帶注釋的幀,超過(guò)14億個(gè)3D占用單元,每個(gè)被分配到16個(gè)類(lèi)中的一個(gè)來(lái)描述前景物體和背景東西。與稀疏的替代方法相比,這種密集且語(yǔ)義豐富的標(biāo)注,利于用視覺(jué)模型來(lái)實(shí)現(xiàn)卓越的3D幾何學(xué)習(xí)。它還考慮了對(duì)象運(yùn)動(dòng)和方向流標(biāo)注,可擴(kuò)展到規(guī)劃任務(wù)。

我們?cè)贠penOcc基準(zhǔn)上對(duì)OccNet進(jìn)行了評(píng)估,實(shí)證研究從三個(gè)方面證明了3D占位作為場(chǎng)景表示優(yōu)于傳統(tǒng)替代方案:

1)更好的感知。3D占用有助于從純視覺(jué)模型中獲取3D幾何形狀,其點(diǎn)云分割性能可與基于lidar的方法相媲美,基于占用的預(yù)訓(xùn)練或聯(lián)合訓(xùn)練增強(qiáng)了3D檢測(cè)性能。

2)更好的規(guī)劃。更準(zhǔn)確的感知也轉(zhuǎn)化為更好的規(guī)劃性能。

3)越密集越好。純視覺(jué)監(jiān)督模型,密集的三維占用比稀疏的形式更有效。在OpenOcc基準(zhǔn)測(cè)試中,OccNet優(yōu)于最先進(jìn)的技術(shù),例如TPVFormer,在語(yǔ)義場(chǎng)景完成任務(wù)中相對(duì)提高了14%。與FCOS3D相比,在OccNet上預(yù)訓(xùn)練的檢測(cè)模型性能,在小規(guī)模數(shù)據(jù)上微調(diào)后提高了約10個(gè)點(diǎn)。對(duì)于基于3D占用的運(yùn)動(dòng)規(guī)劃任務(wù),與基于BEV分割或3D Box的規(guī)劃策略相比,我們可以將碰撞率降低15%-58%。

綜上所述,我們的貢獻(xiàn)有兩個(gè)方面:

1)我們提出了OccNet,這是一個(gè)以視覺(jué)為中心的管道,具有級(jí)聯(lián)體素解碼器cascade voxel decoder,可以使用時(shí)間線索生成3D占用。它可以更好地捕捉物理世界的細(xì)粒度細(xì)節(jié),并支持廣泛的駕駛?cè)蝿?wù)。

2)基于所提出的具有密集和高質(zhì)量注釋的OpenOcc基準(zhǔn),我們證明了ococnet在感知和規(guī)劃任務(wù)上的有效性,并取得了明顯的性能提升。一個(gè)初步的結(jié)論是,3D占用作為場(chǎng)景表示,優(yōu)于傳統(tǒng)的替代方案。

Related Work

3D object detection

3D目標(biāo)檢測(cè)采用3D box作為AD中的感知目標(biāo),因?yàn)閎ox形式對(duì)于下游基于規(guī)則的方法來(lái)說(shuō)結(jié)構(gòu)良好。這種表示法將具有不同形狀的3D對(duì)象抽象為標(biāo)準(zhǔn)化的長(zhǎng)方體,因此只關(guān)心前景對(duì)象,并過(guò)度簡(jiǎn)化對(duì)象形狀。相比之下,3D占用是對(duì)物理世界的細(xì)粒度描述,可以區(qū)分各種形狀的物體。

LiDAR segmentation

激光語(yǔ)義分割是對(duì)點(diǎn)級(jí)3D場(chǎng)景的理解。它需要點(diǎn)云作為輸入,既昂貴又不便攜。由于LiDAR在3D場(chǎng)景描述中固有的傳感范圍有限和稀疏性,使用這種管道對(duì)整體3D場(chǎng)景語(yǔ)義理解不友好。

3D reconstruction and rendering

從二維圖像中推斷物體或場(chǎng)景的三維幾何形狀是計(jì)算機(jī)視覺(jué)領(lǐng)域多年來(lái)普遍存在但具有挑戰(zhàn)性的問(wèn)題。該領(lǐng)域的大多數(shù)方法處理單個(gè)對(duì)象或場(chǎng)景。對(duì)于AD應(yīng)用來(lái)說(shuō),這是不可行的,因?yàn)樗枰軓?qiáng)的泛化能力。請(qǐng)注意,3D重建和渲染更注重場(chǎng)景幾何和視覺(jué)外觀的質(zhì)量。它不太關(guān)注模型效率和語(yǔ)義理解。

Semantic Scene Completion

本文討論的占用預(yù)測(cè)的定義與Semantic Scene Completion from a Single Depth lmage,SSC最相似。MonoScene首先采用U-Net從單眼RGB圖像中推斷出帶有語(yǔ)義標(biāo)簽的密集3D占用。最近在arXiv上發(fā)布了一系列相關(guān)的作品。我們認(rèn)為這些是與它們并發(fā)的工作,并在下面簡(jiǎn)要討論。VoxFormer利用深度估計(jì)在兩階段框架中設(shè)置體素查詢(xún)。OccDepth 在帶有蒸餾的立體設(shè)置中也采用了深度感知神經(jīng)來(lái)預(yù)測(cè)語(yǔ)義占用。TPVFormer采用基于lidar的稀疏3D占用作為監(jiān)督,提出三視角視圖表示來(lái)獲取特征。OpenOccupancy: A Large Scale Benchmark for Surrounding SemanticOccupancy Perception提供了一個(gè)精心設(shè)計(jì)的占用基準(zhǔn),可以促進(jìn)社區(qū)的發(fā)展。盡管我們?cè)赟emantic-KITTI和NYUv2(單目或RGB-D)上的研究設(shè)置不同,但之前或現(xiàn)在一些文獻(xiàn)一致忽略了時(shí)間上下文的采用。由特斯拉驗(yàn)證了利用歷史體素特征很簡(jiǎn)單,然而,沒(méi)有技術(shù)細(xì)節(jié)或向公眾報(bào)告。此外,我們的工作定位為第一個(gè)將占用作為一種通用descriptor,它可以增強(qiáng)檢測(cè)之外的多種任務(wù)。

Methodology - OccNet

在本文中,我們提出了一個(gè)有效且通用的框架OccNet,它從圖像中獲得魯棒的占用特征,并支持多種駕駛?cè)蝿?wù),如圖2所示。該方法分為兩個(gè)階段,即占用重建階段和占用開(kāi)發(fā)階段。我們將橋接部分稱(chēng)為占用描述符Occupancy Descriptor,即對(duì)駕駛場(chǎng)景的統(tǒng)一描述。

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

OccNet pipeline?OccNet的核心是獲取具有代表性的占用描述符,并將其應(yīng)用于各種駕駛?cè)蝿?wù)。算法包括兩個(gè)階段。

1 )占用重建。給定多個(gè)視覺(jué)輸入,我們首先從BEV編碼器生成特征。體素解碼器以級(jí)聯(lián)方式執(zhí)行,其中體素逐步細(xì)化。3D可變形注意力(attention)單元的功能與2D情況類(lèi)似。時(shí)間體素Vt?1也被納入。為簡(jiǎn)潔起見(jiàn),省略了一些連接。

2)占用利用。有了占用描述符,我們可以進(jìn)行包括語(yǔ)義場(chǎng)景補(bǔ)全和3D物體檢測(cè)在內(nèi)的任務(wù)。在BEV空間中壓縮得到BEV分割圖,直接輸入規(guī)劃管道。這樣的設(shè)計(jì)可以保證規(guī)劃任務(wù)得到理想的改進(jìn)。

Reconstruction of Occupancy

此階段的目標(biāo)是獲得支持下游任務(wù)的代表性占用描述符。受BEV感知快速發(fā)展的推動(dòng),OccNet旨在利用這一優(yōu)勢(shì)在3D空間中進(jìn)行體素預(yù)測(cè)任務(wù)。為了實(shí)現(xiàn)這一點(diǎn),在下游任務(wù)中單獨(dú)使用BEV功能,作為最簡(jiǎn)單的架構(gòu),并不適合3D空間中的高度感知任務(wù)。從一個(gè)極端到另一個(gè)極端,直接從圖像中構(gòu)造體素特征具有巨大的計(jì)算成本。我們將這兩個(gè)極端稱(chēng)為BEVNet和VoxelNet, OccNet的設(shè)計(jì)在兩者之間找到了平衡,以可承受的成本實(shí)現(xiàn)了最佳性能。重構(gòu)階段首先從周?chē)鷪D像中提取多視圖特征Ft,與歷史BEV特征Bt?1和當(dāng)前BEV查詢(xún)Qt一起輸入到BEV編碼器中,得到當(dāng)前BEV特征。BEV編碼器采用BEVFormer結(jié)構(gòu),其中歷史BEV特征Bt?1、當(dāng)前BEV查詢(xún)Qt和圖像特征Ft經(jīng)過(guò)一個(gè)時(shí)空變換塊得到當(dāng)前BEV特征。然后,通過(guò)級(jí)聯(lián)體素解碼器Cascade Voxel Decoder將圖像特征、歷史和當(dāng)前BEV特征一起解碼為占用描述符。解碼器的細(xì)節(jié)在第3.1節(jié)中給出。

Exploitation of Occupancy

基于重構(gòu)的占用描述符,可以部署到廣泛的駕駛?cè)蝿?wù)。受Uni-AD的啟發(fā),優(yōu)選每個(gè)表示的顯式設(shè)計(jì)。從直觀上來(lái)看,3D語(yǔ)義場(chǎng)景補(bǔ)全和3D物體檢測(cè)附加在占用描述符上。沿著高度擠壓3D占用網(wǎng)格圖和3D框生成BEV分割圖。這樣的地圖可以直接輸入到運(yùn)動(dòng)規(guī)劃頭部,連同高級(jí)指令采樣器,通過(guò)argmin和GRU模塊得到自車(chē)軌跡。第3.2節(jié)提供了詳細(xì)的說(shuō)明。

Cascade Voxel Decoder

為了有效地獲得更好的體素特征,我們?cè)诮獯a器中設(shè)計(jì)了級(jí)聯(lián)結(jié)構(gòu),逐步恢復(fù)體素特征中的高度信息。

From BEV to Cascaded Voxel

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

為便于閱讀,再次引用OccNet架構(gòu)圖。?

Voxel based Temporal Self-Attention

時(shí)間信息對(duì)于準(zhǔn)確表征駕駛場(chǎng)景至關(guān)重要。給定歷史體素特征V 't - 1,i,我們通過(guò)ego vehicle的位置將其與當(dāng)前占用特征V 't,i對(duì)齊。對(duì)于典型的self-attention,每次Q都會(huì)涉及到K和V值,因此計(jì)算成本非常巨大,在3D空間中甚至比在2D情況下增加Z*Z倍。為了降低計(jì)算成本,我們?cè)O(shè)計(jì)了一種基于體素的高效注意力,稱(chēng)為3D可變形注意力(3D- da)來(lái)處理計(jì)算負(fù)擔(dān)。通過(guò)將其應(yīng)用于基于體素的時(shí)間自關(guān)注,我們確保每個(gè)體素查詢(xún)只需要與感興趣的局部體素交互,從而使計(jì)算成本可以承受。

備注,關(guān)于可變形自注意如何實(shí)現(xiàn),請(qǐng)參見(jiàn)博主的Deformable attention論文。

3D Deformable Attention

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

Voxel-based Spatial Cross-Attention

在交叉注意中,體素特征V′t,i與具有二維可變形注意的多尺度圖像特征Ft相互作用。每個(gè)第 i 個(gè)解碼器直接從對(duì)應(yīng)體素中采樣Nref,i個(gè)3D點(diǎn)到圖像視圖中,并與采樣后的圖像特征交互。這樣的設(shè)計(jì)既保留了高度信息,又保證了體素特征的學(xué)習(xí)。

Exploiting Occupancy on Various Tasks

OccNet使用細(xì)粒度占用描述符在3D空間中描述場(chǎng)景,可以將其輸入到各種駕駛?cè)蝿?wù)中,而不會(huì)產(chǎn)生過(guò)多的計(jì)算開(kāi)銷(xiāo)。

Semantic Scene Completion

為了簡(jiǎn)單起見(jiàn),我們?cè)O(shè)計(jì)了MLP頭部來(lái)預(yù)測(cè)每個(gè)體素的語(yǔ)義標(biāo)簽,并應(yīng)用Focal loss來(lái)平衡被占用體素和空體素之間巨大的數(shù)值不平等。此外,附加了L1損失的flow head來(lái)估計(jì)每占用體素的流速。

3D Object Detection

受BEVFormer中頭部設(shè)計(jì)的啟發(fā),我們將占用描述符壓縮到BEV中,然后應(yīng)用基于查詢(xún)的檢測(cè)頭(Deformable DETR的不變量)來(lái)預(yù)測(cè)3D框。

BEV segmentation

遵循ST-P3中的時(shí)空融合感知結(jié)構(gòu)

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

從BEV特征預(yù)測(cè)地圖表示和語(yǔ)義分割,就像在3D物體檢測(cè)中一樣。純電動(dòng)汽車(chē)分割頭包括用于地圖表示的可行駛區(qū)域分割頭和車(chē)道線分割頭,用于語(yǔ)義分割中的車(chē)輛分割和行人分割。

Motion Planning

對(duì)于運(yùn)動(dòng)規(guī)劃任務(wù),可以將SSC或3D邊界框中預(yù)測(cè)的占用結(jié)果轉(zhuǎn)化為BEV分割,如圖OccNet架構(gòu)圖所示。

3D占用結(jié)果沿著高度維度和三維框進(jìn)行擠壓。

來(lái)自3D占用或3D框的每個(gè)BEV單元的所有語(yǔ)義標(biāo)簽都轉(zhuǎn)換為0-1格式,其中1表示單元被占用,0表示空。然后,將該BEV分割映射應(yīng)用于安全代價(jià)safety cost f函數(shù),計(jì)算采樣軌跡上的安全、舒適和進(jìn)度代價(jià)safety, comfort and progress cost。

需要注意的是,與3D框相比,占用場(chǎng)景補(bǔ)全的背景信息越豐富,安全成本函數(shù)越全面,因此需要在兩種BEV分割之間進(jìn)行安全成本值的歸一化。

所有候選軌跡通過(guò)隨機(jī)速度、加速度和曲率進(jìn)行采樣。在前進(jìn)、左轉(zhuǎn)、右轉(zhuǎn)等高級(jí)指令的指導(dǎo)下,輸出成本最低的特定指令所對(duì)應(yīng)的軌跡。

利用前視特征對(duì)該軌跡進(jìn)一步進(jìn)行ST-P3的GRU細(xì)化,得到最終軌跡。

OpenOcc: 3D Occupancy Benchmark

為了公平地評(píng)估文獻(xiàn)中的占用性能,我們引入了第一個(gè)3D占用基準(zhǔn),稱(chēng)為OpenOcc,它建立在流行的nuScenes數(shù)據(jù)集之上。與現(xiàn)有的同類(lèi)產(chǎn)品(如SemanticKITTI)相比,只有前置攝像頭,OpenOcc提供環(huán)視攝像頭視圖,并提供相應(yīng)的3D占用和流標(biāo)注。

Benchmark Overview

我們利用稀疏的LiDAR信息和3D box生成密集和高質(zhì)量的標(biāo)注占用數(shù)據(jù)。它包括所有700個(gè)訓(xùn)練場(chǎng)景和150個(gè)驗(yàn)證場(chǎng)景的34149個(gè)帶標(biāo)注的幀。我們?cè)诨鶞?zhǔn)測(cè)試中標(biāo)注了超過(guò)14億體素和16個(gè)類(lèi),包括10個(gè)前景對(duì)象和6個(gè)背景對(duì)象。此外,我們還考慮了前景物體的運(yùn)動(dòng),并對(duì)物體體素進(jìn)行了額外的流標(biāo)注。

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

我們將我們的占用率數(shù)據(jù)與表2中的其他基準(zhǔn)進(jìn)行了比較,表明我們的基準(zhǔn)可以提供最完整的場(chǎng)景表示,包括占用和流量信息。

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

Visual comparison on 3D occupancy annotations

與(a)稀疏占用和(b) OccData相比,我們使用(d)前景物體的額外流標(biāo)注生成(c)密集和高質(zhì)量的標(biāo)注,可用于運(yùn)動(dòng)規(guī)劃。

如圖3所示,SparseOcc僅使用了稀疏關(guān)鍵幀激光雷達(dá)數(shù)據(jù)來(lái)體素化三維空間,它太稀疏了,無(wú)法表示3D場(chǎng)景。相比之下,我們的占用可以用流信息表示完整的場(chǎng)景,并且可以高質(zhì)量地捕獲局部細(xì)粒度的場(chǎng)景幾何。

Generating High-quality Annotation

Independent Accumulation of Background and Foreground

為了生成密集表示,可以直觀地將K幀和中間幀的所有稀疏LiDAR點(diǎn)累加起來(lái),得到密集表示。但是,由于運(yùn)動(dòng)物體的存在,直接通過(guò)坐標(biāo)變換從中間幀積累點(diǎn)是有問(wèn)題的。

我們提出將激光雷達(dá)點(diǎn)基于3D box分割為靜態(tài)背景點(diǎn)和前景點(diǎn),分別進(jìn)行累積。

然后我們可以累積全局世界系統(tǒng)中的靜態(tài)背景點(diǎn)和物體坐標(biāo)系中的物體點(diǎn)來(lái)生成密集點(diǎn)。

Generation of Annotation

給定密集的背景和目標(biāo)點(diǎn),我們首先對(duì)3D空間進(jìn)行體素化,并根據(jù)體素中標(biāo)記點(diǎn)的多數(shù)投票對(duì)體素進(jìn)行標(biāo)記。不同于現(xiàn)有的基準(zhǔn),只有occupancy標(biāo)注。

我們根據(jù)3D box速度標(biāo)注體素的流速,以方便后續(xù)的運(yùn)動(dòng)規(guī)劃等任務(wù)。僅使用關(guān)鍵幀會(huì)導(dǎo)致生成的占用數(shù)據(jù)稀疏,因此我們?cè)谥車(chē)鷺?biāo)記體素的基礎(chǔ)上,用中間幀的未標(biāo)記LiDAR點(diǎn)對(duì)體素進(jìn)行標(biāo)注,進(jìn)一步提高數(shù)據(jù)密度。此外,由于nuScenes存在z軸平移缺失的問(wèn)題,我們通過(guò)場(chǎng)景補(bǔ)全來(lái)細(xì)化占用數(shù)據(jù),例如填充道路上的洞以獲得更高的質(zhì)量。此外,我們通過(guò)追蹤光線將部分體素設(shè)置為不可見(jiàn)的,這更適用于有相機(jī)輸入的任務(wù)。

Experiments

Main Results

Semantic Scene Completion

3D Occupancy Prediction in terms of Semantic Scene Completion

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

Qualitative results of occupancy prediction

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

我們的方法在場(chǎng)景細(xì)節(jié)和前景對(duì)象(如虛線區(qū)域的行人)的語(yǔ)義分類(lèi)精度方面優(yōu)于TPVFormer。

Occupancy for LiDAR Segmentation

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

Occupancy for 3D Detection

Joint training of 3D occupancy and 3D detection

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)


在nuScenes驗(yàn)證集上報(bào)告的結(jié)果表明,聯(lián)合3D檢測(cè)訓(xùn)練和3D占用有助于后面的任務(wù)

Pretrained Occupancy for 3D Detection and BEV segmentation

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

不同模型和不同訓(xùn)練數(shù)據(jù)集規(guī)模下檢測(cè)器性能的比較。

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

Different pretraining tasks for BEV segmentation,占用任務(wù)可以幫助BEV分段任務(wù)實(shí)現(xiàn)更高的IoU。

Occupancy for Planning

Planning results with different scene representations.

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

占位表示有助于規(guī)劃任務(wù)在所有時(shí)間間隔內(nèi)實(shí)現(xiàn)更低的碰撞率和更準(zhǔn)確的L2距離。

Visualization of planning,藍(lán)線為規(guī)劃軌跡,下圖分別為邊界框和占用的柵格化結(jié)果。

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

Discussion

Model Efficiency

我們比較了不同模型在語(yǔ)義場(chǎng)景完成任務(wù)中的性能。與BEVNet和VoxelNet相比,OccNet在mIOU和IoUgeo方面的性能最好,效率高,效果好。

Irregular Object

如圖7所示,用3D方框表示不規(guī)則物體(如施工車(chē)輛)或背景物體(如交通標(biāo)志)是困難和不準(zhǔn)確的。我們將3D box轉(zhuǎn)換為體素,對(duì)比表9中不規(guī)則物體的3D檢測(cè)和占用任務(wù),驗(yàn)證占用可以更好地描述不規(guī)則物體。為了研究體素大小的影響,我們還生成了?s = 0.25m的數(shù)據(jù)集。隨著?s從0.5m減小到0.25m, 3D box與occupancy之間的性能差距增大,因?yàn)樵郊?xì)的粒度越能更好地描繪不規(guī)則物體。

51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀,AutoGPT 自動(dòng)駕駛大模型,transformer,智慧城市,自動(dòng)駕駛,人工智能,計(jì)算機(jī)視覺(jué)

Dense v.s. Sparse Occupancy

與稀疏占用相比,密集占用有助于更詳細(xì)地描繪背景和前景物體的完整幾何形狀。

直觀上看,密集占用更有利于3D感知和運(yùn)動(dòng)規(guī)劃,因?yàn)樾畔⑤斎敫S富。我們驗(yàn)證了在密集占用上預(yù)訓(xùn)練的模型更有利于下游的3D Detection任務(wù)。

Conclusion

We dive into the potential of the 3D occupancy as scene representation and propose a general framework OccNet to evaluate the idea. The experiments on various downstream tasks validate the effectiveness of our method. The OpenOcc benchmark with dense and high-quality labels is also provided for community.

Limitations and future work.

Currently, the annotation is still based on the well-established dataset. Utilizing selfsupervised learning to further reduce the human-annotation cost is a valuable direction. We hope occupancy framework can be the foundation model of autonomous driving.

本文工作內(nèi)容和技巧多而復(fù)雜,要多研讀代碼,收獲會(huì)更大。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-836736.html

到了這里,關(guān)于51 -25 Scene as Occupancy,場(chǎng)景作為占用 論文精讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 神經(jīng)網(wǎng)絡(luò)輻射場(chǎng)NeRF、實(shí)時(shí)NeRF Baking、有向距離場(chǎng)SDF、占用網(wǎng)絡(luò)Occupancy、NeRF 自動(dòng)駕駛

    神經(jīng)網(wǎng)絡(luò)輻射場(chǎng)NeRF、實(shí)時(shí)NeRF Baking、有向距離場(chǎng)SDF、占用網(wǎng)絡(luò)Occupancy、NeRF 自動(dòng)駕駛

    NeRF (Neural Radiance Fields,神經(jīng)輻射場(chǎng)) 是2020年ECCV會(huì)議上的Best Paper,其將隱式表達(dá)推上了一個(gè)新的高度,僅用 2D不同的posed images 作為監(jiān)督,即可渲染出 復(fù)雜的三維場(chǎng)景 。一石激起千層浪,自此之后NeRF迅速發(fā)展起來(lái)被應(yīng)用到多個(gè)技術(shù)方向上例如新視點(diǎn)合成、三維重建等等,并取

    2023年04月23日
    瀏覽(20)
  • AssetBundle動(dòng)態(tài)加載Scene場(chǎng)景

    AssetBundle動(dòng)態(tài)加載Scene場(chǎng)景

    加載場(chǎng)景有兩種方法,一種是常規(guī)的 build settings 添加scene,一種是通過(guò) AssetBundle 加載Scene。 ?上面是標(biāo)準(zhǔn)的異步加載場(chǎng)景,如果不在build settings中添加場(chǎng)景,直接加載scene,就會(huì)報(bào)下面的錯(cuò)。 因此對(duì)于需要熱更新的項(xiàng)目,如果場(chǎng)景.unity資源變更了,無(wú)法在build settings中重新設(shè)置

    2024年02月11日
    瀏覽(18)
  • Android 場(chǎng)景Scene的使用

    Android 場(chǎng)景Scene的使用

    Scene 翻譯過(guò)來(lái)是場(chǎng)景,開(kāi)發(fā)者提供起始布局和結(jié)束布局,就可以實(shí)現(xiàn)布局之間的過(guò)渡動(dòng)畫(huà)。 具體可參考 使用過(guò)渡為布局變化添加動(dòng)畫(huà)效果 大白話,在 Activity 的各個(gè)頁(yè)面之間切換,會(huì)帶有過(guò)渡動(dòng)畫(huà)。 打個(gè)比方,使用起來(lái)類(lèi)似 Fragment ,單 Activity 多 Fragment 的情景下,為 Fragme

    2024年02月12日
    瀏覽(17)
  • W25Q128芯片手冊(cè)精讀

    W25Q128芯片手冊(cè)精讀

    之前寫(xiě)SPI通信的時(shí)候用到了W25Q128,其中對(duì)芯片手冊(cè)的閱讀我只寫(xiě)了我們所需要的的部分。 這篇博客就對(duì)這個(gè)芯片進(jìn)行詳細(xì)的閱讀并記錄,文章可能會(huì)比較長(zhǎng),但絕對(duì)是結(jié)合了自己的理解進(jìn)行闡述。 芯片手冊(cè)剛開(kāi)始看的時(shí)候最大的攔路虎其實(shí)就是英文,看習(xí)慣了中文,直接看

    2024年02月07日
    瀏覽(21)
  • unity scene場(chǎng)景調(diào)整好后讓game窗口的視角與scene相同

    unity scene場(chǎng)景調(diào)整好后讓game窗口的視角與scene相同

    調(diào)整scene中場(chǎng)景視角 選中相機(jī) 然后 如果要實(shí)現(xiàn)相反的功能? 即scene的視角與game的一樣則 選中相機(jī)

    2024年02月04日
    瀏覽(56)
  • Unity腳本之場(chǎng)景(Scene)跳轉(zhuǎn)/轉(zhuǎn)換

    Unity腳本之場(chǎng)景(Scene)跳轉(zhuǎn)/轉(zhuǎn)換

    Unity的場(chǎng)景跳轉(zhuǎn)需要用到其自帶的場(chǎng)景管理類(lèi)SceneManage。 想要實(shí)現(xiàn)場(chǎng)景跳轉(zhuǎn)首先需要在File--Build Settings里將你需要用到的場(chǎng)景添加進(jìn)去。 打開(kāi)Build?Settings 1.當(dāng)前已添加的場(chǎng)景與其序號(hào),左邊是場(chǎng)景名,右邊是序號(hào)。打勾即為會(huì)使用該場(chǎng)景。 2.將當(dāng)前正在打開(kāi)的場(chǎng)景(Scene)加入到

    2024年04月13日
    瀏覽(22)
  • 計(jì)算機(jī)視覺(jué):場(chǎng)景識(shí)別(Scene Recognition)

    計(jì)算機(jī)視覺(jué):場(chǎng)景識(shí)別(Scene Recognition)

    完整程序請(qǐng)移步至此鏈接下載 在這個(gè)項(xiàng)目中,我將對(duì)15個(gè)場(chǎng)景數(shù)據(jù)庫(kù)(Bedroom、Coast、Forest、Highway、Industrial、InsideCity、Kitchen、LivingRoom、Mountain、Office、OpenCountry、Store、Street、Suburb、TallBuilding)進(jìn)行訓(xùn)練和測(cè)試,借助HOG特征提取構(gòu)建詞袋模型,并利用集成學(xué)習(xí)分類(lèi)器將場(chǎng)景分

    2024年02月07日
    瀏覽(31)
  • [論文筆記](méi) SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving

    [論文筆記](méi) SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving

    Wei, Yi, et al. “Surroundocc: Multi-camera 3d occupancy prediction for autonomous driving.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. 將占用網(wǎng)格應(yīng)用到多個(gè)相機(jī)構(gòu)成的3D空間中; 使用BEVFormer中的方法獲取3D特征, 然后使用交叉熵?fù)p失計(jì)算loss; 和BEVFormer區(qū)別是BEV中z軸高度為1, 這里

    2024年02月04日
    瀏覽(26)
  • 【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

    【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

    原文鏈接:https://arxiv.org/abs/2303.10076 本文提出基于環(huán)視圖像進(jìn)行3D占用估計(jì)的簡(jiǎn)單框架,探索了網(wǎng)絡(luò)設(shè)計(jì)、優(yōu)化和評(píng)估。網(wǎng)絡(luò)設(shè)計(jì)方面,雖然輸出形式與單目深度估計(jì)和立體匹配不同,但網(wǎng)絡(luò)結(jié)構(gòu)與立體匹配網(wǎng)絡(luò)相似(如下圖所示),可以使用立體匹配的經(jīng)驗(yàn)設(shè)計(jì)網(wǎng)絡(luò)。優(yōu)化

    2024年02月02日
    瀏覽(21)
  • DiFi: A Go-as-You-Pay Wi-Fi Access System 精讀筆記(一)

    As video streaming services become more popular, users desire high perceived video quality, which has placed more stringent requirements on the quality of connection. Existing issues of cellular networks encourage users to seek alternative connections such as publicWi-Fi networks; however, expectations of both users and owners of Wi-Fi networks are not suffi

    2024年02月06日
    瀏覽(14)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包