国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

[論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet

這篇具有很好參考價值的文章主要介紹了[論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

MVX-Net

MVX-Net: Multimodal VoxelNet for 3D Object Detection
基于3D目標(biāo)檢測的多模態(tài)VoxelNet
論文網(wǎng)址:MVX-Net

簡讀論文

這篇論文主要提出了兩種多模態(tài)融合方法,PointFusion和VoxelFusion,用于將RGB圖像特征與點云特征結(jié)合,從而提高3D目標(biāo)檢測的性能。論文的主要內(nèi)容和貢獻(xiàn)總結(jié)如下:

  1. 提出了兩種簡單有效的多模態(tài)融合方法,PointFusion和VoxelFusion,用于將2D圖像特征與3D點云特征結(jié)合,以提高3D目標(biāo)檢測的性能。
  2. PointFusion通過將3D點投影到圖像平面上,提取對應(yīng)的2D圖像特征,并將其拼接到每個3D點的特征中。這種早期融合方式可以讓網(wǎng)絡(luò)從兩種模態(tài)中同時學(xué)習(xí)有用的信息。
  3. VoxelFusion則是在Voxel特征編碼層進(jìn)行融合,即將圖像特征匯聚到對應(yīng)的voxel中,與voxel的點云特征拼接。這種較晚的融合方式可以擴(kuò)展到?jīng)]有點的voxel。
  4. 兩個融合方法都是基于VoxelNet的單階段檢測網(wǎng)絡(luò),可以端到端訓(xùn)練,簡單高效。
  5. 在KITTI數(shù)據(jù)集上做了評估實驗,與只使用單一模態(tài)的方法相比取得了明顯提升,也優(yōu)于其他一些復(fù)雜的多模態(tài)融合方法,表明了提出方法的有效性。
  6. 在KITTI測試集的排行榜上,該方法在6個BEV和3D檢測類別中達(dá)到了較好的水平。
  7. 總體來說,這篇論文對如何有效融合多模態(tài)信息進(jìn)行了很好的探索,為多傳感器融合的3D檢測任務(wù)提供了簡單高效的解決方案。

PointFusion

PointFusion的具體過程如下:

  1. 使用預(yù)訓(xùn)練的2D檢測網(wǎng)絡(luò)(Faster R-CNN)從RGB圖像中提取語義特征圖,編碼圖像中的語義信息。
  2. 使用標(biāo)定矩陣,將每個3D點投影到圖像平面上,找到對應(yīng)的像素坐標(biāo)。
  3. 根據(jù)投影后的像素坐標(biāo),從步驟1提取的2D特征圖中查詢該像素對應(yīng)的特征向量。
  4. 將查找到的2D特征向量連接到對應(yīng)的3D點的特征向量上,形成增強的點特征。
  5. 將這些增強的點特征輸入到VoxelNet的VFE(Voxel特征編碼)層中,之后通過中間卷積層、Region Proposal Network生成3D檢測框。
  6. 在VFE層中,網(wǎng)絡(luò)可以同時學(xué)習(xí)3D點云本身的幾何特征和2D圖像提供的語義特征,實現(xiàn)多模態(tài)特征的有效融合。
  7. 2D特征提取時使用了ImageNet預(yù)訓(xùn)練、在2D檢測數(shù)據(jù)集上微調(diào)的Faster R-CNN模型,可以提取具有語義信息的高層特征。
  8. 通過將2D特征映射到3D點上,充分利用了點云的幾何結(jié)構(gòu)信息,同時賦予每一個3D點豐富的語義信息。
  9. 這種簡單的早期融合方式,允許網(wǎng)絡(luò)從早期就學(xué)習(xí)多模態(tài)特征的互補信息,增強網(wǎng)絡(luò)的表達(dá)能力,從而提升3D檢測的性能。

以上是PointFusion的具體過程,可以看出其設(shè)計簡單高效,既利用了2D圖像的語義信息,也保留了3D點云本身的幾何結(jié)構(gòu),是一種非常有效的多模態(tài)特征融合方式。
在PointFusion中,由于LiDAR的點云分辨率限制,確實會有多個3D點投影到圖像平面上的同一個像素位置。這時這些3D點都會共享這個像素對應(yīng)的2D圖像特征。具體來說,對于投影到同一像素的多個3D點,它們會取得完全相同的2D特征向量進(jìn)行拼接。這主要有以下幾點原因:
1.3D點云的分辨率相對2D圖像較低,一個像素大小可能對應(yīng)物理世界中的較大區(qū)域,多個3D點可能落在這個區(qū)域內(nèi)。
2.即使多個3D點在物理空間有細(xì)微區(qū)別,也可能在圖像上投影到非常接近或相同的像素位置。
3.2D特征圖的分辨率也是有限的,每個像素 encodes 了周圍一定區(qū)域的信息。
4.共享2D特征可以減少計算量,不需要為每個3D點單獨查詢一次。

VoxelFusion

VoxelFusion 的具體過程如下:

  1. 使用預(yù)訓(xùn)練的 2D 檢測網(wǎng)絡(luò)(Faster R-CNN)對整張圖像提取特征,得到全局的特征圖。
  2. 將3D點云分割到voxel網(wǎng)格中,并為每個包含點的voxel生成VFE特征。
  3. 將這些有點的voxel投影到圖像平面,確定2D的ROI。
  4. 在特征圖中針對每個 ROI 進(jìn)行池化,得到定長的特征向量。
  5. 將2D特征向量連接到對應(yīng)的voxel的VFE特征后面,形成增強的voxel特征。
  6. 將這些增強后的voxel特征輸入到后續(xù)的中間卷積層和Region Proposal Network中,生成3D檢測框。
  7. 在voxel級別進(jìn)行特征融合,允許網(wǎng)絡(luò)同時學(xué)習(xí)3D幾何信息和2D語義信息。
  8. 可以方便地擴(kuò)展到無點的voxel,減少對高密度點云的依賴。
  9. 利用ROI pooling來生成voxel的2D特征,編碼了像素級別的局部信息。
  10. 相比PointFusion稍晚進(jìn)行融合,但計算量更小,也便于擴(kuò)展到無點voxel。

綜上,VoxelFusion在voxel層面進(jìn)行兩種模態(tài)的特征融合,既保留了3D的結(jié)構(gòu)化表示,也賦予每一個voxel豐富的2D語義信息。這種多模態(tài)融合方式高效簡潔,也獲得了很好的檢測性能提升。
在VoxelFusion中,也存在多個Voxel投影到圖像平面上的同一個區(qū)域的情況,這時它們會共享這個區(qū)域的2D特征。具體來說:
1.由于Voxel的分辨率相對圖像也是有限的,常見會有多個Voxel投影到同一圖像區(qū)域。
2.在進(jìn)行ROI池化時,這些Voxel會對應(yīng)到同一個ROI區(qū)域。
3.然后這個ROI區(qū)域的特征會被不同的Voxel共享使用。
4.這樣可以避免重復(fù)計算,提高效率。
5.但共享特征也會降低不同Voxel之間的區(qū)分能力。

摘要

最近許多關(guān)于 3D 對象檢測的工作都集中在設(shè)計可以使用點云數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。雖然這些方法表現(xiàn)出令人鼓舞的性能,但它們通?;趩文B(tài),并且無法利用來自其他模態(tài)(例如相機(jī))的信息。盡管一些方法融合了來自不同模態(tài)的數(shù)據(jù),但這些方法要么使用復(fù)雜的pipeline來順序處理模態(tài),要么執(zhí)行后期融合并且無法在早期階段學(xué)習(xí)不同模態(tài)之間的交互。在這項工作中,提出了 PointFusion 和 VoxelFusion:兩種簡單但有效的早期融合方法,通過利用最近引入的 VoxelNet 架構(gòu)來結(jié)合 RGB 和點云模式。對 KITTI 數(shù)據(jù)集的評估表明,與僅使用點云數(shù)據(jù)的方法相比,性能有了顯著提高。此外,所提出的方法提供了與最先進(jìn)的多模態(tài)算法相媲美的結(jié)果,通過使用簡單的單級網(wǎng)絡(luò),在 KITTI 基準(zhǔn)上的六個鳥瞰圖和 3D 檢測類別中的五個類別中實現(xiàn)了前兩名。

引言

隨著 3D 傳感器的出現(xiàn)和 3D 感知的多樣化應(yīng)用,3D 識別 、目標(biāo)檢測 和分割 的研究越來越集中。增強現(xiàn)實、機(jī)器人技術(shù) 和導(dǎo)航 等各種應(yīng)用在很大程度上依賴于對3D環(huán)境的理解。在這些任務(wù)中,3D 目標(biāo)檢測是一個基本問題,是許多 3D 感知流程中的關(guān)鍵步驟。這項工作專注于通過融合多種模態(tài)來提高 3D 檢測性能。
2D 目標(biāo)檢測是計算機(jī)視覺社區(qū)中廣泛研究的主題?;诰矸e神經(jīng)網(wǎng)絡(luò)(CNN)的技術(shù)[Fast r-cnn]、[Ssd]、[Yolo]在基于圖像的檢測數(shù)據(jù)集[coco]、[voc]、[imagenet]上表現(xiàn)出了優(yōu)異的性能。然而,這些方法不能直接應(yīng)用于 3D 檢測,因為輸入模態(tài)根本不同。 LiDAR 能夠在 3D 空間中準(zhǔn)確定位物體,并且基于 LiDAR 數(shù)據(jù)的檢測技術(shù)通常優(yōu)于 2D 技術(shù)。其中一些方法將 3D 點云轉(zhuǎn)換為手工制作的特征表示,例如深度或鳥瞰 (BEV) 圖 [MV3D-2017]、[pixor-2018],然后應(yīng)用基于 2D-CNN 的方法進(jìn)行車輛檢測和分類。然而,這些技術(shù)受到量化的影響,導(dǎo)致點較少或幾何形狀可變的對象的性能下降。另一組技術(shù)在體素網(wǎng)格中表示 3D 點云數(shù)據(jù) [VoxNet],并采用 3D CNN 生成檢測結(jié)果。這些方法通常受到內(nèi)存要求的限制,尤其是在處理完整場景時。
最近關(guān)于 3D 分類的研究重點是使用端到端可訓(xùn)練神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以使用點云數(shù)據(jù),而無需將其轉(zhuǎn)換為中間表示形式,例如深度或 BEV 格式。[Pointnet]設(shè)計了一種直接以點云作為輸入并輸出類標(biāo)簽的神經(jīng)網(wǎng)絡(luò)架構(gòu)。通過這種設(shè)計,人們可以從原始數(shù)據(jù)中學(xué)習(xí)表示。然而,由于架構(gòu)設(shè)計的限制以及較高的計算和內(nèi)存成本,這項工作無法應(yīng)用于檢測和定位問題。最近,VoxelNet 克服了這個問題,該網(wǎng)絡(luò)涉及點云的體素化并使用體素特征編碼(VFE)層堆棧對體素進(jìn)行編碼。通過這些步驟,VoxelNet 啟用了 3D 區(qū)域提議網(wǎng)絡(luò)進(jìn)行檢測。盡管該方法表現(xiàn)出令人鼓舞的性能,但它依賴于單一模態(tài),即點云數(shù)據(jù)。與點云相比,RGB 圖像提供更密集的紋理信息,因此需要利用這兩種模式來提高檢測性能。
本文提出了多模態(tài)體素網(wǎng)絡(luò)(MVXNet),用語義圖像特征來增強 LiDAR 點,并在早期階段學(xué)習(xí)融合圖像和 LiDAR 特征,以實現(xiàn)準(zhǔn)確的 3D 物體檢測。該方法擴(kuò)展了最近提出的 VoxelNet 算法。具體來說,開發(fā)了兩種融合技術(shù):(i)PointFusion:這是一種早期融合方法,其中來自 LiDAR 傳感器的點被投影到圖像平面上,然后從預(yù)先訓(xùn)練的 2D 檢測器中提取圖像特征。然后,圖像特征和對應(yīng)點的串聯(lián)由 VoxelNet 架構(gòu)聯(lián)合處理。 (ii) VoxelFusion:在該技術(shù)中,將 VoxelNet 創(chuàng)建的非空 3D 體素投影到圖像,然后使用預(yù)訓(xùn)練的 CNN 提取每個投影體素的圖像特征。然后,這些特征被匯集起來并附加到每個體素的 VFE 特征編碼中,并進(jìn)一步由 3D 區(qū)域提議網(wǎng)絡(luò) (RPN) 使用來生成 3D 邊界框。與 PointFusion 相比,VoxelFusion 是一種相對較晚的融合技術(shù),但也可以擴(kuò)展到處理空體素,從而減少對高分辨率 LiDAR 點云數(shù)據(jù)可用性的依賴。與僅使用 LiDAR 的 VoxelNet 相比,所提出的 MVX-Net 有效地融合了多模態(tài)信息,從而減少了誤報。

相關(guān)工作

如前所述,3D 理解是一個廣泛研究的主題。早期的方法采用手工制作的特征表示,并在存在豐富且詳細(xì)的 3D 信息的情況下取得令人滿意的結(jié)果。一些技術(shù)使用體素網(wǎng)格來表示 3D 點云數(shù)據(jù),然后使用 3D 卷積來計算 3D 邊界框。由于計算和內(nèi)存成本較高,開發(fā)了幾種基于 BEV 表示的方法([Pixor-2018])。基于 BEV 的方法假設(shè)點云數(shù)據(jù)在一維上是稀疏的,但在許多場景中通常情況并非如此。與這些方法不同,基于圖像的方法被開發(fā)來從 2D 圖像推斷 3D 邊界框。然而,它們在深度定位方面通常精度較低。最近,VoxelNet 提出了一種端到端學(xué)習(xí)架構(gòu),以原始格式使用點云數(shù)據(jù)。
與基于單一模態(tài)的方法相比,通過結(jié)合 LiDAR 和 RGB 數(shù)據(jù)進(jìn)行多模態(tài)融合的探索較少。最近,提出了一種多視圖 3D 對象檢測網(wǎng)絡(luò)(MV3D),它以多模態(tài)數(shù)據(jù)作為輸入,并通過結(jié)合基于區(qū)域的特征融合來生成 3D 邊界框。盡管該方法通過使用多模態(tài)數(shù)據(jù)展示了令人鼓舞的結(jié)果,但它具有以下缺點:(i)該方法將點云轉(zhuǎn)換為 BEV 表示,這會丟失詳細(xì)的 3D 形狀信息,以及(ii)融合是在更晚的階段進(jìn)行的,因為與所提出的融合技術(shù)(即在 3D 提案生成階段之后)相比,這限制了神經(jīng)網(wǎng)絡(luò)在早期階段捕獲兩種模式之間交互的能力,因此集成不一定是無縫的。與[MV3D]類似,[Joint 3D proposal generation and object detection from view aggregation-2017]提出了通過結(jié)合基于區(qū)域的特征的多模態(tài)融合。他們通過設(shè)計采用高分辨率特征圖的更先進(jìn)的 RPN,取得了比 [MV3D] 更好的性能,特別是在小對象類別中。該方法還使用手工制作的 BEV 表示并執(zhí)行后期融合。
Qi 等人采用了不同的方法。提出了使用 LiDAR 和 RGB 數(shù)據(jù)進(jìn)行 3D 檢測的 Frustum PointNets [2018]。首先,他們在 RGB 數(shù)據(jù)上使用 2D 對象檢測器來生成 2D 提案,然后將其轉(zhuǎn)換為 3D 空間中的提案,然后使用 PointNet 架構(gòu)進(jìn)行逐點實例分割 。該方法是一種圖像優(yōu)先的方法,因此缺乏同時利用兩種模式的能力。最近,[Deep continuous fusion for multi-sensor 3D object detection-2018]提出通過將 LiDAR 點投影到圖像空間來聚合離散 BEV 空間與圖像特征。該方法基于K最近鄰搜索用RGB特征對每個BEV像素位置進(jìn)行插值,隨著LiDAR點云的密度和覆蓋范圍的增加,這可能無法滿足實時要求。與使用復(fù)雜pipeline處理不同模態(tài)或執(zhí)行后期融合的現(xiàn)有方法相比,本文簡單而有效的融合策略可以在早期階段學(xué)習(xí)模態(tài)之間的相互作用。

MVX-Net

所提出的融合技術(shù)如圖 2 和圖 3 所示,基于 VoxelNet 架構(gòu)。為了融合 RGB 和點云數(shù)據(jù)的信息,首先從 2D 檢測網(wǎng)絡(luò)的最后一個卷積層提取特征。該網(wǎng)絡(luò)首先在 ImageNet 上進(jìn)行預(yù)訓(xùn)練,然后針對 2D 對象檢測任務(wù)進(jìn)行微調(diào)。這些高級圖像特征對語義信息進(jìn)行編碼,可用作先驗知識來幫助推斷對象的存在。基于前面描述的融合類型(PointFusion 或 VoxelFusion),點或體素被投影到圖像上,并且相應(yīng)的特征分別與點特征或體素特征連接。 2D 檢測網(wǎng)絡(luò)、VoxelNet 和所提出的融合技術(shù)的詳細(xì)信息將在以下小節(jié)中描述。
[論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet,多模態(tài)三維目標(biāo)檢測,論文閱讀,3d,目標(biāo)檢測,人工智能,深度學(xué)習(xí)
[論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet,多模態(tài)三維目標(biāo)檢測,論文閱讀,3d,目標(biāo)檢測,人工智能,深度學(xué)習(xí)

2D Detection Network

與LiDAR點云相比,RGB圖像捕獲更豐富的顏色和紋理信息。在這項工作中,為了提高 3D 檢測精度,從 RGB 圖像中提取高級語義特征并將其合并到 VoxelNet 算法中。
卷積神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)圖像中存在的語義信息方面非常有效。在這里,建議使用現(xiàn)有的 2D 檢測框架,該框架在各種任務(wù)上表現(xiàn)出了出色的性能。具體來說,采用 Faster-RCNN 框架,它由區(qū)域提議網(wǎng)絡(luò)(RPN)和區(qū)域分類網(wǎng)絡(luò)(RCN)組成。使用在 ImageNet上預(yù)訓(xùn)練的 VGG16 作為基礎(chǔ)網(wǎng)絡(luò),并使用來自 2D 檢測數(shù)據(jù)集的圖像和相應(yīng)的邊界框注釋對 Faster-RCNN 網(wǎng)絡(luò)進(jìn)行微調(diào)。
一旦檢測網(wǎng)絡(luò)經(jīng)過訓(xùn)練,就會在點或體素級別提取并融合高級特征(來自 VGG16 網(wǎng)絡(luò)的 conv5 層)。

VoxelNet

本文選擇 VoxelNet 架構(gòu)作為基礎(chǔ) 3D 檢測網(wǎng)絡(luò)有兩個主要原因:(i) 它消耗原始點云并消除了對手工制作特征的需求,(ii) 它提供了一個自然有效的接口來組合不同位置的圖像特征和3D 空間中的粒度,例如點和體素。使用[VoxelNet]中描述的網(wǎng)絡(luò)。為了完整起見,在本節(jié)中簡要回顧一下 VoxelNet。該算法由三個構(gòu)建塊組成:(i) 體素特征編碼 (VFE) 層 (ii) 卷積中間層,以及 (iii) 3D 區(qū)域提議網(wǎng)絡(luò)。
VFE 是一種特征學(xué)習(xí)網(wǎng)絡(luò),旨在在單個體素級別對原始點云進(jìn)行編碼。給定點云,3D 空間被劃分為等間距的體素,然后將點分組為體素。然后使用體素特征編碼層的層次結(jié)構(gòu)對每個體素進(jìn)行編碼。首先,體素中的每個點 pi = [xi, yi, zi, ri](包含 XYZ 坐標(biāo)和反射率值)由其坐標(biāo)及其相對于體素中點的質(zhì)心的相對偏移量表示。體素。即每個點現(xiàn)在表示為: p? i = [xi, yi, zi, ri, xi ? vx, yi ? vy, zi ? vz]T ∈ R7,其中 xi, yi, zi, ri 是 XYZ 坐標(biāo),點pi的反射率值,vx、vy、vz為pi所屬體素中點的質(zhì)心的XYZ坐標(biāo)。接下來,每個 p^ i 通過由全連接網(wǎng)絡(luò)(FCN)組成的 VFE 層轉(zhuǎn)換到特征空間,其中來自點特征的信息可以聚合以對體素內(nèi)包含的表面形狀進(jìn)行編碼。 FCN 由線性層、批量歸一化 (BN) 層和修正線性單元 (ReLU) 層組成。屬于特定體素的變換后的特征使用逐元素最大池進(jìn)行聚合。然后將最大池特征向量與點特征連接以形成最終的特征嵌入。所有非空體素都以相同的方式編碼,并且它們在 FCN 中共享相同的參數(shù)集。此類 VFE 層的堆棧用于將輸入點云數(shù)據(jù)轉(zhuǎn)換為高維特征。
堆疊 VFE 層的輸出通過一組卷積中間層轉(zhuǎn)發(fā),這些中間層應(yīng)用 3D 卷積在逐漸擴(kuò)展的感受野內(nèi)聚合體素特征。這些層包含額外的上下文,從而能夠使用上下文信息來提高檢測性能。
在卷積中間層之后,區(qū)域提議網(wǎng)絡(luò)執(zhí)行 3D 對象檢測。該網(wǎng)絡(luò)由三塊全卷積層組成。每個塊的第一層通過步長大小為 2 的卷積將特征圖下采樣一半,然后是步長為 1 的卷積序列。在每個卷積層之后,應(yīng)用 BN 和 ReLU 操作。然后將每個塊的輸出上采樣到固定大小并連接以構(gòu)建高分辨率特征圖。最后,該特征圖被映射到目標(biāo):(1)概率得分圖和(2)回歸圖。

Multimodal Fusion

多模態(tài)融合
如前所述,VoxelNet 基于單一模態(tài),使其適應(yīng)多模態(tài)輸入可以進(jìn)一步提高性能。在本文中,提出了兩種簡單的技術(shù),通過擴(kuò)展 VoxelNet 框架來將 RGB 數(shù)據(jù)與點云數(shù)據(jù)融合。
PointFusion:這是一種早期的融合技術(shù),其中每個 3D 點都由圖像特征聚合以捕獲密集的上下文。
[論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet,多模態(tài)三維目標(biāo)檢測,論文閱讀,3d,目標(biāo)檢測,人工智能,深度學(xué)習(xí)
該方法首先使用預(yù)訓(xùn)練的 2D 檢測網(wǎng)絡(luò)從圖像中提取高級特征圖,該特征圖對基于圖像的語義進(jìn)行編碼。然后使用校準(zhǔn)矩陣,將每個 3D 點投影到圖像上,并在該點上添加與投影位置索引相對應(yīng)的特征。此過程將有關(guān)對象存在的信息以及對象的姿態(tài)(如果存在)從 2D 圖像關(guān)聯(lián)到每個 3D 點。請注意,特征是從 VGG16 網(wǎng)絡(luò)的 conv5 層提取的,并且是 512 維的。首先通過一組全連接層將維度降低到 16,然后將它們連接到點特征。連接的特征由 VoxelNet 中的一組 VFE 層處理,然后用于檢測階段。圖 2 概述了這種方法。
這種方法的優(yōu)點是,由于圖像特征在很早的階段就被連接起來,網(wǎng)絡(luò)可以通過 VFE 層學(xué)習(xí)總結(jié)來自兩種模態(tài)的有用信息。此外,該方法利用 LiDAR 點云并將相應(yīng)的圖像特征提升到 3D 點的坐標(biāo)。
VoxelFusion:與早期階段結(jié)合特征的 PointFusion 相比,VoxelFusion 采用相對較晚的融合策略,其中 RGB 圖像的特征附加在體素級別。如[Voxel]中所述,VoxelNet 的第一階段涉及將 3D 空間劃分為一組等間隔的體素。根據(jù)點所在的位置將點分組為這些體素,然后使用 VFE 層對每個體素進(jìn)行編碼。在所提出的 VoxelFusion 方法中,每個非空體素都被投影到圖像平面上以產(chǎn)生 2D 感興趣區(qū)域 (ROI)。使用預(yù)先訓(xùn)練的檢測器網(wǎng)絡(luò)(VGG16 的 conv5 層)中的特征圖,將 ROI 內(nèi)的特征進(jìn)行池化以生成 512 維特征向量,其維度首先減少到 64,然后附加到由每個體素處堆疊的 VFE 層。此過程對每個體素的 2D 圖像中的先驗信息進(jìn)行編碼。圖 3 概述了這種方法。
[論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet,多模態(tài)三維目標(biāo)檢測,論文閱讀,3d,目標(biāo)檢測,人工智能,深度學(xué)習(xí)
雖然VoxelFusion是一種相對較晚的融合策略,并且與PointFusion相比性能稍差,但它具有以下優(yōu)點。首先,它可以輕松擴(kuò)展,將圖像信息聚合到由于激光雷達(dá)分辨率低或物體較遠(yuǎn)等原因而未對激光雷達(dá)點進(jìn)行采樣的空體素,從而減少對高分辨率激光雷達(dá)點可用性的依賴。其次,與 PointFusion 相比,VoxelFusion 在內(nèi)存消耗方面更高效。

Training Details

2D Detector:本文 使用標(biāo)準(zhǔn)的 Faster-RCNN 檢測框架 ,它是一個由區(qū)域提議網(wǎng)絡(luò)和區(qū)域分類網(wǎng)絡(luò)組成的兩階段檢測管道?;A(chǔ)網(wǎng)絡(luò)是 VGG16 架構(gòu),使用 ROIAlign 操作來池化最后一個卷積層的特征,然后將它們轉(zhuǎn)發(fā)到第二階段(RCNN)。在 conv5 層上使用四組尺寸為 {4,8,16,32} 和三個長寬比為 {0.5,1,2} 的錨點。如果與真實框的交集(IoU)大于 0.7,則錨點被標(biāo)記為正,如果 IoU 小于 0.3,則錨點被標(biāo)記為負(fù)。在訓(xùn)練期間,圖像的最短邊被重新縮放為 600 像素。訓(xùn)練數(shù)據(jù)集通過翻轉(zhuǎn)和添加隨機(jī)噪聲等標(biāo)準(zhǔn)技術(shù)進(jìn)行了增強。對于 RCNN 階段,使用 128 的批量大小,并為前景 ROI 保留 25% 的樣本。該網(wǎng)絡(luò)使用隨機(jī)梯度下降進(jìn)行訓(xùn)練,學(xué)習(xí)率為 0.0005,動量為 0.9。
Multimodal VoxelNet:除了一些提高效率的簡化之外,保留了VoxelNet 的大部分設(shè)置。 3D 空間被劃分為大小為 vD = 0.4、vH = 0.2、vW = 0.2 的體素。使用兩組 VFE 層和三個卷積中間層。這些層的輸入和輸出維度根據(jù)融合類型而不同。
對于 PointFusion,VFE 堆棧的配置為 VFE-1(7+16,32) 和 VFE-2(32,128)。第一個 VFE 層的輸入是 7 維點特征和 16 維 CNN 特征的串聯(lián)。請注意,從預(yù)訓(xùn)練 2D 檢測網(wǎng)絡(luò)的 conv5 層提取的特征的維度為 512。使用帶有 BN 和 ReLU 的兩個全連接 (FC) 層,它們的維度首先減少到 96,最后減少到 16。
對于 VoxelFusion,VFE 堆棧的配置為 VFE-1(7,32) 和 VFE-2(32,64)。從預(yù)訓(xùn)練的 2D 檢測網(wǎng)絡(luò)的 conv5 層提取的特征維度為 512,使用兩個 FC 層將其降維為 128D 和 64D,每個層后面跟著一個 BN 和一個 ReLU 非線性。然后將這些降維特征連接到 VFE-2 的輸出,為每個體素形成 128 維向量。通過將 VFE-2 的輸出維度減少到 64(與原始工作中的 128 相比),確保卷積中間層的架構(gòu)保持不變。
為了減少內(nèi)存占用,僅使用原始工作中一半數(shù)量的 ResNet 塊來修剪 RPN。采用與原始工作中相同的錨匹配策略。對于這兩種融合技術(shù),網(wǎng)絡(luò)都使用隨機(jī)梯度下降進(jìn)行訓(xùn)練,前 150 個時期的學(xué)習(xí)率為 0.01,之后學(xué)習(xí)率衰減 10 倍。此外,由于同時使用圖像和點云,一些原始工作中使用的增強策略不適用于所提出的多模式框架,例如全局點云旋轉(zhuǎn)。盡管使用修剪后的 RPN 進(jìn)行訓(xùn)練并使用較少的數(shù)據(jù)增強,但與原始僅使用 LiDAR 的 VoxelNet 相比,所提出的多模態(tài)框架仍然能夠?qū)崿F(xiàn)更高的檢測精度。

實驗和結(jié)果

dataset

所提出的融合技術(shù)在 KITTI 3D 對象檢測數(shù)據(jù)集上進(jìn)行評估,該數(shù)據(jù)集包含 7,481 個訓(xùn)練樣本和 7,518 個測試樣本。根據(jù)對象大小、可見性(遮擋)和截斷確定三個難度級別:簡單、中等和困難。通過避免來自同一序列的樣本被包含在兩個集合中,進(jìn)一步將訓(xùn)練集分成訓(xùn)練集/驗證集。分割后,訓(xùn)練集由 3712 個樣本組成,驗證集由 3769 個樣本組成。
將提出的 MVX-Net 與之前發(fā)布的汽車檢測任務(wù)方法進(jìn)行比較。為了分析所提出的多模態(tài)方法的有效性,還訓(xùn)練了基線 VoxelNet 模型。與多模態(tài)方法類似,該模型使用修剪的架構(gòu),并且沒有使用全局旋轉(zhuǎn)增強。通過將結(jié)果與該基線進(jìn)行比較,可以直接將增益歸因于所提出的多模態(tài)融合技術(shù)。

結(jié)論

在這項工作中,通過擴(kuò)展最近提出的 VoxelNet,提出了兩種特征融合技術(shù):PointFusion 和 VoxelFusion,將 RGB 與 LiDAR 結(jié)合起來。 PointFusion 涉及使用已知的校準(zhǔn)矩陣將 3D 點投影到圖像上,然后從預(yù)先訓(xùn)練的 2D CNN 中提取特征,并在點級別串聯(lián)圖像特征。 VoxelFusion 涉及將 3D 體素投影到圖像上,然后在 2D ROI 內(nèi)提取特征,并在體素級別連接池化圖像特征。與現(xiàn)有的多模態(tài)技術(shù)相比,所提出的方法是簡單有效的單級檢測器。 KITTI 數(shù)據(jù)集的實驗結(jié)果表明,與使用單一模態(tài)的方法相比,有了顯著的改進(jìn)。此外,本文的方法在 KITTI 測試集上產(chǎn)生的結(jié)果可與最先進(jìn)的多模態(tài)算法相媲美。未來,計劃訓(xùn)練多類檢測網(wǎng)絡(luò),并將當(dāng)前的兩階段訓(xùn)練與端到端訓(xùn)練進(jìn)行比較。文章來源地址http://www.zghlxwxcb.cn/news/detail-728981.html

到了這里,關(guān)于[論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • [論文閱讀]MVF——基于 LiDAR 點云的 3D 目標(biāo)檢測的端到端多視圖融合

    [論文閱讀]MVF——基于 LiDAR 點云的 3D 目標(biāo)檢測的端到端多視圖融合

    End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds 論文網(wǎng)址:MVF 論文代碼: 這篇論文提出了一個端到端的多視角融合(Multi-View Fusion, MVF)算法,用于在激光雷達(dá)點云中進(jìn)行3D目標(biāo)檢測。論文的主要貢獻(xiàn)有兩個: 提出了動態(tài)體素化(Dynamic Voxelization)的概念。相比傳統(tǒng)的硬體素

    2024年01月23日
    瀏覽(18)
  • [論文閱讀]Voxel R-CNN——邁向高性能基于體素的3D目標(biāo)檢測

    [論文閱讀]Voxel R-CNN——邁向高性能基于體素的3D目標(biāo)檢測

    Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection 邁向高性能基于體素的3D目標(biāo)檢測 論文網(wǎng)址:Voxel R-CNN 論文代碼:Voxel R-CNN 該論文提出了 Voxel R-CNN,這是一種基于體素的高性能 3D 對象檢測框架。作者認(rèn)為,原始點的精確定位對于準(zhǔn)確的目標(biāo)檢測并不重要,粗體素粒度可

    2024年02月07日
    瀏覽(83)
  • 論文閱讀筆記 — 第2篇 — 一種基于Epsilon支配的多目標(biāo)優(yōu)化問題檔案導(dǎo)向均衡優(yōu)化器

    論文閱讀筆記 — 第2篇 — 一種基于Epsilon支配的多目標(biāo)優(yōu)化問題檔案導(dǎo)向均衡優(yōu)化器

    同上一篇筆記。 論文閱讀筆記 — 第1篇 — 一種具有全局優(yōu)化策略的增強MSIQDE算法-CSDN博客 這一篇論文同樣也屬于群智能優(yōu)化領(lǐng)域,主要研究其Abstarct和introduction以及論文結(jié)構(gòu),具體算法細(xì)節(jié)不深入探討(群智能優(yōu)化算法總體思路大都差不多)。如有興趣或者需要用到該算法

    2024年01月22日
    瀏覽(22)
  • 【論文閱讀】【3d目標(biāo)檢測】Embracing Single Stride 3D Object Detector with Sparse Transformer

    【論文閱讀】【3d目標(biāo)檢測】Embracing Single Stride 3D Object Detector with Sparse Transformer

    論文標(biāo)題:Embracing Single Stride 3D Object Detector with Sparse Transformer 源碼地址:https://github.com/TuSimple/SST CVPR2022 文章寫得很好! 文章從2d 3d目標(biāo)檢測目標(biāo)的尺寸的不同入手,在2d目標(biāo)檢測中確實由于圖像近大遠(yuǎn)小的尺寸關(guān)系 存在著圖像中物體尺寸長尾的問題: 如coco數(shù)據(jù)集中,大小

    2023年04月15日
    瀏覽(24)
  • FSOD論文閱讀 - 基于卷積和注意力機(jī)制的小樣本目標(biāo)檢測

    FSOD論文閱讀 - 基于卷積和注意力機(jī)制的小樣本目標(biāo)檢測

    標(biāo)題:基于卷積和注意力機(jī)制的小樣本目標(biāo)檢測 作者:郭永紅,牛海濤,史超,郭鋮 郭永紅,牛海濤,史超,郭鋮.基于卷積和注意力機(jī)制的小樣本目標(biāo)檢測 [J/OL].兵工學(xué)報. https://link.cnki.net/urlid/11.2176.TJ.20231108.1418.002 典型的FSOD使用Fast R-CNN作為基本的檢測框架 本文亮點:引入

    2024年01月24日
    瀏覽(29)
  • 綜述:自動駕駛中的多模態(tài) 3D 目標(biāo)檢測

    綜述:自動駕駛中的多模態(tài) 3D 目標(biāo)檢測

    在駕駛場景中,自動駕駛車輛需要精準(zhǔn)高效的感知運算,時刻預(yù)測其所處的駕駛環(huán)境。 其中,感知系統(tǒng)將各種傳感器數(shù)據(jù)轉(zhuǎn)化為語義信息,是自動駕駛系統(tǒng)的核心和不可缺少的組成部分。 圖像具有豐富的語義信息,點云包含深度信息。 兩者具有互補特性,可以提高三維物體

    2024年02月03日
    瀏覽(24)
  • 基于可變形卷積和注意力機(jī)制的帶鋼表面缺陷快速檢測網(wǎng)絡(luò)DCAM-Net(論文閱讀筆記)

    基于可變形卷積和注意力機(jī)制的帶鋼表面缺陷快速檢測網(wǎng)絡(luò)DCAM-Net(論文閱讀筆記)

    原論文鏈接-DCAM-Net: A Rapid Detection Network for Strip Steel Surface Defects Based on Deformable Convolution and Attention Mechanism | IEEE Journals Magazine | IEEE Xplore DCAM-Net: A Rapid Detection Network for Strip Steel Surface Defects Based on Deformable Convolution and Attention Mechanism(論文標(biāo)題) 帶鋼 (the strip steel)表面缺陷檢測

    2024年02月04日
    瀏覽(30)
  • Center-based 3D Object Detection and Tracking(基于中心的3D目標(biāo)檢測和跟蹤 / CenterPoint)論文筆記

    Center-based 3D Object Detection and Tracking(基于中心的3D目標(biāo)檢測和跟蹤 / CenterPoint)論文筆記

    原文鏈接:https://arxiv.org/pdf/2006.11275.pdf ????????CenterPoint先使用基于激光雷達(dá)的主干網(wǎng)絡(luò)如VoxelNet或PointPillars,壓縮為BEV后,使用基于圖像的關(guān)鍵點檢測器尋找物體中心。然后對每個物體中心回歸尺寸、朝向和速度。然后,第二階段細(xì)化物體位置,提取估計的3D邊界框每個

    2024年02月09日
    瀏覽(25)
  • [論文閱讀]RTMDet——實時目標(biāo)檢測

    [論文閱讀]RTMDet——實時目標(biāo)檢測

    RTMDet: An Empirical Study of Designing Real-Time Object Detectors 設(shè)計實時目標(biāo)檢測器的實證研究 論文網(wǎng)址:RTMDet 本文的目標(biāo)是設(shè)計一種超越 YOLO 系列的高效實時目標(biāo)檢測器,并且可以輕松擴(kuò)展到實例分割和旋轉(zhuǎn)目標(biāo)檢測等許多目標(biāo)識別任務(wù)。為了獲得更高效的模型架構(gòu),本文探索了一種

    2024年02月08日
    瀏覽(19)
  • 論文閱讀-基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述

    論文閱讀-基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述

    非核心 原文鏈接:基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述 - 中國知網(wǎng) (cnki.net) 深度學(xué)習(xí)完成多模態(tài)情感分析綜述。主要介紹 多模態(tài)情感分析 的概念、背景、意義??偨Y(jié)了 多模態(tài)融合技術(shù)和交互技術(shù) ,討論多模態(tài)情感分析 未來發(fā)展 。 目前經(jīng)典的多模態(tài)情感分析研究已經(jīng)

    2024年02月04日
    瀏覽(38)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包