H3DNet
3D Object Detection Using Hybrid Geometric Primitives
論文網(wǎng)址:H3DNet
總結
這篇論文提出了H3DNet,一個用于3D對象檢測的端到端神經(jīng)網(wǎng)絡。該方法的關鍵創(chuàng)新點是預測一個混合的、過完備的幾何基元集合(包括邊界框中心、面中心和邊中心),然后擬合檢測到的對象以契合這些原語及其相關特征。主要貢獻總結如下:
- 將對象檢測表述為回歸和聚合一個過完備的幾何基元集合。
- 預測適合不同對象類型和場景的多種幾何基元。
- 在ScanNet和SUN RGB-D數(shù)據(jù)集上實現(xiàn)了最先進的結果,僅使用點云輸入。
具體來說,H3DNet包含三個模塊:
- 幾何基元模塊:該模塊對點云進行密集的點描述子計算,并預測三種幾何基元,即邊界框中心、面中心和邊中心。
- 提議生成模塊:該模塊將預測的幾何基元轉(zhuǎn)換為對象提議,關鍵是定義了一個距離函數(shù)來評估對象邊界框和預測基元之間的距離。優(yōu)化這個距離函數(shù)可以連續(xù)地優(yōu)化對象提議。
- 分類和調(diào)整模塊:該模塊對每個對象提議進行分類,并對檢測到的對象進行調(diào)整,包括預測偏移向量來微調(diào)邊界框參數(shù)和預測語義標簽。該模塊的關鍵是聚合與每個對象提議相關的幾何原語的特征。
整個網(wǎng)絡端到端訓練。實驗結果顯示,與僅使用一種幾何基元的方法相比,預測并聚合混合的過完備幾何基元集合可以顯著提高檢測性能,特別是對于薄型或部分遮擋的對象。該方法在兩個數(shù)據(jù)集上都獲得了最先進的結果。
總之,本文的主要創(chuàng)新點是提出了使用過完備的混合幾何基元進行3D對象檢測的框架,并設計了對應的網(wǎng)絡結構和優(yōu)化目標。這種方法可容忍基元預測中的錯誤,并融合不同類型基元的優(yōu)勢,從而提高了檢測性能。
網(wǎng)絡前向傳播過程
幾何基元模塊
(1) 使用基于PointNet++的網(wǎng)絡backbone提取點云的稀疏點特征。這里使用了4個不同的backbone網(wǎng)絡(使用4個不同backbone的目的是學習區(qū)分的特征描述子,來更好地預測不同類型的原語。)分別提取特征。
(2) 將4個backbone網(wǎng)絡提取的特征拼接,并通過全連接層降維到256維。
(3) 分別輸入到3個不同的Cluster Network中,預測點云中每個點到對應的原語(包括中心、面、邊)的偏移向量。同時也預測每個點是否接近原語的flag。
(4) 根據(jù)偏移向量預測聚類得到原語的坐標,根據(jù)flag進行篩選。每個原語同時也得到一個256維的特征表示。
提議生成模塊
(1) 利用原語的坐標和特征生成初始的對象提議bounding box。
(2) 定義目標函數(shù)計算每個初始提議與原語的距離,進行優(yōu)化調(diào)整提議使其逼近原語。
(3) 保留不同的局部最優(yōu)解作為最終對象提議。
分類和調(diào)整模塊
(1) 對于每個對象提議,在其相關原語周圍采樣獲取原語特征。
(2) 匯聚原語特征并與對象中心特征拼接,輸入全連接網(wǎng)絡。
(3) 網(wǎng)絡輸出對象標記、邊界框參數(shù)調(diào)整量和語義標簽。
(4) 根據(jù)對象標記篩選出最終檢測結果。
整個網(wǎng)絡端到端訓練,通過定義針對每個模塊的損失函數(shù)進行監(jiān)督。
摘要
本文引入了H3DNet,它以無色點云作為輸入,輸出定向?qū)ο筮吔缈蚣捌湔Z義標簽的集合。H3DNet的關鍵思想是預測一組混合的幾何基元(邊界框中心,邊界框面中心和邊界框邊中心)。
結論
本文介紹了一種新穎的3D目標檢測方法,該方法將3D場景作為輸入,輸出一組帶標簽和定向的邊界框。關鍵思想是預測一組混合幾何基元,然后將檢測到的對象擬合到這些幾何基元及其相關特征上。
未來希望該方法應用在其他3D場景理解任務上,例如實例分割和CAD模型重建。另一個未來的方向是集成更多的幾何基元,例如邊界框的角,等等。
引言
目標檢測是計算機視覺識別中的一個基本問題。本項工作的目標是從3D點云中檢測對象(即定向3D邊界框和相關語義信息)。
挑戰(zhàn):點云數(shù)據(jù)的不規(guī)則性以及不同場景中目標的數(shù)量不同。
關鍵:選擇合適的中間表征,將低層次的物體線索整合到檢測到的物體中,是決定系統(tǒng)性能的關鍵。
早期的工作是對滑動窗口進行分類,判斷該區(qū)域是否包含感興趣的目標物體(效率低)。最近的工作[Three-dimensional object detection and layout prediction using clouds of oriented gradients-2016, Multi-view 3d object detection network for autonomous driving-2017, 2d-driven 3d object detection in RGB-D images-2017, Frustum pointnets for 3d object detection from rgb-d data-2018, VoxelNet-2018]顯示,設計端到端的神經(jīng)網(wǎng)絡用于生成,分類和細化目標提議有巨大的前景。
本文介紹了H3DNet,這是一種端到端的神經(jīng)網(wǎng)絡,利用新穎的中間表征進行3D目標檢測。具體來說,H3DNet首先預測一組混合的幾何基元(即邊界框中心,邊界框面中心,邊界框邊中心),然后檢測對象擬合這些基元及其相關特征。這種回歸方法的靈感來自6D物體姿態(tài)檢測估計中的基于關鍵點的姿態(tài)回歸,它有兩個優(yōu)勢,首先,每種類型的幾何基元關注輸入點云的不同區(qū)域(例如,用于預測邊界框中心關注的是整個對象的點,預測邊界框面的中心關注的是邊界面的點)。組合不同的幾何基元可以增加其泛化的優(yōu)勢。多種幾何基元比僅使用一種幾何基元可以提供更多的約束。其次,多種幾何基元約束可以容忍預測基元中的異常值(例如,使用魯棒函數(shù))并減少單個預測誤差的影響。H3DNet的設計充分踐行了這兩個優(yōu)點。
具體來說,H3DNet由三個模塊組成。第一個模塊計算密集的逐點特征并使用它們預測幾何基元及其潛在特征。第二個模塊將這些幾何基元轉(zhuǎn)換為對象提議。H3DNet的一項關鍵創(chuàng)新是定義了參數(shù)距離函數(shù),用于評估對象邊界框與預測基元之間的距離。該距離函數(shù)可以輕松合并多種幾何基元。它的局部最小值自然對應與對象提議。這種方法能夠不斷優(yōu)化對象邊界框,并從不精確的初始提議生成高質(zhì)量的對象提議。第三個模塊是將每個目標提議分類為是否檢測到目標,并且為每個檢測到的目標預測其幾何參數(shù)的偏移向量和語義標簽以微調(diào)檢測結果。該模塊的性能取決于輸入。由于每個對象提議都與不同的幾何基元相關聯(lián),因此,H3DNet聚合與這些幾何基元相關的潛在特征,這些特征可能包含互補的語義和幾何信息,作為該模塊的輸入。本文還引入了一種可以處理不同數(shù)量的幾何基元的網(wǎng)絡設計。
消融實驗證明:證明回歸混合的幾何基元以生成對象提議以及聚合與匹配基元相關的特征已對檢測到的對象進行分類和細化的重要性
貢獻:
- 將目標檢測表述為回歸和聚合一組混合的幾何基元
- 預測適合不同場景和對象類型的多種類型的幾何基元
- 僅使用點云在SUN RGB-D和ScanNet數(shù)據(jù)集上獲得最先進的結果
相關工作
3D object detection
從方法論的角度來看,3D 目標檢測方法與其 2D 對應方法之間存在緊密的聯(lián)系。大多數(shù)現(xiàn)有工作遵循對使用滑動窗口或更先進的技術生成的候選對象進行分類的方法。物體分類涉及基于模板的方法或深度神經(jīng)網(wǎng)絡。 2D 方法和 3D 方法之間的主要區(qū)別在于特征表示。例如,[Holistic scene understanding for 3d object detection with RGBD cameras-2013]利用成對語義上下文潛力來指導提議的客觀性得分。 [Three-dimensional object detection and layout prediction using clouds of oriented gradients-2016]使用定向梯度云(COG)進行對象檢測。 [3d-sis-2019] 利用 3D 卷積神經(jīng)網(wǎng)絡的強大功能來識別 3D 對象的位置和關鍵點。由于 3D 領域的計算成本,許多方法利用 2D-3D 投影技術來集成 2D 目標檢測和 3D 數(shù)據(jù)處理。例如,MV3D 和 VoxelNet 在繼續(xù)進行Pipeline的其余部分之前以鳥瞰圖表示 3D 輸入數(shù)據(jù)。類似地,[Frustum pointnets for 3d object detection from rgb-d data-2018]首先處理 2D 輸入以識別候選 3D 對象提議。
點云已經(jīng)成為3D深度學習的強大表示,特別是在提取顯著的幾何特征和空間位置方面?;赑oint的神經(jīng)網(wǎng)絡先前用法包括分類,分割,估計和3D重建。
基于點云的目標檢測研究越來越多。H3DNet與VoteNet最相關,它利用深度神經(jīng)網(wǎng)絡來預測目標邊界框。H3DNet的關鍵創(chuàng)新在于,它利用一組幾何基元和距離函數(shù)將它們集成起來進行目標檢測。該策略可以容忍不準確的原始預測(例如,只有部分輸入)。
Multi-task 3D understanding
聯(lián)合預測不同類型的幾何基元與多任務學習相關,其中將多個相關任務合并在一起可以提高特征學習的性能。在最近的一項工作 HybridPose 中,表明預測關鍵點、關鍵點之間的邊和對稱對應共同提高了每種類型特征的預測精度。本文表明一起預測邊界框中心、邊界框面部中心和邊界框邊中心有助于提高原始預測的泛化行為。
Overcomplete constraints regression
H3DNet 的主要思想是合并一組混合的幾何約束。這種方法從使用單一類型幾何基元中獲得了相當大的性能提升。在概念層面上,類似的策略已用于對象跟蹤、零鏡頭細粒度分類、6D 對象姿態(tài)估計和掃描之間的相對姿態(tài)估計等任務。與這些工作相比,H3DNet的新穎之處在于設計適合目標檢測的混合約束、持續(xù)優(yōu)化目標提議、聚合混合特征以分類和微調(diào)目標提議以及整個網(wǎng)絡的端到端訓練。
方法
方法概述
如上圖所示,H3DNet的輸入是一組密集的3D點(點云)。輸入一般來自深度傳感器或多視圖立體匹配的結果。輸出是定向邊界框的集合。
H3DNet由三個模塊組成,從幾何基元預測開始,到提議生成,再到提議細化。主要是預測和集成一組混合的幾何基元,即邊界框中心,邊界框面中心,邊界框邊中心。整個網(wǎng)絡是端到端訓練的。
Geometric primitive module :H3DNet的第一個模塊以點云作為輸入,輸出一組幾何基元,預測對象邊界框的中心,邊界框面的中心,邊界框邊中心的位置。該網(wǎng)絡擴展設計了[Deep hough voting for 3d object detection in point clouds]的網(wǎng)絡設計。具體來說,它結合了用于提取逐點特征的子模塊,以及將逐點特征作為輸入和輸出點與相應中心之間偏移向量的子模塊。最終的語義是通過據(jù)類獲得的。除了位置之外,每個預測的幾何基元還擁有一個潛在特征,該特征會傳遞到H3DNet的后續(xù)模塊。
與VoteNet相比,H3DNet有兩個優(yōu)點。首先,由于僅預測幾何基元的子集足以用于對象檢測,因此檢測到的對象對錯誤預測不敏感。其次,不同類型的幾何基元表現(xiàn)出互補的力量,例如,邊界框中心對于完整的物體來說是準確的,而邊界框面中心則適合于具有豐富平面結構的部分物體。
Proposal generation module :第二個模塊將預測的幾何基元作為輸入并輸出一組對象建議。H3DNet的一項關鍵創(chuàng)新是將目標提議轉(zhuǎn)換為距離函數(shù)的局部最小值。這種方法在幾個方面都非常靈活,首先,很容易合并幾個幾何基元,每個幾何基元對應于距離函數(shù)的一個客觀項。其次,它可以使用穩(wěn)健的規(guī)范來處理異常預測和錯誤預測。最后可以連續(xù)優(yōu)化對象提議,并且此方法減輕了生成高質(zhì)量初始提議的負擔。
Classification and refinement module :H3DNet的最后一個模塊是將每個對象提議分類為是否檢測到對象。該模塊還計算偏移向量以及細化每個檢測到對象的邊界框中心,邊界框大小和邊界框方向以及語義標簽。該模塊的關鍵思想是聚合與每個對象提案的相應基元相近的幾何基元特征。這些聚合特征包含豐富的語義信息,而這些信息是與每個幾何基元相關的特征所不具備的。
Primitive Module
H3DNet的第一個模塊輸入點云預測一組幾何基元。每個幾何基元都對檢測到的對象提供一些約束。與大多數(shù)先前計算最小基元集(即足以確定對象邊界框)的工作相比,H3DNet利用多個幾何基元,即邊界框中心,邊界框面中心和邊界框邊中心。換句話說,這幾個幾何基元可以為一個邊界框提供多達19個位置約束。
與VoteNet類似,該模塊的設計結合了描述符子模塊和預測子模塊。特征提取子模塊計算密集的逐點特征,其輸出傳遞給預測子模塊,該模塊由三個預測分支組成。每個預測分支預測一組類型的幾何基元。
Descriptor sub-module : 描述符子模塊。 描述符子模塊的輸出可以提供語義信息,用于將Point分組以預測幾何基元(例如,同一物體上的點可作為邊界框中心,同一邊界面上的點可作為邊界框面中心)。H3DNet不適用單個特征計算,而是集成四個獨立的特征計算。由此產(chǎn)生的特征被串聯(lián)起來,用于H3DNet的原始預測和后續(xù)模塊。實驗表明,這種網(wǎng)絡設計可以學習到預測各類基元的獨特特征,且并沒有顯著增加網(wǎng)絡的復雜性。
BB center prediction : 邊界框中心預測。與VoteNet相同,H3DNet利用具有三個全連接層的網(wǎng)絡來預測每個點與其對應的對象中心的偏移向量。由此產(chǎn)生的邊界框中心是通過聚類獲得的(類似VoteNet)。除了偏移向量之外,H3DNet還計算每個邊界框中心的關聯(lián)特征,這些特征用作H3DNet后續(xù)模塊的輸入特征表示。
對于完整的矩形物體,邊界框中心的預測是準確的。然而,由于偏移預測的權重不平衡,部分或被遮擋的物體以及薄物體(如圖片,窗簾)存在移位誤差。這促使本文考慮邊界框面中心和邊界框邊中心。
BB face center prediction :邊界框面中心預測。平面在人造場景和實際物體中無處不在。與邊界框中心類似,H3DNet使用三個全連接層來執(zhí)行逐點預測。預測屬性包括該點是否靠近邊界框面的中心,如果是,則計算該點與其對應的邊界框面中心之間的偏移量。對于訓練,通過計算每個點最接近的邊界框面來生成真實標簽。如果距離小于0.2m,就指定該點靠近邊界框面(即正實例)。與邊界框中心類似,每個邊界框面中心預測也擁有一個潛在特征描述,該特征描述也被傳遞給后續(xù)模塊中。
由于邊界框面中心預測僅受靠近該面的點的影響,因此本文發(fā)現(xiàn)它們對具有豐富平面信息的對象(例如冰箱,浴簾)和不完整的對象特別有用。
BB edge center prediction : 邊界框邊中心預測。邊界線特征在所有 3D 場景和對象中是另一種類型的幾何線索。與邊界框面類似,H3DNet 采用 3 個全連接層來為每個點預測一個標志,指示它是否靠近邊界框邊,如果是,則預測該點與相應邊界框邊中心之間的偏移向量。與邊界框面中心相同,通過計算每個點最接近的邊界框邊來生成真實標簽。如果最近距離小于 0.2m,則稱某個點靠近邊界框邊。同樣,每個邊界框邊中心預測都擁有相同維度的潛在特征。與邊界框中心和邊界框面中心相比,邊界框邊中心對于點密度不規(guī)則(例如,具有大孔)但邊界框邊看起來完整的對象(例如,窗戶和電腦桌)非常有用。
不同基元的誤差分布在很大程度上彼此不相關。當將它們集成在一起以檢測對象時,這種不相關的預測誤差為性能提升提供了基礎。
提議模塊
預測幾何基元后,H3DNet 繼續(xù)計算對象提議。由于預測的幾何圖元過于完備(可能指的是預測的幾何基元的數(shù)量超過了實際需要的數(shù)量),H3DNet 將它們轉(zhuǎn)換為距離函數(shù),并生成對象提議作為該距離函數(shù)的局部最小值。這種方法是 H3DNet 的重要貢獻,具有多種吸引人的特性。首先,它自動合并多個幾何基元來確定每個對象提議的參數(shù)。其次,距離函數(shù)可以不斷優(yōu)化目標建議。由此產(chǎn)生的局部最小值對初始提議不敏感,允許使用簡單的初始提議生成器。最后,每個局部最小值都附加到不同類型的幾何基元,這些基元攜帶潛在的互補語義信息。H3DNet 的最后一個模塊基于此屬性來分類和細化對象建議。
Proposal distance function : 提議距離函數(shù)。
使用截斷的 L2 范數(shù)來匹配預測基元和最接近的對象基元。 βt 描述了類型 t 的權衡參數(shù)。 βt 和截斷閾值 δ 都是通過交叉驗證確定的。
Initial proposals : 初步建議。H3DNet 通過探索一組初始提議中距離函數(shù)的局部最小值來檢測對象提議。從優(yōu)化的角度來看,從任何足夠接近局部最小值的初始解中獲得相同的局部最小值。這意味著最初的建議不需要精確。在本文的實驗中,發(fā)現(xiàn)簡單的對象提議生成方法就足夠了。具體來說,H3DNet 利用[VoteNet]的方法,從每個檢測到的 邊界框中心初始化一個對象提案。
Proposal refinement : 提議細化,通過最小化 FS,改進了每個初始提案。請注意,不同的初始提案可能共享相同的局部最小值。最終的目標提案僅收集獨特的當?shù)刈畹蜆藴省?/p>
Classification and Refinement Module
H3DNet的最后一個模塊將proposal模塊的輸出作為輸入,并輸出檢測到的對象的集合。該模塊結合了分類子模塊和細化子模塊。分類子模塊確定每個對象提議是否是對象。細化子模塊為每個檢測到的對象預測邊界框中心的偏移、邊界框大小、邊界框方向以及語義標簽。
主要思想是聚合每個對象提案的基元(即對象中心、邊中心和面中心)相關的特征。這些特征捕獲潛在的互補信息,但只有在這個階段(即,在檢測到匹配基元組之后)才有可能將它們?nèi)诤显谝黄鹨源_定和微調(diào)檢測到的對象。
如下圖所示,通過組合四個全連接層來實現(xiàn)該子模塊。輸入層連接對象提案的 19 個對象基元(即 1 個邊界框中心、6 個邊界框面中心和 12 個邊界框邊中心)的輸入特征。每個輸入特征都集成了與相應對象基元附近的基元相關聯(lián)的特征。為了解決鄰域基元數(shù)量不同(例如沒有或多個)的問題,本文利用 PointNet中最大池層的變體來計算輸入特征。具體來說,每個最大池層的輸入由與輸入對象提議相關的特征組成,該特征解決了沒有匹配圖元的問題,以及在每個對象圖元的鄰域中隨機采樣的 32 個特征點。在本文的實現(xiàn)中,通過范圍查詢確定相鄰圖元,半徑為0.05m。
該模塊的輸出結合了指示客觀性的標簽、邊界框中心的偏移、邊界框大小和邊界框方向以及語義標簽。文章來源:http://www.zghlxwxcb.cn/news/detail-725646.html
網(wǎng)絡訓練
loss function:
優(yōu)化器:
Adam文章來源地址http://www.zghlxwxcb.cn/news/detail-725646.html
到了這里,關于[論文閱讀]H3DNet——基于混合幾何基元的3D目標檢測的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!