FCAF3D
FCAF3D:Fully Convolutional Anchor-Free 3D Object Detection
FCAF3D:全卷積無錨 3D 物體檢測
論文網(wǎng)址:Fcaf3d
代碼網(wǎng)址:Fcaf3d
簡讀論文
這篇論文介紹了一個用于室內(nèi)3D物體檢測的全卷積 Anchor-Free 方法 FCAF3D。主要貢獻如下:
-
提出了第一個用于室內(nèi)3D物體檢測的全卷積Anchor-Free方法FCAF3D。
-
提出了一種新的旋轉(zhuǎn)框參數(shù)化方法,可以提高多個現(xiàn)有3D物體檢測方法在SUN RGB-D數(shù)據(jù)集上的精度。
-
在ScanNet、SUN RGB-D和S3DIS這三個室內(nèi)3D物體檢測基準(zhǔn)數(shù)據(jù)集上,該方法在mAP指標(biāo)上顯著優(yōu)于之前的state-of-the-art方法,同時也更快。
方法概述:
-
網(wǎng)絡(luò)架構(gòu):采用稀疏卷積網(wǎng)絡(luò),包括骨干網(wǎng)絡(luò)、頸部和頭部。骨干網(wǎng)絡(luò)使用稀疏3D ResNet,頸部使用稀疏3D轉(zhuǎn)置卷積層,頭部是一個簡單的全卷積預(yù)測分支。
-
Anchor-Free:頭部直接在每個位置預(yù)測類別概率、框回歸參數(shù)和中心度,不需要先設(shè)置anchors。采用中心抽樣策略匹配ground truth。
-
旋轉(zhuǎn)框參數(shù)化:提出一種基于M?bius帶的旋轉(zhuǎn)框參數(shù)化方法,可以避免手工設(shè)置旋轉(zhuǎn)角度bin,提高泛化能力。
旋轉(zhuǎn)框參數(shù)化指的是如何表示一個三維旋轉(zhuǎn)框(Oriented 3D Bounding Box)。一個旋轉(zhuǎn)框可以由中心坐標(biāo)(x,y,z)、長寬高(w,l,h)以及旋轉(zhuǎn)角度(θ)表示。在FCAF3D中提出了一種新的旋轉(zhuǎn)框參數(shù)化方法:1.將w/l表示為q。2.將θ轉(zhuǎn)換為(ln(q)sin(2θ), ln(q)cos(2θ))。最終旋轉(zhuǎn)框用(x,y,z,w+l,h,ln(q)sin(2θ), ln(q)cos(2θ))這7個參數(shù)表示。相比直接回歸θ,這種參數(shù)化方法的優(yōu)點有:1.可以避免設(shè)置角度bin,因為直接回歸θ需要先將連續(xù)的θ分成幾個bin,這需要手動設(shè)置。2.可以處理w=l的退化情況,即物體沒有明顯的前后之分時,θ的取值無法確定,導(dǎo)致訓(xùn)練困難。該方法可以解決這個問題。3.不依賴與數(shù)據(jù)集相關(guān)的角度先驗知識,更加泛化。4.減少了超參數(shù)和可訓(xùn)練參數(shù)的數(shù)量。5.經(jīng)實驗證明,這種參數(shù)化可以提升多個現(xiàn)有方法在SUN RGB-D數(shù)據(jù)集上的精度,因此其泛化能力更強。
總之,這種基于M?bius帶的旋轉(zhuǎn)框參數(shù)化方法,使網(wǎng)絡(luò)可以更加從數(shù)據(jù)中學(xué)習(xí),減少了先驗假設(shè),增強了泛化能力,是一種更好的旋轉(zhuǎn)框表示方法。 -
多尺度:利用骨干網(wǎng)絡(luò)的多級特征,不同尺度的物體分配到不同的特征級上,無需手工設(shè)置閾值。
-
評估結(jié)果:在ScanNet、SUN RGB-D和S3DIS數(shù)據(jù)集上優(yōu)于之前所有方法,證明了該方法的有效性。
總結(jié):
-
該方法是第一個采用全卷積Anchor-Free設(shè)計的室內(nèi)3D物體檢測方法。
-
通過稀疏卷積和多尺度特征,使其對大場景也具有很好的擴展性。
-
新的旋轉(zhuǎn)框參數(shù)化方法提高了泛化能力,不依賴與數(shù)據(jù)集相關(guān)的先驗。
-
在三個室內(nèi)3D檢測基準(zhǔn)數(shù)據(jù)集上都取得了state-of-the-art的結(jié)果。
-
相比其他方法,該方法設(shè)計簡單、高效、Accurate,值得學(xué)習(xí)和參考。
摘要
最近,點云 3D 物體檢測在機器人和增強現(xiàn)實領(lǐng)域的前景廣闊的應(yīng)用引起了人們的廣泛關(guān)注。本文提出了 FCAF3D——一種一流的全卷積無錨室內(nèi) 3D 物體檢測方法。這是一種簡單而有效的方法,使用點云的體素表示并通過稀疏卷積處理體素。 FCAF3D 可以通過單個全卷積前饋通道以最短的運行時間處理大規(guī)模場景?,F(xiàn)有的 3D 物體檢測方法對物體的幾何形狀做出預(yù)先假設(shè),本文認為這限制了它們的泛化能力。為了消除先前的假設(shè),提出了一種新穎的定向邊界框參數(shù)化,它允許以純粹數(shù)據(jù)驅(qū)動的方式獲得更好的結(jié)果。所提出的方法在 ScanNet V2 (+4.5)、SUN RGB-D (+3.5) 和 S3DIS (+20.5) 數(shù)據(jù)集上實現(xiàn)了最先進的 3D 物體檢測結(jié)果(mAP@0.5)
引言
基于點云的 3D 目標(biāo)檢測旨在同時定位和識別給定 3D 點集中的 3D 對象。作為3D場景理解的核心技術(shù),它廣泛應(yīng)用于自動駕駛、機器人和AR領(lǐng)域。
雖然 2D 方法適用于密集的固定大小數(shù)組,但 3D 方法受到任意體積的不規(guī)則非結(jié)構(gòu)化 3D 數(shù)據(jù)的挑戰(zhàn)。因此,2D 數(shù)據(jù)處理技術(shù)不能直接適用于 3D 目標(biāo)檢測,因此 3D 目標(biāo)檢測方法采用創(chuàng)造性方法進行 3D 數(shù)據(jù)處理。
卷積 3D 對象檢測方法存在可擴展性問題:大規(guī)模場景要么需要不切實際的計算資源量,要么需要太多時間來處理。其他方法選擇體素數(shù)據(jù)表示并采用稀疏卷積;然而,這些方法以犧牲檢測精度為代價解決了可擴展性問題。換句話說,沒有一種 3目標(biāo)檢測方法可以提供精確的估計和良好的縮放。
除了可擴展和準(zhǔn)確之外,理想的 3D 目標(biāo)檢測方法還應(yīng)該處理任意形狀和大小的對象,而無需額外的修改和手動調(diào)整的超參數(shù)。本文認為,對 3D 目標(biāo)邊界框的先前假設(shè)(例如長寬比或絕對大?。┫拗屏朔夯⒃黾恿顺瑓?shù)和可訓(xùn)練參數(shù)的數(shù)量。
相反,本文不想依賴先前的假設(shè)。提出了一種無錨方法,該方法不會對目標(biāo)強加先驗,并使用純粹的數(shù)據(jù)驅(qū)動方法來解決 3D 對象檢測問題。此外,引入了一種新穎的定向邊界框(OBB)參數(shù)化,其靈感來自于Mobius strip,可以減少超參數(shù)的數(shù)量。為了證明本文參數(shù)化的有效性,使用幾種 3D 對象檢測方法在 SUN RGB-D 上進行了實驗,并報告了所有這些方法的改進結(jié)果。
本文提出了 FCAF3D——一種簡單、有效且可擴展的方法,用于從點云中檢測 3D 對象。在 ScanNet 、SUN RGB-D 和 S3DIS 上評估了所提出的方法,證明了在所有基準(zhǔn)測試中相對于之前最先進的方法的堅實優(yōu)越性。在 SUN RGB-D 和 ScanNet 上,本文的方法比其他方法至少高出 3.5% mAP@0.5。在 S3DIS 上,F(xiàn)CAF3D 大幅領(lǐng)先競爭對手。
貢獻:
- 提出了一種用于室內(nèi)場景的一流的全卷積無錨 3D 物體檢測方法 (FCAF3D)。
- 提出了一種新穎的 OBB 參數(shù)化,并證明它可以提高 SUN RGB-D 上幾種現(xiàn)有 3D 物體檢測方法的準(zhǔn)確性。
- 在挑戰(zhàn)大型室內(nèi) ScanNet、SUN RGB-D 和 S3DIS 數(shù)據(jù)集方面,本文的方法在 mAP 方面顯著優(yōu)于之前的最先進方法,同時推理速度更快。
相關(guān)工作
最近的 3D 目標(biāo)檢測方法被設(shè)計為室內(nèi)或室外。室內(nèi)和室外方法幾乎是獨立開發(fā)的,應(yīng)用特定領(lǐng)域的數(shù)據(jù)處理技術(shù)。許多現(xiàn)代戶外方法[Second]、[Pointpillars]、[Voxelnet]將3D點投影到鳥瞰平面上,從而將3D目標(biāo)檢測的任務(wù)減少為2D目標(biāo)檢測。當(dāng)然,這些方法利用了快速發(fā)展的二維物體檢測算法。給定鳥瞰投影,[3d fully convolutional network for vehicle detection in point cloud]以全卷積的方式對其進行處理,而[Center-based 3d object detection and tracking]則利用 2D 無錨方法。不幸的是,被證明對 2D 目標(biāo)檢測和 3D 室外目標(biāo)檢測有效的方法不能輕易地適用于室內(nèi),因為它需要大量不切實際的內(nèi)存和計算資源。為了解決性能問題,人們提出了不同的 3D 數(shù)據(jù)處理策略。目前,三種方法在 3D 目標(biāo)檢測領(lǐng)域占據(jù)主導(dǎo)地位:基于投票、基于 Transformer 和 3D 卷積。下面詳細討論這些方法;本文還提供了無錨方法的簡要概述。
Voting-based methods. : VoteNet 是第一個引入點投票進行 3D 目標(biāo)檢測的方法。 VoteNet 使用 PointNet 處理 3D 點,根據(jù)投票中心為每個候選對象分配一組點,并計算每個點組的對象特征。在 VoteNet 的眾多后繼者中,主要進展與應(yīng)用于 PointNet 功能的高級分組和投票策略相關(guān)。 BRNet 利用投票中心的代表點來細化投票結(jié)果,從而改善了對精細局部結(jié)構(gòu)特征的捕獲。 MLCVNet 在 VoteNet 的投票和分類階段引入了三個上下文模塊,以對不同級別的上下文信息進行編碼。 H3DNet 通過預(yù)測幾何基元的混合集來改進點組生成過程。 VENet 結(jié)合了注意力機制,并引入了通過新穎的投票吸引力損失訓(xùn)練的投票加權(quán)模塊。
所有類似 VoteNet 的基于投票的方法都受到設(shè)計的限制。首先,它們的可擴展性很差:由于它們的性能取決于輸入數(shù)據(jù)量,因此如果給定更大的場景,它們往往會變慢。此外,許多基于投票的方法將投票和分組策略實現(xiàn)為自定義層,這使得很難重現(xiàn)或調(diào)試這些方法或?qū)⑺鼈円浦驳揭苿釉O(shè)備。
Transformer-based methods. : 最近出現(xiàn)的基于 Transformer 的方法使用端到端學(xué)習(xí)和前向傳遞推理,而不是啟發(fā)式和優(yōu)化,這使得它們的領(lǐng)域特定性較低。 GroupFree 用Transformer模塊替換 VoteNet 頭,迭代更新對象查詢位置并集成中間檢測結(jié)果。 3DETR 是第一個作為端到端可訓(xùn)練Transformer實現(xiàn)的 3D 目標(biāo)檢測方法。然而,更先進的基于Transformer的方法仍然遇到類似于早期基于投票的方法的可擴展性問題。不同的是,本文的方法是全卷積的,因此比基于投票和基于Transformer的方法更快且更容易實現(xiàn)。
3D convolutional methods. : 體素表示允許有效處理立方增長的稀疏 3D 數(shù)據(jù)?;隗w素的 3D 目標(biāo)檢測方法將點轉(zhuǎn)換為體素并使用 3D 卷積網(wǎng)絡(luò)對其進行處理。然而,密集的體積特征仍然消耗大量內(nèi)存,并且 3D 卷積的計算成本很高??傮w而言,處理大型場景需要大量資源,并且無法在單遍內(nèi)完成。
GSDN 通過稀疏 3D 卷積解決性能問題。它具有編碼器-解碼器架構(gòu),編碼器和解碼器部分均由稀疏 3D 卷積塊構(gòu)建。與標(biāo)準(zhǔn)的基于卷積投票和基于Transformer的方法相比,GSDN 的內(nèi)存效率明顯更高,并且可以在不犧牲點密度的情況下擴展到大型場景。 GSDN 的主要弱點是它的準(zhǔn)確性:該方法在質(zhì)量方面與 VoteNet 相當(dāng),但明顯遜色于當(dāng)前最先進的技術(shù)。
GSDN 使用 15 個長寬比的 3D 對象邊界框作為錨點。如果 GSDN 在單一長寬比的無錨設(shè)置中進行訓(xùn)練,則準(zhǔn)確率會下降 12%。與 GSDN 不同,本文的方法是無錨的,同時利用稀疏 3D 卷積。
RGB-based anchor-free object detection. : 在 2D 物體檢測中,無錨方法是標(biāo)準(zhǔn)基于錨的方法的有力競爭對手。 FCOS 以每像素預(yù)測的方式解決 2D 對象檢測問題,并顯示出比其基于錨的前身 RetinaNet 的穩(wěn)健改進。 FCOS3D 通過添加用于單目 3D 目標(biāo)檢測的額外目標(biāo)來簡單地適應(yīng) FCOS。 ImVoxelNet 使用由標(biāo)準(zhǔn)(非稀疏)3D 卷積塊構(gòu)建的類似 FCOS 的頭部解決了同樣的問題。本文采用上述無錨方法的思想來處理稀疏的不規(guī)則數(shù)據(jù)。
Proposed Method
遵循標(biāo)準(zhǔn) 3D 檢測問題陳述,F(xiàn)CAF3D 接受 Npts RGB 顏色點并輸出一組 3D 對象邊界框。 FCAF3D 架構(gòu)由骨干、頸部和頭部組成(如圖 2 所示)。
在設(shè)計 FCAF3D 時,本文的目標(biāo)是可擴展性,因此選擇類似 GSDN 的稀疏卷積網(wǎng)絡(luò)。為了更好的泛化,減少了該網(wǎng)絡(luò)中需要手動調(diào)整的超參數(shù)的數(shù)量;具體來說,簡化了頸部的稀疏修剪。此外,引入了具有簡單的多級位置分配的無錨頭。最后,討論了現(xiàn)有 3D 邊界框參數(shù)化的局限性,并提出了一種新穎的參數(shù)化方法,可以提高準(zhǔn)確性和泛化能力。
Sparse Neural Network
Backbone. : FCAF3D 的主干是 ResNet 的稀疏修改,其中所有 2D 卷積都替換為稀疏 3D 卷積。 ResNet 的稀疏高維版本系列在 [4d spatio-temporal convnets] 中首次介紹;為簡潔起見,將它們稱為 HDResNet。
Neck. : 頸部是一個簡化的 GSDN 解碼器。每個級別的特征均使用一個稀疏轉(zhuǎn)置 3D 卷積和一個稀疏 3D 卷積進行處理。每個內(nèi)核大小為 2 的轉(zhuǎn)置稀疏 3D 卷積可能會將非零值的數(shù)量增加 23 倍。為了防止內(nèi)存快速增長,GSDN 使用剪枝層,通過概率掩碼過濾輸入。
在 GSDN 中,特征級別的概率是通過附加的卷積評分層來計算的。該層經(jīng)過特殊損失的訓(xùn)練,鼓勵預(yù)測的稀疏性和錨點之間的一致性。具體來說,如果與當(dāng)前體素關(guān)聯(lián)的任何后續(xù)錨點為正,則體素稀疏度設(shè)置為正。然而,使用這種損失可能不是最理想的,因為對象的遠處體素可能以較低的概率被分配。
為了簡單起見,刪除了具有相應(yīng)損失的評分層,并使用頭部分類層的概率。本文不調(diào)整概率閾值,而是保留最多 Nvox 體素來控制稀疏程度,其中 Nvox 等于輸入點 Npts 的數(shù)量。本文聲稱這是一種防止稀疏性增長的簡單而優(yōu)雅的方法,因為重用相同的超參數(shù)使過程更加透明和一致。
Head. : 無錨 FCAF3D 頭部由三個并行的稀疏卷積層組成,其權(quán)重在特征級別之間共享。對于每個位置(x、y、z),這些層分別輸出分類概率 p、邊界框回歸參數(shù) δ 和中心度 c。該設(shè)計類似于FCOS的簡單且輕量級的頭部,但適應(yīng)3D數(shù)據(jù)。
Multi-level location assignment. : 在訓(xùn)練期間,F(xiàn)CAF3D 輸出不同特征級別的位置 {(?x, ?y, ?z)},這些位置應(yīng)分配給地面真值框 。對于每個位置,F(xiàn)COS 和ImVoxelNet 考慮覆蓋該位置的地面真實邊界框,其面都在距離閾值內(nèi),選擇體積最小的邊界框,并將其分配給該位置。這種策略不是最理想的,其改變在 2D 目標(biāo)檢測中被廣泛探索。 ImVoxelNet 使用修改后的策略,需要手動調(diào)整每個特征級別的面部距離閾值。
本文提出了一種稀疏數(shù)據(jù)的簡化策略,不需要調(diào)整特定于數(shù)據(jù)集的超參數(shù)。對于每個邊界框,選擇該邊界框至少覆蓋 Nloc 位置的最后一個特征級別。如果沒有這樣的功能級別,選擇第一個。還通過中心采樣過濾位置,僅將邊界框中心附近的點視為正匹配。
通過分配,一些位置 {(x,y,z)} 與真實邊界框 bx,y,z 進行匹配。因此,這些位置與地面真實標(biāo)簽 p?x、?y、?z 和 3D 中心值 c?x、?y、?z 相關(guān)聯(lián)。在推理過程中,按照[Imvoxelnet]中的建議,在 NMS 之前將分數(shù) ^p 乘以 3D 中心度 ^c。
Loss function. : 總體損失函數(shù)公式如下:
Bounding Box Parametrization
3D 對象邊界框可以是軸對齊 (AABB) 或定向 (OBB)。 AABB 可以描述為 bAABB = (x, y, z, w, l, h),而 OBB 的定義包括航向角 θ: bOBB = (x, y, z, w, l, h, θ )。在兩個公式中,x、y、z 表示邊界框中心的坐標(biāo),而 w、l、h 分別表示邊界框的寬度、長度和高度。
AABB parametrization. : 對于 AABB,遵循[Imvoxelnet]中提出的參數(shù)化。具體來說,對于基本事實 AABB (x, y, z, w, l, h) 和位置 (?x, ?y, ?z),δ 可以表示為 6 元組:
Heading angle estimation. : 所有最先進的點云 3D 對象檢測方法都將航向角估計任務(wù)作為分類和回歸來解決。航向角分為bins;然后,在箱內(nèi)回歸精確的航向角。對于室內(nèi)場景,從 0 到 2π 的范圍通常分為 12 個相等的 bin 。對于室外場景,通常只有兩個容器[Second]、[Pointpillars],因為道路上的物體??可以與道路平行或垂直。
當(dāng)選擇航向角bin時,通過回歸來估計航向角值。 VoteNet 和其他基于投票的方法直接估計 θ 的值。戶外方法探索更復(fù)雜的方法,例如預(yù)測三角函數(shù)的值。例如,SMOKE 估計 sin θ 和 cos θ 并使用預(yù)測值來恢復(fù)航向角。
Proposed Mobius OBB parametrization. : 考慮帶有參數(shù) (x, y, z, w, l, h, θ) 的 OBB,表示 q = w/l 。如果 x, y, z, w+ l, h 固定,則 OBB 具有
定義相同的邊界框。本文注意到 (q, θ) 的集合,其中 θ ε (0, 2π], q ε (0, +inf) 在拓撲上等價于莫比烏斯帶直到這個等價關(guān)系。因此,可以重新表述將估計 (q, θ) 的任務(wù)作為預(yù)測莫比烏斯帶上的點的任務(wù)。將作為二維流形的莫比烏斯帶嵌入歐幾里德空間的自然方法如下:
總的來說,我們獲得了一種新穎的 OBB 參數(shù)化:文章來源:http://www.zghlxwxcb.cn/news/detail-777827.html
結(jié)論
本文提出了 FCAF3D,這是一種用于室內(nèi)場景的一流全卷積無錨 3D 對象檢測方法。在 mAP 和推理速度方面,本文的方法在具有挑戰(zhàn)性的室內(nèi) SUN RGB-D、ScanNet 和 S3DIS 基準(zhǔn)測試中顯著優(yōu)于之前的最先進方法。還提出了一種新穎的定向邊界框參數(shù)化,并表明它提高了幾種 3D 對象檢測方法的準(zhǔn)確性。此外,所提出的參數(shù)化可以避免任何關(guān)于對象的先前假設(shè),從而減少超參數(shù)的數(shù)量??傮w而言,采用本文的邊界框參數(shù)化的 FCAF3D 同時具有準(zhǔn)確、可擴展和可推廣的特點。文章來源地址http://www.zghlxwxcb.cn/news/detail-777827.html
到了這里,關(guān)于[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!