[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測

這篇具有很好參考價值的文章主要介紹了[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

FCAF3D

FCAF3D：Fully Convolutional Anchor-Free 3D Object Detection
FCAF3D：全卷積無錨 3D 物體檢測
論文網(wǎng)址：Fcaf3d
代碼網(wǎng)址：Fcaf3d

簡讀論文

[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)
這篇論文介紹了一個用于室內(nèi)3D物體檢測的全卷積 Anchor-Free 方法 FCAF3D。主要貢獻如下:

提出了第一個用于室內(nèi)3D物體檢測的全卷積Anchor-Free方法FCAF3D。
提出了一種新的旋轉(zhuǎn)框參數(shù)化方法,可以提高多個現(xiàn)有3D物體檢測方法在SUN RGB-D數(shù)據(jù)集上的精度。
在ScanNet、SUN RGB-D和S3DIS這三個室內(nèi)3D物體檢測基準(zhǔn)數(shù)據(jù)集上,該方法在mAP指標(biāo)上顯著優(yōu)于之前的state-of-the-art方法,同時也更快。

方法概述:

網(wǎng)絡(luò)架構(gòu):采用稀疏卷積網(wǎng)絡(luò),包括骨干網(wǎng)絡(luò)、頸部和頭部。骨干網(wǎng)絡(luò)使用稀疏3D ResNet,頸部使用稀疏3D轉(zhuǎn)置卷積層,頭部是一個簡單的全卷積預(yù)測分支。
Anchor-Free:頭部直接在每個位置預(yù)測類別概率、框回歸參數(shù)和中心度,不需要先設(shè)置anchors。采用中心抽樣策略匹配ground truth。
旋轉(zhuǎn)框參數(shù)化:提出一種基于M?bius帶的旋轉(zhuǎn)框參數(shù)化方法,可以避免手工設(shè)置旋轉(zhuǎn)角度bin,提高泛化能力。
旋轉(zhuǎn)框參數(shù)化指的是如何表示一個三維旋轉(zhuǎn)框(Oriented 3D Bounding Box)。一個旋轉(zhuǎn)框可以由中心坐標(biāo)(x,y,z)、長寬高(w,l,h)以及旋轉(zhuǎn)角度(θ)表示。在FCAF3D中提出了一種新的旋轉(zhuǎn)框參數(shù)化方法:1.將w/l表示為q。2.將θ轉(zhuǎn)換為(ln(q)sin(2θ), ln(q)cos(2θ))。最終旋轉(zhuǎn)框用(x,y,z,w+l,h,ln(q)sin(2θ), ln(q)cos(2θ))這7個參數(shù)表示。相比直接回歸θ,這種參數(shù)化方法的優(yōu)點有:1.可以避免設(shè)置角度bin,因為直接回歸θ需要先將連續(xù)的θ分成幾個bin,這需要手動設(shè)置。2.可以處理w=l的退化情況,即物體沒有明顯的前后之分時,θ的取值無法確定,導(dǎo)致訓(xùn)練困難。該方法可以解決這個問題。3.不依賴與數(shù)據(jù)集相關(guān)的角度先驗知識,更加泛化。4.減少了超參數(shù)和可訓(xùn)練參數(shù)的數(shù)量。5.經(jīng)實驗證明,這種參數(shù)化可以提升多個現(xiàn)有方法在SUN RGB-D數(shù)據(jù)集上的精度,因此其泛化能力更強。
總之,這種基于M?bius帶的旋轉(zhuǎn)框參數(shù)化方法,使網(wǎng)絡(luò)可以更加從數(shù)據(jù)中學(xué)習(xí),減少了先驗假設(shè),增強了泛化能力,是一種更好的旋轉(zhuǎn)框表示方法。
多尺度:利用骨干網(wǎng)絡(luò)的多級特征,不同尺度的物體分配到不同的特征級上,無需手工設(shè)置閾值。
評估結(jié)果:在ScanNet、SUN RGB-D和S3DIS數(shù)據(jù)集上優(yōu)于之前所有方法,證明了該方法的有效性。

總結(jié):

該方法是第一個采用全卷積Anchor-Free設(shè)計的室內(nèi)3D物體檢測方法。
通過稀疏卷積和多尺度特征,使其對大場景也具有很好的擴展性。
新的旋轉(zhuǎn)框參數(shù)化方法提高了泛化能力,不依賴與數(shù)據(jù)集相關(guān)的先驗。
在三個室內(nèi)3D檢測基準(zhǔn)數(shù)據(jù)集上都取得了state-of-the-art的結(jié)果。
相比其他方法,該方法設(shè)計簡單、高效、Accurate,值得學(xué)習(xí)和參考。

摘要

最近，點云 3D 物體檢測在機器人和增強現(xiàn)實領(lǐng)域的前景廣闊的應(yīng)用引起了人們的廣泛關(guān)注。本文提出了 FCAF3D——一種一流的全卷積無錨室內(nèi) 3D 物體檢測方法。這是一種簡單而有效的方法，使用點云的體素表示并通過稀疏卷積處理體素。 FCAF3D 可以通過單個全卷積前饋通道以最短的運行時間處理大規(guī)模場景?，F(xiàn)有的 3D 物體檢測方法對物體的幾何形狀做出預(yù)先假設(shè)，本文認為這限制了它們的泛化能力。為了消除先前的假設(shè)，提出了一種新穎的定向邊界框參數(shù)化，它允許以純粹數(shù)據(jù)驅(qū)動的方式獲得更好的結(jié)果。所提出的方法在 ScanNet V2 (+4.5)、SUN RGB-D (+3.5) 和 S3DIS (+20.5) 數(shù)據(jù)集上實現(xiàn)了最先進的 3D 物體檢測結(jié)果（mAP@0.5）

引言

基于點云的 3D 目標(biāo)檢測旨在同時定位和識別給定 3D 點集中的 3D 對象。作為3D場景理解的核心技術(shù)，它廣泛應(yīng)用于自動駕駛、機器人和AR領(lǐng)域。
雖然 2D 方法適用于密集的固定大小數(shù)組，但 3D 方法受到任意體積的不規(guī)則非結(jié)構(gòu)化 3D 數(shù)據(jù)的挑戰(zhàn)。因此，2D 數(shù)據(jù)處理技術(shù)不能直接適用于 3D 目標(biāo)檢測，因此 3D 目標(biāo)檢測方法采用創(chuàng)造性方法進行 3D 數(shù)據(jù)處理。
卷積 3D 對象檢測方法存在可擴展性問題：大規(guī)模場景要么需要不切實際的計算資源量，要么需要太多時間來處理。其他方法選擇體素數(shù)據(jù)表示并采用稀疏卷積；然而，這些方法以犧牲檢測精度為代價解決了可擴展性問題。換句話說，沒有一種 3目標(biāo)檢測方法可以提供精確的估計和良好的縮放。
除了可擴展和準(zhǔn)確之外，理想的 3D 目標(biāo)檢測方法還應(yīng)該處理任意形狀和大小的對象，而無需額外的修改和手動調(diào)整的超參數(shù)。本文認為，對 3D 目標(biāo)邊界框的先前假設(shè)（例如長寬比或絕對大?。┫拗屏朔夯⒃黾恿顺瑓?shù)和可訓(xùn)練參數(shù)的數(shù)量。
相反，本文不想依賴先前的假設(shè)。提出了一種無錨方法，該方法不會對目標(biāo)強加先驗，并使用純粹的數(shù)據(jù)驅(qū)動方法來解決 3D 對象檢測問題。此外，引入了一種新穎的定向邊界框（OBB）參數(shù)化，其靈感來自于Mobius strip，可以減少超參數(shù)的數(shù)量。為了證明本文參數(shù)化的有效性，使用幾種 3D 對象檢測方法在 SUN RGB-D 上進行了實驗，并報告了所有這些方法的改進結(jié)果。
本文提出了 FCAF3D——一種簡單、有效且可擴展的方法，用于從點云中檢測 3D 對象。在 ScanNet 、SUN RGB-D 和 S3DIS 上評估了所提出的方法，證明了在所有基準(zhǔn)測試中相對于之前最先進的方法的堅實優(yōu)越性。在 SUN RGB-D 和 ScanNet 上，本文的方法比其他方法至少高出 3.5% mAP@0.5。在 S3DIS 上，F(xiàn)CAF3D 大幅領(lǐng)先競爭對手。
貢獻：

提出了一種用于室內(nèi)場景的一流的全卷積無錨 3D 物體檢測方法 (FCAF3D)。
提出了一種新穎的 OBB 參數(shù)化，并證明它可以提高 SUN RGB-D 上幾種現(xiàn)有 3D 物體檢測方法的準(zhǔn)確性。
在挑戰(zhàn)大型室內(nèi) ScanNet、SUN RGB-D 和 S3DIS 數(shù)據(jù)集方面，本文的方法在 mAP 方面顯著優(yōu)于之前的最先進方法，同時推理速度更快。

相關(guān)工作

最近的 3D 目標(biāo)檢測方法被設(shè)計為室內(nèi)或室外。室內(nèi)和室外方法幾乎是獨立開發(fā)的，應(yīng)用特定領(lǐng)域的數(shù)據(jù)處理技術(shù)。許多現(xiàn)代戶外方法[Second]、[Pointpillars]、[Voxelnet]將3D點投影到鳥瞰平面上，從而將3D目標(biāo)檢測的任務(wù)減少為2D目標(biāo)檢測。當(dāng)然，這些方法利用了快速發(fā)展的二維物體檢測算法。給定鳥瞰投影，[3d fully convolutional network for vehicle detection in point cloud]以全卷積的方式對其進行處理，而[Center-based 3d object detection and tracking]則利用 2D 無錨方法。不幸的是，被證明對 2D 目標(biāo)檢測和 3D 室外目標(biāo)檢測有效的方法不能輕易地適用于室內(nèi)，因為它需要大量不切實際的內(nèi)存和計算資源。為了解決性能問題，人們提出了不同的 3D 數(shù)據(jù)處理策略。目前，三種方法在 3D 目標(biāo)檢測領(lǐng)域占據(jù)主導(dǎo)地位：基于投票、基于 Transformer 和 3D 卷積。下面詳細討論這些方法；本文還提供了無錨方法的簡要概述。
Voting-based methods. ： VoteNet 是第一個引入點投票進行 3D 目標(biāo)檢測的方法。 VoteNet 使用 PointNet 處理 3D 點，根據(jù)投票中心為每個候選對象分配一組點，并計算每個點組的對象特征。在 VoteNet 的眾多后繼者中，主要進展與應(yīng)用于 PointNet 功能的高級分組和投票策略相關(guān)。 BRNet 利用投票中心的代表點來細化投票結(jié)果，從而改善了對精細局部結(jié)構(gòu)特征的捕獲。 MLCVNet 在 VoteNet 的投票和分類階段引入了三個上下文模塊，以對不同級別的上下文信息進行編碼。 H3DNet 通過預(yù)測幾何基元的混合集來改進點組生成過程。 VENet 結(jié)合了注意力機制，并引入了通過新穎的投票吸引力損失訓(xùn)練的投票加權(quán)模塊。
所有類似 VoteNet 的基于投票的方法都受到設(shè)計的限制。首先，它們的可擴展性很差：由于它們的性能取決于輸入數(shù)據(jù)量，因此如果給定更大的場景，它們往往會變慢。此外，許多基于投票的方法將投票和分組策略實現(xiàn)為自定義層，這使得很難重現(xiàn)或調(diào)試這些方法或?qū)⑺鼈円浦驳揭苿釉O(shè)備。
Transformer-based methods. ：最近出現(xiàn)的基于 Transformer 的方法使用端到端學(xué)習(xí)和前向傳遞推理，而不是啟發(fā)式和優(yōu)化，這使得它們的領(lǐng)域特定性較低。 GroupFree 用Transformer模塊替換 VoteNet 頭，迭代更新對象查詢位置并集成中間檢測結(jié)果。 3DETR 是第一個作為端到端可訓(xùn)練Transformer實現(xiàn)的 3D 目標(biāo)檢測方法。然而，更先進的基于Transformer的方法仍然遇到類似于早期基于投票的方法的可擴展性問題。不同的是，本文的方法是全卷積的，因此比基于投票和基于Transformer的方法更快且更容易實現(xiàn)。
3D convolutional methods. ：體素表示允許有效處理立方增長的稀疏 3D 數(shù)據(jù)?；隗w素的 3D 目標(biāo)檢測方法將點轉(zhuǎn)換為體素并使用 3D 卷積網(wǎng)絡(luò)對其進行處理。然而，密集的體積特征仍然消耗大量內(nèi)存，并且 3D 卷積的計算成本很高?？傮w而言，處理大型場景需要大量資源，并且無法在單遍內(nèi)完成。
GSDN 通過稀疏 3D 卷積解決性能問題。它具有編碼器-解碼器架構(gòu)，編碼器和解碼器部分均由稀疏 3D 卷積塊構(gòu)建。與標(biāo)準(zhǔn)的基于卷積投票和基于Transformer的方法相比，GSDN 的內(nèi)存效率明顯更高，并且可以在不犧牲點密度的情況下擴展到大型場景。 GSDN 的主要弱點是它的準(zhǔn)確性：該方法在質(zhì)量方面與 VoteNet 相當(dāng)，但明顯遜色于當(dāng)前最先進的技術(shù)。
GSDN 使用 15 個長寬比的 3D 對象邊界框作為錨點。如果 GSDN 在單一長寬比的無錨設(shè)置中進行訓(xùn)練，則準(zhǔn)確率會下降 12%。與 GSDN 不同，本文的方法是無錨的，同時利用稀疏 3D 卷積。
RGB-based anchor-free object detection. ：在 2D 物體檢測中，無錨方法是標(biāo)準(zhǔn)基于錨的方法的有力競爭對手。 FCOS 以每像素預(yù)測的方式解決 2D 對象檢測問題，并顯示出比其基于錨的前身 RetinaNet 的穩(wěn)健改進。 FCOS3D 通過添加用于單目 3D 目標(biāo)檢測的額外目標(biāo)來簡單地適應(yīng) FCOS。 ImVoxelNet 使用由標(biāo)準(zhǔn)（非稀疏）3D 卷積塊構(gòu)建的類似 FCOS 的頭部解決了同樣的問題。本文采用上述無錨方法的思想來處理稀疏的不規(guī)則數(shù)據(jù)。

Proposed Method

遵循標(biāo)準(zhǔn) 3D 檢測問題陳述，F(xiàn)CAF3D 接受 Npts RGB 顏色點并輸出一組 3D 對象邊界框。 FCAF3D 架構(gòu)由骨干、頸部和頭部組成（如圖 2 所示）。
[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)
在設(shè)計 FCAF3D 時，本文的目標(biāo)是可擴展性，因此選擇類似 GSDN 的稀疏卷積網(wǎng)絡(luò)。為了更好的泛化，減少了該網(wǎng)絡(luò)中需要手動調(diào)整的超參數(shù)的數(shù)量；具體來說，簡化了頸部的稀疏修剪。此外，引入了具有簡單的多級位置分配的無錨頭。最后，討論了現(xiàn)有 3D 邊界框參數(shù)化的局限性，并提出了一種新穎的參數(shù)化方法，可以提高準(zhǔn)確性和泛化能力。

Sparse Neural Network

Backbone. ： FCAF3D 的主干是 ResNet 的稀疏修改，其中所有 2D 卷積都替換為稀疏 3D 卷積。 ResNet 的稀疏高維版本系列在 [4d spatio-temporal convnets] 中首次介紹；為簡潔起見，將它們稱為 HDResNet。
Neck. ：頸部是一個簡化的 GSDN 解碼器。每個級別的特征均使用一個稀疏轉(zhuǎn)置 3D 卷積和一個稀疏 3D 卷積進行處理。每個內(nèi)核大小為 2 的轉(zhuǎn)置稀疏 3D 卷積可能會將非零值的數(shù)量增加 23 倍。為了防止內(nèi)存快速增長，GSDN 使用剪枝層，通過概率掩碼過濾輸入。
在 GSDN 中，特征級別的概率是通過附加的卷積評分層來計算的。該層經(jīng)過特殊損失的訓(xùn)練，鼓勵預(yù)測的稀疏性和錨點之間的一致性。具體來說，如果與當(dāng)前體素關(guān)聯(lián)的任何后續(xù)錨點為正，則體素稀疏度設(shè)置為正。然而，使用這種損失可能不是最理想的，因為對象的遠處體素可能以較低的概率被分配。
為了簡單起見，刪除了具有相應(yīng)損失的評分層，并使用頭部分類層的概率。本文不調(diào)整概率閾值，而是保留最多 Nvox 體素來控制稀疏程度，其中 Nvox 等于輸入點 Npts 的數(shù)量。本文聲稱這是一種防止稀疏性增長的簡單而優(yōu)雅的方法，因為重用相同的超參數(shù)使過程更加透明和一致。
Head. ：無錨 FCAF3D 頭部由三個并行的稀疏卷積層組成，其權(quán)重在特征級別之間共享。對于每個位置（x、y、z），這些層分別輸出分類概率 p、邊界框回歸參數(shù) δ 和中心度 c。該設(shè)計類似于FCOS的簡單且輕量級的頭部，但適應(yīng)3D數(shù)據(jù)。
Multi-level location assignment. ：在訓(xùn)練期間，F(xiàn)CAF3D 輸出不同特征級別的位置 {(?x, ?y, ?z)}，這些位置應(yīng)分配給地面真值框。對于每個位置，F(xiàn)COS 和ImVoxelNet 考慮覆蓋該位置的地面真實邊界框，其面都在距離閾值內(nèi)，選擇體積最小的邊界框，并將其分配給該位置。這種策略不是最理想的，其改變在 2D 目標(biāo)檢測中被廣泛探索。 ImVoxelNet 使用修改后的策略，需要手動調(diào)整每個特征級別的面部距離閾值。
本文提出了一種稀疏數(shù)據(jù)的簡化策略，不需要調(diào)整特定于數(shù)據(jù)集的超參數(shù)。對于每個邊界框，選擇該邊界框至少覆蓋 Nloc 位置的最后一個特征級別。如果沒有這樣的功能級別，選擇第一個。還通過中心采樣過濾位置，僅將邊界框中心附近的點視為正匹配。
通過分配，一些位置 {(x,y,z)} 與真實邊界框 bx,y,z 進行匹配。因此，這些位置與地面真實標(biāo)簽 p?x、?y、?z 和 3D 中心值 c?x、?y、?z 相關(guān)聯(lián)。在推理過程中，按照[Imvoxelnet]中的建議，在 NMS 之前將分數(shù) ^p 乘以 3D 中心度 ^c。
Loss function. ：總體損失函數(shù)公式如下：
[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)

Bounding Box Parametrization

3D 對象邊界框可以是軸對齊 (AABB) 或定向 (OBB)。 AABB 可以描述為 bAABB = (x, y, z, w, l, h)，而 OBB 的定義包括航向角 θ： bOBB = (x, y, z, w, l, h, θ ）。在兩個公式中，x、y、z 表示邊界框中心的坐標(biāo)，而 w、l、h 分別表示邊界框的寬度、長度和高度。
AABB parametrization. ：對于 AABB，遵循[Imvoxelnet]中提出的參數(shù)化。具體來說，對于基本事實 AABB (x, y, z, w, l, h) 和位置 (?x, ?y, ?z)，δ 可以表示為 6 元組：
[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)
Heading angle estimation. ：所有最先進的點云 3D 對象檢測方法都將航向角估計任務(wù)作為分類和回歸來解決。航向角分為bins；然后，在箱內(nèi)回歸精確的航向角。對于室內(nèi)場景，從 0 到 2π 的范圍通常分為 12 個相等的 bin 。對于室外場景，通常只有兩個容器[Second]、[Pointpillars]，因為道路上的物體??可以與道路平行或垂直。
當(dāng)選擇航向角bin時，通過回歸來估計航向角值。 VoteNet 和其他基于投票的方法直接估計 θ 的值。戶外方法探索更復(fù)雜的方法，例如預(yù)測三角函數(shù)的值。例如，SMOKE 估計 sin θ 和 cos θ 并使用預(yù)測值來恢復(fù)航向角。
Proposed Mobius OBB parametrization. ：考慮帶有參數(shù) (x, y, z, w, l, h, θ) 的 OBB，表示 q = w/l 。如果 x, y, z, w+ l, h 固定，則 OBB 具有
[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)
定義相同的邊界框。本文注意到 (q, θ) 的集合，其中 θ ε (0, 2π], q ε (0, +inf) 在拓撲上等價于莫比烏斯帶直到這個等價關(guān)系。因此，可以重新表述將估計 (q, θ) 的任務(wù)作為預(yù)測莫比烏斯帶上的點的任務(wù)。將作為二維流形的莫比烏斯帶嵌入歐幾里德空間的自然方法如下：
[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)
總的來說，我們獲得了一種新穎的 OBB 參數(shù)化：

結(jié)論

本文提出了 FCAF3D，這是一種用于室內(nèi)場景的一流全卷積無錨 3D 對象檢測方法。在 mAP 和推理速度方面，本文的方法在具有挑戰(zhàn)性的室內(nèi) SUN RGB-D、ScanNet 和 S3DIS 基準(zhǔn)測試中顯著優(yōu)于之前的最先進方法。還提出了一種新穎的定向邊界框參數(shù)化，并表明它提高了幾種 3D 對象檢測方法的準(zhǔn)確性。此外，所提出的參數(shù)化可以避免任何關(guān)于對象的先前假設(shè)，從而減少超參數(shù)的數(shù)量?？傮w而言，采用本文的邊界框參數(shù)化的 FCAF3D 同時具有準(zhǔn)確、可擴展和可推廣的特點。文章來源地址http://www.zghlxwxcb.cn/news/detail-777827.html

到了這里，關(guān)于[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！