国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測

這篇具有很好參考價值的文章主要介紹了[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

FCAF3D

FCAF3D:Fully Convolutional Anchor-Free 3D Object Detection
FCAF3D:全卷積無錨 3D 物體檢測
論文網(wǎng)址:Fcaf3d
代碼網(wǎng)址:Fcaf3d

簡讀論文

[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)
這篇論文介紹了一個用于室內(nèi)3D物體檢測的全卷積 Anchor-Free 方法 FCAF3D。主要貢獻如下:

  1. 提出了第一個用于室內(nèi)3D物體檢測的全卷積Anchor-Free方法FCAF3D。

  2. 提出了一種新的旋轉(zhuǎn)框參數(shù)化方法,可以提高多個現(xiàn)有3D物體檢測方法在SUN RGB-D數(shù)據(jù)集上的精度。

  3. 在ScanNet、SUN RGB-D和S3DIS這三個室內(nèi)3D物體檢測基準(zhǔn)數(shù)據(jù)集上,該方法在mAP指標(biāo)上顯著優(yōu)于之前的state-of-the-art方法,同時也更快。

方法概述:

  1. 網(wǎng)絡(luò)架構(gòu):采用稀疏卷積網(wǎng)絡(luò),包括骨干網(wǎng)絡(luò)、頸部和頭部。骨干網(wǎng)絡(luò)使用稀疏3D ResNet,頸部使用稀疏3D轉(zhuǎn)置卷積層,頭部是一個簡單的全卷積預(yù)測分支。

  2. Anchor-Free:頭部直接在每個位置預(yù)測類別概率、框回歸參數(shù)和中心度,不需要先設(shè)置anchors。采用中心抽樣策略匹配ground truth。

  3. 旋轉(zhuǎn)框參數(shù)化:提出一種基于M?bius帶的旋轉(zhuǎn)框參數(shù)化方法,可以避免手工設(shè)置旋轉(zhuǎn)角度bin,提高泛化能力。
    旋轉(zhuǎn)框參數(shù)化指的是如何表示一個三維旋轉(zhuǎn)框(Oriented 3D Bounding Box)。一個旋轉(zhuǎn)框可以由中心坐標(biāo)(x,y,z)、長寬高(w,l,h)以及旋轉(zhuǎn)角度(θ)表示。在FCAF3D中提出了一種新的旋轉(zhuǎn)框參數(shù)化方法:1.將w/l表示為q。2.將θ轉(zhuǎn)換為(ln(q)sin(2θ), ln(q)cos(2θ))。最終旋轉(zhuǎn)框用(x,y,z,w+l,h,ln(q)sin(2θ), ln(q)cos(2θ))這7個參數(shù)表示。相比直接回歸θ,這種參數(shù)化方法的優(yōu)點有:1.可以避免設(shè)置角度bin,因為直接回歸θ需要先將連續(xù)的θ分成幾個bin,這需要手動設(shè)置。2.可以處理w=l的退化情況,即物體沒有明顯的前后之分時,θ的取值無法確定,導(dǎo)致訓(xùn)練困難。該方法可以解決這個問題。3.不依賴與數(shù)據(jù)集相關(guān)的角度先驗知識,更加泛化。4.減少了超參數(shù)和可訓(xùn)練參數(shù)的數(shù)量。5.經(jīng)實驗證明,這種參數(shù)化可以提升多個現(xiàn)有方法在SUN RGB-D數(shù)據(jù)集上的精度,因此其泛化能力更強。
    總之,這種基于M?bius帶的旋轉(zhuǎn)框參數(shù)化方法,使網(wǎng)絡(luò)可以更加從數(shù)據(jù)中學(xué)習(xí),減少了先驗假設(shè),增強了泛化能力,是一種更好的旋轉(zhuǎn)框表示方法。

  4. 多尺度:利用骨干網(wǎng)絡(luò)的多級特征,不同尺度的物體分配到不同的特征級上,無需手工設(shè)置閾值。

  5. 評估結(jié)果:在ScanNet、SUN RGB-D和S3DIS數(shù)據(jù)集上優(yōu)于之前所有方法,證明了該方法的有效性。

總結(jié):

  1. 該方法是第一個采用全卷積Anchor-Free設(shè)計的室內(nèi)3D物體檢測方法。

  2. 通過稀疏卷積和多尺度特征,使其對大場景也具有很好的擴展性。

  3. 新的旋轉(zhuǎn)框參數(shù)化方法提高了泛化能力,不依賴與數(shù)據(jù)集相關(guān)的先驗。

  4. 在三個室內(nèi)3D檢測基準(zhǔn)數(shù)據(jù)集上都取得了state-of-the-art的結(jié)果。

  5. 相比其他方法,該方法設(shè)計簡單、高效、Accurate,值得學(xué)習(xí)和參考。

摘要

最近,點云 3D 物體檢測在機器人和增強現(xiàn)實領(lǐng)域的前景廣闊的應(yīng)用引起了人們的廣泛關(guān)注。本文提出了 FCAF3D——一種一流的全卷積無錨室內(nèi) 3D 物體檢測方法。這是一種簡單而有效的方法,使用點云的體素表示并通過稀疏卷積處理體素。 FCAF3D 可以通過單個全卷積前饋通道以最短的運行時間處理大規(guī)模場景?,F(xiàn)有的 3D 物體檢測方法對物體的幾何形狀做出預(yù)先假設(shè),本文認為這限制了它們的泛化能力。為了消除先前的假設(shè),提出了一種新穎的定向邊界框參數(shù)化,它允許以純粹數(shù)據(jù)驅(qū)動的方式獲得更好的結(jié)果。所提出的方法在 ScanNet V2 (+4.5)、SUN RGB-D (+3.5) 和 S3DIS (+20.5) 數(shù)據(jù)集上實現(xiàn)了最先進的 3D 物體檢測結(jié)果(mAP@0.5)

引言

基于點云的 3D 目標(biāo)檢測旨在同時定位和識別給定 3D 點集中的 3D 對象。作為3D場景理解的核心技術(shù),它廣泛應(yīng)用于自動駕駛、機器人和AR領(lǐng)域。
雖然 2D 方法適用于密集的固定大小數(shù)組,但 3D 方法受到任意體積的不規(guī)則非結(jié)構(gòu)化 3D 數(shù)據(jù)的挑戰(zhàn)。因此,2D 數(shù)據(jù)處理技術(shù)不能直接適用于 3D 目標(biāo)檢測,因此 3D 目標(biāo)檢測方法采用創(chuàng)造性方法進行 3D 數(shù)據(jù)處理。
卷積 3D 對象檢測方法存在可擴展性問題:大規(guī)模場景要么需要不切實際的計算資源量,要么需要太多時間來處理。其他方法選擇體素數(shù)據(jù)表示并采用稀疏卷積;然而,這些方法以犧牲檢測精度為代價解決了可擴展性問題。換句話說,沒有一種 3目標(biāo)檢測方法可以提供精確的估計和良好的縮放。
除了可擴展和準(zhǔn)確之外,理想的 3D 目標(biāo)檢測方法還應(yīng)該處理任意形狀和大小的對象,而無需額外的修改和手動調(diào)整的超參數(shù)。本文認為,對 3D 目標(biāo)邊界框的先前假設(shè)(例如長寬比或絕對大?。┫拗屏朔夯⒃黾恿顺瑓?shù)和可訓(xùn)練參數(shù)的數(shù)量。
相反,本文不想依賴先前的假設(shè)。提出了一種無錨方法,該方法不會對目標(biāo)強加先驗,并使用純粹的數(shù)據(jù)驅(qū)動方法來解決 3D 對象檢測問題。此外,引入了一種新穎的定向邊界框(OBB)參數(shù)化,其靈感來自于Mobius strip,可以減少超參數(shù)的數(shù)量。為了證明本文參數(shù)化的有效性,使用幾種 3D 對象檢測方法在 SUN RGB-D 上進行了實驗,并報告了所有這些方法的改進結(jié)果。
本文提出了 FCAF3D——一種簡單、有效且可擴展的方法,用于從點云中檢測 3D 對象。在 ScanNet 、SUN RGB-D 和 S3DIS 上評估了所提出的方法,證明了在所有基準(zhǔn)測試中相對于之前最先進的方法的堅實優(yōu)越性。在 SUN RGB-D 和 ScanNet 上,本文的方法比其他方法至少高出 3.5% mAP@0.5。在 S3DIS 上,F(xiàn)CAF3D 大幅領(lǐng)先競爭對手。
貢獻:

  • 提出了一種用于室內(nèi)場景的一流的全卷積無錨 3D 物體檢測方法 (FCAF3D)。
  • 提出了一種新穎的 OBB 參數(shù)化,并證明它可以提高 SUN RGB-D 上幾種現(xiàn)有 3D 物體檢測方法的準(zhǔn)確性。
  • 在挑戰(zhàn)大型室內(nèi) ScanNet、SUN RGB-D 和 S3DIS 數(shù)據(jù)集方面,本文的方法在 mAP 方面顯著優(yōu)于之前的最先進方法,同時推理速度更快。

相關(guān)工作

最近的 3D 目標(biāo)檢測方法被設(shè)計為室內(nèi)或室外。室內(nèi)和室外方法幾乎是獨立開發(fā)的,應(yīng)用特定領(lǐng)域的數(shù)據(jù)處理技術(shù)。許多現(xiàn)代戶外方法[Second]、[Pointpillars]、[Voxelnet]將3D點投影到鳥瞰平面上,從而將3D目標(biāo)檢測的任務(wù)減少為2D目標(biāo)檢測。當(dāng)然,這些方法利用了快速發(fā)展的二維物體檢測算法。給定鳥瞰投影,[3d fully convolutional network for vehicle detection in point cloud]以全卷積的方式對其進行處理,而[Center-based 3d object detection and tracking]則利用 2D 無錨方法。不幸的是,被證明對 2D 目標(biāo)檢測和 3D 室外目標(biāo)檢測有效的方法不能輕易地適用于室內(nèi),因為它需要大量不切實際的內(nèi)存和計算資源。為了解決性能問題,人們提出了不同的 3D 數(shù)據(jù)處理策略。目前,三種方法在 3D 目標(biāo)檢測領(lǐng)域占據(jù)主導(dǎo)地位:基于投票、基于 Transformer 和 3D 卷積。下面詳細討論這些方法;本文還提供了無錨方法的簡要概述。
Voting-based methods. : VoteNet 是第一個引入點投票進行 3D 目標(biāo)檢測的方法。 VoteNet 使用 PointNet 處理 3D 點,根據(jù)投票中心為每個候選對象分配一組點,并計算每個點組的對象特征。在 VoteNet 的眾多后繼者中,主要進展與應(yīng)用于 PointNet 功能的高級分組和投票策略相關(guān)。 BRNet 利用投票中心的代表點來細化投票結(jié)果,從而改善了對精細局部結(jié)構(gòu)特征的捕獲。 MLCVNet 在 VoteNet 的投票和分類階段引入了三個上下文模塊,以對不同級別的上下文信息進行編碼。 H3DNet 通過預(yù)測幾何基元的混合集來改進點組生成過程。 VENet 結(jié)合了注意力機制,并引入了通過新穎的投票吸引力損失訓(xùn)練的投票加權(quán)模塊。
所有類似 VoteNet 的基于投票的方法都受到設(shè)計的限制。首先,它們的可擴展性很差:由于它們的性能取決于輸入數(shù)據(jù)量,因此如果給定更大的場景,它們往往會變慢。此外,許多基于投票的方法將投票和分組策略實現(xiàn)為自定義層,這使得很難重現(xiàn)或調(diào)試這些方法或?qū)⑺鼈円浦驳揭苿釉O(shè)備。
Transformer-based methods. : 最近出現(xiàn)的基于 Transformer 的方法使用端到端學(xué)習(xí)和前向傳遞推理,而不是啟發(fā)式和優(yōu)化,這使得它們的領(lǐng)域特定性較低。 GroupFree 用Transformer模塊替換 VoteNet 頭,迭代更新對象查詢位置并集成中間檢測結(jié)果。 3DETR 是第一個作為端到端可訓(xùn)練Transformer實現(xiàn)的 3D 目標(biāo)檢測方法。然而,更先進的基于Transformer的方法仍然遇到類似于早期基于投票的方法的可擴展性問題。不同的是,本文的方法是全卷積的,因此比基于投票和基于Transformer的方法更快且更容易實現(xiàn)。
3D convolutional methods. : 體素表示允許有效處理立方增長的稀疏 3D 數(shù)據(jù)?;隗w素的 3D 目標(biāo)檢測方法將點轉(zhuǎn)換為體素并使用 3D 卷積網(wǎng)絡(luò)對其進行處理。然而,密集的體積特征仍然消耗大量內(nèi)存,并且 3D 卷積的計算成本很高??傮w而言,處理大型場景需要大量資源,并且無法在單遍內(nèi)完成。
GSDN 通過稀疏 3D 卷積解決性能問題。它具有編碼器-解碼器架構(gòu),編碼器和解碼器部分均由稀疏 3D 卷積塊構(gòu)建。與標(biāo)準(zhǔn)的基于卷積投票和基于Transformer的方法相比,GSDN 的內(nèi)存效率明顯更高,并且可以在不犧牲點密度的情況下擴展到大型場景。 GSDN 的主要弱點是它的準(zhǔn)確性:該方法在質(zhì)量方面與 VoteNet 相當(dāng),但明顯遜色于當(dāng)前最先進的技術(shù)。
GSDN 使用 15 個長寬比的 3D 對象邊界框作為錨點。如果 GSDN 在單一長寬比的無錨設(shè)置中進行訓(xùn)練,則準(zhǔn)確率會下降 12%。與 GSDN 不同,本文的方法是無錨的,同時利用稀疏 3D 卷積。
RGB-based anchor-free object detection. : 在 2D 物體檢測中,無錨方法是標(biāo)準(zhǔn)基于錨的方法的有力競爭對手。 FCOS 以每像素預(yù)測的方式解決 2D 對象檢測問題,并顯示出比其基于錨的前身 RetinaNet 的穩(wěn)健改進。 FCOS3D 通過添加用于單目 3D 目標(biāo)檢測的額外目標(biāo)來簡單地適應(yīng) FCOS。 ImVoxelNet 使用由標(biāo)準(zhǔn)(非稀疏)3D 卷積塊構(gòu)建的類似 FCOS 的頭部解決了同樣的問題。本文采用上述無錨方法的思想來處理稀疏的不規(guī)則數(shù)據(jù)。

Proposed Method

遵循標(biāo)準(zhǔn) 3D 檢測問題陳述,F(xiàn)CAF3D 接受 Npts RGB 顏色點并輸出一組 3D 對象邊界框。 FCAF3D 架構(gòu)由骨干、頸部和頭部組成(如圖 2 所示)。
[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)
在設(shè)計 FCAF3D 時,本文的目標(biāo)是可擴展性,因此選擇類似 GSDN 的稀疏卷積網(wǎng)絡(luò)。為了更好的泛化,減少了該網(wǎng)絡(luò)中需要手動調(diào)整的超參數(shù)的數(shù)量;具體來說,簡化了頸部的稀疏修剪。此外,引入了具有簡單的多級位置分配的無錨頭。最后,討論了現(xiàn)有 3D 邊界框參數(shù)化的局限性,并提出了一種新穎的參數(shù)化方法,可以提高準(zhǔn)確性和泛化能力。

Sparse Neural Network

Backbone. : FCAF3D 的主干是 ResNet 的稀疏修改,其中所有 2D 卷積都替換為稀疏 3D 卷積。 ResNet 的稀疏高維版本系列在 [4d spatio-temporal convnets] 中首次介紹;為簡潔起見,將它們稱為 HDResNet。
Neck. : 頸部是一個簡化的 GSDN 解碼器。每個級別的特征均使用一個稀疏轉(zhuǎn)置 3D 卷積和一個稀疏 3D 卷積進行處理。每個內(nèi)核大小為 2 的轉(zhuǎn)置稀疏 3D 卷積可能會將非零值的數(shù)量增加 23 倍。為了防止內(nèi)存快速增長,GSDN 使用剪枝層,通過概率掩碼過濾輸入。
在 GSDN 中,特征級別的概率是通過附加的卷積評分層來計算的。該層經(jīng)過特殊損失的訓(xùn)練,鼓勵預(yù)測的稀疏性和錨點之間的一致性。具體來說,如果與當(dāng)前體素關(guān)聯(lián)的任何后續(xù)錨點為正,則體素稀疏度設(shè)置為正。然而,使用這種損失可能不是最理想的,因為對象的遠處體素可能以較低的概率被分配。
為了簡單起見,刪除了具有相應(yīng)損失的評分層,并使用頭部分類層的概率。本文不調(diào)整概率閾值,而是保留最多 Nvox 體素來控制稀疏程度,其中 Nvox 等于輸入點 Npts 的數(shù)量。本文聲稱這是一種防止稀疏性增長的簡單而優(yōu)雅的方法,因為重用相同的超參數(shù)使過程更加透明和一致。
Head. : 無錨 FCAF3D 頭部由三個并行的稀疏卷積層組成,其權(quán)重在特征級別之間共享。對于每個位置(x、y、z),這些層分別輸出分類概率 p、邊界框回歸參數(shù) δ 和中心度 c。該設(shè)計類似于FCOS的簡單且輕量級的頭部,但適應(yīng)3D數(shù)據(jù)。
Multi-level location assignment. : 在訓(xùn)練期間,F(xiàn)CAF3D 輸出不同特征級別的位置 {(?x, ?y, ?z)},這些位置應(yīng)分配給地面真值框 。對于每個位置,F(xiàn)COS 和ImVoxelNet 考慮覆蓋該位置的地面真實邊界框,其面都在距離閾值內(nèi),選擇體積最小的邊界框,并將其分配給該位置。這種策略不是最理想的,其改變在 2D 目標(biāo)檢測中被廣泛探索。 ImVoxelNet 使用修改后的策略,需要手動調(diào)整每個特征級別的面部距離閾值。
本文提出了一種稀疏數(shù)據(jù)的簡化策略,不需要調(diào)整特定于數(shù)據(jù)集的超參數(shù)。對于每個邊界框,選擇該邊界框至少覆蓋 Nloc 位置的最后一個特征級別。如果沒有這樣的功能級別,選擇第一個。還通過中心采樣過濾位置,僅將邊界框中心附近的點視為正匹配。
通過分配,一些位置 {(x,y,z)} 與真實邊界框 bx,y,z 進行匹配。因此,這些位置與地面真實標(biāo)簽 p?x、?y、?z 和 3D 中心值 c?x、?y、?z 相關(guān)聯(lián)。在推理過程中,按照[Imvoxelnet]中的建議,在 NMS 之前將分數(shù) ^p 乘以 3D 中心度 ^c。
Loss function. : 總體損失函數(shù)公式如下:
[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)

Bounding Box Parametrization

3D 對象邊界框可以是軸對齊 (AABB) 或定向 (OBB)。 AABB 可以描述為 bAABB = (x, y, z, w, l, h),而 OBB 的定義包括航向角 θ: bOBB = (x, y, z, w, l, h, θ )。在兩個公式中,x、y、z 表示邊界框中心的坐標(biāo),而 w、l、h 分別表示邊界框的寬度、長度和高度。
AABB parametrization. : 對于 AABB,遵循[Imvoxelnet]中提出的參數(shù)化。具體來說,對于基本事實 AABB (x, y, z, w, l, h) 和位置 (?x, ?y, ?z),δ 可以表示為 6 元組:
[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)
Heading angle estimation. : 所有最先進的點云 3D 對象檢測方法都將航向角估計任務(wù)作為分類和回歸來解決。航向角分為bins;然后,在箱內(nèi)回歸精確的航向角。對于室內(nèi)場景,從 0 到 2π 的范圍通常分為 12 個相等的 bin 。對于室外場景,通常只有兩個容器[Second]、[Pointpillars],因為道路上的物體??可以與道路平行或垂直。
當(dāng)選擇航向角bin時,通過回歸來估計航向角值。 VoteNet 和其他基于投票的方法直接估計 θ 的值。戶外方法探索更復(fù)雜的方法,例如預(yù)測三角函數(shù)的值。例如,SMOKE 估計 sin θ 和 cos θ 并使用預(yù)測值來恢復(fù)航向角。
Proposed Mobius OBB parametrization. : 考慮帶有參數(shù) (x, y, z, w, l, h, θ) 的 OBB,表示 q = w/l 。如果 x, y, z, w+ l, h 固定,則 OBB 具有
[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)
定義相同的邊界框。本文注意到 (q, θ) 的集合,其中 θ ε (0, 2π], q ε (0, +inf) 在拓撲上等價于莫比烏斯帶直到這個等價關(guān)系。因此,可以重新表述將估計 (q, θ) 的任務(wù)作為預(yù)測莫比烏斯帶上的點的任務(wù)。將作為二維流形的莫比烏斯帶嵌入歐幾里德空間的自然方法如下:
[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)
總的來說,我們獲得了一種新穎的 OBB 參數(shù)化:
[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測,基于點云的三維目標(biāo)檢測,論文閱讀,3d,人工智能,目標(biāo)檢測,深度學(xué)習(xí)

結(jié)論

本文提出了 FCAF3D,這是一種用于室內(nèi)場景的一流全卷積無錨 3D 對象檢測方法。在 mAP 和推理速度方面,本文的方法在具有挑戰(zhàn)性的室內(nèi) SUN RGB-D、ScanNet 和 S3DIS 基準(zhǔn)測試中顯著優(yōu)于之前的最先進方法。還提出了一種新穎的定向邊界框參數(shù)化,并表明它提高了幾種 3D 對象檢測方法的準(zhǔn)確性。此外,所提出的參數(shù)化可以避免任何關(guān)于對象的先前假設(shè),從而減少超參數(shù)的數(shù)量??傮w而言,采用本文的邊界框參數(shù)化的 FCAF3D 同時具有準(zhǔn)確、可擴展和可推廣的特點。文章來源地址http://www.zghlxwxcb.cn/news/detail-777827.html

到了這里,關(guān)于[論文閱讀]FCAF3D——全卷積無錨 3D 物體檢測的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • FSOD論文閱讀 - 基于卷積和注意力機制的小樣本目標(biāo)檢測

    FSOD論文閱讀 - 基于卷積和注意力機制的小樣本目標(biāo)檢測

    標(biāo)題:基于卷積和注意力機制的小樣本目標(biāo)檢測 作者:郭永紅,牛海濤,史超,郭鋮 郭永紅,牛海濤,史超,郭鋮.基于卷積和注意力機制的小樣本目標(biāo)檢測 [J/OL].兵工學(xué)報. https://link.cnki.net/urlid/11.2176.TJ.20231108.1418.002 典型的FSOD使用Fast R-CNN作為基本的檢測框架 本文亮點:引入

    2024年01月24日
    瀏覽(29)
  • 基于可變形卷積和注意力機制的帶鋼表面缺陷快速檢測網(wǎng)絡(luò)DCAM-Net(論文閱讀筆記)

    基于可變形卷積和注意力機制的帶鋼表面缺陷快速檢測網(wǎng)絡(luò)DCAM-Net(論文閱讀筆記)

    原論文鏈接-DCAM-Net: A Rapid Detection Network for Strip Steel Surface Defects Based on Deformable Convolution and Attention Mechanism | IEEE Journals Magazine | IEEE Xplore DCAM-Net: A Rapid Detection Network for Strip Steel Surface Defects Based on Deformable Convolution and Attention Mechanism(論文標(biāo)題) 帶鋼 (the strip steel)表面缺陷檢測

    2024年02月04日
    瀏覽(30)
  • [論文閱讀]PillarNeXt——基于LiDAR點云的3D目標(biāo)檢測網(wǎng)絡(luò)設(shè)計

    [論文閱讀]PillarNeXt——基于LiDAR點云的3D目標(biāo)檢測網(wǎng)絡(luò)設(shè)計

    PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds 基于LiDAR點云的3D目標(biāo)檢測網(wǎng)絡(luò)設(shè)計 論文網(wǎng)址:PillarNeXt 代碼:PillarNeXt 這篇論文\\\"PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds\\\"重新思考了用于激光雷達點云3D目標(biāo)檢測的網(wǎng)絡(luò)設(shè)計。主要的貢獻

    2024年02月08日
    瀏覽(28)
  • [論文閱讀]MV3D——用于自動駕駛的多視角3D目標(biāo)檢測網(wǎng)絡(luò)

    [論文閱讀]MV3D——用于自動駕駛的多視角3D目標(biāo)檢測網(wǎng)絡(luò)

    Multi-View 3D Object Detection Network for Autonomous Driving 用于自動駕駛的多視角3D目標(biāo)檢測網(wǎng)絡(luò) 論文網(wǎng)址:MV3D 這篇論文提出了一個多視角3D目標(biāo)檢測網(wǎng)絡(luò)(MV3D),用于自動駕駛場景下高精度的3D目標(biāo)檢測。主要的創(chuàng)新點有: 提出了一種緊湊的多視角表示方法來編碼稀疏的3D點云數(shù)據(jù)。該方法

    2024年02月08日
    瀏覽(24)
  • 【論文閱讀】【3d目標(biāo)檢測】Embracing Single Stride 3D Object Detector with Sparse Transformer

    【論文閱讀】【3d目標(biāo)檢測】Embracing Single Stride 3D Object Detector with Sparse Transformer

    論文標(biāo)題:Embracing Single Stride 3D Object Detector with Sparse Transformer 源碼地址:https://github.com/TuSimple/SST CVPR2022 文章寫得很好! 文章從2d 3d目標(biāo)檢測目標(biāo)的尺寸的不同入手,在2d目標(biāo)檢測中確實由于圖像近大遠小的尺寸關(guān)系 存在著圖像中物體尺寸長尾的問題: 如coco數(shù)據(jù)集中,大小

    2023年04月15日
    瀏覽(25)
  • [論文閱讀]H3DNet——基于混合幾何基元的3D目標(biāo)檢測

    [論文閱讀]H3DNet——基于混合幾何基元的3D目標(biāo)檢測

    3D Object Detection Using Hybrid Geometric Primitives 論文網(wǎng)址:H3DNet 這篇論文提出了H3DNet,一個用于3D對象檢測的端到端神經(jīng)網(wǎng)絡(luò)。該方法的關(guān)鍵創(chuàng)新點是預(yù)測一個混合的、過完備的幾何基元集合(包括邊界框中心、面中心和邊中心),然后擬合檢測到的對象以契合這些原語及其相關(guān)特征。主

    2024年02月07日
    瀏覽(23)
  • [論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet

    [論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet

    MVX-Net: Multimodal VoxelNet for 3D Object Detection 基于3D目標(biāo)檢測的多模態(tài)VoxelNet 論文網(wǎng)址:MVX-Net 這篇論文主要提出了兩種多模態(tài)融合方法,PointFusion和VoxelFusion,用于將RGB圖像特征與點云特征結(jié)合,從而提高3D目標(biāo)檢測的性能。論文的主要內(nèi)容和貢獻總結(jié)如下: 提出了兩種簡單有效的多模

    2024年02月07日
    瀏覽(137)
  • [論文閱讀]MVF——基于 LiDAR 點云的 3D 目標(biāo)檢測的端到端多視圖融合

    [論文閱讀]MVF——基于 LiDAR 點云的 3D 目標(biāo)檢測的端到端多視圖融合

    End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds 論文網(wǎng)址:MVF 論文代碼: 這篇論文提出了一個端到端的多視角融合(Multi-View Fusion, MVF)算法,用于在激光雷達點云中進行3D目標(biāo)檢測。論文的主要貢獻有兩個: 提出了動態(tài)體素化(Dynamic Voxelization)的概念。相比傳統(tǒng)的硬體素

    2024年01月23日
    瀏覽(18)
  • [論文閱讀]Voxel R-CNN——邁向高性能基于體素的3D目標(biāo)檢測

    [論文閱讀]Voxel R-CNN——邁向高性能基于體素的3D目標(biāo)檢測

    Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection 邁向高性能基于體素的3D目標(biāo)檢測 論文網(wǎng)址:Voxel R-CNN 論文代碼:Voxel R-CNN 該論文提出了 Voxel R-CNN,這是一種基于體素的高性能 3D 對象檢測框架。作者認為,原始點的精確定位對于準(zhǔn)確的目標(biāo)檢測并不重要,粗體素粒度可

    2024年02月07日
    瀏覽(83)
  • 論文閱讀:通過時空生成卷積網(wǎng)絡(luò)合成動態(tài)模式(重點論文)

    論文閱讀:通過時空生成卷積網(wǎng)絡(luò)合成動態(tài)模式(重點論文)

    原文鏈接 github code 介紹視頻 視頻序列包含豐富的動態(tài)模式,例如在時域中表現(xiàn)出平穩(wěn)性的動態(tài)紋理模式,以及在空間或時域中表現(xiàn)出非平穩(wěn)的動作模式。 我們證明了時空生成卷積網(wǎng)絡(luò)可用于建模和合成動態(tài)模式。 該模型定義了視頻序列上的概率分布,對數(shù)概率由時空ConvN

    2024年01月19日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包