国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

3D目標(biāo)識別|SFD|多模態(tài)|CVPR2022

這篇具有很好參考價值的文章主要介紹了3D目標(biāo)識別|SFD|多模態(tài)|CVPR2022。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

論文標(biāo)題:Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion
論文鏈接
Code: 還未開源
**動機:**室外點云+圖像的方法沒有純點云的方法效果好,主要有兩個原因(1)多模態(tài)的數(shù)據(jù)增廣不好做(2)因為現(xiàn)在方法大多是從點云找對應(yīng)的圖像融合特征,但是點云能對應(yīng)上的像素點比較少,因此沒有完全利用好圖像的特征。

**解決方法:**對圖像上的像素點進行深度補全(深度補全網(wǎng)絡(luò):Penet: Towards precise and efficient image guided depth completion,在Kitti上預(yù)訓(xùn)練后再訓(xùn)練目標(biāo)檢測網(wǎng)絡(luò)時不再改變參數(shù)),有了深度信息就生成了新的pseudo clouds,點云就變得Dense了,而且每個像素都有了對應(yīng)的point.然后使用稠密的包含顏色信息的偽點云進行特征提取,和純點云的特征融合,進行3D目標(biāo)檢測。對于數(shù)據(jù)增廣,在偽點云中做數(shù)據(jù)增廣后投影到圖像上會有遮擋的情況出校,因此不是將整個點云投影回去,而是在經(jīng)過RPN有了ROI之后將ROI投影回去,就不會有遮擋的情況發(fā)生了。

**總結(jié):**這篇文章首次將原始點云和基于圖像和點云Depth Comopletion生成的偽點云進行融合,提出了3D-GAF和CPFE模塊以及同步數(shù)據(jù)增強在KITTI上取得了sota,實驗也表明該方法對Depth Comopletion具有魯棒性,整個pipeline可以作為一個Frame

Abstract
稀疏點云由于缺乏幾何和語義信息造成檢測性能下降,為了提高遠處和被遮擋的點云的檢測質(zhì)量,本文提出利用深度補全基于稀疏點云和圖像生成偽點云與原始點云融合的方式的多模態(tài)融合框架SFD,同時提出三個創(chuàng)新點:

1.3D-GAF:這是一種新的RoI特征融合方法,在網(wǎng)格級進行特征融合同時融入注意力機制

2.CPFE:基于圖像做空洞近鄰搜索,在偽點云中同時融合3D幾何特征與2D語義特征

3.SynAugment:在偽點云和原始點云中同步數(shù)據(jù)增強

Introduction

說明在遠處和被遮擋的區(qū)域稀疏點云會造成檢測困難,同時總結(jié)目前多模態(tài)融合方法比純lidar方法性差的主要原因:

1.維度差異: 圖像是規(guī)則的高分辨率的2維數(shù)據(jù),點云是稀疏的3維數(shù)據(jù)

2.信息損失:根據(jù)外參將點云投影到圖像上找點云特征會由于點云的稀疏性造成圖像的信息的損失

3.數(shù)據(jù)增強: 由于點云和圖像存在對應(yīng)關(guān)系,純lidar的數(shù)據(jù)增強方法難以直接應(yīng)用

Method
1.整體網(wǎng)絡(luò)結(jié)構(gòu)

3D目標(biāo)識別|SFD|多模態(tài)|CVPR2022
整個網(wǎng)絡(luò)主要由3部分組成: LiDAR Stream, Pseudo Stream and Sparse Dense Fusion Head

LiDAR Stream:處理原始點云,獲取RoI

Pseudo Stream:首先結(jié)合點云稀疏投影和原始圖像做Depth Completion生成帶有顏色的偽點云,然后根據(jù)LiDAR Stream:的RoI截取點云特征,通過CPFE模塊提取特征,最后voxelize并利用sparse convolution進一步提取特征

Sparse Dense Fusion Head:在3D-GAF中融合原始點云和偽點云RoI特征

最后根據(jù)融合特征進行預(yù)測,回歸損失采用3D GIoU損失,同時增加輔助分支去正則化網(wǎng)絡(luò)(在inference階段去除)

2.3D-GAF
3D目標(biāo)識別|SFD|多模態(tài)|CVPR2022

3D-GAF與MMF相比在網(wǎng)格級的細粒度(fine-grained)上進行融合,同時Attention機制,可以避免之前的在2D平面融合因遮擋產(chǎn)生的特征混淆。
3D目標(biāo)識別|SFD|多模態(tài)|CVPR2022
在Attention中通過FC層學(xué)習(xí)權(quán)重,相乘后在拼接。
3.CPFE
3D目標(biāo)識別|SFD|多模態(tài)|CVPR2022
這里受到Voxel RCNN的啟發(fā),在圖像域(image domain)上進行空洞近鄰查找,在提高receptive field的同時,可以在constant time內(nèi)完成查找,

其次,在image domain上的近鄰可以提取圖像的2D特征,同時根據(jù)偽點云的(u, v)坐標(biāo)可以容易地找到其在圖像上的近鄰 (這里在2D圖像上進行查找是否考慮存在遮擋問題???)

在查找到每個點的k個近鄰后,利用pointnet提取Pseudo Point Features ,同時計算該點與附近點的Position Residuals,利用pointnet提取局部特征作為weight與Pseudo Point Features相乘(類似Attention機制)
這里構(gòu)成了CPC模塊
CPFE模塊是CPConvs的多尺度堆疊,融合高低層次特征

4.Synchronized Augmentation
3D目標(biāo)識別|SFD|多模態(tài)|CVPR2022
對點云和偽點云同步數(shù)據(jù)增強

5.結(jié)果
3D目標(biāo)識別|SFD|多模態(tài)|CVPR2022
在遮擋,遠距離和前景與背景形狀相似的情況下,本方法均有提升

reference
論文閱讀 SFD: Toward High Quality 3D Detection With Depth Completion
3D目標(biāo)檢測 |SFD| 室外 | 多模態(tài)| CVPR2022文章來源地址http://www.zghlxwxcb.cn/news/detail-412994.html

到了這里,關(guān)于3D目標(biāo)識別|SFD|多模態(tài)|CVPR2022的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • [論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet

    [論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet

    MVX-Net: Multimodal VoxelNet for 3D Object Detection 基于3D目標(biāo)檢測的多模態(tài)VoxelNet 論文網(wǎng)址:MVX-Net 這篇論文主要提出了兩種多模態(tài)融合方法,PointFusion和VoxelFusion,用于將RGB圖像特征與點云特征結(jié)合,從而提高3D目標(biāo)檢測的性能。論文的主要內(nèi)容和貢獻總結(jié)如下: 提出了兩種簡單有效的多模

    2024年02月07日
    瀏覽(136)
  • (CVPR 2018) 3D Semantic Segmentation with Submanifold Sparse Convolutional Networks

    卷積網(wǎng)絡(luò)是分析圖像、視頻和3D形狀等時空數(shù)據(jù)的事實標(biāo)準(zhǔn)。雖然其中一些數(shù)據(jù)自然密集(例如照片),但許多其他數(shù)據(jù)源本質(zhì)上是稀疏的。示例包括使用LiDAR掃描儀或RGB-D相機獲得的3D點云。當(dāng)應(yīng)用于此類稀疏數(shù)據(jù)時,卷積網(wǎng)絡(luò)的標(biāo)準(zhǔn)“密集”實現(xiàn)非常低效。我們引入了新的

    2023年04月08日
    瀏覽(24)
  • (CVPR-2023)通過有效的時空特征融合進行多模態(tài)步態(tài)識別

    (CVPR-2023)通過有效的時空特征融合進行多模態(tài)步態(tài)識別

    paper題目:Multi-modal Gait Recognition via Effective Spatial-Temporal Feature Fusion paper是北航發(fā)表在CVPR 2023的工作 paper地址 步態(tài)識別是一種生物識別技術(shù),通過步行模式識別人?;诩粲暗姆椒ê突诠羌艿姆椒ㄊ莾煞N最流行的方法。但是剪影數(shù)據(jù)容易受到衣服遮擋的影響,骨架數(shù)據(jù)缺乏

    2024年02月08日
    瀏覽(20)
  • 【多模態(tài)】21、BARON | 通過引入大量 regions 來提升模型開放詞匯目標(biāo)檢測能力(CVPR2021)

    【多模態(tài)】21、BARON | 通過引入大量 regions 來提升模型開放詞匯目標(biāo)檢測能力(CVPR2021)

    論文:Aligning Bag of Regions for Open-Vocabulary Object Detection 代碼:https://github.com/wusize/ovdet 出處:CVPR2023 傳統(tǒng)目標(biāo)檢測器只能識別特定的類別,開放詞匯目標(biāo)檢測由于不受預(yù)訓(xùn)練類別的限制,能夠檢測任意類別的目標(biāo),而受到了很多關(guān)注 針對 OVD 問題的一個典型解決方案就是基于蒸

    2024年02月15日
    瀏覽(23)
  • CVPR2023最新論文 (含語義分割、擴散模型、多模態(tài)、預(yù)訓(xùn)練、MAE等方向)

    CVPR2023最新論文 (含語義分割、擴散模型、多模態(tài)、預(yù)訓(xùn)練、MAE等方向)

    2023 年 2 月 28 日凌晨,CVPR 2023 頂會論文接收結(jié)果出爐! CVPR 2023 收錄的工作中 \\\" 擴散模型、多模態(tài)、預(yù)訓(xùn)練、MAE \\\" 相關(guān)工作的數(shù)量會顯著增長。 Delivering Arbitrary-Modal Semantic Segmentation 論文/Paper: http://arxiv.org/pdf/2303.01480 代碼/Code: None Conflict-Based Cross-View Consistency for Semi-Supervised

    2023年04月08日
    瀏覽(29)
  • CVPR 2022: 圖像分割論文大盤點

    CVPR 2022: 圖像分割論文大盤點

    本文盤點了CVPR 2022 目前為止的2D圖像分割相關(guān)論文,包含語義分割和實例分割,總計22篇論文,值得學(xué)習(xí)。 (1) ReSTR: Convolution-free Referring Image Segmentation Using Transformers 論文:https://arxiv.org/pdf/2203.16768.pdf 代碼:暫無 (2) Bending Reality: Distortion-aware Transformers for Adapting to Panoramic Sema

    2024年02月12日
    瀏覽(93)
  • ?CVPR2023 | MSMDFusion: 激光雷達-相機融合的3D多模態(tài)檢測新思路(Nuscenes SOTA?。?..

    ?CVPR2023 | MSMDFusion: 激光雷達-相機融合的3D多模態(tài)檢測新思路(Nuscenes SOTA?。?..

    點擊下方 卡片 ,關(guān)注“ 自動駕駛之心 ”公眾號 ADAS巨卷干貨,即可獲取 點擊進入→ 自動駕駛之心【3D目標(biāo)檢測】技術(shù)交流群 后臺回復(fù) 【3D檢測綜述】 獲取最新基于點云/BEV/圖像的3D檢測綜述! 融合激光雷達和相機信息對于在自動駕駛系統(tǒng)中實現(xiàn)準(zhǔn)確可靠的3D目標(biāo)檢測至關(guān)重

    2023年04月21日
    瀏覽(89)
  • HumanNeRF(CVPR2022 oral)-人體重建論文閱讀

    HumanNeRF(CVPR2022 oral)-人體重建論文閱讀

    論文: 《HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video》 github: https://github.com/chungyiweng/humannerf 作者提出HumanNeRF,給出復(fù)雜動作人體單視角視頻,暫停任一幀渲染出任意視角下該人體,甚至360度視角下該人體; HumanNeRF優(yōu)化了人在標(biāo)準(zhǔn)T姿勢下的表征,與運動場相一致,

    2024年02月15日
    瀏覽(641)
  • Latent Diffusion(CVPR2022 oral)-論文閱讀

    Latent Diffusion(CVPR2022 oral)-論文閱讀

    論文: 《High-Resolution Image Synthesis with Latent Diffusion Models》 github: https://github.com/CompVis/latent-diffusion 為了使得DM在有限計算資源下訓(xùn)練,同時保留其生成質(zhì)量及靈活性,作者將其應(yīng)用于預(yù)訓(xùn)練編解碼器的隱空間。基于表征訓(xùn)練擴散模型達到降低計算量及細節(jié)保留的最優(yōu)點。作者

    2024年02月11日
    瀏覽(95)
  • TPS Motion(CVPR2022)視頻生成論文解讀

    TPS Motion(CVPR2022)視頻生成論文解讀

    論文: 《Thin-Plate Spline Motion Model for Image Animation》 github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model 問題: 盡管當(dāng)前有些工作使用無監(jiān)督方法進可行任意目標(biāo)姿態(tài)遷移,但是當(dāng)源圖與目標(biāo)圖差異大時,對當(dāng)前無監(jiān)督方案來說仍然具有挑戰(zhàn)。 方法: 本文提出無監(jiān)督TPS Motio

    2023年04月11日
    瀏覽(102)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包