国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

這篇具有很好參考價(jià)值的文章主要介紹了【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

原文鏈接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html

1. 引言

本文使用概率去噪擴(kuò)散模型的技術(shù),提出完全可微的雷達(dá)-相機(jī)框架。使用校準(zhǔn)矩陣將雷達(dá)點(diǎn)云投影到圖像上后,在特征編碼器和BEV下的Transformer檢測(cè)解碼器中引入信息去噪。

在雷達(dá)-圖像編碼器中,首先使用去噪擴(kuò)散模型(DDM)作用于對(duì)齊的雷達(dá)特征,然后查詢高級(jí)語義特征進(jìn)行特征關(guān)聯(lián)。通過語義特征嵌入,DDM可以利用前景指導(dǎo)。逐點(diǎn)添加關(guān)聯(lián)的雷達(dá)特征和圖像特征,輸入到Transformer解碼器中。在Transformer解碼器中,也在2D與深度層面引入了查詢?nèi)ピ搿?/p>

3. 方法

【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection,擴(kuò)散模型與目標(biāo)檢測(cè),論文閱讀,目標(biāo)檢測(cè),自動(dòng)駕駛,深度學(xué)習(xí),計(jì)算機(jī)視覺
本文的框架分為兩個(gè)部分:(1)雷達(dá)-圖像特征編碼器:首先對(duì)齊雷達(dá)與圖像輸入,并通過全局注意力和帶語義嵌入的去噪擴(kuò)散模型進(jìn)行完全可微的雷達(dá)-圖像關(guān)聯(lián);(2)BEV解碼器:引入額外查詢,對(duì)物體的定位信息進(jìn)行去噪,解碼融合的BEV特征。

3.1 雷達(dá)-圖像關(guān)聯(lián)

圖像通過主干得到圖像特征 I F ∈ R N × C × H × W I_F\in\mathbb{R}^{N\times C\times H\times W} IF?RN×C×H×W。由于雷達(dá)缺少高度測(cè)量,使用CenterFusion中的柱體擴(kuò)張技術(shù),沿 z z z軸擴(kuò)張雷達(dá)點(diǎn)云。然后進(jìn)行多雷達(dá)和自車運(yùn)動(dòng)補(bǔ)償?shù)亩鄮e累,并投影到圖像上得到 R F R_F RF?。

3.2 使用DDM進(jìn)行全局感知的關(guān)聯(lián)

【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection,擴(kuò)散模型與目標(biāo)檢測(cè),論文閱讀,目標(biāo)檢測(cè),自動(dòng)駕駛,深度學(xué)習(xí),計(jì)算機(jī)視覺
帶語義嵌入的DDM:結(jié)構(gòu)如上圖所示。首先建立 從投影的擴(kuò)展雷達(dá)特征 到噪聲特征圖 的擴(kuò)散過程,然后訓(xùn)練模型進(jìn)行逆過程。去噪模型 ? θ \epsilon_\theta ?θ?為兩塊輕量級(jí)殘差塊(2D卷積 + ReLU + BN)。來自圖像的語義嵌入被添加到雷達(dá)特征上,并優(yōu)化馬爾科夫鏈的負(fù)對(duì)數(shù)似然,即對(duì)下式進(jìn)行梯度下降:
? θ ∥ ? ? ? θ ( α ˉ t R 0 + 1 ? α ˉ t ? , t , ? e ( I F ) ) ∥ 2 \nabla_\theta\|\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}R_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t,\phi_e(I_F))\|^2 ?θ????θ?(αˉt? ?R0?+1?αˉt? ??,t,?e?(IF?))2

其中 α ˉ t = ∏ i = 1 t , α t = 1 ? β t \bar\alpha_t=\prod_{i=1}^t,\alpha_t=1-\beta_t αˉt?=i=1t?,αt?=1?βt?, β t \beta_t βt?為前向擴(kuò)散過程第 t t t步的方差。 ? e \phi_e ?e?為語義特征的嵌入過程:首先對(duì)圖像特征進(jìn)行最大池化、clip到 ( 0 , 1 ) (0,1) (0,1),然后將特征分配到均勻離散化的 K K K個(gè)區(qū)間中并嵌入字典。

此外,由于本文是對(duì)含噪的雷達(dá)特征進(jìn)行去噪,因此不遵循傳統(tǒng)擴(kuò)散過程。DDM的推斷就是在語義嵌入的指導(dǎo)下,從雷達(dá)特征 R F R_F RF?到去噪特征 R d f R_{df} Rdf?的采樣過程:
R t ? 1 = 1 α t ( R t ? 1 ? α t 1 ? α ˉ t ? θ ( R t , t , ? e ( I F ) ) + σ t z ) R_{t-1}=\frac{1}{\sqrt{\alpha_t}}(R_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\epsilon_\theta(R_t,t,\phi_e(I_F))+\sigma_t z) Rt?1?=αt? ?1?(Rt??1?αˉt? ?1?αt???θ?(Rt?,t,?e?(IF?))+σt?z)

其中 σ t \sigma_t σt?為與步長相關(guān)的、無需訓(xùn)練的常數(shù); t > 1 t>1 t>1時(shí), z ~ N ( 0 , I ) z\sim N(0,I) zN(0,I), t = 1 t=1 t=1時(shí) z = 0 z=0 z=0

通過語義查詢關(guān)聯(lián):將圖像語義特征作為查詢與鍵,去噪雷達(dá)特征作為值,輸入注意力模塊:
X = ψ a t t a ( P q a ( I F ) , P k a ( I F ) , P v a ( R d f ) ) X=\psi^a_{att}(P_q^a(I_F),P^a_k(I_F),P_v^a(R_{df})) X=ψatta?(Pqa?(IF?),Pka?(IF?),Pva?(Rdf?))

其中 ψ a t t a \psi^a_{att} ψatta?表示注意力機(jī)制 + 輸出變形, P q , k , v a P^a_{q,k,v} Pq,k,va?表示拉直 + 投影。

然后,對(duì) X X X使用空間注意力 ψ a t t b \psi^b_{att} ψattb?(作用于 H × W H\times W H×W維度)和通道注意力 ψ a t t c \psi^c_{att} ψattc?(作用于 N × C N\times C N×C維度),得到 X S X_S XS? X C X_C XC?。
X S = ψ a t t b ( P q b ( X ) , P k b ( X ) , P v b ( X ) T ) X C T = ψ a t t c ( P q c ( X ) T , P k c ( X ) T , P v c ( X ) ) X_S=\psi^b_{att}(P_q^b(X),P^b_k(X),P_v^b(X)^T)\\ X_C^T=\psi^c_{att}(P_q^c(X)^T,P^c_k(X)^T,P_v^c(X)) XS?=ψattb?(Pqb?(X),Pkb?(X),Pvb?(X)T)XCT?=ψattc?(Pqc?(X)T,Pkc?(X)T,Pvc?(X))

其中 X , X S , X C ∈ R N × C × H × W X,X_S,X_C\in\mathbb{R}^{N\times C\times H\times W} X,XS?,XC?RN×C×H×W。最后將 X , X S , X C , I F X,X_S,X_C,I_F X,XS?,XC?,IF?相加得到融合特征 X f u X_{fu} Xfu?
X f u = X + γ S X S + γ C X C + I F X_{fu}=X+\gamma_SX_S+\gamma_CX_C+I_F Xfu?=X+γS?XS?+γC?XC?+IF?

3.3 帶定位去噪的BEV解碼器

對(duì)于使用Transformer解碼器的模型,引入3D邊界框中心回歸的查詢?nèi)ピ搿?/p>

使用 從帶高斯噪聲的物體標(biāo)簽 采樣得到的 D D D組去噪查詢,為每組分配 N D N_D ND?個(gè)查詢(足夠大),類似DN-DETR,為去噪查詢訓(xùn)練參數(shù)掩蔽的注意力操作,僅使用常規(guī)可學(xué)習(xí)查詢進(jìn)行3D邊界框的解碼。設(shè)初始化物體查詢?yōu)?span id="n5n3t3z" class="katex--inline"> Q 0 Q_0 Q0?,噪聲定位查詢 Q 0 x y z Q_0^{xyz} Q0xyz?,Transformer的第 i i i層為 ? i \phi_i ?i?,則
Q i + 1 = ? i ( ψ e n c ( X f u ) , Q i , Q i x y z ) Q_{i+1}=\phi_i(\psi_{enc}(X_{fu}),Q_i,Q_i^{xyz}) Qi+1?=?i?(ψenc?(Xfu?),Qi?,Qixyz?)

其中 ψ e n c \psi_{enc} ψenc?為特征投影。

DN-DETR的Transformer解碼器結(jié)構(gòu)如下圖所示,其輸入查詢包括去噪組查詢和可學(xué)習(xí)查詢。其中去噪組查詢是來自加噪的真值,在計(jì)算注意力時(shí)只能看到可學(xué)習(xí)查詢和本組去噪查詢;可學(xué)習(xí)查詢則只能看到可學(xué)習(xí)查詢。更新后的去噪組查詢用于恢復(fù)真值,計(jì)算重建損失;更新后的可學(xué)習(xí)查詢用于預(yù)測(cè)3D邊界框,損失計(jì)算與傳統(tǒng)的Transformer解碼器相同。
【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection,擴(kuò)散模型與目標(biāo)檢測(cè),論文閱讀,目標(biāo)檢測(cè),自動(dòng)駕駛,深度學(xué)習(xí),計(jì)算機(jī)視覺

3.4 去噪框架的損失函數(shù)

去噪查詢組與常規(guī)可學(xué)習(xí)查詢一樣,和融合特征交互,但不進(jìn)行匈牙利匹配,因?yàn)樗鼈兪窃谌ピ霚?zhǔn)備階段通過一對(duì)一匹配初始化得到的??倱p失為:
L = γ 1 L D D M + γ 2 L r e g + γ 3 L c l s + γ 4 L x y z \mathcal{L}=\gamma_1\mathcal{L}_{DDM}+\gamma_2\mathcal{L}_{reg}+\gamma_3\mathcal{L}_{cls}+\gamma_4\mathcal{L}_{xyz} L=γ1?LDDM?+γ2?Lreg?+γ3?Lcls?+γ4?Lxyz?

其中分類損失為focal損失,回歸損失為L1損失,xyz損失為DN-DETR中的重建損失。

4. 實(shí)驗(yàn)與結(jié)果

4.3 與基準(zhǔn)方案比較

在BEVDet、PETR與BEVFormer(均為圖像單一模態(tài)方法)的基礎(chǔ)上添加本文的去噪方法,性能均有提升,特別是在速度估計(jì)精度上。

4.4 與SotA比較

與不使用激光雷達(dá)數(shù)據(jù)作為監(jiān)督的方法(相機(jī)單一模態(tài)方法或雷達(dá)相機(jī)融合方法)相比,本文的方法能在NDS指標(biāo)上位列第一,且能大幅超過兩階段雷達(dá)相機(jī)融合方法CenterFusion和CRAFT。

4.5 網(wǎng)絡(luò)分析

去噪雷達(dá)-相機(jī)框架的分析:實(shí)驗(yàn)表明,在PETR的基礎(chǔ)上逐步添加雷達(dá)關(guān)聯(lián)、DDM、語義嵌入、2D查詢?nèi)ピ搿?D查詢?nèi)ピ耄苤鸩教岣咝阅堋?/p>

帶語義嵌入的DDM分析:若將DDM的輸入從原始雷達(dá)特征改為加噪雷達(dá)特征,性能會(huì)有所下降。這表明雷達(dá)傳感器自身具有的模糊特性。

雷達(dá)特征的分析:使用雷達(dá)的距離信息、速度信息對(duì)3D檢測(cè)有利,但進(jìn)一步添加RCS信息對(duì)性能沒有提升。文章來源地址http://www.zghlxwxcb.cn/news/detail-801231.html

到了這里,關(guān)于【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文筆記】Scene Reconstruction From 4D Radar Data with GAN and Diffusion

    【論文筆記】Scene Reconstruction From 4D Radar Data with GAN and Diffusion

    原文鏈接:https://kth.diva-portal.org/smash/get/diva2:1799731/FULLTEXT01.pdf 本文使用深度生成模型(DGM)實(shí)現(xiàn)以4D雷達(dá)為條件的圖像生成,以提供雷達(dá)數(shù)據(jù)的另一可視化方法并增強(qiáng)可解釋性。 實(shí)驗(yàn)中的雷達(dá)和RGB相機(jī)固定在路面上方并經(jīng)過時(shí)空同步。雷達(dá)和圖像的數(shù)據(jù)對(duì)會(huì)作為網(wǎng)絡(luò)的訓(xùn)練數(shù)

    2024年02月03日
    瀏覽(17)
  • Cross-Drone Transformer Network for Robust Single Object Tracking論文閱讀筆記

    Cross-Drone Transformer Network for Robust Single Object Tracking論文閱讀筆記

    無人機(jī)在各種應(yīng)用中得到了廣泛使用,例如航拍和軍事安全,這得益于它們與固定攝像機(jī)相比的高機(jī)動(dòng)性和廣闊視野。多 無人機(jī)追蹤系統(tǒng)可以通過從不同視角收集互補(bǔ)的視頻片段 ,為目標(biāo)提供豐富的信息,特別是當(dāng)目標(biāo)在某些視角中被遮擋或消失時(shí)。然而,在多無人機(jī)視覺

    2024年01月25日
    瀏覽(23)
  • MapTR:Structured Modeling and Learning for Online Vectorized HD Map Construction——論文筆記

    MapTR:Structured Modeling and Learning for Online Vectorized HD Map Construction——論文筆記

    參考代碼:MapTR 介紹:這篇文章提出了一種向量化高清地圖(vectorized HD map)構(gòu)建的方法,該方法將高清地圖中的元素(線條狀或是多邊形的)構(gòu)建為由一組點(diǎn)和帶方向邊的組合。由于點(diǎn)和方向邊在起始點(diǎn)未知的情況下其實(shí)是能對(duì)同一地圖元素夠成很多種表達(dá)的,對(duì)此文章對(duì)

    2024年02月15日
    瀏覽(29)
  • [論文閱讀筆記20]MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking

    [論文閱讀筆記20]MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking

    論文地址: https://arxiv.org/pdf/2303.10404.pdf 代碼: 未開源 目前是MOT20的第二名 這篇文章著力于解決 長時(shí) 跟蹤的問題. 當(dāng)前大多數(shù)方法只能依靠Re-ID特征來進(jìn)行長時(shí)跟蹤, 也就是軌跡長期丟失后的再識(shí)別. 然而, Re-ID特征并不總是有效的. 尤其是在擁擠和極度遮擋的情況下. 為此, 這篇

    2024年02月16日
    瀏覽(28)
  • 【論文閱讀】以及部署B(yǎng)EVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

    【論文閱讀】以及部署B(yǎng)EVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

    BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework BEVFusion:一個(gè)簡單而強(qiáng)大的LiDAR-相機(jī)融合框架 NeurIPS 2022 多模態(tài)傳感器融合意味著信息互補(bǔ)、穩(wěn)定,是自動(dòng)駕駛感知的重要一環(huán),本文注重工業(yè)落地,實(shí)際應(yīng)用 融合方案: 前融合(數(shù)據(jù)級(jí)融合)指通過空間對(duì)齊直接融合不同模態(tài)的

    2024年02月04日
    瀏覽(52)
  • 【論文筆記】UniVision: A Unified Framework for Vision-Centric 3D Perception

    【論文筆記】UniVision: A Unified Framework for Vision-Centric 3D Perception

    原文鏈接:https://arxiv.org/pdf/2401.06994.pdf 目前,同時(shí)處理基于圖像的3D檢測(cè)任務(wù)和占用預(yù)測(cè)任務(wù)還未得到充分探索。3D占用預(yù)測(cè)需要細(xì)粒度信息,多使用體素表達(dá);而3D檢測(cè)多使用BEV表達(dá),因其更加高效。 本文提出UniVision,同時(shí)處理3D檢測(cè)與占用預(yù)測(cè)任務(wù)的統(tǒng)一網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)為

    2024年02月19日
    瀏覽(17)
  • 論文筆記--OpenPrompt: An Open-source Framework for Prompt-learning

    論文筆記--OpenPrompt: An Open-source Framework for Prompt-learning

    標(biāo)題:OpenPrompt: An Open-source Framework for Prompt-learning 作者:Ning Ding, Shengding Hu, Weilin Zhao, Yulin Chen, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun 日期:2022 期刊:ACL ??文章介紹了一種開源的工具OpenPrompt,該工具將prompt-learning的一些操作進(jìn)行封裝處理,設(shè)計(jì)成為一種用戶友好的開源三方庫,使

    2024年02月17日
    瀏覽(47)
  • 【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

    【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

    原文鏈接:https://arxiv.org/abs/2303.10076 本文提出基于環(huán)視圖像進(jìn)行3D占用估計(jì)的簡單框架,探索了網(wǎng)絡(luò)設(shè)計(jì)、優(yōu)化和評(píng)估。網(wǎng)絡(luò)設(shè)計(jì)方面,雖然輸出形式與單目深度估計(jì)和立體匹配不同,但網(wǎng)絡(luò)結(jié)構(gòu)與立體匹配網(wǎng)絡(luò)相似(如下圖所示),可以使用立體匹配的經(jīng)驗(yàn)設(shè)計(jì)網(wǎng)絡(luò)。優(yōu)化

    2024年02月02日
    瀏覽(21)
  • 論文筆記--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    論文筆記--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    標(biāo)題:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 作者:Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang 日期:2020 期刊:AAAI ??文章給出了一種新的NLP預(yù)訓(xùn)練模型的訓(xùn)練方法,并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE

    2024年02月09日
    瀏覽(37)
  • Benchmarking Augmentation Methods for Learning Robust Navigation Agents 論文閱讀

    Benchmarking Augmentation Methods for Learning Robust Navigation Agents 論文閱讀

    題目 :Benchmarking Augmentation Methods for Learning Robust Navigation Agents: the Winning Entry of the 2021 iGibson Challenge 作者 :Naoki Yokoyama, Qian Luo 來源 :arXiv 時(shí)間 :2022 深度強(qiáng)化學(xué)習(xí)和可擴(kuò)展的真實(shí)感模擬的最新進(jìn)展使得用于各種視覺任務(wù)(包括導(dǎo)航)的具體人工智能日益成熟。然而,雖然在

    2024年02月14日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包