原文鏈接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html
1. 引言
本文使用概率去噪擴(kuò)散模型的技術(shù),提出完全可微的雷達(dá)-相機(jī)框架。使用校準(zhǔn)矩陣將雷達(dá)點(diǎn)云投影到圖像上后,在特征編碼器和BEV下的Transformer檢測(cè)解碼器中引入信息去噪。
在雷達(dá)-圖像編碼器中,首先使用去噪擴(kuò)散模型(DDM)作用于對(duì)齊的雷達(dá)特征,然后查詢高級(jí)語義特征進(jìn)行特征關(guān)聯(lián)。通過語義特征嵌入,DDM可以利用前景指導(dǎo)。逐點(diǎn)添加關(guān)聯(lián)的雷達(dá)特征和圖像特征,輸入到Transformer解碼器中。在Transformer解碼器中,也在2D與深度層面引入了查詢?nèi)ピ搿?/p>
3. 方法
本文的框架分為兩個(gè)部分:(1)雷達(dá)-圖像特征編碼器:首先對(duì)齊雷達(dá)與圖像輸入,并通過全局注意力和帶語義嵌入的去噪擴(kuò)散模型進(jìn)行完全可微的雷達(dá)-圖像關(guān)聯(lián);(2)BEV解碼器:引入額外查詢,對(duì)物體的定位信息進(jìn)行去噪,解碼融合的BEV特征。
3.1 雷達(dá)-圖像關(guān)聯(lián)
圖像通過主干得到圖像特征 I F ∈ R N × C × H × W I_F\in\mathbb{R}^{N\times C\times H\times W} IF?∈RN×C×H×W。由于雷達(dá)缺少高度測(cè)量,使用CenterFusion中的柱體擴(kuò)張技術(shù),沿 z z z軸擴(kuò)張雷達(dá)點(diǎn)云。然后進(jìn)行多雷達(dá)和自車運(yùn)動(dòng)補(bǔ)償?shù)亩鄮e累,并投影到圖像上得到 R F R_F RF?。
3.2 使用DDM進(jìn)行全局感知的關(guān)聯(lián)
帶語義嵌入的DDM:結(jié)構(gòu)如上圖所示。首先建立 從投影的擴(kuò)展雷達(dá)特征 到噪聲特征圖 的擴(kuò)散過程,然后訓(xùn)練模型進(jìn)行逆過程。去噪模型
?
θ
\epsilon_\theta
?θ?為兩塊輕量級(jí)殘差塊(2D卷積 + ReLU + BN)。來自圖像的語義嵌入被添加到雷達(dá)特征上,并優(yōu)化馬爾科夫鏈的負(fù)對(duì)數(shù)似然,即對(duì)下式進(jìn)行梯度下降:
?
θ
∥
?
?
?
θ
(
α
ˉ
t
R
0
+
1
?
α
ˉ
t
?
,
t
,
?
e
(
I
F
)
)
∥
2
\nabla_\theta\|\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}R_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t,\phi_e(I_F))\|^2
?θ?∥???θ?(αˉt??R0?+1?αˉt???,t,?e?(IF?))∥2
其中 α ˉ t = ∏ i = 1 t , α t = 1 ? β t \bar\alpha_t=\prod_{i=1}^t,\alpha_t=1-\beta_t αˉt?=∏i=1t?,αt?=1?βt?, β t \beta_t βt?為前向擴(kuò)散過程第 t t t步的方差。 ? e \phi_e ?e?為語義特征的嵌入過程:首先對(duì)圖像特征進(jìn)行最大池化、clip到 ( 0 , 1 ) (0,1) (0,1),然后將特征分配到均勻離散化的 K K K個(gè)區(qū)間中并嵌入字典。
此外,由于本文是對(duì)含噪的雷達(dá)特征進(jìn)行去噪,因此不遵循傳統(tǒng)擴(kuò)散過程。DDM的推斷就是在語義嵌入的指導(dǎo)下,從雷達(dá)特征
R
F
R_F
RF?到去噪特征
R
d
f
R_{df}
Rdf?的采樣過程:
R
t
?
1
=
1
α
t
(
R
t
?
1
?
α
t
1
?
α
ˉ
t
?
θ
(
R
t
,
t
,
?
e
(
I
F
)
)
+
σ
t
z
)
R_{t-1}=\frac{1}{\sqrt{\alpha_t}}(R_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\epsilon_\theta(R_t,t,\phi_e(I_F))+\sigma_t z)
Rt?1?=αt??1?(Rt??1?αˉt??1?αt???θ?(Rt?,t,?e?(IF?))+σt?z)
其中 σ t \sigma_t σt?為與步長相關(guān)的、無需訓(xùn)練的常數(shù); t > 1 t>1 t>1時(shí), z ~ N ( 0 , I ) z\sim N(0,I) z~N(0,I), t = 1 t=1 t=1時(shí) z = 0 z=0 z=0。
通過語義查詢關(guān)聯(lián):將圖像語義特征作為查詢與鍵,去噪雷達(dá)特征作為值,輸入注意力模塊:
X
=
ψ
a
t
t
a
(
P
q
a
(
I
F
)
,
P
k
a
(
I
F
)
,
P
v
a
(
R
d
f
)
)
X=\psi^a_{att}(P_q^a(I_F),P^a_k(I_F),P_v^a(R_{df}))
X=ψatta?(Pqa?(IF?),Pka?(IF?),Pva?(Rdf?))
其中 ψ a t t a \psi^a_{att} ψatta?表示注意力機(jī)制 + 輸出變形, P q , k , v a P^a_{q,k,v} Pq,k,va?表示拉直 + 投影。
然后,對(duì)
X
X
X使用空間注意力
ψ
a
t
t
b
\psi^b_{att}
ψattb?(作用于
H
×
W
H\times W
H×W維度)和通道注意力
ψ
a
t
t
c
\psi^c_{att}
ψattc?(作用于
N
×
C
N\times C
N×C維度),得到
X
S
X_S
XS?與
X
C
X_C
XC?。
X
S
=
ψ
a
t
t
b
(
P
q
b
(
X
)
,
P
k
b
(
X
)
,
P
v
b
(
X
)
T
)
X
C
T
=
ψ
a
t
t
c
(
P
q
c
(
X
)
T
,
P
k
c
(
X
)
T
,
P
v
c
(
X
)
)
X_S=\psi^b_{att}(P_q^b(X),P^b_k(X),P_v^b(X)^T)\\ X_C^T=\psi^c_{att}(P_q^c(X)^T,P^c_k(X)^T,P_v^c(X))
XS?=ψattb?(Pqb?(X),Pkb?(X),Pvb?(X)T)XCT?=ψattc?(Pqc?(X)T,Pkc?(X)T,Pvc?(X))
其中
X
,
X
S
,
X
C
∈
R
N
×
C
×
H
×
W
X,X_S,X_C\in\mathbb{R}^{N\times C\times H\times W}
X,XS?,XC?∈RN×C×H×W。最后將
X
,
X
S
,
X
C
,
I
F
X,X_S,X_C,I_F
X,XS?,XC?,IF?相加得到融合特征
X
f
u
X_{fu}
Xfu?:
X
f
u
=
X
+
γ
S
X
S
+
γ
C
X
C
+
I
F
X_{fu}=X+\gamma_SX_S+\gamma_CX_C+I_F
Xfu?=X+γS?XS?+γC?XC?+IF?
3.3 帶定位去噪的BEV解碼器
對(duì)于使用Transformer解碼器的模型,引入3D邊界框中心回歸的查詢?nèi)ピ搿?/p>
使用 從帶高斯噪聲的物體標(biāo)簽 采樣得到的
D
D
D組去噪查詢,為每組分配
N
D
N_D
ND?個(gè)查詢(足夠大),類似DN-DETR,為去噪查詢訓(xùn)練參數(shù)掩蔽的注意力操作,僅使用常規(guī)可學(xué)習(xí)查詢進(jìn)行3D邊界框的解碼。設(shè)初始化物體查詢?yōu)?span id="n5n3t3z" class="katex--inline">
Q
0
Q_0
Q0?,噪聲定位查詢
Q
0
x
y
z
Q_0^{xyz}
Q0xyz?,Transformer的第
i
i
i層為
?
i
\phi_i
?i?,則
Q
i
+
1
=
?
i
(
ψ
e
n
c
(
X
f
u
)
,
Q
i
,
Q
i
x
y
z
)
Q_{i+1}=\phi_i(\psi_{enc}(X_{fu}),Q_i,Q_i^{xyz})
Qi+1?=?i?(ψenc?(Xfu?),Qi?,Qixyz?)
其中 ψ e n c \psi_{enc} ψenc?為特征投影。
DN-DETR的Transformer解碼器結(jié)構(gòu)如下圖所示,其輸入查詢包括去噪組查詢和可學(xué)習(xí)查詢。其中去噪組查詢是來自加噪的真值,在計(jì)算注意力時(shí)只能看到可學(xué)習(xí)查詢和本組去噪查詢;可學(xué)習(xí)查詢則只能看到可學(xué)習(xí)查詢。更新后的去噪組查詢用于恢復(fù)真值,計(jì)算重建損失;更新后的可學(xué)習(xí)查詢用于預(yù)測(cè)3D邊界框,損失計(jì)算與傳統(tǒng)的Transformer解碼器相同。
3.4 去噪框架的損失函數(shù)
去噪查詢組與常規(guī)可學(xué)習(xí)查詢一樣,和融合特征交互,但不進(jìn)行匈牙利匹配,因?yàn)樗鼈兪窃谌ピ霚?zhǔn)備階段通過一對(duì)一匹配初始化得到的??倱p失為:
L
=
γ
1
L
D
D
M
+
γ
2
L
r
e
g
+
γ
3
L
c
l
s
+
γ
4
L
x
y
z
\mathcal{L}=\gamma_1\mathcal{L}_{DDM}+\gamma_2\mathcal{L}_{reg}+\gamma_3\mathcal{L}_{cls}+\gamma_4\mathcal{L}_{xyz}
L=γ1?LDDM?+γ2?Lreg?+γ3?Lcls?+γ4?Lxyz?
其中分類損失為focal損失,回歸損失為L1損失,xyz損失為DN-DETR中的重建損失。
4. 實(shí)驗(yàn)與結(jié)果
4.3 與基準(zhǔn)方案比較
在BEVDet、PETR與BEVFormer(均為圖像單一模態(tài)方法)的基礎(chǔ)上添加本文的去噪方法,性能均有提升,特別是在速度估計(jì)精度上。
4.4 與SotA比較
與不使用激光雷達(dá)數(shù)據(jù)作為監(jiān)督的方法(相機(jī)單一模態(tài)方法或雷達(dá)相機(jī)融合方法)相比,本文的方法能在NDS指標(biāo)上位列第一,且能大幅超過兩階段雷達(dá)相機(jī)融合方法CenterFusion和CRAFT。
4.5 網(wǎng)絡(luò)分析
去噪雷達(dá)-相機(jī)框架的分析:實(shí)驗(yàn)表明,在PETR的基礎(chǔ)上逐步添加雷達(dá)關(guān)聯(lián)、DDM、語義嵌入、2D查詢?nèi)ピ搿?D查詢?nèi)ピ耄苤鸩教岣咝阅堋?/p>
帶語義嵌入的DDM分析:若將DDM的輸入從原始雷達(dá)特征改為加噪雷達(dá)特征,性能會(huì)有所下降。這表明雷達(dá)傳感器自身具有的模糊特性。文章來源:http://www.zghlxwxcb.cn/news/detail-801231.html
雷達(dá)特征的分析:使用雷達(dá)的距離信息、速度信息對(duì)3D檢測(cè)有利,但進(jìn)一步添加RCS信息對(duì)性能沒有提升。文章來源地址http://www.zghlxwxcb.cn/news/detail-801231.html
到了這里,關(guān)于【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!