論文背景
自動(dòng)駕駛(AD)任務(wù)通常分為感知、預(yù)測(cè)和規(guī)劃。在傳統(tǒng)范式中,AD中的每個(gè)學(xué)習(xí)模塊分別使用自己的主干,獨(dú)立地學(xué)習(xí)任務(wù)。
以前,基于端到端學(xué)習(xí)的方法通?;谕敢曇晥D相機(jī)和激光雷達(dá)信息直接輸出控制命令或軌跡.
論文提出了基于BEV多模態(tài)的多任務(wù)端到端學(xué)習(xí)框架,專注于自動(dòng)駕駛的預(yù)測(cè)和規(guī)劃任務(wù)。
Bev 感知
基于相機(jī)的BEV方法將多視圖相機(jī)圖像特征轉(zhuǎn)換到BEV空間中,從而實(shí)現(xiàn)端到端感知,而無(wú)需對(duì)重疊區(qū)域進(jìn)行后處理。但是基于相機(jī)的感知方法距離感知精度不足,激光雷達(dá)可以提供準(zhǔn)確的位置信息。將多模態(tài)特征轉(zhuǎn)換到BEV空間中有助于融合這些特征。
BEV 融合將通過(guò) LSS 方法獲得的圖像BEV特征與通過(guò) Voxelnet 獲得的 LiDAR BEV 特征連接起來(lái),以獲得融合的BEV特征,這提高了感知性能。SuperFusion 進(jìn)一步提出了基于多模態(tài)地圖感知的多階段融合。
運(yùn)動(dòng)預(yù)測(cè)
繼 VectorNet 之后,主流運(yùn)動(dòng)預(yù)測(cè)(或軌跡預(yù)測(cè))方法通常利用 HD 地圖和基于矢量的障礙表示來(lái)預(yù)測(cè)智能體的未來(lái)軌跡;在此基礎(chǔ)上,LaneGCN 和 PAGA 通過(guò)細(xì)化的地圖要素(如車道連接屬性)增強(qiáng)軌跡地圖匹配;此外,某些基于錨點(diǎn)的方法對(duì)地圖附近的目標(biāo)點(diǎn)進(jìn)行采樣,從而能夠基于這些點(diǎn)進(jìn)行軌跡預(yù)測(cè)。但是這些方法在很大程度上依賴于預(yù)先收集的高清地圖,這使得它們不適合地圖不可用的地區(qū)。矢量化預(yù)測(cè)方法往往缺乏高層語(yǔ)義信息,需要高清地圖。
PnPNet 提出了一種新的跟蹤模塊,該模塊從檢測(cè)中在線生成對(duì)象軌跡,并利用軌跡級(jí)特征進(jìn)行運(yùn)動(dòng)預(yù)測(cè),但其整體框架基于CNN,運(yùn)動(dòng)預(yù)測(cè)模塊相對(duì)簡(jiǎn)單,只有單模輸出。由于 Transformer 被應(yīng)用于檢測(cè)和跟蹤,VIP3D 成功地借鑒了以前的工作,并提出了第一個(gè)基于 transformer 的聯(lián)合感知預(yù)測(cè)框架。Uniad 進(jìn)一步整合了更多下游任務(wù),提出了面向規(guī)劃的端到端自動(dòng)駕駛模型。在前人的基礎(chǔ)上,對(duì)運(yùn)動(dòng)預(yù)測(cè)任務(wù)進(jìn)行了更精細(xì)化的優(yōu)化,引入了 refinement mechanism 和 mode-attention,使預(yù)測(cè)指標(biāo)得到了很大的提高。
學(xué)習(xí)規(guī)劃
模擬學(xué)習(xí)(IL)和強(qiáng)化學(xué)習(xí)(RL)已用于規(guī)劃。IL和RL用于端到端方法(即,使用圖像和/或激光雷達(dá)作為輸入),或矢量化方法(即,使用矢量化感知結(jié)果作為輸入)。
早期的端到端方法,如 ALVINN 和 PilotNet 通常直接輸出控制命令或軌跡,而缺乏中間結(jié)果/任務(wù)。P3 ,MP3 ,UniAD 學(xué)習(xí)端到端可學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)執(zhí)行聯(lián)合感知,預(yù)測(cè)和規(guī)劃,這可以產(chǎn)生可解釋的中間表示并提高最終規(guī)劃性能。
盡管使用中間感知結(jié)果進(jìn)行規(guī)劃可以提高泛化性和透明度,但矢量化方法遭受后處理噪聲和感知結(jié)果的變化。
這些方法要么只使用激光雷達(dá)輸入,要么只使用相機(jī)輸入,這限制了它們的性能。Transfuser 同時(shí)使用激光雷達(dá)和相機(jī)輸入,但不在BEV空間中,而且僅執(zhí)行少量AD學(xué)習(xí)任務(wù)作為輔助任務(wù)。
論文內(nèi)容
首先,使用基于BEVFormer的圖像編碼器將相機(jī)圖像映射到鳥瞰圖(BEV)空間。然后將這些與BEV空間中的激光雷達(dá)特征相結(jié)合。在時(shí)間融合之后,融合后的BEV特征通過(guò)基于查詢的方法用于檢測(cè)、跟蹤和映射任務(wù)。隨后,tokens 被轉(zhuǎn)發(fā)到運(yùn)動(dòng)和占用預(yù)測(cè)任務(wù)以及規(guī)劃任務(wù)。
BEV編碼器和感知
從 FusionFormer 獲得靈感,論文提出了一個(gè)新的 3D 目標(biāo)檢測(cè)多模態(tài)時(shí)間融合框架的和一個(gè)基于Transformer的架構(gòu)。為了提高效率,采用了類似于BEVFormer的復(fù)發(fā)性時(shí)間融合技術(shù)。與FusionFormer不同,論文使用BEV格式的特征作為L(zhǎng)iDAR分支的輸入,而不是體素特征。
多模態(tài)時(shí)間融合模塊包括6個(gè)編碼層。首先采用一組可學(xué)習(xí)的BEV查詢器,分別使用點(diǎn)交叉注意和圖像交叉注意來(lái)融合LiDAR特征和圖像特征。然后,通過(guò)時(shí)間自我注意將所得特征與來(lái)自前一幀的歷史BEV特征融合。查詢?cè)谟米飨乱粚拥妮斎胫坝汕梆伨W(wǎng)絡(luò)更新。在6層融合編碼之后,生成最終的多模態(tài)時(shí)間融合BEV特征用于后續(xù)任務(wù)。
激光雷達(dá)
原始LiDAR點(diǎn)云數(shù)據(jù)首先被體素化,然后用于基于 SECOND 網(wǎng)絡(luò)生成LiDAR BEV特征。
攝像機(jī)。多視點(diǎn)攝像機(jī)圖像首先通過(guò) backbone 網(wǎng)絡(luò)進(jìn)行處理以進(jìn)行特征提取。然后,F(xiàn)PN 網(wǎng)絡(luò)被用于生成多尺度圖像特征。
交叉注意點(diǎn)
在點(diǎn)交叉注意過(guò)程中,每個(gè)BEV查詢僅與其對(duì)應(yīng)參考點(diǎn)周圍的LiDAR BEV特征交互。這種互動(dòng)是通過(guò)變形注意力來(lái)實(shí)現(xiàn)的:
P
C
A
(
Q
p
,
B
L
i
D
A
R
)
=
D
e
f
A
t
t
n
(
Q
p
,
P
,
B
L
i
D
A
R
)
(1)
\tag1 PCA(Q_p,B_{LiDAR})=DefAttn(Q_p,P,B_{LiDAR})
PCA(Qp?,BLiDAR?)=DefAttn(Qp?,P,BLiDAR?)(1)其中
Q
p
Q_p
Qp?表示在點(diǎn)
p
=
(
x
,
y
)
p=(x,y)
p=(x,y)處的 BEV 查詢,并且
B
L
i
D
A
R
B_{LiDAR}
BLiDAR?表示從 LiDAR 分支輸出的BEV 特征。P 是 BEV 空間中的坐標(biāo)
p
=
(
x
,
y
)
p=(x,y)
p=(x,y)到 LiDAR BEV空間上的投影。
圖像交叉注意
為了實(shí)現(xiàn)圖像交叉注意,遵循與 BEVFormer 類似的方法。每個(gè) BEV 查詢都使用與支柱表示類似的高度尺寸展開。固定數(shù)量的
N
r
e
f
N_{ref}
Nref? 3D參考點(diǎn)在每個(gè)柱中沿著其 Z 軸采樣。圖像交叉注意過(guò)程如下所示:
I
C
A
(
Q
p
,
F
)
=
1
V
h
i
t
∑
i
=
1
V
h
i
t
∑
j
=
1
N
r
e
f
D
e
f
A
t
t
n
(
Q
p
,
P
(
p
,
i
,
j
)
,
F
i
)
(2)
\tag2 ICA(Q_p, F) =\frac{1}{V_hit}\sum_{i=1}^{V_{hit}}\sum_{j=1}^{N_{ref}} DefAttn(Q_p, P(p, i, j), F_i)
ICA(Qp?,F)=Vh?it1?i=1∑Vhit??j=1∑Nref??DefAttn(Qp?,P(p,i,j),Fi?)(2)其中
V
h
i
t
V_{hit}
Vhit? 表示參考點(diǎn)可以投影到的相機(jī)視圖的數(shù)量,
i
i
i 是相機(jī)視圖的索引,
F
i
F_i
Fi? 表示第
i
i
i 個(gè)相機(jī)的圖像特征,并且
P
(
p
,
i
,
j
)
P(p,i,j)
P(p,i,j) 表示 BEV 查詢
Q
p
Q_p
Qp? 的3D參考點(diǎn)
(
x
,
y
,
z
i
)
(x,y,z_i)
(x,y,zi?) 在第
i
i
i 個(gè)相機(jī)的圖像坐標(biāo)系上的投影。
時(shí)間自注意
仿照 BEVFormer 來(lái)實(shí)現(xiàn)時(shí)間自我注意。具體而言,基于車輛在幀之間的運(yùn)動(dòng)的歷史幀BEV特征的時(shí)間對(duì)準(zhǔn)。然后,利用時(shí)間自注意來(lái)融合歷史幀BEV特征,如下所示:
T
S
A
(
Q
p
,
(
Q
,
B
t
?
1
′
)
)
=
∑
V
∈
{
Q
,
B
t
?
1
′
}
D
e
f
A
t
t
n
(
Q
p
,
p
,
V
)
(3)
\tag 3 TSA(Q_p,(Q,B_{t-1}^{'}))=\sum_{V\in \{ Q,B_{t-1}^{'}\}}DefAttn(Q_p,p,V)
TSA(Qp?,(Q,Bt?1′?))=V∈{Q,Bt?1′?}∑?DefAttn(Qp?,p,V)(3)其中,
B
t
?
1
′
B_{t-1}^{'}
Bt?1′?表示時(shí)間對(duì)齊后時(shí)間戳
t
?
1
t?1
t?1 處的 BEV 特征。
對(duì)于感知中的檢測(cè)、跟蹤和地圖制作任務(wù),論文主要遵循了 UniAD 的設(shè)置。
預(yù)測(cè)
由于更豐富的 BEV 特征,預(yù)測(cè)模塊接收到更穩(wěn)定和精細(xì)的信息?;谶@一點(diǎn),為了進(jìn)一步捕獲多模態(tài)分布并提高預(yù)測(cè)準(zhǔn)確性,引入了模態(tài)自我關(guān)注(modality self-attention)和精煉網(wǎng)絡(luò)(refinement net)。
上下文感知模態(tài)關(guān)注
在 UniAD 中,數(shù)據(jù)集級(jí)統(tǒng)計(jì)錨被用于輔助多模態(tài)軌跡學(xué)習(xí),錨間自注意被應(yīng)用于提高錨的質(zhì)量。然而,由于這些錨不考慮歷史狀態(tài)和地圖信息,它們對(duì)多模態(tài)學(xué)習(xí)的貢獻(xiàn)是有限的。
因此,我們正在考慮稍后添加此操作。在運(yùn)動(dòng)查詢檢索所有場(chǎng)景上下文以捕獲 agent-agent, agent-map, and agent-goal 點(diǎn)信息之后,然后引入模態(tài)自注意以使各種模式之間的相互可見性,從而獲得更好的質(zhì)量和多樣性。
Q
m
o
d
e
=
M
H
S
A
(
Q
u
)
(4)
\tag4 Q_{mode}=MHSA(Q_u)
Qmode?=MHSA(Qu?)(4)其中MHSA表示多頭自注意。
Q
u
Q_u
Qu?表示獲得上下文信息的查詢。
精細(xì)化網(wǎng)絡(luò)
可變形注意力使用統(tǒng)計(jì)錨點(diǎn)作為參考軌跡與BEV特征進(jìn)行交互。如前所述,這個(gè)參考軌跡增加了后續(xù)學(xué)習(xí)的難度,因?yàn)樾枰囟ǖ膱?chǎng)景信息。論文引入了一個(gè)精煉網(wǎng)絡(luò),利用由 Motionformer 生成的軌跡作為更準(zhǔn)確的空間先驗(yàn),查詢場(chǎng)景背景,并預(yù)測(cè)地面真實(shí)軌跡與先驗(yàn)軌跡之間的偏移量。如下所示:
Q
R
=
D
e
f
A
t
t
n
(
A
n
c
h
o
r
p
,
x
^
m
,
B
)
(5)
\tag 5 Q_R = DefAttn(Anchor_p,\hat x_m,B)
QR?=DefAttn(Anchorp?,x^m?,B)(5)其中
A
n
c
h
o
r
p
Anchor_p
Anchorp? 表示空間先驗(yàn)。使用一個(gè)簡(jiǎn)單的 MLP 對(duì) Motionformer 輸出的軌跡進(jìn)行編碼,并在時(shí)間維上執(zhí)行 maxpool 得到
A
n
c
h
o
r
p
Anchor_p
Anchorp?。
x
^
m
\hat x_m
x^m? 表示Motionformer輸出軌跡的終點(diǎn)。
規(guī)劃
在評(píng)估過(guò)程中,無(wú)法訪問(wèn)高清(HD)地圖或預(yù)定義路線。因此論文依靠可學(xué)習(xí)的命令嵌入來(lái)表示導(dǎo)航信號(hào)(包括左轉(zhuǎn)、右轉(zhuǎn)和保持前進(jìn))來(lái)指引方向。為了獲得周圍的嵌入,輸入的計(jì)劃查詢,其中包括自我查詢和命令嵌入,到鳥瞰圖(BEV)功能。
然后,將其與自我車輛的嵌入融合,該嵌入由MLP網(wǎng)絡(luò)處理,以獲得狀態(tài)嵌入。然后將該狀態(tài)嵌入解碼到未來(lái)的路點(diǎn)中。
L
t
r
a
=
λ
c
o
l
L
c
o
l
(
τ
^
,
b
)
+
λ
i
m
i
L
i
m
i
(
τ
^
,
τ
?
)
(6)
\tag 6\mathcal L_{tra} = \lambda_{col}\mathcal L_{col}(\hat \tau , b)+ \lambda_{imi}\mathcal L_{imi}(\hat \tau , \~\tau )
Ltra?=λcol?Lcol?(τ^,b)+λimi?Limi?(τ^,τ?)(6)其中
λ
i
m
i
=
1
λ_{imi} = 1
λimi?=1,
λ
c
o
l
=
2.5
λ_{col} = 2.5
λcol?=2.5,
τ
^
\hat τ
τ^是原始規(guī)劃結(jié)果,
τ
?
\~τ
τ? 表示規(guī)劃標(biāo)簽,并且
b
b
b表示場(chǎng)景中預(yù)測(cè)的代理。碰撞損失計(jì)算公式如下:
L
c
a
l
(
τ
^
,
b
)
=
1
N
2
∑
i
=
0
N
max
?
(
1
,
∑
t
=
0
P
L
p
a
i
r
(
τ
^
t
,
b
i
t
)
)
L
p
a
i
r
(
τ
^
t
,
b
i
t
)
=
{
1
?
d
r
i
+
r
j
,
if?
d
≤
r
i
+
r
j
0
,
otherwise
(7)
\tag7 \mathcal L_{cal}(\hat \tau,b) = \frac{1}{N^2}\sum_{i=0}^{N}\max (1,\sum_{t=0}^{P}\mathcal L_{pair}(\hat \tau^t,b_i^t)) \\\mathcal L_{pair}(\hat \tau^t,b_i^t)=\begin{cases} 1-\fracn5n3t3z{r_i+r_j}, &\text{if } d\leq r_i+r_j \\ 0, &\text{otherwise} \end{cases}
Lcal?(τ^,b)=N21?i=0∑N?max(1,t=0∑P?Lpair?(τ^t,bit?))Lpair?(τ^t,bit?)={1?ri?+rj?d?,0,?if?d≤ri?+rj?otherwise?(7)此外,在推理過(guò)程中,為了進(jìn)一步確保軌跡的安全性和平滑性,使用 Newton’s method 執(zhí)行軌跡優(yōu)化,利用來(lái)自占用預(yù)測(cè)模型的占用預(yù)測(cè)結(jié)果。
訓(xùn)練
采用了三個(gè)階段的培訓(xùn)來(lái)進(jìn)行多傳感器、多任務(wù)學(xué)習(xí)。
在第一階段,只訓(xùn)練BEV編碼器和感知任務(wù);
在第二階段,固定BEV編碼器,然后訓(xùn)練感知、預(yù)測(cè)和規(guī)劃任務(wù);
在可選的第三階段,進(jìn)一步訓(xùn)練占據(jù)和規(guī)劃任務(wù),同時(shí)固定所有其他組件。
這種分階段的培訓(xùn)方法有助于逐步構(gòu)建和優(yōu)化模型,以達(dá)到更好的性能和泛化能力。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-679925.html
總結(jié)
FusionAD 是一種利用BEV融合來(lái)促進(jìn)多感官,多任務(wù),端到端學(xué)習(xí)的新方法,從而顯著增強(qiáng)自動(dòng)駕駛領(lǐng)域的預(yù)測(cè)和規(guī)劃任務(wù)。所提出的方法強(qiáng)調(diào)了擴(kuò)展一個(gè)統(tǒng)一的端到端的框架,以融合為基礎(chǔ)的方法有效的潛力。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-679925.html
到了這里,關(guān)于FusionAD:用于自動(dòng)駕駛預(yù)測(cè)和規(guī)劃任務(wù)的多模態(tài)融合的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!