国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

FusionAD:用于自動(dòng)駕駛預(yù)測(cè)和規(guī)劃任務(wù)的多模態(tài)融合

這篇具有很好參考價(jià)值的文章主要介紹了FusionAD:用于自動(dòng)駕駛預(yù)測(cè)和規(guī)劃任務(wù)的多模態(tài)融合。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

論文背景

自動(dòng)駕駛(AD)任務(wù)通常分為感知、預(yù)測(cè)和規(guī)劃。在傳統(tǒng)范式中,AD中的每個(gè)學(xué)習(xí)模塊分別使用自己的主干,獨(dú)立地學(xué)習(xí)任務(wù)。
FusionAD:用于自動(dòng)駕駛預(yù)測(cè)和規(guī)劃任務(wù)的多模態(tài)融合,自動(dòng)駕駛,神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)
以前,基于端到端學(xué)習(xí)的方法通?;谕敢曇晥D相機(jī)和激光雷達(dá)信息直接輸出控制命令或軌跡.

論文提出了基于BEV多模態(tài)的多任務(wù)端到端學(xué)習(xí)框架,專注于自動(dòng)駕駛的預(yù)測(cè)和規(guī)劃任務(wù)。
FusionAD:用于自動(dòng)駕駛預(yù)測(cè)和規(guī)劃任務(wù)的多模態(tài)融合,自動(dòng)駕駛,神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)

Bev 感知

基于相機(jī)的BEV方法將多視圖相機(jī)圖像特征轉(zhuǎn)換到BEV空間中,從而實(shí)現(xiàn)端到端感知,而無(wú)需對(duì)重疊區(qū)域進(jìn)行后處理。但是基于相機(jī)的感知方法距離感知精度不足,激光雷達(dá)可以提供準(zhǔn)確的位置信息。將多模態(tài)特征轉(zhuǎn)換到BEV空間中有助于融合這些特征。
BEV 融合將通過(guò) LSS 方法獲得的圖像BEV特征與通過(guò) Voxelnet 獲得的 LiDAR BEV 特征連接起來(lái),以獲得融合的BEV特征,這提高了感知性能。SuperFusion 進(jìn)一步提出了基于多模態(tài)地圖感知的多階段融合。

運(yùn)動(dòng)預(yù)測(cè)

繼 VectorNet 之后,主流運(yùn)動(dòng)預(yù)測(cè)(或軌跡預(yù)測(cè))方法通常利用 HD 地圖和基于矢量的障礙表示來(lái)預(yù)測(cè)智能體的未來(lái)軌跡;在此基礎(chǔ)上,LaneGCN 和 PAGA 通過(guò)細(xì)化的地圖要素(如車道連接屬性)增強(qiáng)軌跡地圖匹配;此外,某些基于錨點(diǎn)的方法對(duì)地圖附近的目標(biāo)點(diǎn)進(jìn)行采樣,從而能夠基于這些點(diǎn)進(jìn)行軌跡預(yù)測(cè)。但是這些方法在很大程度上依賴于預(yù)先收集的高清地圖,這使得它們不適合地圖不可用的地區(qū)。矢量化預(yù)測(cè)方法往往缺乏高層語(yǔ)義信息,需要高清地圖。
PnPNet 提出了一種新的跟蹤模塊,該模塊從檢測(cè)中在線生成對(duì)象軌跡,并利用軌跡級(jí)特征進(jìn)行運(yùn)動(dòng)預(yù)測(cè),但其整體框架基于CNN,運(yùn)動(dòng)預(yù)測(cè)模塊相對(duì)簡(jiǎn)單,只有單模輸出。由于 Transformer 被應(yīng)用于檢測(cè)和跟蹤,VIP3D 成功地借鑒了以前的工作,并提出了第一個(gè)基于 transformer 的聯(lián)合感知預(yù)測(cè)框架。Uniad 進(jìn)一步整合了更多下游任務(wù),提出了面向規(guī)劃的端到端自動(dòng)駕駛模型。在前人的基礎(chǔ)上,對(duì)運(yùn)動(dòng)預(yù)測(cè)任務(wù)進(jìn)行了更精細(xì)化的優(yōu)化,引入了 refinement mechanism 和 mode-attention,使預(yù)測(cè)指標(biāo)得到了很大的提高。

學(xué)習(xí)規(guī)劃

模擬學(xué)習(xí)(IL)和強(qiáng)化學(xué)習(xí)(RL)已用于規(guī)劃。IL和RL用于端到端方法(即,使用圖像和/或激光雷達(dá)作為輸入),或矢量化方法(即,使用矢量化感知結(jié)果作為輸入)。
早期的端到端方法,如 ALVINN 和 PilotNet 通常直接輸出控制命令或軌跡,而缺乏中間結(jié)果/任務(wù)。P3 ,MP3 ,UniAD 學(xué)習(xí)端到端可學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)執(zhí)行聯(lián)合感知,預(yù)測(cè)和規(guī)劃,這可以產(chǎn)生可解釋的中間表示并提高最終規(guī)劃性能。
盡管使用中間感知結(jié)果進(jìn)行規(guī)劃可以提高泛化性和透明度,但矢量化方法遭受后處理噪聲和感知結(jié)果的變化。
這些方法要么只使用激光雷達(dá)輸入,要么只使用相機(jī)輸入,這限制了它們的性能。Transfuser 同時(shí)使用激光雷達(dá)和相機(jī)輸入,但不在BEV空間中,而且僅執(zhí)行少量AD學(xué)習(xí)任務(wù)作為輔助任務(wù)。

論文內(nèi)容

首先,使用基于BEVFormer的圖像編碼器將相機(jī)圖像映射到鳥瞰圖(BEV)空間。然后將這些與BEV空間中的激光雷達(dá)特征相結(jié)合。在時(shí)間融合之后,融合后的BEV特征通過(guò)基于查詢的方法用于檢測(cè)、跟蹤和映射任務(wù)。隨后,tokens 被轉(zhuǎn)發(fā)到運(yùn)動(dòng)和占用預(yù)測(cè)任務(wù)以及規(guī)劃任務(wù)。

BEV編碼器和感知

從 FusionFormer 獲得靈感,論文提出了一個(gè)新的 3D 目標(biāo)檢測(cè)多模態(tài)時(shí)間融合框架的和一個(gè)基于Transformer的架構(gòu)。為了提高效率,采用了類似于BEVFormer的復(fù)發(fā)性時(shí)間融合技術(shù)。與FusionFormer不同,論文使用BEV格式的特征作為L(zhǎng)iDAR分支的輸入,而不是體素特征。
FusionAD:用于自動(dòng)駕駛預(yù)測(cè)和規(guī)劃任務(wù)的多模態(tài)融合,自動(dòng)駕駛,神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)
多模態(tài)時(shí)間融合模塊包括6個(gè)編碼層。首先采用一組可學(xué)習(xí)的BEV查詢器,分別使用點(diǎn)交叉注意和圖像交叉注意來(lái)融合LiDAR特征和圖像特征。然后,通過(guò)時(shí)間自我注意將所得特征與來(lái)自前一幀的歷史BEV特征融合。查詢?cè)谟米飨乱粚拥妮斎胫坝汕梆伨W(wǎng)絡(luò)更新。在6層融合編碼之后,生成最終的多模態(tài)時(shí)間融合BEV特征用于后續(xù)任務(wù)。

激光雷達(dá)
原始LiDAR點(diǎn)云數(shù)據(jù)首先被體素化,然后用于基于 SECOND 網(wǎng)絡(luò)生成LiDAR BEV特征。
攝像機(jī)。多視點(diǎn)攝像機(jī)圖像首先通過(guò) backbone 網(wǎng)絡(luò)進(jìn)行處理以進(jìn)行特征提取。然后,F(xiàn)PN 網(wǎng)絡(luò)被用于生成多尺度圖像特征。

交叉注意點(diǎn)
在點(diǎn)交叉注意過(guò)程中,每個(gè)BEV查詢僅與其對(duì)應(yīng)參考點(diǎn)周圍的LiDAR BEV特征交互。這種互動(dòng)是通過(guò)變形注意力來(lái)實(shí)現(xiàn)的: P C A ( Q p , B L i D A R ) = D e f A t t n ( Q p , P , B L i D A R ) (1) \tag1 PCA(Q_p,B_{LiDAR})=DefAttn(Q_p,P,B_{LiDAR}) PCA(Qp?,BLiDAR?)=DefAttn(Qp?,P,BLiDAR?)(1)其中 Q p Q_p Qp?表示在點(diǎn) p = ( x , y ) p=(x,y) p=(x,y)處的 BEV 查詢,并且 B L i D A R B_{LiDAR} BLiDAR?表示從 LiDAR 分支輸出的BEV 特征。P 是 BEV 空間中的坐標(biāo) p = ( x , y ) p=(x,y) p=(x,y)到 LiDAR BEV空間上的投影。

圖像交叉注意
為了實(shí)現(xiàn)圖像交叉注意,遵循與 BEVFormer 類似的方法。每個(gè) BEV 查詢都使用與支柱表示類似的高度尺寸展開。固定數(shù)量的 N r e f N_{ref} Nref? 3D參考點(diǎn)在每個(gè)柱中沿著其 Z 軸采樣。圖像交叉注意過(guò)程如下所示: I C A ( Q p , F ) = 1 V h i t ∑ i = 1 V h i t ∑ j = 1 N r e f D e f A t t n ( Q p , P ( p , i , j ) , F i ) (2) \tag2 ICA(Q_p, F) =\frac{1}{V_hit}\sum_{i=1}^{V_{hit}}\sum_{j=1}^{N_{ref}} DefAttn(Q_p, P(p, i, j), F_i) ICA(Qp?,F)=Vh?it1?i=1Vhit??j=1Nref??DefAttn(Qp?,P(p,i,j),Fi?)(2)其中 V h i t V_{hit} Vhit? 表示參考點(diǎn)可以投影到的相機(jī)視圖的數(shù)量, i i i 是相機(jī)視圖的索引, F i F_i Fi? 表示第 i i i 個(gè)相機(jī)的圖像特征,并且 P ( p , i , j ) P(p,i,j) P(p,i,j) 表示 BEV 查詢 Q p Q_p Qp? 的3D參考點(diǎn) ( x , y , z i ) (x,y,z_i) (x,y,zi?) 在第 i i i 個(gè)相機(jī)的圖像坐標(biāo)系上的投影。

時(shí)間自注意
仿照 BEVFormer 來(lái)實(shí)現(xiàn)時(shí)間自我注意。具體而言,基于車輛在幀之間的運(yùn)動(dòng)的歷史幀BEV特征的時(shí)間對(duì)準(zhǔn)。然后,利用時(shí)間自注意來(lái)融合歷史幀BEV特征,如下所示: T S A ( Q p , ( Q , B t ? 1 ′ ) ) = ∑ V ∈ { Q , B t ? 1 ′ } D e f A t t n ( Q p , p , V ) (3) \tag 3 TSA(Q_p,(Q,B_{t-1}^{'}))=\sum_{V\in \{ Q,B_{t-1}^{'}\}}DefAttn(Q_p,p,V) TSA(Qp?,(Q,Bt?1?))=V{Q,Bt?1?}?DefAttn(Qp?,p,V)(3)其中, B t ? 1 ′ B_{t-1}^{'} Bt?1?表示時(shí)間對(duì)齊后時(shí)間戳 t ? 1 t?1 t?1 處的 BEV 特征。
對(duì)于感知中的檢測(cè)、跟蹤和地圖制作任務(wù),論文主要遵循了 UniAD 的設(shè)置。

預(yù)測(cè)

由于更豐富的 BEV 特征,預(yù)測(cè)模塊接收到更穩(wěn)定和精細(xì)的信息?;谶@一點(diǎn),為了進(jìn)一步捕獲多模態(tài)分布并提高預(yù)測(cè)準(zhǔn)確性,引入了模態(tài)自我關(guān)注(modality self-attention)和精煉網(wǎng)絡(luò)(refinement net)。

FusionAD:用于自動(dòng)駕駛預(yù)測(cè)和規(guī)劃任務(wù)的多模態(tài)融合,自動(dòng)駕駛,神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)上下文感知模態(tài)關(guān)注
在 UniAD 中,數(shù)據(jù)集級(jí)統(tǒng)計(jì)錨被用于輔助多模態(tài)軌跡學(xué)習(xí),錨間自注意被應(yīng)用于提高錨的質(zhì)量。然而,由于這些錨不考慮歷史狀態(tài)和地圖信息,它們對(duì)多模態(tài)學(xué)習(xí)的貢獻(xiàn)是有限的。
因此,我們正在考慮稍后添加此操作。在運(yùn)動(dòng)查詢檢索所有場(chǎng)景上下文以捕獲 agent-agent, agent-map, and agent-goal 點(diǎn)信息之后,然后引入模態(tài)自注意以使各種模式之間的相互可見性,從而獲得更好的質(zhì)量和多樣性。 Q m o d e = M H S A ( Q u ) (4) \tag4 Q_{mode}=MHSA(Q_u) Qmode?=MHSA(Qu?)(4)其中MHSA表示多頭自注意。 Q u Q_u Qu?表示獲得上下文信息的查詢。

精細(xì)化網(wǎng)絡(luò)
可變形注意力使用統(tǒng)計(jì)錨點(diǎn)作為參考軌跡與BEV特征進(jìn)行交互。如前所述,這個(gè)參考軌跡增加了后續(xù)學(xué)習(xí)的難度,因?yàn)樾枰囟ǖ膱?chǎng)景信息。論文引入了一個(gè)精煉網(wǎng)絡(luò),利用由 Motionformer 生成的軌跡作為更準(zhǔn)確的空間先驗(yàn),查詢場(chǎng)景背景,并預(yù)測(cè)地面真實(shí)軌跡與先驗(yàn)軌跡之間的偏移量。如下所示: Q R = D e f A t t n ( A n c h o r p , x ^ m , B ) (5) \tag 5 Q_R = DefAttn(Anchor_p,\hat x_m,B) QR?=DefAttn(Anchorp?,x^m?,B)(5)其中 A n c h o r p Anchor_p Anchorp? 表示空間先驗(yàn)。使用一個(gè)簡(jiǎn)單的 MLP 對(duì) Motionformer 輸出的軌跡進(jìn)行編碼,并在時(shí)間維上執(zhí)行 maxpool 得到 A n c h o r p Anchor_p Anchorp?。 x ^ m \hat x_m x^m? 表示Motionformer輸出軌跡的終點(diǎn)。

規(guī)劃

在評(píng)估過(guò)程中,無(wú)法訪問(wèn)高清(HD)地圖或預(yù)定義路線。因此論文依靠可學(xué)習(xí)的命令嵌入來(lái)表示導(dǎo)航信號(hào)(包括左轉(zhuǎn)、右轉(zhuǎn)和保持前進(jìn))來(lái)指引方向。為了獲得周圍的嵌入,輸入的計(jì)劃查詢,其中包括自我查詢和命令嵌入,到鳥瞰圖(BEV)功能。
然后,將其與自我車輛的嵌入融合,該嵌入由MLP網(wǎng)絡(luò)處理,以獲得狀態(tài)嵌入。然后將該狀態(tài)嵌入解碼到未來(lái)的路點(diǎn)中。

FusionAD:用于自動(dòng)駕駛預(yù)測(cè)和規(guī)劃任務(wù)的多模態(tài)融合,自動(dòng)駕駛,神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)
L t r a = λ c o l L c o l ( τ ^ , b ) + λ i m i L i m i ( τ ^ , τ ? ) (6) \tag 6\mathcal L_{tra} = \lambda_{col}\mathcal L_{col}(\hat \tau , b)+ \lambda_{imi}\mathcal L_{imi}(\hat \tau , \~\tau ) Ltra?=λcol?Lcol?(τ^,b)+λimi?Limi?(τ^,τ?)(6)其中 λ i m i = 1 λ_{imi} = 1 λimi?=1 λ c o l = 2.5 λ_{col} = 2.5 λcol?=2.5 τ ^ \hat τ τ^是原始規(guī)劃結(jié)果, τ ? \~τ τ? 表示規(guī)劃標(biāo)簽,并且 b b b表示場(chǎng)景中預(yù)測(cè)的代理。碰撞損失計(jì)算公式如下: L c a l ( τ ^ , b ) = 1 N 2 ∑ i = 0 N max ? ( 1 , ∑ t = 0 P L p a i r ( τ ^ t , b i t ) ) L p a i r ( τ ^ t , b i t ) = { 1 ? d r i + r j , if? d ≤ r i + r j 0 , otherwise (7) \tag7 \mathcal L_{cal}(\hat \tau,b) = \frac{1}{N^2}\sum_{i=0}^{N}\max (1,\sum_{t=0}^{P}\mathcal L_{pair}(\hat \tau^t,b_i^t)) \\\mathcal L_{pair}(\hat \tau^t,b_i^t)=\begin{cases} 1-\fracn5n3t3z{r_i+r_j}, &\text{if } d\leq r_i+r_j \\ 0, &\text{otherwise} \end{cases} Lcal?(τ^,b)=N21?i=0N?max(1,t=0P?Lpair?(τ^t,bit?))Lpair?(τ^t,bit?)={1?ri?+rj?d?,0,?if?dri?+rj?otherwise?(7)此外,在推理過(guò)程中,為了進(jìn)一步確保軌跡的安全性和平滑性,使用 Newton’s method 執(zhí)行軌跡優(yōu)化,利用來(lái)自占用預(yù)測(cè)模型的占用預(yù)測(cè)結(jié)果。

訓(xùn)練

采用了三個(gè)階段的培訓(xùn)來(lái)進(jìn)行多傳感器、多任務(wù)學(xué)習(xí)。
在第一階段,只訓(xùn)練BEV編碼器和感知任務(wù);
在第二階段,固定BEV編碼器,然后訓(xùn)練感知、預(yù)測(cè)和規(guī)劃任務(wù);
在可選的第三階段,進(jìn)一步訓(xùn)練占據(jù)和規(guī)劃任務(wù),同時(shí)固定所有其他組件。
這種分階段的培訓(xùn)方法有助于逐步構(gòu)建和優(yōu)化模型,以達(dá)到更好的性能和泛化能力。

總結(jié)

FusionAD 是一種利用BEV融合來(lái)促進(jìn)多感官,多任務(wù),端到端學(xué)習(xí)的新方法,從而顯著增強(qiáng)自動(dòng)駕駛領(lǐng)域的預(yù)測(cè)和規(guī)劃任務(wù)。所提出的方法強(qiáng)調(diào)了擴(kuò)展一個(gè)統(tǒng)一的端到端的框架,以融合為基礎(chǔ)的方法有效的潛力。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-679925.html

到了這里,關(guān)于FusionAD:用于自動(dòng)駕駛預(yù)測(cè)和規(guī)劃任務(wù)的多模態(tài)融合的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包