国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀

這篇具有很好參考價(jià)值的文章主要介紹了51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

今天要分享的是基于BEV的多模態(tài)、多任務(wù)、端到端自動(dòng)駕駛模型FusionAD,其專(zhuān)注于自動(dòng)駕駛預(yù)測(cè)和規(guī)劃任務(wù)。這項(xiàng)工作首次發(fā)表于2023年8月2日,性能超越了2023 CVPR最佳論文UniAD模型。論文題目是FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving,主要作者來(lái)自Udeer.ai、西湖大學(xué)和和菜鳥(niǎo)網(wǎng)絡(luò)。

Abstract

構(gòu)建多模態(tài)、多任務(wù)神經(jīng)網(wǎng)絡(luò)以實(shí)現(xiàn)準(zhǔn)確和穩(wěn)健的性能是自動(dòng)駕駛感知任務(wù)的事實(shí)標(biāo)準(zhǔn)。然而,利用來(lái)自多個(gè)傳感器的這些數(shù)據(jù)來(lái)聯(lián)合優(yōu)化預(yù)測(cè)和規(guī)劃任務(wù)在很大程度上仍未得到探索。為此我們提出了 FusionAD,這是第一個(gè)融合來(lái)自?xún)蓚€(gè)最關(guān)鍵傳感器(相機(jī)和 LiDAR) 信息的統(tǒng)一框架,超越了感知任務(wù)。具體來(lái)說(shuō),我們首先構(gòu)建了一個(gè)基于transformer的多模態(tài)網(wǎng)絡(luò),以有效地產(chǎn)生基于融合的特征。與基于相機(jī)的端到端方法UniAD相比,我們建立了一個(gè)旨在融合模態(tài)感知預(yù)測(cè)和狀態(tài)感知規(guī)劃的模塊。它利用了多模態(tài)特征,在這里稱(chēng)為 FMSPnP。我們?cè)诔S玫幕鶞?zhǔn)nuScenes數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn),F(xiàn)usionAD在檢測(cè)和跟蹤等感知任務(wù)上有最先進(jìn)的性能。它平均超過(guò)基線15%,占用預(yù)測(cè)精度提高10%,ADE評(píng)分的預(yù)測(cè)誤差從0.708降低到0.389,并將碰撞率從0.31%降低到僅0.12%。

Introduction

在過(guò)去的幾年里,深度學(xué)習(xí)一直在加速自動(dòng)駕駛 (Autonomous Driving,AD) 的發(fā)展。對(duì)于自動(dòng)駕駛,AD算法通常將相機(jī)和激光雷達(dá)信號(hào)作為感知輸入,然后直接輸出控制命令。AD任務(wù)通常分為感知、預(yù)測(cè)和規(guī)劃。在傳統(tǒng)的范式中,AD中的每個(gè)學(xué)習(xí)模塊分別使用自己的主干并獨(dú)立執(zhí)行學(xué)習(xí)任務(wù)。此外,預(yù)測(cè)和規(guī)劃等下游任務(wù)通常依賴(lài)于感知結(jié)果的向量化表示,而高級(jí)語(yǔ)義信息通常是不可用的,如圖所示。

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

以前,基于端到端學(xué)習(xí)的方法通常基于透視視圖相機(jī)和激光雷達(dá)信息直接輸出控制命令或軌跡。最近的端到端學(xué)習(xí)方法開(kāi)始將端到端學(xué)習(xí)表述為一個(gè)多任務(wù)學(xué)習(xí)問(wèn)題,同時(shí)輸出中間信息以及計(jì)劃的軌跡。這些方法僅采用單一輸入模式。另一方面,特別是通過(guò)融合激光雷達(dá)和相機(jī)信息進(jìn)行感知任務(wù),可以顯著提高感知結(jié)果。最近,人們對(duì)BEV (Bird’s Eye View)感知的興趣激增,特別是對(duì)于以視覺(jué)為中心的感知。這一發(fā)展顯著提高了自動(dòng)駕駛汽車(chē)的能力,并使視覺(jué)和激光雷達(dá)模式的融合更加自然。對(duì)于感知任務(wù),已經(jīng)證明了使用基于BEV融合的方法是非常有效的。然而,以端到端的方式使用來(lái)自多模態(tài)傳感器的特征,在預(yù)測(cè)和規(guī)劃任務(wù)中仍未得到探索。

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

為此,我們提出了 FusionAD。據(jù)我們所知,這是第一個(gè)基于專(zhuān)注于自動(dòng)駕駛預(yù)測(cè)和規(guī)劃任務(wù)的BEV多模態(tài)、多任務(wù)端到端學(xué)習(xí)框架。我們從最近流行的以視覺(jué)為中心的方法開(kāi)始來(lái)制定我們的pipeline。首先,我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的transformer架構(gòu),融合多模態(tài)信息,在BEV transformer 空間中產(chǎn)生統(tǒng)一特征。由于我們的主要重點(diǎn)是探索融合特征以增強(qiáng)預(yù)測(cè)和規(guī)劃任務(wù),為此制定了融合模態(tài)感知預(yù)測(cè)和狀態(tài)感知規(guī)劃的模塊,稱(chēng)為FMSPnP。它結(jié)合了漸進(jìn)式交互和細(xì)化,制定了基于融合的碰撞損失建模。與其他方法不同的是,F(xiàn)MSPnP 模塊利用了如圖所示的分層金字塔架構(gòu),以確保所有任務(wù)都可以從中間感知特征中受益。該方法更好地傳播高級(jí)語(yǔ)義信息,并有效地共享不同任務(wù)之間的特征。

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

我們?cè)诹餍械淖詣?dòng)駕駛基準(zhǔn)nuScenes數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),實(shí)驗(yàn)表明FusionAD顯著優(yōu)于目前最先進(jìn)的方法。主要貢獻(xiàn)總結(jié)如下:

我們提出了一種基于BEV融合的自動(dòng)駕駛多感知、多任務(wù)、端到端的學(xué)習(xí)方法。與基于相機(jī)的BEV方法相比,基于融合的方法大大提高了性能。

我們提出了 FMSPnP 模塊,該模塊結(jié)合了模態(tài)自注意力和預(yù)測(cè)任務(wù),以及寬泛的碰撞損失和與矢量化的自我信息融合以進(jìn)行規(guī)劃任務(wù)。實(shí)驗(yàn)研究表明,F(xiàn)MSPnP提高了預(yù)測(cè)和規(guī)劃結(jié)果。

我們對(duì)多個(gè)任務(wù)進(jìn)行了廣泛的研究,以驗(yàn)證所提方法的有效性,實(shí)驗(yàn)結(jié)果表明,F(xiàn)usionAD在預(yù)測(cè)和規(guī)劃任務(wù)中取得了SOTA結(jié)果,同時(shí)在中間感知任務(wù)中也保持具有競(jìng)爭(zhēng)力的結(jié)果。

Related work

BEV?Perception

BEV感知方法在自動(dòng)駕駛中用于感知周?chē)h(huán)境,引起了人們廣泛的關(guān)注?;谙鄼C(jī)的BEV方法將多視角攝像機(jī)圖像特征轉(zhuǎn)換為BEV空間,無(wú)需后處理重疊區(qū)域即可實(shí)現(xiàn)端到端感知。LSS 和BEVDet 使用基于圖像的深度預(yù)測(cè)來(lái)構(gòu)建視錐,并提取圖像BEV特征進(jìn)行地圖分割和3D對(duì)象檢測(cè)。在此基礎(chǔ)上,BEVdet4D和SoloFusion通過(guò)將當(dāng)前幀BEV特征與對(duì)齊的歷史幀BEV特性相結(jié)合來(lái)實(shí)現(xiàn)時(shí)間融合。BEVFormer使用帶有transformer的時(shí)空注意力來(lái)獲得時(shí)間融合的圖像BEV特征。這些方法提高了對(duì)動(dòng)態(tài)環(huán)境的理解,增強(qiáng)了感知效果。但是基于相機(jī)的感知方法距離感知精度不足,LiDAR可以提供準(zhǔn)確的位置信息,然其點(diǎn)云又是稀疏的。為了解決這個(gè)問(wèn)題,之前的一些方法探索了融合多模態(tài)數(shù)據(jù)以進(jìn)行感知。BEV是基于Lidar的感知算法的一個(gè)共同視角,將多模態(tài)特征轉(zhuǎn)換為BEV空間有助于融合特征的融合。BEVFusion將LSS方法得到的圖像BEV特征與Voxelnet得到的LiDAR BEV特征連接起來(lái),得到融合的BEV特征,提高了感知性能。SuperFusion進(jìn)一步提出了基于多模態(tài)地圖感知的多階段融合。

Motion Forecasting

由于VectorNet方法取得的成功,現(xiàn)在主流運(yùn)動(dòng)預(yù)測(cè)(或軌跡預(yù)測(cè))方法通常利用高清地圖和基于矢量的障礙物表示來(lái)預(yù)測(cè)agent的未來(lái)軌跡。在此基礎(chǔ)上,LaneGCN和PAGA通過(guò)改進(jìn)的地圖特征(如車(chē)道連接屬性)來(lái)增強(qiáng)軌跡-地圖匹配。此外,某些基于錨點(diǎn)的方法對(duì)地圖附近的目標(biāo)點(diǎn)進(jìn)行采樣,從而能夠基于這些點(diǎn)進(jìn)行軌跡預(yù)測(cè)。然而,這些方法嚴(yán)重依賴(lài)于預(yù)先收集的高清地圖,這使得它們不適合地圖不可用的區(qū)域。

矢量化預(yù)測(cè)方法往往缺乏高級(jí)語(yǔ)義信息,需要高清地圖輔助,因而,最近的工作開(kāi)始使用原始感知信息進(jìn)行軌跡預(yù)測(cè)。PnPNet提出了一種新的跟蹤模塊,該模塊從檢測(cè)任務(wù)中在線生成目標(biāo)軌跡,并利用軌跡級(jí)特征進(jìn)行運(yùn)動(dòng)預(yù)測(cè),但其總體框架基于CNN,運(yùn)動(dòng)預(yù)測(cè)模塊相對(duì)簡(jiǎn)單,只有單模輸出。由于transformer應(yīng)用于檢測(cè)和跟蹤,VIP3D成功地借鑒了以前的工作,提出了第一個(gè)基于transformer的聯(lián)合感知預(yù)測(cè)框架。UniAD進(jìn)一步合并了更多的下游任務(wù),并提出了一個(gè)面向規(guī)劃的端到端自動(dòng)駕駛模型。在前輩的基礎(chǔ)上,我們對(duì)運(yùn)動(dòng)預(yù)測(cè)任務(wù)進(jìn)行了更精細(xì)的優(yōu)化,并引入了細(xì)化機(jī)制和模型注意力,大大提高了預(yù)測(cè)指標(biāo)。

Learning for Planning

模仿學(xué)習(xí)(IL)和強(qiáng)化學(xué)習(xí)(RL)已被用于規(guī)劃。IL 和 RL 用于端到端方法 (使用圖像和/或激光雷達(dá)作為輸入)或矢量化方法(使用矢量化感知結(jié)果作為輸入)。雖然使用中間感知結(jié)果進(jìn)行規(guī)劃可以提高泛化和透明度,但矢量化方法存在后處理噪聲和感知結(jié)果的變化。早期的端到端方法,如ALVINN和PilotNet,通常直接輸出控制命令或軌跡,而缺乏中間結(jié)果/任務(wù)。相反,P3、MP3、UniAD學(xué)習(xí)了一個(gè)端到端的可學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)執(zhí)行聯(lián)合感知、預(yù)測(cè)和規(guī)劃,可以產(chǎn)生可解釋的中間表示,提高了最終的規(guī)劃性能。然而,它們要么只使用激光雷達(dá)輸入,要么利用相機(jī)輸入,這限制了它們的性能。Transfuser方法同時(shí)使用激光雷達(dá)和相機(jī)輸入,但不在BEV空間中,只執(zhí)行很少的AD學(xué)習(xí)任務(wù)作為輔助任務(wù)。為了解決這個(gè)問(wèn)題,我們提出了一種基于BEV融合的、統(tǒng)一的多模態(tài)、多任務(wù)框架,該框架同時(shí)融合激光雷達(dá)和相機(jī)輸入。

Method

我們提出的FusionAD的整體網(wǎng)絡(luò)架構(gòu)如圖所示。最初,使用基于BEVFormer的圖像編碼器將相機(jī)圖像映射到BEV空間。然后,這些再與BEV空間中的激光雷達(dá)特征相結(jié)合。再經(jīng)過(guò)時(shí)間融合之后,融合的 BEV 特征將用于通過(guò)基于查詢(xún)的方法進(jìn)行檢測(cè)、跟蹤和映射任務(wù)。隨后,token被轉(zhuǎn)發(fā)到運(yùn)動(dòng)和占用預(yù)測(cè)任務(wù)和規(guī)劃任務(wù)。我們把輔助模態(tài)感知預(yù)測(cè)和狀態(tài)感知規(guī)劃模塊簡(jiǎn)稱(chēng)為FMSPnP。

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

BEV Encoder and Perception

我們從FusionFormer中獲得靈感,提出了一種新的多模態(tài)時(shí)間融合框架,用基于transformer的架構(gòu)進(jìn)行三維目標(biāo)檢測(cè)。為了提高效率,我們采用類(lèi)似于BEVFormer的循環(huán)時(shí)間融合技術(shù)。與FusionFormer不同,我們使用BEV格式的特征作為L(zhǎng)iDAR分支的輸入,而不是體素特征。多模態(tài)時(shí)間融合模塊包括6個(gè)編碼層,首先利用一組可學(xué)習(xí)的BEV查詢(xún)器分別使用points cross-attention和image cross-attention融合LiDAR特征和圖像特征,然后,我們通過(guò)時(shí)間自注意力將生成的特征與前一幀的歷史BEV特征融合。查詢(xún)由前饋網(wǎng)絡(luò)更新,然后作為下一層的輸入。經(jīng)過(guò)6層融合編碼后,這將為后續(xù)任務(wù)生成最終的多模態(tài)時(shí)間融合BEV特征。

LiDAR 首先對(duì)原始LiDAR點(diǎn)云數(shù)據(jù)進(jìn)行體素化,然后根據(jù)SECOND網(wǎng)絡(luò)生成LiDAR BEV特征。

Camera 多視角相機(jī)圖像首先通過(guò)骨干網(wǎng)進(jìn)行特征提取,然后,利用FPN網(wǎng)絡(luò)生成多尺度圖像特征。我們進(jìn)一步開(kāi)發(fā)了以下技術(shù)來(lái)有效地提高融合模塊的性能。

Points Cross-Attention

在points cross-attention過(guò)程中,每個(gè)BEV查詢(xún)只與其對(duì)應(yīng)的參考點(diǎn)周?chē)腖iDAR BEV特征交互。這種交互是使用可變形注意力實(shí)現(xiàn)的:

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

其中 Qp 表示點(diǎn) p = (x, y) 處的BEV查詢(xún),BLiDAR表示LiDAR分支輸出的BEV特征。P是BEV空間中坐標(biāo)p=(x,y)在LiDAR BEV空間中的投影。

Image Cross-Attention

為了實(shí)現(xiàn)image cross-attention,我們參照了BEVFormer類(lèi)似的方法。每個(gè)BEV查詢(xún)都以類(lèi)似于pillar表示。在每個(gè)pillar沿 Z 軸采樣固定數(shù)量的 Nref 3D 參考點(diǎn)。image cross-attention過(guò)程如下所示:

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

其中 Vhit 表示可以投影參考點(diǎn)的相機(jī)視圖的數(shù)量,i 是相機(jī)視圖的索引,F(xiàn)i 表示第 i 個(gè)相機(jī)的圖像特征,P (p, i, j) 表示 BEV 查詢(xún) Qp 到第 i 個(gè)相機(jī)的圖像坐標(biāo)系中的 3D 參考點(diǎn) (x, y, zi) 的投影。

Temporal Self-Attention

我們還參考了BEVFormer來(lái)實(shí)現(xiàn)時(shí)間自我注意。具體來(lái)說(shuō),我們的方法涉及基于車(chē)輛在幀之間的運(yùn)動(dòng)的歷史幀 BEV 特征的時(shí)間對(duì)齊。然后我們使用時(shí)間自注意力來(lái)融合歷史幀 BEV 特征,如下所示:

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

其中B 't?1表示時(shí)間對(duì)齊后時(shí)間戳t?1處的BEV特征。由于我們對(duì)預(yù)測(cè)和規(guī)劃增強(qiáng)感興趣,對(duì)于感知中的檢測(cè)、跟蹤和映射任務(wù),我們主要遵循UniAD論文中的設(shè)置。

Prediction

得益于信息量更大的BEV特征,預(yù)測(cè)模塊能接收到更穩(wěn)定、更細(xì)粒度的信息。在此基礎(chǔ)上,為了進(jìn)一步捕獲多模態(tài)分布并提高預(yù)測(cè)精度,我們引入了模態(tài)自注意力和細(xì)化網(wǎng)絡(luò)。設(shè)計(jì)細(xì)節(jié)可以在下圖中找到Design of the prediction module in FMSPnP。

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

Context-Informed Mode attention

在UniAD中,使用數(shù)據(jù)集級(jí)的統(tǒng)計(jì)錨點(diǎn)來(lái)輔助多模態(tài)軌跡學(xué)習(xí),并應(yīng)用錨點(diǎn)間自注意力來(lái)提高錨點(diǎn)的質(zhì)量。然而,由于這些錨點(diǎn)沒(méi)有考慮歷史狀態(tài)和地圖信息,它們對(duì)多模態(tài)學(xué)習(xí)的貢獻(xiàn)是有限的。因此,我們稍后考慮添加此操作。在運(yùn)動(dòng)查詢(xún)檢索所有場(chǎng)景上下文以捕獲代理-代理、代理-地圖和代理-目標(biāo)點(diǎn)信息后,我們引入?mode self-attention來(lái)實(shí)現(xiàn)各種mode之間的相互可見(jiàn)性,從而獲得更好的質(zhì)量和多樣性。

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

其中MHSA表示多頭自注意。Qu 表示獲取上下文信息的查詢(xún)。

Refinement Network

可變形注意力使用統(tǒng)計(jì)錨作為參考軌跡與 Bev 特征交互。如前所述,由于需要特定的場(chǎng)景信息,該參考軌跡增加了后續(xù)學(xué)習(xí)的難度。我們引入了一個(gè)Refinement Network,使用Motionformer生成的軌跡作為更精確的空間先驗(yàn),查詢(xún)場(chǎng)景上下文,并在這個(gè)階段預(yù)測(cè)地面真實(shí)軌跡和先驗(yàn)軌跡之間的偏移量。如下所示:

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

Anchorp 表示空間先驗(yàn),一個(gè)簡(jiǎn)單的MLP將用于對(duì)Motionformer輸出的軌跡進(jìn)行編碼,在時(shí)間維度上執(zhí)行maxpool得到它。Xm表示Motionformer輸出軌跡的端點(diǎn)。

?Planning

在評(píng)估過(guò)程中,我們無(wú)法訪問(wèn)高清 (HD) 地圖或預(yù)定義的路線。因此,我們依靠可學(xué)習(xí)的命令嵌入來(lái)表示導(dǎo)航信號(hào)(包括左轉(zhuǎn)、右轉(zhuǎn)和保持前進(jìn))來(lái)指導(dǎo)方向。為了獲得周?chē)那度?,我們將由自我查?xún)和命令嵌入組成的計(jì)劃查詢(xún)輸入到BEV特征中。然后,我們將其與由 MLP 網(wǎng)絡(luò)處理的自我車(chē)輛嵌入進(jìn)行融合,以獲得狀態(tài)嵌入。然后將此狀態(tài)嵌入解碼為未來(lái)的航路點(diǎn) ^τ。

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

為了確保安全,在訓(xùn)練過(guò)程中,除了簡(jiǎn)單的imitation L2 loss外,我們還將碰撞損失的可微分collision loss納入,如下設(shè)計(jì)。

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

其中 λimi = 1, λcol = 2.5, ^τ 是原始規(guī)劃結(jié)果,~τ 表示規(guī)劃標(biāo)簽,b 表示場(chǎng)景中預(yù)測(cè)的代理。碰撞損失由下式計(jì)算:

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

Trainning

我們利用三階段訓(xùn)練進(jìn)行多傳感器、多任務(wù)學(xué)習(xí)。在第一階段,我們只訓(xùn)練BEV編碼器和感知任務(wù);在第二階段,我們固定BEV編碼器并訓(xùn)練感知、預(yù)測(cè)和規(guī)劃任務(wù);而對(duì)于可選的第三階段,我們進(jìn)一步訓(xùn)練占用和規(guī)劃任務(wù),固定所有其他組件。

Experiments

Experiment Setup

我們使用 32 個(gè) A100 GPU 進(jìn)行實(shí)驗(yàn)訓(xùn)練,使用 nuScenes 數(shù)據(jù)集,包括在波士頓和新加坡捕獲的 1000 個(gè)駕駛場(chǎng)景。每個(gè)場(chǎng)景跨越大約 20 秒,nuScenes 提供了 140 萬(wàn)個(gè) 3D 邊界框,其中包含 23 個(gè)不同的類(lèi)別,以 2Hz 采樣。我們遵循業(yè)界常用評(píng)估方法來(lái)評(píng)估端到端自動(dòng)駕駛?cè)蝿?wù)的性能。具體來(lái)說(shuō),使用 mAP 和 NDS 來(lái)評(píng)估檢測(cè)任務(wù),AMOTA 和 AMOTP 來(lái)評(píng)估跟蹤任務(wù),IoU 來(lái)評(píng)估映射任務(wù),而且使用端預(yù)測(cè)精度 (EPA)、平均位移誤差 (ADE)、最終位移誤差 (FDE) 和錯(cuò)誤率 (MR) 來(lái)評(píng)估運(yùn)動(dòng)預(yù)測(cè)的性能。對(duì)于未來(lái)的占用率預(yù)測(cè),我們使用FIERY中采用的近(30 × 30m)和遠(yuǎn)(100 × 100m)范圍的度量未來(lái)視頻全景質(zhì)量(VPQ)和IoU。我們采用位移誤差(DE)和碰撞率(CR)來(lái)評(píng)價(jià)規(guī)劃性能,其中碰撞率被認(rèn)為是主要指標(biāo)。

Experiment Results

The results of motion forecasting FusionAD?remarkably outperforms

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

The results of occupancy prediction FusionAD remarkably outperforms

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

?Planning Results: FusionAD achieves the stateof-the-art performance

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

Ablation Studies

消融實(shí)驗(yàn)相對(duì)來(lái)說(shuō)做得少些。

FMSPnP模塊相關(guān)的消融研究如表五和表六所示。很明顯,細(xì)化網(wǎng)絡(luò)和self-attention模塊對(duì)提高預(yù)測(cè)結(jié)果有顯著貢獻(xiàn)。同時(shí)對(duì)規(guī)劃結(jié)果而言,當(dāng)過(guò)去軌跡矢量化表示和自我狀態(tài)相融合時(shí),觀察到顯著的改進(jìn)。

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

Qualitative Results

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀,自動(dòng)駕駛,智慧城市,transformer,gpt-3,遷移學(xué)習(xí),人工智能

Discussion

雖然所提出的方法表現(xiàn)出很強(qiáng)的定量和定性性能,但它仍然依賴(lài)于基于規(guī)則的系統(tǒng)對(duì)輸出進(jìn)行后處理,以實(shí)現(xiàn)可靠的現(xiàn)實(shí)世界性能。此外,目前的研究工作主要使用規(guī)劃任務(wù)的開(kāi)環(huán)結(jié)果來(lái)評(píng)估學(xué)習(xí)的規(guī)劃器,這可能無(wú)法有效地衡量其性能。用真實(shí)世界的感知數(shù)據(jù)以閉環(huán)方式評(píng)估規(guī)劃器帶來(lái)了挑戰(zhàn)。盡管如此,端到端框架下的預(yù)測(cè)結(jié)果仍然很有希望,并且有可能在此框架內(nèi)進(jìn)一步改進(jìn)規(guī)劃模塊。?

Conclusions

我們提出了FusionAD,這是一種利用BEV融合來(lái)促進(jìn)多感知、多任務(wù)、端到端的學(xué)習(xí)新方法,從而顯著增強(qiáng)自動(dòng)駕駛領(lǐng)域的預(yù)測(cè)和規(guī)劃任務(wù)。該方法強(qiáng)調(diào)了將統(tǒng)一的端到端框架有效地?cái)U(kuò)展到基于融合方法的潛力。與僅依賴(lài)于基于相機(jī)的BEV的端到端學(xué)習(xí)方法相比,在預(yù)測(cè)和規(guī)劃任務(wù)上都有顯著的性能改進(jìn),同時(shí)也提高了感知性能。

https://arxiv.org/abs/2308.01006文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-820376.html

到了這里,關(guān)于51-16 FusionAD 用于自動(dòng)駕駛預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合論文精讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【OpenAI】Python:(3) 基于 Gym-CarRacing 的自動(dòng)駕駛項(xiàng)目 | 路徑訓(xùn)練功能的實(shí)現(xiàn) | 規(guī)劃與決策 | 路徑平滑 | 利用公式進(jìn)行目標(biāo)速度預(yù)測(cè)

    【OpenAI】Python:(3) 基于 Gym-CarRacing 的自動(dòng)駕駛項(xiàng)目 | 路徑訓(xùn)練功能的實(shí)現(xiàn) | 規(guī)劃與決策 | 路徑平滑 | 利用公式進(jìn)行目標(biāo)速度預(yù)測(cè)

    ???? 猛戳訂閱!? ???《一起玩蛇》?? ?? 寫(xiě)在前面: ?本篇是關(guān)于多倫多大學(xué)自動(dòng)駕駛專(zhuān)業(yè)項(xiàng)目的博客。GYM-Box2D CarRacing 是一種在 OpenAI Gym 平臺(tái)上開(kāi)發(fā)和比較強(qiáng)化學(xué)習(xí)算法的模擬環(huán)境。它是流行的 Box2D 物理引擎的一個(gè)版本,經(jīng)過(guò)修改以支持模擬汽車(chē)在賽道上行駛的物理過(guò)

    2024年02月22日
    瀏覽(30)
  • 用于自動(dòng)駕駛的基于深度學(xué)習(xí)的圖像 3D 目標(biāo)檢測(cè):綜述

    用于自動(dòng)駕駛的基于深度學(xué)習(xí)的圖像 3D 目標(biāo)檢測(cè):綜述

    論文地址:https://ieeexplore.ieee.org/abstract/document/10017184/ 準(zhǔn)確、魯棒的感知系統(tǒng)是理解自動(dòng)駕駛和機(jī)器人駕駛環(huán)境的關(guān)鍵。自動(dòng)駕駛需要目標(biāo)的 3D 信息,包括目標(biāo)的位置和姿態(tài),以清楚地了解駕駛環(huán)境。 攝像頭傳感器因其顏色和紋理豐富且價(jià)格低廉而廣泛應(yīng)用于自動(dòng)駕駛中。攝

    2024年02月03日
    瀏覽(29)
  • 自動(dòng)駕駛軌跡預(yù)測(cè)

    自動(dòng)駕駛軌跡預(yù)測(cè)

    目錄 神經(jīng)網(wǎng)絡(luò)軌跡預(yù)測(cè)綜述: 比較新的軌跡預(yù)測(cè)網(wǎng)絡(luò) Uber:LaneRCNN[5] Google:VectorNet[6] Huawei:HOME[7] Waymo:TNT[8] Aptive:Covernet[9] NEC:R2P2[10] 商湯:TPNet[11] 美團(tuán):StarNet[12]。行人 Aibee:Sophie[13]。行人 MIT:Social lstm[14]。行人 中科大:STGAT[15]。行人 百度:Lane-Attention[16] 【自動(dòng)駕駛

    2024年02月02日
    瀏覽(55)
  • 自用純C語(yǔ)言實(shí)現(xiàn)任務(wù)調(diào)度(可用于STM32、C51等單片機(jī))

    自用純C語(yǔ)言實(shí)現(xiàn)任務(wù)調(diào)度(可用于STM32、C51等單片機(jī))

    ??這個(gè)任務(wù)調(diào)度模塊的實(shí)現(xiàn)是形成于畢設(shè)項(xiàng)目中的,用在 STM32 中,斷斷續(xù)續(xù)跨度2個(gè)月實(shí)現(xiàn)了一些基本功能,可能后面再做其他項(xiàng)目時(shí)會(huì)一點(diǎn)點(diǎn)完善起來(lái),也會(huì)多學(xué)習(xí)相關(guān)知識(shí)來(lái)強(qiáng)化模塊的實(shí)用性和高效性,畢竟用自己自主實(shí)現(xiàn)出來(lái)的功能還是蠻舒心的。 ??整體上的結(jié)構(gòu)

    2023年04月09日
    瀏覽(21)
  • 自動(dòng)駕駛之行人軌跡預(yù)測(cè)數(shù)據(jù)集

    自動(dòng)駕駛之行人軌跡預(yù)測(cè)數(shù)據(jù)集

    ETH: Univ. + Hotel; 750 pedestrians exhibiting complex interactions UCY: Zara01, Zara02 and Uni. 780 pedestrians 單應(yīng)性矩陣,SLAM中的當(dāng)用多個(gè)不同相機(jī)拍攝同一個(gè)三維平面需要考慮的矩陣,適應(yīng)場(chǎng)景為平面情況 商場(chǎng) 這個(gè)數(shù)據(jù)集是用雙鳥(niǎo)瞰相機(jī)對(duì)平面拍攝 將成群行走的人標(biāo)出,ID和obsmat中一樣,每一

    2024年02月11日
    瀏覽(13)
  • 自動(dòng)駕駛路徑規(guī)劃——路徑規(guī)劃入門(mén)須知

    自動(dòng)駕駛路徑規(guī)劃——路徑規(guī)劃入門(mén)須知

    目錄 前言 ?1.無(wú)人駕駛關(guān)鍵技術(shù) ?2.路徑規(guī)劃基本概念與分類(lèi) 2.1 路徑規(guī)劃基本概念 2.1.1 路徑規(guī)劃需要解決的問(wèn)題? 2.1.2 路徑規(guī)劃——現(xiàn)在的研究? 2.2路徑規(guī)劃的分類(lèi) 2.3路徑規(guī)劃的流程 3.行為決策? 聲明 ? ? ? ?這個(gè)學(xué)期學(xué)校開(kāi)設(shè)了相應(yīng)的課程,同時(shí)也在學(xué)習(xí)古月居機(jī)器人學(xué)

    2023年04月08日
    瀏覽(22)
  • 【自動(dòng)駕駛汽車(chē)量子群粒子過(guò)濾器】用于無(wú)人駕駛汽車(chē)列車(chē)定位的量子粒子濾波研究(Matlab代碼實(shí)現(xiàn))

    【自動(dòng)駕駛汽車(chē)量子群粒子過(guò)濾器】用于無(wú)人駕駛汽車(chē)列車(chē)定位的量子粒子濾波研究(Matlab代碼實(shí)現(xiàn))

    ???????? 歡迎來(lái)到本博客 ???????? ??博主優(yōu)勢(shì): ?????? 博客內(nèi)容盡量做到思維縝密,邏輯清晰,為了方便讀者。 ?? 座右銘: 行百里者,半于九十。 ?????? 本文目錄如下: ?????? 目錄 ??1 概述 ??2 運(yùn)行結(jié)果 ??3?參考文獻(xiàn) ??4 Matlab代碼實(shí)現(xiàn) 對(duì)于無(wú)人

    2024年02月15日
    瀏覽(25)
  • 【自動(dòng)駕駛】模型預(yù)測(cè)控制(MPC)實(shí)現(xiàn)軌跡跟蹤

    【自動(dòng)駕駛】模型預(yù)測(cè)控制(MPC)實(shí)現(xiàn)軌跡跟蹤

    bilibili的DR_CAN講解的MPC模型預(yù)測(cè)控制器 知乎上一個(gè)比較通俗易懂的解釋 模型預(yù)測(cè)控制 軌跡跟蹤模型預(yù)測(cè)控制(MPC)原理與python實(shí)現(xiàn) DR_CAN筆記MPC MPC控制筆記 模型預(yù)測(cè)控制(MPC)的核心思想就是以?xún)?yōu)化方法求解最優(yōu)控制器,其中優(yōu)化方法大多時(shí)候采用二次規(guī)劃(Quadratic Programmin

    2024年02月02日
    瀏覽(18)
  • [自動(dòng)駕駛算法][從0開(kāi)始軌跡預(yù)測(cè)]:二、自動(dòng)駕駛系統(tǒng)中常用的坐標(biāo)系及相應(yīng)的轉(zhuǎn)換關(guān)系

    [自動(dòng)駕駛算法][從0開(kāi)始軌跡預(yù)測(cè)]:二、自動(dòng)駕駛系統(tǒng)中常用的坐標(biāo)系及相應(yīng)的轉(zhuǎn)換關(guān)系

    寫(xiě)在前面:上一篇文章中,我們介紹了坐標(biāo)轉(zhuǎn)換的基礎(chǔ)知識(shí),接下來(lái),我們將介紹由汽車(chē)的傳感器到全局定位會(huì)涉及到的若干個(gè)坐標(biāo)系統(tǒng)。 下圖是自動(dòng)駕駛系統(tǒng)中常見(jiàn)的坐標(biāo)系統(tǒng): ? 一般來(lái)說(shuō), 典型的定位和建圖場(chǎng)景情況,不同坐標(biāo)系之間的關(guān)系如下: ? 環(huán)境傳感器數(shù)據(jù)

    2024年01月16日
    瀏覽(50)
  • 【論文閱讀】MARS:用于自動(dòng)駕駛的實(shí)例感知、模塊化和現(xiàn)實(shí)模擬器

    【論文閱讀】MARS:用于自動(dòng)駕駛的實(shí)例感知、模塊化和現(xiàn)實(shí)模擬器

    paper code 如今,自動(dòng)駕駛汽車(chē)可以在普通情況下平穩(wěn)行駛,人們普遍認(rèn)識(shí)到,真實(shí)的傳感器模擬將在通過(guò) 模擬解決剩余的極端情況方面 發(fā)揮關(guān)鍵作用。為此,我們提出了一種基于神經(jīng)輻射場(chǎng)(NeRF)的自動(dòng)駕駛模擬器。與現(xiàn)有作品相比,我們的作品具有三個(gè)顯著特點(diǎn): (1)實(shí)例

    2024年02月08日
    瀏覽(22)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包