論文鏈接: https://arxiv.org/pdf/2303.05760.pdf
??摘要
在復(fù)雜的現(xiàn)實(shí)環(huán)境中運(yùn)行的自動(dòng)駕駛車輛需要準(zhǔn)確預(yù)測(cè)交通參與者之間的交互行為。本文通過用層次博弈論來表述交互預(yù)測(cè)問題并提出 GameFormer 模型來解決它的實(shí)現(xiàn)。該模型結(jié)合了一個(gè) Transformer 編碼器,可以有效地模擬場(chǎng)景元素之間的關(guān)系,以及一個(gè)新穎的分層 Transformer 解碼器結(jié)構(gòu)。在每個(gè)解碼級(jí)別,除了共享的環(huán)境上下文之外,解碼器還利用前一級(jí)別的預(yù)測(cè)結(jié)果來迭代地完善交互過程。此外,我們提出了一個(gè)學(xué)習(xí)過程,可以調(diào)節(jié)當(dāng)前級(jí)別的代理行為,以響應(yīng)前一級(jí)別的其他代理的行為。通過對(duì)大規(guī)?,F(xiàn)實(shí)世界駕駛數(shù)據(jù)集的綜合實(shí)驗(yàn),我們展示了我們的模型在 Waymo 交互預(yù)測(cè)任務(wù)上的最先進(jìn)的準(zhǔn)確性。此外,我們還驗(yàn)證了該模型在開環(huán)和閉環(huán)規(guī)劃測(cè)試中聯(lián)合推理自我代理的運(yùn)動(dòng)計(jì)劃和多個(gè)代理的行為的能力,優(yōu)于各種基線方法。此外,我們還評(píng)估了我們的模型在 nuPlan 規(guī)劃基準(zhǔn)上的有效性,它取得了領(lǐng)先的性能。項(xiàng)目網(wǎng)站:https://mczhi.github.io/GameFormer/
??Introduction
準(zhǔn)確預(yù)測(cè)周圍交通參與者的未來行為并做出安全且與社會(huì)兼容的決策對(duì)于現(xiàn)代自動(dòng)駕駛系統(tǒng)至關(guān)重要。然而,由于道路結(jié)構(gòu)、交通規(guī)范和道路使用者之間的相互作用所產(chǎn)生的復(fù)雜性,這項(xiàng)任務(wù)極具挑戰(zhàn)性[14,23,24]。近年來,基于深度神經(jīng)網(wǎng)絡(luò)的方法在預(yù)測(cè)精度和可擴(kuò)展性方面顯示出顯著的進(jìn)步[7,11,15,22,40]。特別是,變形金剛在運(yùn)動(dòng)預(yù)測(cè)中獲得了突出的地位[25,31,32,35,45,47],因?yàn)樗鼈冊(cè)谔幚韥碜择{駛場(chǎng)景的異構(gòu)信息方面具有靈活性和有效性,并且能夠捕獲場(chǎng)景元素之間的相互關(guān)系。
盡管現(xiàn)有的預(yù)測(cè)模型在編碼駕駛場(chǎng)景和通過代理過去的軌跡表示交互方面取得了成功,但它們通常無法明確地模擬代理的未來交互以及他們與自動(dòng)駕駛車輛(AV)的交互。這種限制導(dǎo)致自動(dòng)駕駛汽車的規(guī)劃模塊對(duì)預(yù)測(cè)結(jié)果做出被動(dòng)反應(yīng)。然而,在并道、變道、無保護(hù)左轉(zhuǎn)等危急情況下,自動(dòng)駕駛汽車需要主動(dòng)與其他智能體協(xié)調(diào)。因此,聯(lián)合預(yù)測(cè)和規(guī)劃對(duì)于實(shí)現(xiàn)更具交互性和人性化的決策是必要的。為了解決這個(gè)問題,一種典型的方法是最近提出的條件預(yù)測(cè)模型[17,34,36,37,39],它利用自動(dòng)駕駛汽車的內(nèi)部計(jì)劃來預(yù)測(cè)其他智能體對(duì)自動(dòng)駕駛汽車的響應(yīng)。盡管條件預(yù)測(cè)模型緩解了交互問題,但這種單向交互仍然忽略了自動(dòng)駕駛汽車和其他道路使用者之間的動(dòng)態(tài)相互影響。從博弈論的角度來看,當(dāng)前的預(yù)測(cè)/規(guī)劃模型可以被視為領(lǐng)導(dǎo)者-追隨者博弈,代理之間的交互水平有限。
在本研究中,我們利用分層博弈論框架(k 級(jí)博弈論)[5, 42] 來建模各種代理之間的交互[27,28,41],并引入一種名為 GameFormer 的新型基于 Transformer 的預(yù)測(cè)模型。源于認(rèn)知科學(xué)的見解,levelk 博弈論提供了一種結(jié)構(gòu)化方法來建模代理之間的交互。該理論的核心引入了由 k 表示的推理深度層次結(jié)構(gòu)。 0 級(jí)智能體獨(dú)立行動(dòng),不考慮其他智能體可能采取的行動(dòng)。當(dāng)我們向上移動(dòng)層次結(jié)構(gòu)時(shí),1 級(jí)代理通過假設(shè)其他代理為 0 級(jí)來考慮交互,并相應(yīng)地預(yù)測(cè)它們的操作。這個(gè)過程迭代地繼續(xù),其中 k 級(jí)代理預(yù)測(cè)其他人的行為,假設(shè)他們是(k?1)級(jí),并根據(jù)這些預(yù)測(cè)做出響應(yīng)。通過考慮智能體的推理水平和顯式交互,我們的模型符合 k 級(jí)博弈論的精神。
如圖 1 所示,我們最初使用 Transformer 編碼器將駕駛場(chǎng)景編碼為背景信息,包括矢量化地圖和觀察到的代理狀態(tài)。在未來的解碼階段,我們遵循k級(jí)博弈論來設(shè)計(jì)結(jié)構(gòu)。具體來說,我們?cè)O(shè)置了一系列 Transformer 解碼器來實(shí)現(xiàn) k 級(jí)推理。 0 級(jí)解碼器僅使用初始模態(tài)查詢和編碼場(chǎng)景上下文作為鍵和值來預(yù)測(cè)代理的多模態(tài)未來軌跡。然后,在每次迭代 k 時(shí),k 級(jí)解碼器將(k?1)級(jí)解碼器的預(yù)測(cè)軌跡以及背景信息作為輸入,以預(yù)測(cè)當(dāng)前級(jí)別的智能體軌跡。此外,我們?cè)O(shè)計(jì)了一個(gè)學(xué)習(xí)過程,可以調(diào)節(jié)智能體的軌跡,以響應(yīng)上一級(jí)其他智能體的軌跡,同時(shí)也保持接近人類駕駛數(shù)據(jù)。本文的主要貢獻(xiàn)總結(jié)如下:
1.我們提出GameFormer,一個(gè)基于Transformer的交互式預(yù)測(cè)和規(guī)劃框架。該模型采用分層解碼結(jié)構(gòu)來捕獲代理交互,迭代地細(xì)化預(yù)測(cè),并基于 k 級(jí)游戲形式進(jìn)行訓(xùn)練。
2. 我們?cè)?Waymo 交互預(yù)測(cè)基準(zhǔn)上展示了 GameFormer 模型最先進(jìn)的預(yù)測(cè)性能。
3. 我們使用 Waymo 開放運(yùn)動(dòng)數(shù)據(jù)集和 nuPlan 規(guī)劃基準(zhǔn)驗(yàn)證 GameFormer 框架在開環(huán)駕駛場(chǎng)景和閉環(huán)模擬中的規(guī)劃性能。
圖 1. 代理交互的分層博弈論建模。代理和地圖的歷史狀態(tài)被編碼為背景信息;根據(jù)初始模態(tài)查詢獨(dú)立預(yù)測(cè) 0 級(jí)智能體的未來; k 級(jí)代理響應(yīng)所有其他 (k ? 1) 級(jí)代理。
?Related Work
2.1 軌跡預(yù)測(cè)
神經(jīng)網(wǎng)絡(luò)模型通過編碼上下文場(chǎng)景信息在運(yùn)動(dòng)預(yù)測(cè)方面表現(xiàn)出了顯著的有效性。早期研究利用長(zhǎng)短期記憶 (LSTM) 網(wǎng)絡(luò) [1] 對(duì)智能體過去的狀態(tài)進(jìn)行編碼,并利用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 處理場(chǎng)景的光柵化圖像 [7,12,21,34]。為了對(duì)代理之間的交互進(jìn)行建模,圖神經(jīng)網(wǎng)絡(luò)(GNN)[4,13,20,30]被廣泛用于通過場(chǎng)景或交互圖來表示代理交互。最近,用于運(yùn)動(dòng)預(yù)測(cè)的統(tǒng)一 Transformer 編碼器-解碼器結(jié)構(gòu)越來越受歡迎,例如 SceneTransformer [32] 和 WayFormer [31],由于其緊湊的模型描述和卓越的性能。然而,大多數(shù)基于 Transformer 的預(yù)測(cè)模型都專注于編碼部分,而較少重視解碼部分。 Motion Transformer [35] 通過提出一個(gè)精心設(shè)計(jì)的解碼階段來解決這一限制,該解碼階段利用迭代局部運(yùn)動(dòng)細(xì)化來提高預(yù)測(cè)精度。受迭代細(xì)化和分層博弈論的啟發(fā),我們的方法引入了一種新穎的基于 Transformer 的解碼器用于交互預(yù)測(cè),提供了一種明確的方法來建模代理之間的交互。
關(guān)于預(yù)測(cè)模型在規(guī)劃任務(wù)中的利用,許多工作都集中在多智能體聯(lián)合運(yùn)動(dòng)預(yù)測(cè)框架[14,24,30,38]上,該框架能夠有效且一致地預(yù)測(cè)多模態(tài)多智能體軌跡。現(xiàn)有運(yùn)動(dòng)預(yù)測(cè)模型的一個(gè)固有問題是它們經(jīng)常忽略自動(dòng)駕駛汽車動(dòng)作的影響,導(dǎo)致它們不適合下游規(guī)劃任務(wù)。為了解決這個(gè)問題,通過將 AV 規(guī)劃信息集成到預(yù)測(cè)過程中,提出了幾種條件多智能體運(yùn)動(dòng)預(yù)測(cè)模型 [8,17,36]。然而,這些模型仍然表現(xiàn)出單向交互作用,忽略了代理之間的相互影響。相比之下,我們的方法旨在共同預(yù)測(cè)周圍智能體的未來軌跡,并通過迭代交互建模促進(jìn) AV 規(guī)劃。
2.2 Learning for Decision-making
運(yùn)動(dòng)預(yù)測(cè)模塊的主要目標(biāo)是使規(guī)劃模塊能夠做出安全且智能的決策。這可以通過使用離線學(xué)習(xí)方法來實(shí)現(xiàn),該方法可以從大規(guī)模駕駛數(shù)據(jù)集中學(xué)習(xí)決策策略。模仿學(xué)習(xí)是最流行的方法,旨在學(xué)習(xí)可以復(fù)制專家行為的駕駛策略 [19, 44]。離線強(qiáng)化學(xué)習(xí)[26]也引起了人們的興趣,因?yàn)樗Y(jié)合了強(qiáng)化學(xué)習(xí)和收集的大型數(shù)據(jù)集的優(yōu)點(diǎn)。然而,直接政策學(xué)習(xí)缺乏可解釋性和安全保證,并且經(jīng)常遭受分配變化。相比之下,使用學(xué)習(xí)的運(yùn)動(dòng)預(yù)測(cè)模型進(jìn)行規(guī)劃被認(rèn)為更具可解釋性和魯棒性[3,6,18,46],使其成為自動(dòng)駕駛更理想的方式。我們提出的方法旨在增強(qiáng)預(yù)測(cè)模型的能力,從而提高交互式?jīng)Q策性能。
??GameFormer
我們介紹了我們的交互式預(yù)測(cè)和規(guī)劃框架,稱為 GameFormer,它采用 Transformer 編碼器-解碼器架構(gòu)(見圖 2)。在接下來的部分中,我們首先定義問題并討論指導(dǎo)模型設(shè)計(jì)和學(xué)習(xí)過程的 k 級(jí)博弈論。 3.1.然后,我們?cè)诘?2 節(jié)中描述模型的編碼器組件,該組件對(duì)場(chǎng)景上下文進(jìn)行編碼。 3.2 節(jié)中的解碼器組件結(jié)合了新穎的交互建模概念。 3.3.最后,我們?cè)诘?2 節(jié)中介紹了解釋不同推理級(jí)別之間相互作用的學(xué)習(xí)過程。 3.4.
圖 2.我們提出的 GameFormer 框架概述。場(chǎng)景上下文編碼是通過基于Transformer的編碼器獲得的; level-0解碼器將模態(tài)嵌入和代理歷史編碼作為查詢,并輸出level-0未來軌跡和分?jǐn)?shù); k 級(jí)解碼器使用自注意力模塊對(duì) (k ? 1) 級(jí)未來交互進(jìn)行建模,并將其附加到場(chǎng)景上下文編碼中。
3.1 Game-theoretic Formulation
我們考慮一個(gè)有 N 個(gè)智能體的駕駛場(chǎng)景,其中 AV 表示為 A0,當(dāng)前時(shí)間 t = 0 時(shí)其相鄰智能體表示為 A1,···, AN?1。給定所有智能體(包括 AV)的歷史狀態(tài)在觀察范圍 Th, S = {s?Th:0 i } 以及包括交通燈和道路路點(diǎn)的地圖信息 M 上,目標(biāo)是聯(lián)合預(yù)測(cè)相鄰智能體 Y1:Tf 1:N? 的未來軌跡1 在未來地平線 Tf 上,以及 AV Y1:Tf 0 的計(jì)劃軌跡。為了捕獲不確定性,結(jié)果是 AV 和鄰近智能體的多模態(tài)未來軌跡,表示為 Y1:Tf i = {y1:Tf j , pj|j = 1 : M },其中 y1:Tf j 是預(yù)測(cè)狀態(tài)序列,pj 軌跡概率,M 模態(tài)數(shù)量。
我們利用 k 級(jí)博弈論以迭代方式對(duì)代理交互進(jìn)行建模。我們不是簡(jiǎn)單地預(yù)測(cè)一組軌跡,而是預(yù)測(cè)軌跡層次結(jié)構(gòu)來建模認(rèn)知交互過程。在每個(gè)推理級(jí)別,除了 0 級(jí)之外,解碼器將前一級(jí)別的預(yù)測(cè)結(jié)果作為輸入,這有效地使它們成為場(chǎng)景的一部分,并估計(jì)當(dāng)前級(jí)別中的代理對(duì)其他代理的響應(yīng)。之前的水平。我們將智能體 i 在推理級(jí)別 k 的預(yù)測(cè)多模態(tài)軌跡(本質(zhì)上是高斯混合模型)表示為 π(k) i ,這可以被視為該智能體的策略。策略 π(k) i 以除第 i 個(gè)智能體之外的所有其他智能體的策略為條件(級(jí)別 - (k ? 1)),用 π(k?1) ?i 表示。例如,AV 在 2 級(jí) π(2) 0 的策略將考慮所有相鄰代理在 1 級(jí) π(1) 1:N?1 的策略。形式上,第 i 個(gè)智能體的 k 級(jí)策略被設(shè)置為優(yōu)化以下目標(biāo):
其中 L(·) 是損失(或成本)函數(shù)。值得注意的是,這里的策略 π 代表代理的多模態(tài)預(yù)測(cè)軌跡(GMM),并且損失函數(shù)是在軌跡級(jí)別上計(jì)算的。
對(duì)于 0 級(jí)策略,它們不考慮其他代理的可能行為或反應(yīng),而是獨(dú)立行為?;趉級(jí)博弈論框架,我們?cè)O(shè)計(jì)了未來的解碼器,我們將在3.3節(jié)中詳細(xì)闡述。
3.2 場(chǎng)景編碼
**輸入表示。**輸入數(shù)據(jù)包括智能體的歷史狀態(tài)信息 Sp ∈ RN×Th×ds ,其中 ds 表示狀態(tài)屬性的數(shù)量,以及局部矢量化地圖折線 M ∈ RN×Nm×Np×dp 。對(duì)于每個(gè)智能體,我們找到 Nm 個(gè)附近的地圖元素,例如路線和人行橫道,每個(gè)元素包含具有 dp 屬性的 Np 個(gè)航路點(diǎn)。輸入根據(jù)自我代理的狀態(tài)進(jìn)行標(biāo)準(zhǔn)化,并且張量中任何缺失的位置都用零填充。
**代理歷史編碼。**我們使用 LSTM 網(wǎng)絡(luò)對(duì)每個(gè)智能體的歷史狀態(tài)序列 Sp 進(jìn)行編碼,得到一個(gè)張量 Ap ∈ RN×D,其中包含所有智能體的過去特征。這里,D表示隱藏特征維度
**矢量化地圖編碼。**為了對(duì)所有智能體的局部地圖折線進(jìn)行編碼,我們使用多層感知器(MLP)網(wǎng)絡(luò),該網(wǎng)絡(luò)生成特征維度為 D 的地圖特征張量 Mp ∈ RN×Nm×Np×D。然后,我們將路徑點(diǎn)分組為相同的地圖元素并使用最大池化來聚合它們的特征,從而減少地圖標(biāo)記的數(shù)量。得到的地圖特征張量被重塑為 Mr ∈ RN×Nmr×D,其中 Nmr 表示聚合的地圖元素的數(shù)量。
**關(guān)系編碼。**我們將代理特征及其相應(yīng)的局部地圖特征連接起來,為每個(gè)代理創(chuàng)建一個(gè)代理場(chǎng)景上下文張量 Ci = [Ap, M i p] ∈ R(N+Nmr)×D。我們使用具有 E 層的 Transformer 編碼器來捕獲每個(gè)代理的上下文張量 Ci 中所有場(chǎng)景元素之間的關(guān)系。 Transformer編碼器應(yīng)用于所有代理,生成最終的場(chǎng)景上下文編碼Cs ∈ RN×(N+Nmr)×D,它代表后續(xù)解碼器網(wǎng)絡(luò)的公共環(huán)境背景輸入。
3.3 Future Decoding with Level-k Reasoning
**模態(tài)嵌入。**為了考慮未來的不確定性,我們需要初始化每個(gè)可能的未來的模態(tài)嵌入,作為對(duì) 0 級(jí)解碼器的查詢。這可以通過基于啟發(fā)式的方法、可學(xué)習(xí)的初始查詢[31]或通過數(shù)據(jù)驅(qū)動(dòng)的方法[35]來實(shí)現(xiàn)。具體來說,生成一個(gè)可學(xué)習(xí)的初始模態(tài)嵌入張量 I ∈ RN×M×D,其中 M 表示未來模態(tài)的數(shù)量。
**0 級(jí)解碼。**在 level-0 解碼層中,使用多頭交叉注意力 Transformer 模塊,該模塊將初始模態(tài)嵌入 I 和代理在最終場(chǎng)景上下文 Cs,Ap 中的歷史編碼的組合作為輸入(通過膨脹模態(tài)) axis),得到 (Cs,Ap + I) ∈ RN×M×D 作為查詢,場(chǎng)景上下文編碼 Cs 作為鍵和值。將注意力應(yīng)用于每個(gè)智能體的模態(tài)軸,并且在注意力層之后可以獲得查詢內(nèi)容特征為ZL0 ∈ RN×M×D。兩個(gè) MLP 被附加到查詢內(nèi)容特征 ZL0 上,以解碼預(yù)測(cè)未來 GL0 ∈ RN×M×Tf ×4 的 GMM 分量(對(duì)應(yīng)于每個(gè)時(shí)間步的(μx,μy,log σx,log σy))以及這些的分?jǐn)?shù)分量 PL0 ∈ RN×M×1。
**交互解碼。**交互解碼階段包含對(duì)應(yīng)于K個(gè)推理級(jí)別的K個(gè)解碼層。在第 k 層 (k ≥ 1) 中,它接收來自第 (k ? 1) 層的所有智能體軌跡 SLk?1 f∈ RN×M×Tf ×2 (GMM GLk?1 的平均值) )并使用時(shí)間軸上具有最大池化的 MLP 對(duì)軌跡進(jìn)行編碼,從而產(chǎn)生代理多模態(tài)未來軌跡編碼 ALk?1 mf ∈ RN×M×D 的張量。然后,我們使用來自 level-(k ? 1) 層 PLk?1 的預(yù)測(cè)分?jǐn)?shù)在模態(tài)軸上應(yīng)用加權(quán)平均池化,以獲得代理未來特征 ALk?1 f ∈ RN×D。我們使用多頭自注意力 Transformer 模塊對(duì)代理未來軌跡 ALk?1 fi 之間的交互進(jìn)行建模,并將所得交互特征與編碼器部分的場(chǎng)景上下文編碼連接起來。這產(chǎn)生了代理 i 的更新場(chǎng)景上下文編碼,表示為 Ci Lk = [ALk?1 fi , Ci s] ∈ R(N+Nm+N)×D。我們采用多頭交叉注意力 Transformer 模塊,其查詢內(nèi)容特征來自 level-(k ? 1) 層 Zi Lk?1 和代理未來特征 ALk?1 mf ,(Zi Lk?1 + Ai,Lk?1 mf ) ∈ RM×D 作為查詢,更新的場(chǎng)景上下文編碼 Ci Lk 作為鍵和值。我們使用屏蔽策略來防止代理從最后一層訪問自己的未來信息。例如,智能體 A0 只能訪問其他智能體 {A1,····,AN?1} 的未來交互特征。最后,交叉注意力模塊 Zi Lk 生成的查詢內(nèi)容張量通過兩個(gè) MLP 來分別解碼代理的 GMM 組件和分?jǐn)?shù)。圖3示出了k級(jí)交互解碼器的詳細(xì)結(jié)構(gòu)。請(qǐng)注意,我們?yōu)樗兄悄荏w共享 k 級(jí)解碼器,以生成該級(jí)別的多智能體軌跡。在交互解碼的最后一級(jí),我們可以獲得 AV 和鄰近代理 GLK 的多模態(tài)軌跡,以及它們的分?jǐn)?shù) PLK 。
圖 3. k 級(jí)交互解碼器的詳細(xì)結(jié)構(gòu)。
3.4 Learning Process
我們提出了一個(gè)學(xué)習(xí)過程,使用 k 級(jí)博弈論形式來訓(xùn)練我們的模型。首先,我們采用模仿?lián)p失作為主要損失來規(guī)范智能體的行為,這可以被視為交通法規(guī)和駕駛風(fēng)格等因素的替代。智能體的未來行為被建模為高斯混合模型 (GMM),其中時(shí)間步 t 處的每個(gè)模式 m 由 (x, y) 坐標(biāo)上的高斯分布來描述,以平均值 μtm 和協(xié)方差 σt m 為特征。模仿?lián)p失是使用每個(gè)時(shí)間步長(zhǎng)的最佳預(yù)測(cè)分量 m*(最接近真實(shí)情況)的負(fù)對(duì)數(shù)似然損失來計(jì)算的,如下所示:
負(fù)對(duì)數(shù)似然損失函數(shù)LNLL定義如下:
其中 dx = sx ? μx 且 dy = sy ? μy,(sx, sy) 是真實(shí)位置; pm*是所選分量的概率,我們?cè)趯?shí)踐中使用交叉熵?fù)p失。
對(duì)于 k 級(jí)代理 A(k) i ,我們受先前作品 [4,16,29] 的啟發(fā),設(shè)計(jì)了一個(gè)輔助損失函數(shù),該函數(shù)考慮了代理與其他人的交互。代理交互的安全性至關(guān)重要,我們使用交互損失(僅適用于解碼級(jí)別 k ≥ 1)來鼓勵(lì)代理避免與其他級(jí)別(k ? 1)代理的未來可能軌跡發(fā)生碰撞。具體來說,我們?cè)诮换p失中使用排斥勢(shì)場(chǎng)來阻止智能體的未來軌跡過于接近任何其他級(jí)別的任何可能軌跡 - (k ? 1) 智能體 A(k?1) ?i 。交互損失定義如下:
其中 d(·,·) 是未來狀態(tài)((x, y) 位置)之間的 L2 距離,m 是智能體 i 的模式,n 是級(jí)別 (k ? 1) 智能體 j 的模式。為了確保僅在近距離內(nèi)激活排斥力,引入了安全裕度,這意味著損失僅適用于距離小于閾值的相互作用對(duì)。
k 級(jí)智能體 i 的總損失函數(shù)是模仿?lián)p失和交互損失的加權(quán)和。
其中 w1 和 w2 是平衡兩個(gè)損失項(xiàng)影響的權(quán)重因子。
?Experimment
4.1 Experimental Setup
數(shù)據(jù)集。我們?yōu)椴煌脑u(píng)估目的設(shè)置了兩種不同的模型變體。面向預(yù)測(cè)的模型使用 Waymo 開放運(yùn)動(dòng)數(shù)據(jù)集 (WOMD) [9] 進(jìn)行訓(xùn)練和評(píng)估,專門解決預(yù)測(cè)兩個(gè)交互代理的聯(lián)合軌跡的任務(wù)。對(duì)于規(guī)劃任務(wù),我們?cè)诰哂羞x定交互場(chǎng)景的 WOMD 和具有綜合評(píng)估基準(zhǔn)的 nuPlan 數(shù)據(jù)集 [2] 上訓(xùn)練和測(cè)試模型。
**面向預(yù)測(cè)的模型。**我們采用 WOMD 交互預(yù)測(cè)任務(wù)的設(shè)置,其中模型預(yù)測(cè)未來 8 秒內(nèi)兩個(gè)交互智能體的聯(lián)合未來位置。場(chǎng)景中的相鄰智能體將作為編碼階段的背景信息,而僅預(yù)測(cè)兩個(gè)標(biāo)記的交互智能體的聯(lián)合未來軌跡。該模型在整個(gè) WOMD 訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練,我們采用官方評(píng)估指標(biāo),包括最小平均位移誤差 (minADE)、最小最終位移誤差 (minFDE)、缺失率和平均平均精度 (mAP)。我們研究了兩種不同的預(yù)測(cè)模型設(shè)置。首先,我們考慮聯(lián)合預(yù)測(cè)設(shè)置,其中僅預(yù)測(cè)兩個(gè)智能體的 M = 6 個(gè)聯(lián)合軌跡[32]。其次,我們檢查邊際預(yù)測(cè)設(shè)置并訓(xùn)練我們的模型來預(yù)測(cè)交互對(duì)中每個(gè)代理的 M = 64 邊際軌跡。在推理過程中,采用 MultiPath++ [40] 中提出的 EM 方法為每個(gè)智能體生成一組 6 個(gè)邊緣軌跡,從中為這兩個(gè)智能體選擇前 6 個(gè)聯(lián)合預(yù)測(cè)。
**以規(guī)劃為導(dǎo)向的模式。**我們引入了另一種專為規(guī)劃任務(wù)而設(shè)計(jì)的模型變體。具體來說,該變體考慮了 AV 周圍的多個(gè)相鄰智能體并預(yù)測(cè)它們未來的軌跡。該模型在兩個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試:WOMD 和 nuPlan。對(duì)于 WOMD,我們隨機(jī)選擇 10,000 個(gè) 20 秒場(chǎng)景,其中 9,000 個(gè)用于訓(xùn)練,其余 1,000 個(gè)用于驗(yàn)證。然后,我們?cè)陂_環(huán)和閉環(huán)設(shè)置下評(píng)估模型在 400 個(gè) 9 秒交互式動(dòng)態(tài)場(chǎng)景(例如變道、并道和左轉(zhuǎn))上的聯(lián)合預(yù)測(cè)和規(guī)劃性能。為了進(jìn)行閉環(huán)測(cè)試,我們利用日志重放模擬器 [18] 來重放涉及其他代理的原始場(chǎng)景,并由我們的規(guī)劃器控制 AV。在開環(huán)測(cè)試中,我們采用基于距離的誤差指標(biāo),其中包括規(guī)劃 ADE、碰撞率、錯(cuò)過率和預(yù)測(cè) ADE。在閉環(huán)測(cè)試中,我們重點(diǎn)通過測(cè)量成功率(無碰撞或偏離路線)、沿路線進(jìn)度、縱向加速度和加加速度、橫向加速度和位置誤差等指標(biāo)來評(píng)估規(guī)劃器在現(xiàn)實(shí)駕駛環(huán)境中的表現(xiàn)。對(duì)于nuPlan數(shù)據(jù)集,我們?cè)O(shè)計(jì)了一個(gè)全面的規(guī)劃框架,并遵循nuPlan挑戰(zhàn)設(shè)置來評(píng)估規(guī)劃性能。具體來說,我們?cè)u(píng)估規(guī)劃器在三個(gè)任務(wù)中的表現(xiàn):開環(huán)規(guī)劃、使用非反應(yīng)性代理的閉環(huán)規(guī)劃以及使用反應(yīng)性代理的閉環(huán)規(guī)劃。這些任務(wù)使用 nuPlan 平臺(tái)提供的一套全面的指標(biāo)進(jìn)行評(píng)估,并根據(jù)這些任務(wù)得出總體分?jǐn)?shù)。補(bǔ)充材料中提供了有關(guān)我們模型的更多信息。
4.2 主要預(yù)測(cè)結(jié)果
4.2.1 Interaction Prediction
在面向預(yù)測(cè)的模型中,我們使用一堆 E = 6 Transformer 編碼器層,隱藏特征維度設(shè)置為 D = 256。我們將兩個(gè)交互代理周圍的 20 個(gè)相鄰代理視為背景信息,并采用 K = 6 解碼層。該模型僅生成兩個(gè)標(biāo)記的相互作用主體的軌跡。此外,每個(gè)代理的局部地圖元素包括可能的車道折線和人行橫道折線。
定量結(jié)果。表 1 總結(jié)了我們的模型與 WOMD 交互預(yù)測(cè)(兩個(gè)交互代理的聯(lián)合預(yù)測(cè))基準(zhǔn)上最先進(jìn)的方法的預(yù)測(cè)性能。這些指標(biāo)是不同對(duì)象類型(車輛、行人和騎自行車者)和評(píng)估時(shí)間(3、5 和 8 秒)的平均值。我們的聯(lián)合預(yù)測(cè)模型(GameFormer (J, M =6))在位置誤差方面優(yōu)于現(xiàn)有方法。這可以歸因于其通過迭代過程捕獲代理之間未來交互并以場(chǎng)景一致的方式預(yù)測(cè)未來軌跡的卓越能力。然而,如果不預(yù)測(cè)一組過于完整的軌跡和聚合,聯(lián)合模型的評(píng)分性能就會(huì)受到限制。為了緩解這個(gè)問題,我們采用帶有 EM 聚合的邊際預(yù)測(cè)模型 (GameFormer (M, M =64)),這顯著提高了評(píng)分性能(更好的 mAP 指標(biāo))。我們的邊際模型的整體性能與集成模型和更復(fù)雜的 MTR 模型[35]相當(dāng)。然而,值得注意的是,邊緣集成模型由于其巨大的計(jì)算負(fù)擔(dān),可能不適用于現(xiàn)實(shí)世界的應(yīng)用。因此,我們利用聯(lián)合預(yù)測(cè)模型來規(guī)劃測(cè)試,該模型可以提供更好的預(yù)測(cè)精度和計(jì)算效率。
定性結(jié)果。圖 4 說明了我們的方法在幾種典型場(chǎng)景中的交互預(yù)測(cè)性能。在車輛與車輛交互場(chǎng)景中,我們的模型捕獲了兩種不同的情況:車輛 2 在十字路口加速以取得優(yōu)先權(quán),車輛 2 給車輛 1 讓路。在這兩種情況下,我們的模型都預(yù)測(cè)車輛 1 緩慢向前觀察車輛 2 在執(zhí)行左轉(zhuǎn)之前的動(dòng)作。在車輛-行人場(chǎng)景中,我們的模型預(yù)測(cè)車輛將停下來等待行人通過,然后再開始移動(dòng)。在車輛與騎車人交互場(chǎng)景中,車輛打算并入右車道,我們的模型預(yù)測(cè)車輛將減速并跟隨在該車道上的騎車人后面??偟膩碚f,結(jié)果表明我們的模型可以捕獲交互代理的多種交互模式并準(zhǔn)確預(yù)測(cè)它們可能的共同未來。
圖 4.所提出的方法在交互預(yù)測(cè)(兩個(gè)交互主體的多模態(tài)聯(lián)合預(yù)測(cè))中的定性結(jié)果。紅色框是用于預(yù)測(cè)的交互代理,洋紅色框是背景相鄰代理。
4.2.2 開環(huán)規(guī)劃
我們首先在選定的 WOMD 場(chǎng)景中進(jìn)行規(guī)劃測(cè)試,預(yù)測(cè)/規(guī)劃范圍為 5 秒。該模型使用一堆 E = 6 Transformer 編碼器層,我們考慮最接近自我車輛的 10 個(gè)相鄰代理來預(yù)測(cè)它們的 M = 6 個(gè)聯(lián)合未來軌跡。
確定解碼級(jí)別。為了確定規(guī)劃的最佳推理級(jí)別,我們分析了解碼層對(duì)開環(huán)規(guī)劃性能的影響,結(jié)果如表 2 所示。雖然規(guī)劃 ADE 和預(yù)測(cè) ADE 在增加解碼層后表現(xiàn)出輕微下降,當(dāng)解碼級(jí)別為 4 時(shí),丟失率和沖突率最低。這一觀察背后的直覺是,人類只能執(zhí)行有限深度的推理,而根據(jù)經(jīng)驗(yàn),在此測(cè)試中最佳迭代深度似乎是 4。
定量結(jié)果。我們的聯(lián)合預(yù)測(cè)和規(guī)劃模型采用 4 個(gè)解碼層,最終解碼層的結(jié)果(經(jīng)過訓(xùn)練的評(píng)分器評(píng)估的最有可能的未來)被用作 AV 的計(jì)劃和其他智能體的預(yù)測(cè)。我們建立了一些基于模仿學(xué)習(xí)的規(guī)劃方法作為基線,它們是:1)普通模仿學(xué)習(xí)(IL),2)深度模仿模型(DIM)[33],3)MultiPath++[40](預(yù)測(cè)多模態(tài)軌跡)自我代理),4)MTR-e2e(具有可學(xué)習(xí)運(yùn)動(dòng)查詢的端到端變體)[35],以及5)可微集成預(yù)測(cè)和規(guī)劃(DIPP)[18]。表 3 報(bào)告了我們模型與基線方法相比的開環(huán)規(guī)劃性能。結(jié)果表明,我們的模型的表現(xiàn)明顯優(yōu)于普通 IL 和 DIM,因?yàn)樗鼈冎皇潜挥?xùn)練來輸出自我的軌跡,而沒有明確預(yù)測(cè)其他智能體的未來行為。與高性能運(yùn)動(dòng)預(yù)測(cè)模型(MultiPath++ 和 MTR-e2e)相比,我們的模型還顯示了更好的自我代理規(guī)劃指標(biāo)。此外,我們的模型在規(guī)劃和預(yù)測(cè)指標(biāo)方面都優(yōu)于 DIPP(聯(lián)合預(yù)測(cè)和規(guī)劃方法),尤其是碰撞率。這些結(jié)果強(qiáng)調(diào)了我們模型的優(yōu)勢(shì),該模型明確考慮了所有代理的未來行為并迭代地完善了交互過程。
定性結(jié)果。圖 5 顯示了我們的模型在復(fù)雜駕駛場(chǎng)景中的開環(huán)規(guī)劃性能的定性結(jié)果。為了清楚起見,僅顯示代理最有可能的軌跡。這些結(jié)果表明,我們的模型可以為 AV 生成合理的未來軌跡并處理不同的交互場(chǎng)景,并且對(duì)周圍智能體的預(yù)測(cè)增強(qiáng)了我們的規(guī)劃模型輸出的可解釋性。
圖 5. 所提出的方法在開環(huán)規(guī)劃中的定性結(jié)果。紅色框是 AV,洋紅色框是其相鄰代理;紅色軌跡是 AV 的計(jì)劃,藍(lán)色軌跡是鄰近智能體的預(yù)測(cè)。
4.2.3 閉環(huán)規(guī)劃
我們?cè)u(píng)估了模型在選定的 WOMD 場(chǎng)景中的閉環(huán)規(guī)劃性能。在模擬環(huán)境中[18],我們執(zhí)行模型生成的計(jì)劃軌跡,并在每個(gè)時(shí)間步更新自我代理的狀態(tài),而其他代理則遵循數(shù)據(jù)集中記錄的軌跡。由于其他代理不會(huì)對(duì)自我代理做出反應(yīng),因此成功率是安全評(píng)估的下限。對(duì)于基于規(guī)劃的方法(DIPP 和我們提出的方法),我們將輸出軌跡投影到參考路徑上,以確保自我車輛遵守道路。此外,我們采用基于成本的細(xì)化規(guī)劃器[18],它利用初始輸出軌跡和其他智能體的預(yù)測(cè)軌跡來明確調(diào)節(jié)自我智能體的行為。我們的方法與四種基線方法進(jìn)行了比較:1)普通 IL,2)魯棒模仿規(guī)劃(RIP)[10],3)保守 Q 學(xué)習(xí)(CQL)[26]和 4)DIPP [18]。我們報(bào)告了三次訓(xùn)練運(yùn)行(使用不同種子訓(xùn)練的模型)中基于規(guī)劃的方法的平均值和標(biāo)準(zhǔn)差。閉環(huán)測(cè)試的定量結(jié)果總結(jié)在表 4 中。結(jié)果表明,IL 和離線 RL 方法在閉環(huán)測(cè)試中表現(xiàn)不佳,這主要是由于分布變化和偶然混淆造成的。相比之下,基于規(guī)劃的方法在所有指標(biāo)上的表現(xiàn)都明顯更好。如果沒有細(xì)化步驟,我們的模型優(yōu)于 DIPP,因?yàn)樗行У夭东@代理交互,因此原始軌跡更接近專家駕駛員。通過細(xì)化步驟,規(guī)劃器對(duì)于訓(xùn)練種子變得更加穩(wěn)健,并且我們的方法超越了 DIPP,因?yàn)樗梢蕴峁└玫闹悄荏w交互預(yù)測(cè),并為細(xì)化規(guī)劃器提供良好的初始計(jì)劃。
4.2.4 nuPlan 基準(zhǔn)評(píng)估
為了在 nuPlan 平臺(tái) [2] 中處理不同的駕駛場(chǎng)景,我們開發(fā)了一個(gè)全面的規(guī)劃框架 GameFormer Planner。它完成了規(guī)劃流程中的所有重要步驟,包括特征處理、路徑規(guī)劃、模型查詢和運(yùn)動(dòng)細(xì)化。我們將預(yù)測(cè)和規(guī)劃范圍增加到 8 秒以滿足基準(zhǔn)要求。評(píng)估通過三個(gè)任務(wù)進(jìn)行:開環(huán) (OL) 規(guī)劃、使用非反應(yīng)性代理的閉環(huán) (CL) 規(guī)劃以及使用反應(yīng)性代理的閉環(huán)規(guī)劃。每個(gè)單獨(dú)任務(wù)的分?jǐn)?shù)是使用各種指標(biāo)和評(píng)分函數(shù)計(jì)算的,并且通過匯總這些特定于任務(wù)的分?jǐn)?shù)獲得總體分?jǐn)?shù)。值得注意的是,由于測(cè)試服務(wù)器上的計(jì)算資源有限,我們減小了模型(編碼器和解碼器層)的大小。我們的模型在 nuPlan 測(cè)試基準(zhǔn)上的性能如表 5 所示,與其他基于學(xué)習(xí)的競(jìng)爭(zhēng)方法和基于規(guī)則的方法 (IDM Planner) 進(jìn)行了比較。結(jié)果揭示了我們的規(guī)劃框架在評(píng)估任務(wù)中實(shí)現(xiàn)高質(zhì)量規(guī)劃結(jié)果的能力。此外,閉環(huán)可視化結(jié)果說明了我們的模型促進(jìn)自我車輛做出交互式和類人決策的能力。
4.3 消融實(shí)驗(yàn)
**代理未來建模的影響。**我們研究了 WOMD 場(chǎng)景中不同代理未來建模設(shè)置對(duì)開環(huán)規(guī)劃性能的影響。我們將我們的基本模型與三個(gè)消融模型進(jìn)行比較:1)沒有未來:來自前一級(jí)別的智能體未來軌跡未納入當(dāng)前級(jí)別的解碼過程中,2)無自注意力:智能體未來軌跡被納入但不通過以下方式進(jìn)行處理:自注意力模塊,以及 3) 無交互損失:模型在沒有建議的交互損失的情況下進(jìn)行訓(xùn)練。結(jié)果如表 6 所示,表明我們的博弈論方法可以顯著提高規(guī)劃和預(yù)測(cè)的準(zhǔn)確性。它強(qiáng)調(diào)了利用上一級(jí)別的代理的未來軌跡作為當(dāng)前級(jí)別的上下文信息的優(yōu)勢(shì)。此外,合并一個(gè)自注意力模塊來表示代理之間未來的交互可以提高規(guī)劃預(yù)測(cè)的準(zhǔn)確性。在訓(xùn)練期間使用所提出的交互損失可以顯著降低碰撞率。
**解碼器結(jié)構(gòu)的影響。**我們研究了 WOMD 場(chǎng)景中解碼器結(jié)構(gòu)對(duì)開環(huán)規(guī)劃任務(wù)的影響。具體來說,我們檢查了兩個(gè)消融模型。首先,我們?cè)u(píng)估合并 k 個(gè)獨(dú)立解碼器層的重要性,而不是訓(xùn)練單個(gè)共享交互解碼器并迭代應(yīng)用它 k 次。其次,我們探討將解碼器簡(jiǎn)化為不生成中間狀態(tài)的多層 Transformer 的影響。這意味著將損失僅應(yīng)用于最終解碼層,而不是所有中間層。表 7 中的結(jié)果表明基礎(chǔ)模型(具有中間軌跡的獨(dú)立解碼層)具有更好的開環(huán)規(guī)劃性能。這種設(shè)計(jì)允許每一層捕獲不同級(jí)別的關(guān)系,從而促進(jìn)分層建模。此外,省略中間軌跡輸出會(huì)降低模型的性能,這凸顯了規(guī)范中間狀態(tài)輸出的必要性。
**交互預(yù)測(cè)任務(wù)的消融結(jié)果。**我們研究了解碼器對(duì) WOMD 交互預(yù)測(cè)任務(wù)的影響。具體來說,我們將解碼級(jí)別從 0 更改為 8,以確定此任務(wù)的最佳解碼級(jí)別。此外,我們從解碼器中刪除代理未來編碼部分或自注意力模塊(用于建模代理未來交互)以研究它們對(duì)預(yù)測(cè)性能的影響。我們使用相同的訓(xùn)練集訓(xùn)練消融模型,并評(píng)估它們?cè)隍?yàn)證集上的性能。表 8 中的結(jié)果表明,對(duì)于交互預(yù)測(cè)任務(wù),根據(jù)經(jīng)驗(yàn),最佳解碼層數(shù)為 6。很明顯,較少的解碼層無法充分捕獲交互動(dòng)態(tài),導(dǎo)致預(yù)測(cè)性能不佳。然而,使用超過 6 個(gè)解碼層可能會(huì)引入訓(xùn)練不穩(wěn)定和過度擬合問題,從而導(dǎo)致測(cè)試性能變差。同樣,我們發(fā)現(xiàn)結(jié)合預(yù)測(cè)的智能體未來信息對(duì)于實(shí)現(xiàn)良好的性能至關(guān)重要,并且使用自注意力對(duì)智能體未來之間的交互進(jìn)行建模也可以提高預(yù)測(cè)準(zhǔn)確性。
??Conclusion
本文介紹了 GameFormer,這是一種基于 Transformer 的模型,利用分層博弈論進(jìn)行交互式預(yù)測(cè)和規(guī)劃。我們提出的方法在 Transformer 預(yù)測(cè)模型中結(jié)合了新穎的 k 級(jí)交互解碼器,迭代地細(xì)化交互代理的未來軌跡。我們還實(shí)現(xiàn)了一個(gè)學(xué)習(xí)過程,根據(jù)上一級(jí)的預(yù)測(cè)結(jié)果來調(diào)節(jié)代理的預(yù)測(cè)行為。 Waymo 開放運(yùn)動(dòng)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的模型在交互預(yù)測(cè)方面實(shí)現(xiàn)了最先進(jìn)的準(zhǔn)確性,并且在開環(huán)和閉環(huán)規(guī)劃測(cè)試中均優(yōu)于基線方法。此外,我們提出的規(guī)劃框架在 nuPlan 規(guī)劃基準(zhǔn)上提供了領(lǐng)先的性能。
??Supplementary Material
A. Experiment Details
A.1 Prediction-oriented Model
**模型輸入。**在每個(gè)場(chǎng)景中,兩個(gè)交互代理之一被指定為焦點(diǎn)代理,其當(dāng)前狀態(tài)作為坐標(biāo)系的原點(diǎn)。我們將距離目標(biāo)智能體最近的 10 個(gè)周圍智能體視為背景智能體,因此,需要預(yù)測(cè)兩個(gè)目標(biāo)智能體,并且場(chǎng)景中最多有 20 個(gè)不同的背景智能體。以 10Hz 的采樣率檢索每個(gè)智能體最后一秒的當(dāng)前狀態(tài)和歷史狀態(tài),從而為每個(gè)智能體生成形狀為 (22 × 11) 的張量。每個(gè)時(shí)間步的狀態(tài)包括智能體的位置(x,y),航向角(θ),速度(vx,vy),邊界框大?。↙,W,H)和智能體的one-hot類別編碼(總共三種)。每個(gè)智能體的所有歷史狀態(tài)被聚合成一個(gè)固定形狀的張量(22×11×11),缺失的智能體狀態(tài)用零填充,以形成歷史智能體狀態(tài)的輸入張量。
對(duì)于每個(gè)目標(biāo)智能體,使用道路圖上的深度優(yōu)先搜索來識(shí)別智能體可以行駛的最多 6 條可行駛車道(每條延伸 100 米),以及附近的 4 個(gè)人行橫道作為本地地圖上下文,每個(gè)地圖向量包含 100航路點(diǎn)??尚旭傑嚨乐新伏c(diǎn)的特征包括中心線、左邊界和右邊界的位置和航向角、速度限制以及車道類型、紅綠燈狀態(tài)和停車標(biāo)志等離散屬性。人行橫道折線中路點(diǎn)的特征僅包含位置和航向角。因此,目標(biāo)代理的局部地圖上下文包含兩個(gè)張量:形狀為 (6 × 100 × 15) 的可行駛車道和形狀為 (4 × 100 × 3) 的人行橫道。
**編碼器結(jié)構(gòu)。**在編碼器部分,我們利用兩個(gè)獨(dú)立的 LSTM 分別對(duì)目標(biāo)代理和背景代理的歷史狀態(tài)進(jìn)行編碼,從而產(chǎn)生一個(gè)形狀為 (22 × 256) 的張量,其中包含所有代理的歷史狀態(tài)序列。本地地圖上下文編碼器由用于處理可行駛車道的車道編碼器和用于人行橫道折線的人行橫道編碼器組成。車道編碼器采用MLP對(duì)數(shù)值特征進(jìn)行編碼,并使用嵌入層對(duì)離散特征進(jìn)行編碼,輸出形狀為(2×6×100×256)的編碼車道向量張量,而人行橫道編碼器使用MLP對(duì)數(shù)值特征進(jìn)行編碼,從而得到形狀為 (2 × 4 × 100 × 256) 的人行橫道向量張量。隨后,我們利用最大池化層(步長(zhǎng)為 10)來聚合編碼車道張量中可行駛車道的路點(diǎn),產(chǎn)生形狀為 (2 × 6 × 10 × 256) 的張量,該張量被重塑為 ( 2×60×256)。類似地,使用步長(zhǎng)為 20 的最大池化層處理編碼的人行橫道張量,以獲得形狀為 (2 × 20 × 256) 的張量。這兩個(gè)張量連接起來生成形狀為 (2 × 80 × 256) 的編碼局部地圖上下文張量。對(duì)于每個(gè)目標(biāo)智能體,我們將其本地地圖上下文張量與所有智能體的歷史狀態(tài)張量連接起來,以獲得維度為(102×256)的場(chǎng)景上下文張量,并使用自注意力 Transformer 編碼器層來提取各個(gè)智能體之間的關(guān)系場(chǎng)景中的元素。值得注意的是,場(chǎng)景上下文張量中的無效位置在注意力計(jì)算中被屏蔽。
**解碼器結(jié)構(gòu)。**對(duì)于 M = 6 聯(lián)合預(yù)測(cè)模型,我們采用形狀為 (2 × 6 × 256) 的可學(xué)習(xí)潛在模態(tài)嵌入。對(duì)于每個(gè)智能體,0級(jí)解碼器中的查詢(6×256)是通過對(duì)目標(biāo)智能體的歷史編碼及其相應(yīng)的潛在模態(tài)嵌入求和而獲得的;值和鍵由編碼器從場(chǎng)景上下文中導(dǎo)出。 0 級(jí)解碼器使用來自注意力輸出的 MLP 生成具有 x 和 y 坐標(biāo)的目標(biāo)代理的多模態(tài)未來軌跡。每個(gè)軌跡的分?jǐn)?shù)由另一個(gè)形狀為 (6 × 1) 的 MLP 解碼。在 levelk 解碼器中,我們使用跨不同層的共享未來編碼器(包括 MLP 和最大池層)將前一層的未來軌跡編碼為形狀為 (6 × 256) 的張量。接下來,我們使用軌跡分?jǐn)?shù)對(duì)編碼軌跡進(jìn)行平均池化,從而得到代理的編碼未來。然后,兩個(gè)目標(biāo)代理的編碼未來被輸入到自注意力 Transformer 層中,以對(duì)它們未來的交互進(jìn)行建模。最后,Transformer 層的輸出被附加到從編碼器獲得的場(chǎng)景上下文中。
對(duì)于 M = 64 邊緣預(yù)測(cè)模型,我們使用一組用 MLP 編碼的 64 個(gè)固定意圖點(diǎn)來創(chuàng)建形狀為 (2 × 64 × 256) 的模態(tài)嵌入。該模態(tài)嵌入用作 0 級(jí)解碼器的查詢輸入。固定意圖點(diǎn)是通過K-means方法從訓(xùn)練數(shù)據(jù)集中獲得的。對(duì)于每個(gè)場(chǎng)景,兩個(gè)目標(biāo)代理的意圖點(diǎn)根據(jù)焦點(diǎn)代理的坐標(biāo)系進(jìn)行標(biāo)準(zhǔn)化。解碼器的其他組件與聯(lián)合預(yù)測(cè)模型中使用的組件相同。
**訓(xùn)練。**在訓(xùn)練數(shù)據(jù)集中,每個(gè)場(chǎng)景包含多個(gè)要預(yù)測(cè)的智能體軌跡,我們將每個(gè)軌跡依次視為焦點(diǎn)智能體,同時(shí)選擇與焦點(diǎn)智能體最接近 1 的軌跡作為交互智能體。任務(wù)是預(yù)測(cè)這兩個(gè)智能體未來六種可能的聯(lián)合軌跡。我們?cè)诿總€(gè)級(jí)別僅采用模仿?lián)p失來提高預(yù)測(cè)精度和訓(xùn)練效率。
在聯(lián)合預(yù)測(cè)模型中,我們的目標(biāo)是預(yù)測(cè)兩個(gè)智能體的聯(lián)合和場(chǎng)景級(jí)未來軌跡。因此,我們通過最接近地面實(shí)況的兩個(gè)智能體的聯(lián)合未來軌跡來反向傳播損失(即具有最小的位移誤差總和)。在邊際預(yù)測(cè)模型中,我們通過正 GMM 分量將模仿?lián)p失反向傳播到個(gè)體代理,該正 GMM 分量對(duì)應(yīng)于距真實(shí)軌跡端點(diǎn)最近的意圖點(diǎn)。
我們的模型使用 AdamW 優(yōu)化器進(jìn)行了 30 輪訓(xùn)練,權(quán)重衰減為 0.01。學(xué)習(xí)率從 1e-4 開始,在 15 個(gè) epoch 后每 3 個(gè) epoch 衰減 0.5 倍。我們還對(duì)網(wǎng)絡(luò)參數(shù)的梯度范數(shù)進(jìn)行了裁剪,梯度的最大范數(shù)為 5。我們使用 4 個(gè) NVIDIA Tesla V100 GPU 訓(xùn)練模型,每個(gè) GPU 的批量大小為 64。
**測(cè)試。**測(cè)試數(shù)據(jù)集包含三種類型的主體:車輛、行人和騎自行車的人。對(duì)于車輛與車輛的交互,我們隨機(jī)選擇兩輛車之一作為焦點(diǎn)代理。對(duì)于其他類型的交互對(duì)(例如,騎自行車者-車輛和行人-車輛),我們將騎自行車者或行人視為焦點(diǎn)代理。對(duì)于邊際預(yù)測(cè)模型,我們采用期望最大化(EM)方法來聚合每個(gè)智能體的軌跡。具體來說,我們使用 EM 方法從每個(gè)智能體預(yù)測(cè)的 64 條軌跡中獲取 6 條邊際軌跡(及其概率)。然后,我們考慮兩個(gè)智能體 36 種可能組合中的前 6 個(gè)聯(lián)合預(yù)測(cè),其中每個(gè)組合的置信度是邊際概率的乘積。
A.2 Planning-oriented Model
**模型輸入。**在每個(gè)場(chǎng)景中,我們考慮 AV 和周圍 10 個(gè)智能體來對(duì) AV 進(jìn)行規(guī)劃并為其他智能體進(jìn)行預(yù)測(cè)。 AV的當(dāng)前狀態(tài)是局部坐標(biāo)系的原點(diǎn)。提取過去兩秒內(nèi)所有智能體的歷史狀態(tài);對(duì)于每個(gè)代理,我們找到其附近的 6 個(gè)可行駛車道和 4 個(gè)人行橫道。此外,我們從 AV 的地面真實(shí)未來軌跡中提取其經(jīng)過的車道路點(diǎn),并使用三次樣條來插入這些路點(diǎn)以生成 AV 的參考路線。參考路線在AV前方延伸100米,包含1000個(gè)間隔0.1米的航路點(diǎn)。它被表示為形狀為 (1000 × 5) 的張量。除了位置和航向之外,參考路線張量還包含有關(guān)速度限制和停止點(diǎn)的信息。
**模型結(jié)構(gòu)。**對(duì)于每個(gè)智能體,其場(chǎng)景上下文張量被創(chuàng)建為所有智能體的歷史狀態(tài)和編碼的本地地圖元素的串聯(lián),從而產(chǎn)生形狀為 (91 × 256) 的張量。在解碼階段,大小為 (11 × 6 × 256) 的可學(xué)習(xí)模態(tài)嵌入和代理的歷史編碼用作 0 級(jí)解碼器的輸入,該解碼器輸出六個(gè)可能的軌跡以及相應(yīng)的分?jǐn)?shù)。在 k 級(jí)解碼器中,所有代理的未來編碼都是通過大小為(11×256)的自注意力模塊獲得的,并與來自編碼器的場(chǎng)景上下文張量連接起來。此串聯(lián)生成形狀為 (102 × 256) 的更新場(chǎng)景上下文張量。當(dāng)在當(dāng)前級(jí)別解碼代理的未來軌跡時(shí),場(chǎng)景上下文張量中該代理的未來編碼被屏蔽,以避免使用其先前預(yù)測(cè)的未來信息。
**訓(xùn)練。**在數(shù)據(jù)處理中,我們過濾掉AV移動(dòng)距離小于5米的場(chǎng)景(例如紅燈停車時(shí))。類似地,我們進(jìn)行聯(lián)合未來預(yù)測(cè),并通過最接近真實(shí)情況的聯(lián)合未來計(jì)算模仿?lián)p失。模仿?lián)p失和交互損失的權(quán)重設(shè)置為 w1 = 1,w2 = 0.1。我們的模型使用 AdamW 優(yōu)化器進(jìn)行了 20 個(gè)時(shí)期的訓(xùn)練,權(quán)重衰減為 0.01。學(xué)習(xí)率初始化為 1e-4,并在第 10 個(gè) epoch 之后每 2 個(gè) epoch 降低 0.5 倍。我們使用 NVIDIA RTX 3080 GPU 訓(xùn)練模型,批量大小為 32。
**測(cè)試。**測(cè)試場(chǎng)景是從 WOMD 中提取的,其中自我代理顯示動(dòng)態(tài)駕駛行為。在開環(huán)測(cè)試中,我們檢查 AV 的計(jì)劃軌跡與其他智能體的真實(shí)未來軌跡之間的碰撞,如果最后一步 AV 的計(jì)劃狀態(tài)與真實(shí)狀態(tài)之間的距離大于 4.5 米,我們將計(jì)算為未命中。規(guī)劃誤差和預(yù)測(cè)誤差是根據(jù)模型評(píng)分的最可能軌跡計(jì)算的。在閉環(huán)測(cè)試中,AV在每個(gè)時(shí)間步以0.1秒的間隔規(guī)劃軌跡,并執(zhí)行規(guī)劃的第一步。
A.3 Baseline Methods
為了比較模型性能,我們引入了以下基于學(xué)習(xí)的規(guī)劃基線。
**Vanilla Imitation Learning (IL):**我們模型的簡(jiǎn)化版本,直接輸出 AV 的計(jì)劃軌跡,無需明確推理其他智能體的未來軌跡。該計(jì)劃只是一個(gè)單模態(tài)軌跡。我們模型的原始編碼器部分被利用,但只有一個(gè)解碼器層與自我代理的歷史編碼作為查詢用于解碼 AV 的計(jì)劃。
**深度模仿模型(DIM):**一種概率規(guī)劃方法,旨在根據(jù) AV 的觀察者生成類似專家的未來軌跡 q (S1:T |φ) = QT t=1 q (St|S1:t?1, φ)變化 φ。我們遵循原始的開源DIM實(shí)現(xiàn),并使用光柵化場(chǎng)景圖像R200×200×3和AV的歷史狀態(tài)R11×5作為觀察。我們使用 CNN 來編碼場(chǎng)景圖像,并使用 RNN 來編碼代理的歷史狀態(tài)。 AV 的未來狀態(tài)以自回歸方式解碼(作為多元高斯分布)。在測(cè)試中,DIM 需要一個(gè)特定的目標(biāo) G 來引導(dǎo)智能體達(dá)到目標(biāo),并且基于梯度的規(guī)劃器最大化學(xué)習(xí)的模仿先驗(yàn) log q (S|φ) 和測(cè)試時(shí)目標(biāo)似然 log p(G|S, φ) )。
**魯棒模仿規(guī)劃(RIP):**一種基于 DIM 開發(fā)的認(rèn)知不確定性感知規(guī)劃方法,在分布外(OOD)場(chǎng)景中進(jìn)行魯棒規(guī)劃時(shí)表現(xiàn)出良好的性能。具體來說,我們采用原始的開源實(shí)現(xiàn),并在 d = 6 個(gè)經(jīng)過訓(xùn)練的 DIM 模型中選擇具有最壞似然思維日志 q (S1:T |φ) 的最壞情況模型,并使用基于梯度的規(guī)劃器對(duì)其進(jìn)行改進(jìn)。
保守 Q 學(xué)習(xí) (CQL):一種廣泛使用的離線強(qiáng)化學(xué)習(xí)算法,可學(xué)習(xí)如何根據(jù)離線數(shù)據(jù)集做出決策。我們使用 d3rlpy 離線 RL 庫2 實(shí)現(xiàn) CQL 方法。 RL 智能體采用與 DIM 方法相同的狀態(tài)輸入,并輸出相對(duì)于智能體當(dāng)前位置的下一步目標(biāo)姿態(tài)(Δx、Δy、Δθ)。獎(jiǎng)勵(lì)函數(shù)是每步移動(dòng)的距離加上達(dá)到目標(biāo)的額外獎(jiǎng)勵(lì),即 rt = Δdt + 10 × 1 (d(st, sgoal) < 1)。由于數(shù)據(jù)集僅包含完美的駕駛數(shù)據(jù),因此獎(jiǎng)勵(lì)函數(shù)中不包含碰撞懲罰。
可微集成預(yù)測(cè)和規(guī)劃(DIPP):一種聯(lián)合預(yù)測(cè)和規(guī)劃方法,使用可微運(yùn)動(dòng)規(guī)劃器根據(jù)預(yù)測(cè)結(jié)果優(yōu)化軌跡。我們采用原始的開源實(shí)現(xiàn)和相同的狀態(tài)輸入設(shè)置。我們將歷史范圍增加到 20,并將預(yù)測(cè)模式的數(shù)量從 3 增加到 6。在開環(huán)測(cè)試中,我們利用 DIPP 預(yù)測(cè)網(wǎng)絡(luò)的結(jié)果,而無需軌跡規(guī)劃(細(xì)化)。
**MultiPath++:**一種高性能運(yùn)動(dòng)預(yù)測(cè)模型,基于異構(gòu)場(chǎng)景元素和可學(xué)習(xí)的潛在錨嵌入的上下文感知融合。我們利用 MultiPath++3 的開源實(shí)現(xiàn),在 WOMD 運(yùn)動(dòng)預(yù)測(cè)基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的預(yù)測(cè)精度。我們使用相同的數(shù)據(jù)集訓(xùn)練模型來預(yù)測(cè)自我代理的 6 種可能的軌跡和相應(yīng)的分?jǐn)?shù)。在開環(huán)測(cè)試中,只有最有可能的軌跡將被用作自動(dòng)駕駛汽車的規(guī)劃。
**Motion Transformer (MTR)-e2e:**最先進(jìn)的預(yù)測(cè)模型,在 WOMD 運(yùn)動(dòng)預(yù)測(cè)排行榜上占據(jù)第一名。我們遵循上下文編碼器和 MTR 解碼器的原始開源實(shí)現(xiàn)。然而,我們修改了解碼器以使用 MTR 的端到端變體,它更適合開環(huán)規(guī)劃任務(wù)。具體來說,僅使用 6 個(gè)可學(xué)習(xí)運(yùn)動(dòng)查詢對(duì)來解碼 6 個(gè)可能的軌跡和分?jǐn)?shù)。使用相同的數(shù)據(jù)集來訓(xùn)練 MTR-e2e 模型,并根據(jù) MTR 上下文輸入處理數(shù)據(jù)。
A.4 細(xì)化規(guī)劃
**逆動(dòng)態(tài)模型。**為了將初始規(guī)劃軌跡轉(zhuǎn)換為控制動(dòng)作 {at, δt}(即加速度和偏航率),我們利用以下逆動(dòng)態(tài)模型。
其中 pt 是軌跡中的預(yù)測(cè)坐標(biāo),Δt 是時(shí)間間隔。
**動(dòng)態(tài)模型。**為了從控制動(dòng)作中導(dǎo)出坐標(biāo)和航向 {pxt, pyt, θ},我們采用以下可微動(dòng)態(tài)模型。
**運(yùn)動(dòng)規(guī)劃器。**我們使用 DIPP 中提出的可微運(yùn)動(dòng)規(guī)劃器來規(guī)劃 AV 的軌跡。規(guī)劃器將根據(jù)模型給出的規(guī)劃軌跡導(dǎo)出的初始控制動(dòng)作序列作為輸入。我們將每個(gè)規(guī)劃成本項(xiàng) ci 表示為平方向量值殘差,運(yùn)動(dòng)規(guī)劃器旨在解決以下非線性最小二乘問題:
其中 u 是控制動(dòng)作的序列,ωi 是成本 ci 的權(quán)重。
我們考慮了 DIPP 中提出的各種成本項(xiàng),包括行駛速度、控制力(加速度和偏航率)、乘坐舒適度(加加速度和偏航率變化)、到參考線的距離、航向差以及成本違反交通燈的行為。最重要的是,安全成本考慮了所有其他智能體的預(yù)測(cè)狀態(tài)并避免與它們發(fā)生碰撞,如 DIPP 所示。
我們使用高斯-牛頓方法來解決優(yōu)化問題。最大迭代次數(shù)為 30,步長(zhǎng)為 0.3。我們使用迭代過程中的最佳解決方案作為最終執(zhí)行的計(jì)劃。
學(xué)習(xí)成本函數(shù)權(quán)重。由于運(yùn)動(dòng)規(guī)劃器是可微的,我們可以通過優(yōu)化器的微分來學(xué)習(xí)成本項(xiàng)的權(quán)重。我們使用下面的模仿學(xué)習(xí)損失(平均位移誤差和最終位移誤差)來學(xué)習(xí)成本權(quán)重,并最小化成本值的總和。我們?cè)谶\(yùn)動(dòng)規(guī)劃器中將最大迭代次數(shù)設(shè)置為 3,將步長(zhǎng)設(shè)置為 0.5。我們使用學(xué)習(xí)率為5e-4的Adam優(yōu)化器來訓(xùn)練成本函數(shù)權(quán)重;批量大小為 32,訓(xùn)練總步數(shù)為 10,000。
其中 λ1 = 1、λ2 = 0.5、λ3 = 0.001 是權(quán)重。
A.5 GameFormer Planner
為了驗(yàn)證我們的模型在 nuPlan 基準(zhǔn)4上的性能,我們開發(fā)了一個(gè)全面的規(guī)劃框架來處理 nuPlan 中的實(shí)際駕駛場(chǎng)景。規(guī)劃過程包括以下步驟: 1)特征處理:對(duì)觀測(cè)緩沖區(qū)和地圖API中的相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理,提取預(yù)測(cè)模型的輸入特征; 2)路徑規(guī)劃:計(jì)算本車的候選路徑,從中選擇最優(yōu)路徑作為參考路徑; 3)模型查詢:查詢預(yù)測(cè)模型以生成自我車輛的初始計(jì)劃并預(yù)測(cè)周圍智能體的軌跡; 4)軌跡細(xì)化:采用非線性優(yōu)化器來細(xì)化本車在參考路徑上的軌跡并產(chǎn)生最終計(jì)劃。為了提高計(jì)算效率,我們使用 GameFormer 模型的緊湊版本,為其配置 3 個(gè)編碼層和 3 個(gè)解碼層(1 個(gè)初始解碼層和 2 個(gè)交互解碼層)。此外,我們?cè)谧詈笠粋€(gè)交互解碼層之后引入了一個(gè)額外的解碼層,以單獨(dú)生成自我車輛的計(jì)劃。然后將自我計(jì)劃投影到參考路徑上作為細(xì)化規(guī)劃器的初始化。 GameFormer 模型的輸出由周圍智能體的多模態(tài)軌跡組成。對(duì)于每個(gè)相鄰智能體,我們選擇概率最高的軌跡,并使用 Frenet 變換將其投影到參考路徑上,隨后計(jì)算時(shí)空路徑占用率。這份專門報(bào)告5對(duì)規(guī)劃框架進(jìn)行了全面的描述。
B. Additional Quantitative Results(額外的定量結(jié)果)
B.1 交互預(yù)測(cè)
表 S1 顯示了我們的模型在 WOMD 交互預(yù)測(cè)基準(zhǔn)上與 MTR 模型相比的每類別性能。 GameFormer 聯(lián)合預(yù)測(cè)模型在所有對(duì)象類別中表現(xiàn)出最低的 minFDE,表明我們的模型和交互模式聯(lián)合訓(xùn)練的優(yōu)勢(shì)。我們的 GameFormer 模型在自行車手類別中超越了 MTR,并在其他類別中實(shí)現(xiàn)了與 MTR 相當(dāng)?shù)男阅?,盡管其結(jié)構(gòu)比 MTR 簡(jiǎn)單得多。
B.2 nuPlan Benchmark
表 S2 展示了我們的規(guī)劃器和 DIPP 規(guī)劃器之間的性能比較。對(duì)于基準(zhǔn)評(píng)估,我們用DIPP模型替換了所提出的規(guī)劃框架中的預(yù)測(cè)模型,框架的其他部分保持不變。結(jié)果表明,GameFormer 模型仍然優(yōu)于 DIPP 模型,因?yàn)樽晕抑悄荏w的初始計(jì)劃更好,而其他智能體的預(yù)測(cè)結(jié)果更好。
B.3 消融實(shí)驗(yàn)
**解碼級(jí)別對(duì)閉環(huán)規(guī)劃的影響。**我們使用成功率(無沖突)作為主要指標(biāo),研究了所選 WOMD 場(chǎng)景中解碼級(jí)別對(duì)閉環(huán)規(guī)劃性能的影響。我們還報(bào)告了閉環(huán)規(guī)劃中預(yù)測(cè)網(wǎng)絡(luò)(沒有細(xì)化運(yùn)動(dòng)規(guī)劃器)的推理時(shí)間,該預(yù)測(cè)網(wǎng)絡(luò)在 NVIDIA RTX 3080 GPU 上執(zhí)行。表S3中的結(jié)果表明,增加解碼層數(shù)可能會(huì)帶來更高的成功率,甚至添加單層交互建模也可以比level-0帶來顯著的改進(jìn)。在閉環(huán)1測(cè)試中,成功率在解碼級(jí)別2處達(dá)到穩(wěn)定水平,而計(jì)算時(shí)間繼續(xù)增加。因此,在我們的模型中使用兩個(gè)推理級(jí)別可以在實(shí)際應(yīng)用中提供性能和效率之間的有利平衡。
C. Additional Qualitative Results
C.1 Interaction Prediction
圖 S1 展示了我們的 GameFormer 框架在交互預(yù)測(cè)任務(wù)中的額外定性結(jié)果,展示了我們的方法處理各種交互對(duì)和復(fù)雜的城市駕駛場(chǎng)景的能力。
C.2 Level-k Prediction
圖S2說明了目標(biāo)代理在不同交互水平下最有可能的關(guān)節(jié)軌跡。結(jié)果表明,我們提出的模型能夠在迭代交互過程中細(xì)化預(yù)測(cè)結(jié)果。在 0 級(jí),對(duì)目標(biāo)代理的預(yù)測(cè)顯得更加獨(dú)立,可能導(dǎo)致軌跡碰撞。然而,通過迭代細(xì)化,我們的模型可以在更高的交互級(jí)別生成一致且類似人類的軌跡。
C.3 開環(huán)規(guī)劃
圖 S3 提供了我們的模型在開環(huán)規(guī)劃任務(wù)中的額外定性結(jié)果,這顯示了我們的模型聯(lián)合規(guī)劃 AV 軌跡并預(yù)測(cè)相鄰智能體行為的能力。文章來源:http://www.zghlxwxcb.cn/news/detail-828686.html
C.4 Closed-loop Planning
我們通過項(xiàng)目網(wǎng)站上提供的視頻可視化我們方法的閉環(huán)規(guī)劃性能,包括來自 WOMD 和 nuPlan 數(shù)據(jù)集的交互式城市駕駛場(chǎng)景。文章來源地址http://www.zghlxwxcb.cn/news/detail-828686.html
到了這里,關(guān)于論文閱讀:GameFormer: Game-theoretic Modeling and Learning of Transformer-based Interactive Prediction的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!