論文
論文信息
題目:Is Mapping Necessary for Realistic PointGoal Navigation?
作者:Ruslan Partsey、 Erik Wijmans
代碼地址:https://rpartsey.github.io/pointgoalnav/
來(lái)源:CVPR
時(shí)間:2022
Abstract
目標(biāo):證明顯式地圖不是成功導(dǎo)航的必要條件。
對(duì)比實(shí)驗(yàn)
數(shù)據(jù)集(模擬器):無(wú)地圖導(dǎo)航模型的標(biāo)準(zhǔn)數(shù)據(jù)集Gibson。
模擬器和現(xiàn)實(shí)世界的區(qū)別:本體感知(位置和方向)、觀測(cè)噪聲、動(dòng)力學(xué)噪聲。
- 理想環(huán)境:位置和方向信息 + 沒(méi)有RGB-D傳感器噪聲和驅(qū)動(dòng)噪聲:100%
- 現(xiàn)實(shí)環(huán)境:沒(méi)有位置和方向信息 + RGB-D傳感器噪聲和驅(qū)動(dòng)噪聲:71.7%
- 實(shí)驗(yàn)環(huán)境:位置和方向信息 + RGB-D傳感器噪聲和驅(qū)動(dòng)噪聲:97%([39])、99.8%(本論文)
證實(shí)了唯一的性能限制因素是智能體的自我定位能力。
Introduction
特點(diǎn):
- 通過(guò)動(dòng)作嵌入進(jìn)行動(dòng)作調(diào)節(jié)。
- 訓(xùn)練時(shí)數(shù)據(jù)增強(qiáng)。
- 用于集成的測(cè)試時(shí)數(shù)據(jù)增強(qiáng)。
- 增加了數(shù)據(jù)集大小和模型大小。
PointGoal Navigation
任務(wù)定義
在PointNav中,智能體在以前未見(jiàn)過(guò)的環(huán)境中初始化,并被分配到相對(duì)于其起始位置指定的目標(biāo)。動(dòng)作空間是離散的,由四種類型的動(dòng)作組成:停止(結(jié)束episode),向前移動(dòng)0.25m,以α角向左轉(zhuǎn)彎和向右轉(zhuǎn)彎。
評(píng)估指標(biāo)
Agent通過(guò)三個(gè)主要指標(biāo)進(jìn)行評(píng)估:
- Success: 如果智能體在距離目標(biāo)0.36m (2倍agent半徑)的范圍內(nèi)發(fā)出停止命令,則 e p i s o d e ? i episode\space i episode?i被認(rèn)為是成功的。
- Success weight by (inverse normalized) Path Length (SPL):
形式上,對(duì)于 e p i s o d e ? i episode\space i episode?i,設(shè) S i S_i Si?為成功的二進(jìn)制指示器, p i p_i pi?為智能體路徑的長(zhǎng)度, l i l_i li?為最短路徑(測(cè)地線距離)的長(zhǎng)度,那么對(duì)于N個(gè)episode:
S P L = 1 N ∑ i = 1 N S i ? l i m a x ( p i , l i ) SPL=\frac{1}{N}\sum_{i=1}^{N}S_i \cdot \frac{l_i}{max(p_i,l_i)} SPL=N1?i=1∑N?Si??max(pi?,li?)li?? - SoftSPL: 即二元的成功狀態(tài)
S
i
S_i
Si?被目標(biāo)的完成過(guò)程所取代。形式上,對(duì)于
e
p
i
s
o
d
e
i
episode i
episodei,設(shè)
d
0
i
d_{0_i}
d0i??為到目標(biāo)的初始距離,
d
T
i
d_{T_i}
dTi??為episode結(jié)束時(shí)到目標(biāo)的距離(包括成功和失敗),則
S o f t S P L = 1 N ∑ i = 1 N ( 1 ? d T i d 0 i ) ? ( l i m a x ( p i , l i ) ) SoftSPL=\frac{1}{N}\sum_{i=1}^{N}\left(1-\frac{d_{T_i}}{d_{0_i}} \right) \cdot \left ( \frac{l_i}{max(p_i,l_i)}\right ) SoftSPL=N1?i=1∑N?(1?d0i??dTi???)?(max(pi?,li?)li??)
PointNav-v1: Idealized (Noise-less) Setting
智能體配備了無(wú)噪聲 RGB-D 攝像頭,可以訪問(wèn)地面實(shí)況定位(通過(guò) GPS+羅盤傳感器),并且運(yùn)動(dòng)是確定性/無(wú)噪聲的(意味著右轉(zhuǎn) 10° 總是使代理正好旋轉(zhuǎn) 10°)。該代理還可以沿著墻壁“滑動(dòng)”——這是視頻游戲中的常見(jiàn)行為,可以提高人類控制能力,但后來(lái)發(fā)現(xiàn)會(huì)降低模擬到真實(shí)的性能。
用強(qiáng)化學(xué)習(xí)的效果已經(jīng)很好了
PointNav-v2: Realistic (Noisy) Setting
引入驅(qū)動(dòng)噪聲(通過(guò)對(duì) LoCoBot 機(jī)器人進(jìn)行基準(zhǔn)測(cè)試建模 )、移除 GPS+Compass 以及向 RGB-D 相機(jī)添加噪聲來(lái)解決 v1 的這些缺點(diǎn)。為了模擬真實(shí)世界的相機(jī) RGB 和深度,使用了 [8] 中的噪聲模型(向RGB 中加高斯噪聲模型;向Depth中加 Redwood 噪聲)。
Navigation Policy
模塊結(jié)構(gòu)
由兩個(gè)組件構(gòu)成:
一個(gè)導(dǎo)航策略(nav-police):在時(shí)間步 t t t給出觀測(cè)值 O t O_t Ot?,決定采取哪種操作來(lái)達(dá)到目標(biāo)??;
一個(gè)視覺(jué)里程計(jì)(VO):一個(gè)視覺(jué)測(cè)程(VO)模塊,輸入一對(duì)180×360 RGB-D幀,作為兩個(gè)連續(xù)觀測(cè)值 ( O t ? 1 , O t ) (O_{t-1},O_t) (Ot?1?,Ot?),并輸出相對(duì)位姿變化 ( Δ x , Δ y , Δ z , Δ θ ) (\Delta x,\Delta y,\Delta z,\Delta \theta) (Δx,Δy,Δz,Δθ),其中 Δ x , Δ y , Δ z \Delta x,\Delta y,\Delta z Δx,Δy,Δz 表示攝像機(jī)中心的三維平移, Δ θ \Delta \theta Δθ表示圍繞重力矢量的旋轉(zhuǎn)。然后用于更新目標(biāo)相對(duì)于機(jī)器人的位置,更新后的目標(biāo)位置將與 O t O_t Ot?一起提供給導(dǎo)航策略,以預(yù)測(cè)下一個(gè)行動(dòng)。初始目標(biāo)位置估計(jì)等于實(shí)際目標(biāo)位置(根據(jù)任務(wù)規(guī)范)。
-
輸入
- g t ? 1 g_{t-1} gt?1?:目標(biāo)前一步的坐標(biāo)
- O t ? 1 O_{t-1} Ot?1?:前一步的觀測(cè)值
-
O
t
O_t
Ot?:當(dāng)前的觀測(cè)值
首先,VO 預(yù)測(cè) t ? 1 和 t 之間的變化,然后將目標(biāo)更新為 wrt。當(dāng)前姿勢(shì)。更新后的目標(biāo)位置與 Ot 一起提供給導(dǎo)航策略,以預(yù)測(cè)下一個(gè)動(dòng)作。初始目標(biāo)位置估計(jì)等于地面真實(shí)目標(biāo)位置(根據(jù)任務(wù)規(guī)范)
網(wǎng)絡(luò)結(jié)構(gòu)
導(dǎo)航策略的網(wǎng)絡(luò)結(jié)構(gòu)
我們的導(dǎo)航策略由兩層長(zhǎng)短期存儲(chǔ)器(LSTM)和半寬ResNet50編碼器組成。
在每個(gè)時(shí)間步,策略被給予來(lái)自噪聲深度傳感器(導(dǎo)航策略的常見(jiàn)做法)和位置方向(訓(xùn)練時(shí)來(lái)自ground-truth,測(cè)試時(shí)來(lái)自視覺(jué)測(cè)程模塊)的輸出。
在通過(guò)特征編碼器之前,視覺(jué)觀察使用ResizeShortestEdge和CenterCrop觀察轉(zhuǎn)換進(jìn)行轉(zhuǎn)換;前者將輸入的最短邊調(diào)整為256像素,同時(shí)保持縱橫比,后者將輸入的中心裁剪為256 × 256像素。
視覺(jué)測(cè)程模塊的網(wǎng)絡(luò)結(jié)構(gòu)
視覺(jué)測(cè)程模塊表示為ResNet編碼器后加一個(gè)壓縮塊和兩個(gè)全連接(FC)層。
我們將BatchNorm替換為GroupNorm,并使用寬度的一半。壓縮塊由3×3 Conv2d+GroupNorm+ReLU組成。我們?cè)谌B接層之間應(yīng)用DropOut,概率為0.2。完整的VO管道如圖3所示。
訓(xùn)練細(xì)節(jié)
我們還實(shí)現(xiàn)了分布式VO訓(xùn)練管道。在8個(gè)節(jié)點(diǎn)上訓(xùn)練(每個(gè)節(jié)點(diǎn)有8個(gè)GPU,共64個(gè)GPU)比在1個(gè)節(jié)點(diǎn)上訓(xùn)練快6.4倍。
訓(xùn)練導(dǎo)航策略
我們利用分散式分布式近端策略優(yōu)化(DD-PPO)和Wijmans等人的獎(jiǎng)勵(lì)結(jié)構(gòu)來(lái)訓(xùn)練策略。
獎(jiǎng)勵(lì)函數(shù)設(shè)定
對(duì)于episode
i
i
i,智能體接受 ‘terminal’ reward:
r
T
=
2.5
?
S
u
c
e
s
s
i
r_T=2.5\cdot Sucess_i
rT?=2.5?Sucessi?以鼓勵(lì)它停在正確的位置(并保持有效的路徑),和一個(gè)shaped reward:
r
t
(
a
t
,
s
t
)
=
?
Δ
g
e
o
_
d
i
s
t
?
0.01
r_t(a_t,s_t)=-\Delta geo\_dist-0.01
rt?(at?,st?)=?Δgeo_dist?0.01以鼓勵(lì)它向目標(biāo)執(zhí)行動(dòng)作(同時(shí)保持高效),
Δ
g
e
o
_
d
i
s
t
\Delta geo\_dist
Δgeo_dist是在狀態(tài)
s
t
s_t
st? 執(zhí)行操作時(shí)到目標(biāo)的測(cè)地距離的變化。
我們?cè)贕ibson 4+上訓(xùn)練了25億步,然后在Gibson 0+上訓(xùn)練了25億步,最后在終止獎(jiǎng)勵(lì)由SPL加權(quán)的Gibson 0+上訓(xùn)練了25億步。在整個(gè)實(shí)驗(yàn)過(guò)程中,每個(gè)階段我們都使用前一階段中最好的策略開(kāi)始。
訓(xùn)練視覺(jué)里程計(jì)模塊
我們?cè)陟o態(tài)數(shù)據(jù)集
D
=
{
(
O
t
?
1
,
O
t
,
a
t
?
1
,
Δ
p
o
s
e
)
}
D=\left\{(O_{t-1},O_t,a_{t-1},\Delta pose)\right\}
D={(Ot?1?,Ot?,at?1?,Δpose)}上訓(xùn)練視覺(jué)測(cè)程模型。該數(shù)據(jù)集是通過(guò)使用oracle path來(lái)創(chuàng)建的,從這些軌跡中對(duì)具有關(guān)于所采取的行動(dòng)和自我運(yùn)動(dòng)的元信息的RGB-D幀進(jìn)行統(tǒng)一采樣。我們使用Gibson 4+場(chǎng)景(和Gibson-v2 PointGoal導(dǎo)航集)來(lái)生成VO數(shù)據(jù)集。我們通過(guò)從訓(xùn)練場(chǎng)景中統(tǒng)一采樣20%的觀測(cè)對(duì)(總共500k到5M個(gè)訓(xùn)練示例)來(lái)收集訓(xùn)練數(shù)據(jù)集,通過(guò)從驗(yàn)證場(chǎng)景中采樣75%的觀測(cè)對(duì)(總共34k個(gè))來(lái)收集驗(yàn)證數(shù)據(jù)集。
oracle path指的是一個(gè)理想化的路徑規(guī)劃方法,它假設(shè)智能體已經(jīng)知道了完整的環(huán)境地圖,并且沒(méi)有任何感知或執(zhí)行誤差。在這種情況下,智能體可以通過(guò)簡(jiǎn)單地計(jì)算最短路徑來(lái)找到目標(biāo)位置。因此,oracle path可以被認(rèn)為是一種最優(yōu)的路徑規(guī)劃方法。
該模型的批處理大小為32,Adam優(yōu)化器的學(xué)習(xí)率為 1 0 ? 4 10^{-4} 10?4,平移和旋轉(zhuǎn)的均方誤差(MSE)損失。
訓(xùn)練視覺(jué)測(cè)程(VO)模塊的優(yōu)化手段
- 通過(guò)action embeddings進(jìn)行動(dòng)作調(diào)節(jié)。視覺(jué)測(cè)程(VO)模塊根據(jù)圖像和所執(zhí)行的動(dòng)作進(jìn)行測(cè)程。我們發(fā)現(xiàn),將動(dòng)作的one-hot(獨(dú)熱碼)表示轉(zhuǎn)換為continuous embeddings,并將它們連接到VO網(wǎng)絡(luò)中的最后兩個(gè)全連接層,顯著提高了+8 Success/+5 SPL的性能。
continuous embeddings和one-hot的區(qū)別:在one-hot編碼中,每個(gè)動(dòng)作都被表示為一個(gè)只有一個(gè)元素為1的向量,其余元素為0。而continuous embeddings則是將每個(gè)動(dòng)作類型映射到一個(gè)固定長(zhǎng)度的向量空間中,并使用該向量來(lái)表示該動(dòng)作。相比之下,continuous embeddings可以更好地捕捉不同動(dòng)作之間的相似性和差異性,并且可以通過(guò)embedding層來(lái)學(xué)習(xí)這些特征。因此,在某些情況下,使用continuous embeddings可以提高神經(jīng)網(wǎng)絡(luò)的性能。
-
訓(xùn)練時(shí)的數(shù)據(jù)增強(qiáng)。當(dāng)智能體產(chǎn)生觀測(cè)值 O t ? 1 O_{t-1} Ot?1?和 O t O_t Ot? 時(shí),我們可以通過(guò)反向姿勢(shì)和動(dòng)作創(chuàng)建一個(gè)新的訓(xùn)練圖像,將 O t ? 1 O_{t-1} Ot?1?和 O t O_t Ot? 聯(lián)系起來(lái)。我們還提出了一種新的增強(qiáng),稱為Flip。累積起來(lái),它們可以通過(guò)+2 Success/+1 SPL來(lái)提高性能。
視覺(jué)測(cè)程模塊接收到兩個(gè)用于向前移動(dòng)的觀測(cè)對(duì)(原始和翻轉(zhuǎn))和四個(gè)用于轉(zhuǎn)向{左,右}動(dòng)作的觀測(cè)對(duì)(原始,翻轉(zhuǎn),交換(原始),交換(翻轉(zhuǎn)))。在聚合階段,通過(guò)對(duì)每個(gè)增強(qiáng)應(yīng)用逆變換,將輸出轉(zhuǎn)換回原始坐標(biāo)坐標(biāo)系,然后求平均值以產(chǎn)生最終的自我運(yùn)動(dòng)估計(jì)。 -
用于集成的測(cè)試時(shí)數(shù)據(jù)擴(kuò)充。為了提高穩(wěn)健性,我們?cè)跍y(cè)試時(shí)執(zhí)行所有增強(qiáng),并對(duì)所有組合進(jìn)行匯總預(yù)測(cè)。這提高了+3 Success/+3 SPL的性能。
-
增加數(shù)據(jù)集大小和模型大小。最后,我們研究了數(shù)據(jù)集規(guī)模從500k增加到1.5M觀測(cè)對(duì)(+8 Success/+7 SPL),更大的模型規(guī)模(+3 Success/+3 SPL),以及數(shù)據(jù)集規(guī)模從1.5M增加到5M (+8 Success/+6 SPL)的影響。
實(shí)驗(yàn)
Habitat Challenge 挑戰(zhàn)賽2021 PointNav項(xiàng)目
我們?cè)贖abitat Challenge 挑戰(zhàn)賽基準(zhǔn)測(cè)試標(biāo)準(zhǔn)中評(píng)估了性能最佳的智能體(表1,第16行)。我們的智能體在測(cè)試標(biāo)準(zhǔn)拆分中達(dá)到94%的成功率和74%的SPL。與之前發(fā)表的最先進(jìn)技術(shù)相比,這增加了+16%的成功率/+15%的SPL。超過(guò)了當(dāng)時(shí)的冠軍智源機(jī)器人的成功。
物體目標(biāo)導(dǎo)航 (Object Navigation) 是智能機(jī)器人的基本任務(wù)之一。在此任務(wù)中,智能機(jī)器人在一個(gè)未知的新環(huán)境中主動(dòng)探索并找到人指定的某類物體。物體目標(biāo)導(dǎo)航任務(wù)面向未來(lái)家庭服務(wù)機(jī)器人的應(yīng)用需求,當(dāng)人們需要機(jī)器人完成某些任務(wù)時(shí),例如拿一杯水,機(jī)器人需要先尋找并移動(dòng)到水杯的位置,進(jìn)而幫人們?nèi)〉剿?/p>
雖然我們的結(jié)果不能有效地“解決”現(xiàn)實(shí)設(shè)置下的PointGoal導(dǎo)航,但它們顯著地提高了性能,并提供了更多的證據(jù),表明即使在嚴(yán)酷的現(xiàn)實(shí)條件下,也可以在不構(gòu)建顯式映射的情況下進(jìn)行導(dǎo)航。
消融
-
action embeddings:我們分析了兩種可能的整合元信息的方法:將embeddings連接到編碼器之后的第一個(gè)FC層(表1,將action embeddings到第一個(gè)FC層,與基線(第2行與第1行)相比,性能提高了+7 Success/+5 SPL。將action embeddings到所有FC層,性能進(jìn)一步提高了+1 Success/+1 SPL(第3行與第2行)。我們相信,這允許FC層接收更多的上下文,以使用共享編碼器為每個(gè)動(dòng)作類型學(xué)習(xí)更準(zhǔn)確的自我運(yùn)動(dòng)。
-
訓(xùn)練時(shí)間:通過(guò)應(yīng)用Flip來(lái)豐富VO數(shù)據(jù)集多樣性可以提高+2 Success/+1 SPL(第6行對(duì)第3行)的性能。有趣的是,我們發(fā)現(xiàn)Swap會(huì)降低-2 Success/-2 SPL(第4行對(duì)第3行)的性能。
-
更大的數(shù)據(jù)集:為了研究大規(guī)模訓(xùn)練的影響,我們按照第4.4節(jié)所述的相同的數(shù)據(jù)集收集協(xié)議,將訓(xùn)練數(shù)據(jù)集大小增加了3倍(從500k增加到1.5M訓(xùn)練對(duì))。在沒(méi)有增強(qiáng)的情況下,增加數(shù)據(jù)集大小3×可以提高性能+5 Success/+4 SPL(第12行對(duì)第3行)和+8 Success/+4 SPL(第14行對(duì)第11行)。
我們還使用這個(gè)更大的數(shù)據(jù)集檢查了增強(qiáng)的影響。令人驚訝的是,我們發(fā)現(xiàn)它們?cè)诟蟮挠?xùn)練數(shù)據(jù)集上更有影響力。 -
更深層次的編碼器:我們發(fā)現(xiàn),使用更復(fù)雜的編碼器架構(gòu)(ResNet50而不是ResNet18)進(jìn)行訓(xùn)練,可以進(jìn)一步提高導(dǎo)航性能+3 Success/+3 SPL(第15行vs第14行)。
sim to sim
我們研究了智能體的兩個(gè)組件如何從訓(xùn)練數(shù)據(jù)集Gibson轉(zhuǎn)移到Matterport3D數(shù)據(jù)集。我們發(fā)現(xiàn)在智能體的性能日漸本地化由只有 -6 Success/-6 SPL(表2、行5 vs 行2),智能體的性能與視覺(jué)測(cè)程法降低更多,-19 Success/-18 SPL(行6 vs 行3)。
這就留下了一個(gè)問(wèn)題——是否存在通用(跨數(shù)據(jù)集)VO模塊?我們預(yù)計(jì),創(chuàng)建這樣一個(gè)系統(tǒng)需要在多個(gè)大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練。
sim to real
我們?cè)诂F(xiàn)實(shí)中對(duì)我們的方法進(jìn)行了初步探索,并將我們的學(xué)習(xí)代理部署在沒(méi)有sim2real適應(yīng)的LoCoBot上。在9個(gè)episodes中,它獲得了11%的成功,71%的SoftSPL,并完成了通往目標(biāo)道路(SoftSuccess)的92%。根據(jù)網(wǎng)站上提供的導(dǎo)航視頻,該代理可以很好地避開(kāi)障礙物。這些初步結(jié)果顯示出希望,適應(yīng)性方法可以提高性能。
結(jié)束語(yǔ)
雖然我們的結(jié)果不能有效地“解決”現(xiàn)實(shí)環(huán)境中的PointGoal導(dǎo)航,但它們顯著地提高了性能,并提供了更多的證據(jù),表明即使在嚴(yán)酷的現(xiàn)實(shí)條件下,也可以在不構(gòu)建顯式映射的情況下進(jìn)行導(dǎo)航。
局限性
雖然我們的工作在現(xiàn)實(shí)條件下的無(wú)地圖導(dǎo)航方法方面取得了重大進(jìn)展,但它有幾個(gè)局限性。
- 體現(xiàn)特異性。雖然我們的VO模型和訓(xùn)練過(guò)程是策略不可知的,但它們不是實(shí)現(xiàn)不可知的。action embeddings的重要性意味著放松這將是一個(gè)挑戰(zhàn),這意味著VO模型可能需要為每個(gè)實(shí)施例重新訓(xùn)練,這是浪費(fèi)的。
- 數(shù)據(jù)集特異性。同樣,我們學(xué)習(xí)的VO模型在數(shù)據(jù)集之間不能很好地傳輸,可能需要為每個(gè)數(shù)據(jù)集重新訓(xùn)練。我們相信大規(guī)模多數(shù)據(jù)集訓(xùn)練可能是一個(gè)解決方案,但這仍然是一個(gè)懸而未決的問(wèn)題。
- 計(jì)算需求。我們的最佳導(dǎo)航策略使用了總共75億步的經(jīng)驗(yàn)。訓(xùn)練我們最好的VO模型首先需要生成5M個(gè)訓(xùn)練對(duì),然后在64個(gè)GPU上訓(xùn)練(總共約5000個(gè)GPU小時(shí))。PointNav-v1[26,32,36]的高計(jì)算需求迅速降低,我們預(yù)計(jì)PointNav-v2的計(jì)算需求也會(huì)降低,但這仍然是一個(gè)開(kāi)放的方向。
其余細(xì)節(jié)
確定SPL的上限
為了將導(dǎo)航策略的性能與視覺(jué)測(cè)程模塊隔離開(kāi)來(lái),我們通過(guò)訪問(wèn)ground-truth位置和方向來(lái)檢查智能體的性能。在Gibson val數(shù)據(jù)集上,我們的智能體在PointNav-v2設(shè)置中實(shí)現(xiàn)了99.8%的成功和80%的SPL。這一結(jié)果表明,即使有嘈雜的觀測(cè)和驅(qū)動(dòng),也可以在不建立明確的地圖的情況下實(shí)現(xiàn)近乎完美的成功。
為了回答近乎完美的SPL是否也可以實(shí)現(xiàn),我們需要在現(xiàn)實(shí)環(huán)境中對(duì)SPL設(shè)置一個(gè)嚴(yán)格的上限?;叵胍幌拢诂F(xiàn)實(shí)設(shè)置驅(qū)動(dòng)是有噪聲的。因此,即使是一個(gè)對(duì)環(huán)境完全了解的oracle智能體也可能無(wú)法遵循最短路徑并實(shí)現(xiàn)100%的SPL。例如如果智能體按照最短路徑靠近障礙物,噪聲驅(qū)動(dòng)可能會(huì)使其與障礙物接觸,此時(shí)需要進(jìn)行避讓,因此增加了其路徑長(zhǎng)度。
為了確定SPL的更嚴(yán)格的上限,我們實(shí)現(xiàn)了一個(gè)啟發(fā)式規(guī)劃器,它使用ground-truth映射來(lái)選擇運(yùn)動(dòng)原語(yǔ)(轉(zhuǎn){左,右}×N,然后向前移動(dòng))。規(guī)劃器選擇使用真實(shí)地測(cè)地線距離(因此使用真實(shí)地圖)最好地減少到目標(biāo)的距離的原語(yǔ),在選定的原語(yǔ)中執(zhí)行第一個(gè)操作,然后重新運(yùn)行選擇過(guò)程,直到達(dá)到目標(biāo)。在Gibson驗(yàn)證中,oracle達(dá)到84%的SPL。因此,在現(xiàn)實(shí)環(huán)境中,我們不應(yīng)該期望100%的SPL。
然后,我們通過(guò)考慮給予神諭的特權(quán)信息(ground-truth map)來(lái)進(jìn)一步收緊上限??紤]理想的設(shè)置,在這種設(shè)置中,智能體的挑戰(zhàn)是未知環(huán)境中的路徑規(guī)劃,而不是額外滿足于有噪聲的驅(qū)動(dòng)和觀察。這種設(shè)置也被認(rèn)為是Gibson數(shù)據(jù)集上的“解決”,使其成為量化地面真相地圖影響的理想設(shè)置。在理想的設(shè)置中,在Gibson val上,oracle實(shí)現(xiàn)了99%的SPL,而對(duì)于一個(gè)學(xué)習(xí)智能體,最廣為人知的結(jié)果是97%的SPL[33]。使用絕對(duì)或相對(duì)差異,我們預(yù)計(jì)在現(xiàn)實(shí)環(huán)境中,當(dāng)oracle達(dá)到84%的SPL時(shí),學(xué)習(xí)智能體可以達(dá)到大約82%的SPL。雖然80%并不是82%,但這表明視覺(jué)測(cè)程模塊是限制因素(視覺(jué)測(cè)程模塊的最佳結(jié)果是63% SPL),我們將在本文的其余部分將重點(diǎn)放在這個(gè)組件上文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-608477.html
參考
文章鏈接:https://blog.csdn.net/weixin_42856843/article/details/129798138文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-608477.html
到了這里,關(guān)于Is Mapping Necessary for Realistic PointGoal Navigation 論文閱讀和代碼分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!