Last-Mile Embodied Visual Navigation 論文閱讀

這篇具有很好參考價值的文章主要介紹了Last-Mile Embodied Visual Navigation 論文閱讀。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

論文閱讀

題目：Last-Mile Embodied Visual Navigation
作者：JustinWasserman, Karmesh Yadav
來源：CoRL
時間：2023
代碼地址：https://jbwasse2.github.io/portfolio/SLING

Abstract

現(xiàn)實的長期任務（例如圖像目標導航）涉及探索和利用階段。

分配有目標圖像后，具體代理必須探索以發(fā)現(xiàn)目標，即使用學習到的先驗進行有效搜索。一旦發(fā)現(xiàn)目標，代理必須準確校準到目標的最后一英里導航。與任何強大的系統(tǒng)一樣，探索性目標發(fā)現(xiàn)和利用性最后一英里導航之間的切換可以更好地從錯誤中恢復。

遵循這些直觀的導軌，我們提出 SLING 來提高現(xiàn)有圖像目標導航系統(tǒng)的性能。完全補充現(xiàn)有方法，我們專注于最后一英里導航，并通過神經(jīng)描述符利用問題的底層幾何結構。通過簡單但有效的開關，我們可以輕松地將 SLING 與啟發(fā)式、強化學習和神經(jīng)模塊化策略連接起來。

在標準化圖像目標導航基準 [1] 上，我們提高了策略、場景和情節(jié)復雜性的性能，將最先進的成功率從 45% 提高到 55%。

Introduction

我們將導航到可見對象或區(qū)域的后一個問題稱為最后一英里導航。

最后一英里導航的非結構化本地策略要么是
（a）樣本效率低下（強化學習框架中的數(shù)十億幀[11]），要么是
（b）在從離線演示中學習時存在偏差且泛化能力較差（由于分布式）移位 [12, 13]）

我們的主要貢獻是：
（1）通用的最后一英里導航系統(tǒng)和開關，我們將其與五種不同的目標發(fā)現(xiàn)方法連接起來，從而實現(xiàn)全面改進。
(2) 在最廣泛測試的折疊上，新的最先進技術取得了 54.8% 的成功，即與已發(fā)表的作品相比大幅躍升了 21.8% [5]，與并發(fā)預印本相比躍升了 9.2%（Gibson -curved）AI Habitat 圖像目標導航基準；
(3) 在具有挑戰(zhàn)性的環(huán)境中進行廣泛的圖像目標導航機器人實驗，其性能優(yōu)于在真實世界數(shù)據(jù) [14] 上訓練的神經(jīng)模塊化策略 [1]。

Related Work

Embodied navigation

Anderson 等人 [15] 正式提出了評估具體代理的不同目標定義和指標。
在點目標導航中，目標的相對坐標是可用的（在所有步驟 [16,11,17,18,19] 或僅在劇集開始時 [9,20,21]）。成功導航到點目標可以在沒有語義場景理解的情況下完成，正如競爭性的僅深度代理所看到的那樣 [16, 11]。語義導航需要通過圖像（圖像目標 [1, 2, 22]）、聲音提示（音頻目標 [23, 24]）或類別標簽（對象目標 [8, 9]）來識別目標。

導航的幾個擴展包括語言條件導航[25,26,27,28]，社交導航[29,30,31,32,33]和多代理任務[34,35,36,37,38] 39]。然而，這些都建立在單代理導航的基礎上，并受益于相關的進步。對于更具體的任務和范例，我們建議讀者參考最近的一項調(diào)查[40]。在這項工作中，我們專注于視覺豐富的環(huán)境中的圖像目標導航。

Image-goal navigation

Chaplot 等人 [3] 引入了一種模塊化和分層的方法，用于利用拓撲圖存儲器導航到圖像目標。 Kwon 等人 [41] 引入了一種基于圖像相似性的記憶表示，該記憶表示又以無監(jiān)督的方式從未標記的數(shù)據(jù)和代理觀察到的圖像中學習。
NRNS [1] 改進了基于拓撲圖的架構，并開源了 AI Habitat 內(nèi)的公共數(shù)據(jù)集以及 IL 和 RL 基線 [11, 3]。該數(shù)據(jù)集已用于標準化評估[5, 6]。
ZER [5] 專注于將圖像目標導航策略轉(zhuǎn)移到其他導航任務。在并發(fā)預印本中，Y adav 等人 [6] 利用自監(jiān)督預訓練 [42] 來改進圖像目標導航基準的端到端視覺 RL 策略 [11]。

Last-mile navigation

上述作品主要關注目標發(fā)現(xiàn)。相比之下，最近的研究還發(fā)現(xiàn)了當目標在智能體的視野中或附近時發(fā)生的“最后一英里”錯誤。對于多目標導航，Wani 等人 [46, 47] 在允許最終“找到”或“停止”操作的錯誤預算時觀察到了兩倍的改進。 Chattopadhyay 等人 [48] 發(fā)現(xiàn)導航的最后一步很脆弱，即小的擾動會導致嚴重的故障。 Ye 等人 [10] 將最后一英里錯誤確定為目標-目標導航中的一個突出錯誤模式（占失敗的 10%）。

Connections to 3D vision

我們最后一英里導航系統(tǒng)的目標是預測兩個圖像之間的相對相機姿勢，即代理的視圖和圖像目標。為此，根據(jù) 3D 到 2D 點對應關系對校準相機進行位姿估計，將我們的具體導航任務與幾何 3D 計算機視覺聯(lián)系起來。

SLING

我們遵循 Hahn 等人 [1] 的圖像目標導航任務基準（類似于之前的公式 [2, 3]）。代理觀察 RGB 圖像 $I_a$ 、深度圖 $D_a$ 和圖像目標 $I_g$ 。代理可以從 $\{move\space forward, turn\space right, turn\space left, stop\}$ 中采樣動作。停止動作終止該情節(jié)。

如圖 1a 所示，我們將圖像目標導航分為目標發(fā)現(xiàn)和最后一英里導航階段。

在目標發(fā)現(xiàn)階段，代理負責發(fā)現(xiàn)目標，即導航足夠近，使目標占據(jù)以自我為中心的觀察的很大一部分（“發(fā)現(xiàn)目標”圖像）。圖 1b 顯示了我們系統(tǒng)之間的控制流。如果沒有觸發(fā) explore )exploit 開關，基于學習的探索將繼續(xù)。否則，如果探索）利用開關觸發(fā)，代理的觀察現(xiàn)在與圖像目標重疊，并且控制流到最后一英里導航系統(tǒng)。我們發(fā)現(xiàn)來自探索的單向流程（如[1, 3]中所嘗試的）利用過于樂觀。因此，我們引入對稱開關，包括將控制流回目標發(fā)現(xiàn)的開關。
Last-Mile Embodied Visual Navigation 論文閱讀,論文,Navigation,論文閱讀

Goal Discovery

我們可以將我們的多功能最后一英里導航系統(tǒng)和切換機制與任何現(xiàn)有方法結合起來。這些現(xiàn)有方法是先前建議的圖像目標導航解決方案。我們通過五種不同的目標發(fā)現(xiàn) (GD) 實現(xiàn)來證明這一點

直[61]Straight 。一種簡單的啟發(fā)式探索，代理向前移動，如果卡住了，可以通過右轉(zhuǎn)來解鎖自身（類似于[61]中的有效探索基線）。

距離預測網(wǎng)絡（Distance Prediction Network, NRNS-GD）[1]。探索性導航是通過在可導航區(qū)域中提出路徑點（利用代理的深度掩模確定）來完成的，使用拓撲圖維護歷史記錄，并使用圖神經(jīng)網(wǎng)絡進行處理。利用距離預測網(wǎng)絡的輸出來選擇最小成本航路點。附錄 B 和 [1] 中給出了更多詳細信息。

去中心化分布式 PPO（Decentralized Distributed PPO, DDPPO-GD）[11]。用于真實感模擬器的 PPO [62] 實現(xiàn)，其中渲染是計算瓶頸。這是之前跨任務工作中的標準端到端深度強化學習基線 [18,1,5,6,63]。

離線視覺表示學習（Offline Visual Representation Learning, OVRL-GD）[6]。 DDPPO 網(wǎng)絡，其視覺編碼器使用自監(jiān)督借口任務 [42] 對從 3D 掃描 [64] 獲得的圖像進行預訓練。

環(huán)境-狀態(tài)距離預測 (Environment-State Distance Prediction, Oracle-GD)。為了量化目標發(fā)現(xiàn)階段錯誤的影響，我們設計了一個上限。這是 NRNS-GD 的一個特權變體，可獲取距環(huán)境的地面真實距離，專門用于目標發(fā)現(xiàn)階段。

Last-Mile Navigation

Neural Feature Extractor:我們首先將智能體的 RGB $I_a$ 轉(zhuǎn)換為局部特征 ( $\hat{X}_a$ , $F_a$ )，其中 $\hat{X}_a ∈ \mathbb{R}^{n_a×2}$ 是位置， $F_a ∈ \mathbb{R}^{n_a×k}$ 是智能體圖像中的視覺描述符。這里， $n_a$ 是檢測到的局部特征的數(shù)量， $k$ 是每個描述符的長度。
類似地， $I_g$ 導致特征 ( $\hat{X}_g$ , $F_g$ )，其中 $\hat{X}_g ∈ \mathbb{R}^{n_g×2}$ 且 $F_g ∈ \mathbb{R}^{n_g×k}$ ，圖像目標中具有 $n_g$ 局部特征。
繼 DeTone 等人[65]之后，我們采用興趣點檢測器，對合成數(shù)據(jù)進行預訓練，然后進行跨域單應性適應（此處，k = 256）。

Matching Module:根據(jù)提取的特征 ( $\hat{X}_a$ , $F_a$ ) 和( $\hat{X}_g$ , $F_g$ )，我們預測匹配的子集 $\hat{X}_a ∈ \mathbb{R}^{n_a×2}$ 和 $\hat{X}_g ∈ \mathbb{R}^{n_g×2}$ 。匹配被優(yōu)化以使 $X_a$ 和 $X_g$ 對應于同一點。
我們利用基于注意力的圖神經(jīng)網(wǎng)絡（GNN），遵循 Sarlin 等人 [52]，使用最佳傳輸公式很好地解決部分匹配和遮擋問題。上述神經(jīng)特征提取器和基于 GNN 的匹配器有助于享受基于學習的方法的好處，特別是那些在大型離線視覺數(shù)據(jù)上進行預訓練的方法，而無需在線、端到端微調(diào)。

接下來描述依賴于這些神經(jīng)特征的幾何組件。

Lifting Points from 2D --> 3D。代理的 2D 局部特征相對于代理的坐標系提升為 3D，即 $P_a ∈ \mathbb{R}^{n×3}$ 。這是通過利用相機固有矩陣 K（特別是主點 px、py 和焦距 fx、fy）以及 Xa 中每個位置的相應深度值（例如 $d_a ∈ R^n$ ）來完成的。 $P_a$ 的第 i 行計算為:
Last-Mile Embodied Visual Navigation 論文閱讀,論文,Navigation,論文閱讀
Perspective-n-Point:下一步的目標，即透視 n 點 (PnP) 是找到代理和目標相機姿勢之間的旋轉(zhuǎn)和平移，以最小化重投影誤差。
具體來說，對于給定的旋轉(zhuǎn)矩陣 $\textbf{R} ∈ R^{3×3}$ 和平移向量 $\textbf{t} ∈ R^3$ ，局部特征的 3D 位置 Pa 可以從代理的坐標系重新投影到目標相機的坐標系：
Last-Mile Embodied Visual Navigation 論文閱讀,論文,Navigation,論文閱讀

Easimating Distance and Heading to Goal: 預測的平移 t 可以幫助計算從智能體到目標的距離 $ρ = \|t\|_2$ 。類似地，從智能體到目標的航向 $\phi$ 可以通過沿光軸（智能體視圖）的單位向量與 t 的點積獲得。具體來說， $\phi=\operatorname{sgn}(t[1]) * \arccos \left(\mathbf{t} \cdot \mathbf{o}_{a} /\|\mathbf{t}\|_{2}\left\|\mathbf{o}_{a}\right\|_{2}\right)$ 。該符號來自 $t [1]$ ，它沿著垂直于智能體光軸但平行于地面的軸指向。在計算航向時，該標志特別重要，因為它區(qū)分了代理向右轉(zhuǎn)還是向左轉(zhuǎn)

Local police: 最后，利用智能體當前位置到估計目標之間的距離 $ρ$ 和航向 $\phi$ 來估計動作空間 A 中達到目標的動作。在準確實現(xiàn)[66, 1]之后，我們采用局部度量地圖來允許代理啟發(fā)式避開障礙物并朝著目標移動

Switches

我們定義了目標發(fā)現(xiàn)（探索）和最后一英里導航（利用）兩個階段之間簡單但有效的切換。

如果對應數(shù)量 $n > n_{th}$ ，則觸發(fā) explore --> exploit 開關，其中 $n_{th}$ 是設定閾值。這表明代理的圖像與圖像目標有顯著重疊，因此控制可以流向最后一英里的導航階段。我們發(fā)現(xiàn)這個簡單的開關比訓練特定的深度網(wǎng)絡來實現(xiàn)相同的效果更好（[1,3,4]中嘗試的變體）。對于explore，如果R、t（參見方程（2））的優(yōu)化失敗或者預測距離大于 $d_{th}$ （調(diào)整為4m），則智能體返回到目標發(fā)現(xiàn)階段。