論文閱讀
題目:Last-Mile Embodied Visual Navigation
作者:JustinWasserman, Karmesh Yadav
來源:CoRL
時間:2023
代碼地址:https://jbwasse2.github.io/portfolio/SLING
Abstract
現(xiàn)實的長期任務(例如圖像目標導航)涉及探索和利用階段。
分配有目標圖像后,具體代理必須探索以發(fā)現(xiàn)目標,即使用學習到的先驗進行有效搜索。一旦發(fā)現(xiàn)目標,代理必須準確校準到目標的最后一英里導航。與任何強大的系統(tǒng)一樣,探索性目標發(fā)現(xiàn)和利用性最后一英里導航之間的切換可以更好地從錯誤中恢復。
遵循這些直觀的導軌,我們提出 SLING 來提高現(xiàn)有圖像目標導航系統(tǒng)的性能。完全補充現(xiàn)有方法,我們專注于最后一英里導航,并通過神經(jīng)描述符利用問題的底層幾何結構。通過簡單但有效的開關,我們可以輕松地將 SLING 與啟發(fā)式、強化學習和神經(jīng)模塊化策略連接起來。
在標準化圖像目標導航基準 [1] 上,我們提高了策略、場景和情節(jié)復雜性的性能,將最先進的成功率從 45% 提高到 55%。
Introduction
我們將導航到可見對象或區(qū)域的后一個問題稱為最后一英里導航。
最后一英里導航的非結構化本地策略要么是
(a)樣本效率低下(強化學習框架中的數(shù)十億幀[11]),要么是
(b)在從離線演示中學習時存在偏差且泛化能力較差(由于分布式)移位 [12, 13])
我們的主要貢獻是:
(1)通用的最后一英里導航系統(tǒng)和開關,我們將其與五種不同的目標發(fā)現(xiàn)方法連接起來,從而實現(xiàn)全面改進。
(2) 在最廣泛測試的折疊上,新的最先進技術取得了 54.8% 的成功,即與已發(fā)表的作品相比大幅躍升了 21.8% [5],與并發(fā)預印本相比躍升了 9.2%(Gibson -curved)AI Habitat 圖像目標導航基準 ;
(3) 在具有挑戰(zhàn)性的環(huán)境中進行廣泛的圖像目標導航機器人實驗,其性能優(yōu)于在真實世界數(shù)據(jù) [14] 上訓練的神經(jīng)模塊化策略 [1]。
Related Work
Embodied navigation
Anderson 等人 [15] 正式提出了評估具體代理的不同目標定義和指標。
在點目標導航中,目標的相對坐標是可用的(在所有步驟 [16,11,17,18,19] 或僅在劇集開始時 [9,20,21])。成功導航到點目標可以在沒有語義場景理解的情況下完成,正如競爭性的僅深度代理所看到的那樣 [16, 11]。語義導航需要通過圖像(圖像目標 [1, 2, 22])、聲音提示(音頻目標 [23, 24])或類別標簽(對象目標 [8, 9])來識別目標。
導航的幾個擴展包括語言條件導航[25,26,27,28],社交導航[29,30,31,32,33]和多代理任務[34,35,36,37,38] 39]。然而,這些都建立在單代理導航的基礎上,并受益于相關的進步。對于更具體的任務和范例,我們建議讀者參考最近的一項調(diào)查[40]。在這項工作中,我們專注于視覺豐富的環(huán)境中的圖像目標導航。
Image-goal navigation
Chaplot 等人 [3] 引入了一種模塊化和分層的方法,用于利用拓撲圖存儲器導航到圖像目標。 Kwon 等人 [41] 引入了一種基于圖像相似性的記憶表示,該記憶表示又以無監(jiān)督的方式從未標記的數(shù)據(jù)和代理觀察到的圖像中學習。
NRNS [1] 改進了基于拓撲圖的架構,并開源了 AI Habitat 內(nèi)的公共數(shù)據(jù)集以及 IL 和 RL 基線 [11, 3]。該數(shù)據(jù)集已用于標準化評估[5, 6]。
ZER [5] 專注于將圖像目標導航策略轉(zhuǎn)移到其他導航任務。在并發(fā)預印本中,Y adav 等人 [6] 利用自監(jiān)督預訓練 [42] 來改進圖像目標導航基準的端到端視覺 RL 策略 [11]。
Last-mile navigation
上述作品主要關注目標發(fā)現(xiàn)。相比之下,最近的研究還發(fā)現(xiàn)了當目標在智能體的視野中或附近時發(fā)生的“最后一英里”錯誤。對于多目標導航,Wani 等人 [46, 47] 在允許最終“找到”或“停止”操作的錯誤預算時觀察到了兩倍的改進。 Chattopadhyay 等人 [48] 發(fā)現(xiàn)導航的最后一步很脆弱,即小的擾動會導致嚴重的故障。 Ye 等人 [10] 將最后一英里錯誤確定為目標-目標導航中的一個突出錯誤模式(占失敗的 10%)。
Connections to 3D vision
我們最后一英里導航系統(tǒng)的目標是預測兩個圖像之間的相對相機姿勢,即代理的視圖和圖像目標。為此,根據(jù) 3D 到 2D 點對應關系對校準相機進行位姿估計,將我們的具體導航任務與幾何 3D 計算機視覺聯(lián)系起來。
SLING
我們遵循 Hahn 等人 [1] 的圖像目標導航任務基準(類似于之前的公式 [2, 3])。代理觀察 RGB 圖像 I a I_a Ia?、深度圖 D a D_a Da? 和圖像目標 I g I_g Ig?。代理可以從 A = { m o v e ? f o r w a r d , t u r n ? r i g h t , t u r n ? l e f t , s t o p } A = \{move\space forward, turn\space right, turn\space left, stop\} A={move?forward,turn?right,turn?left,stop}中采樣動作。停止動作終止該情節(jié)。
如圖 1a 所示,我們將圖像目標導航分為目標發(fā)現(xiàn)和最后一英里導航階段。
在目標發(fā)現(xiàn)階段,代理負責發(fā)現(xiàn)目標,即導航足夠近,使目標占據(jù)以自我為中心的觀察的很大一部分(“發(fā)現(xiàn)目標”圖像)。圖 1b 顯示了我們系統(tǒng)之間的控制流。如果沒有觸發(fā) explore )exploit 開關,基于學習的探索將繼續(xù)。否則,如果探索)利用開關觸發(fā),代理的觀察現(xiàn)在與圖像目標重疊,并且控制流到最后一英里導航系統(tǒng)。我們發(fā)現(xiàn)來自探索的單向流程(如[1, 3]中所嘗試的)利用過于樂觀。因此,我們引入對稱開關,包括將控制流回目標發(fā)現(xiàn)的開關。
Goal Discovery
我們可以將我們的多功能最后一英里導航系統(tǒng)和切換機制與任何現(xiàn)有方法結合起來。這些現(xiàn)有方法是先前建議的圖像目標導航解決方案。我們通過五種不同的目標發(fā)現(xiàn) (GD) 實現(xiàn)來證明這一點
直[61]Straight 。一種簡單的啟發(fā)式探索,代理向前移動,如果卡住了,可以通過右轉(zhuǎn)來解鎖自身(類似于[61]中的有效探索基線)。
距離預測網(wǎng)絡(Distance Prediction Network, NRNS-GD)[1]。探索性導航是通過在可導航區(qū)域中提出路徑點(利用代理的深度掩模確定)來完成的,使用拓撲圖維護歷史記錄,并使用圖神經(jīng)網(wǎng)絡進行處理。利用距離預測網(wǎng)絡的輸出來選擇最小成本航路點。附錄 B 和 [1] 中給出了更多詳細信息。
去中心化分布式 PPO(Decentralized Distributed PPO, DDPPO-GD)[11]。用于真實感模擬器的 PPO [62] 實現(xiàn),其中渲染是計算瓶頸。這是之前跨任務工作中的標準端到端深度強化學習基線 [18,1,5,6,63]。
離線視覺表示學習(Offline Visual Representation Learning, OVRL-GD)[6]。 DDPPO 網(wǎng)絡,其視覺編碼器使用自監(jiān)督借口任務 [42] 對從 3D 掃描 [64] 獲得的圖像進行預訓練。
環(huán)境-狀態(tài)距離預測 (Environment-State Distance Prediction, Oracle-GD)。為了量化目標發(fā)現(xiàn)階段錯誤的影響,我們設計了一個上限。這是 NRNS-GD 的一個特權變體,可獲取距環(huán)境的地面真實距離,專門用于目標發(fā)現(xiàn)階段。
Last-Mile Navigation
Neural Feature Extractor:我們首先將智能體的 RGB
I
a
I_a
Ia? 轉(zhuǎn)換為局部特征 (
X
^
a
\hat{X}_a
X^a?,
F
a
F_a
Fa?),其中
X
^
a
∈
R
n
a
×
2
\hat{X}_a ∈ \mathbb{R}^{n_a×2}
X^a?∈Rna?×2 是位置,
F
a
∈
R
n
a
×
k
F_a ∈ \mathbb{R}^{n_a×k}
Fa?∈Rna?×k 是智能體圖像中的視覺描述符。這里,
n
a
n_a
na?是檢測到的局部特征的數(shù)量,
k
k
k是每個描述符的長度。
類似地,
I
g
I_g
Ig? 導致特征 (
X
^
g
\hat{X}_g
X^g?,
F
g
F_g
Fg?),其中
X
^
g
∈
R
n
g
×
2
\hat{X}_g ∈ \mathbb{R}^{n_g×2}
X^g?∈Rng?×2 且
F
g
∈
R
n
g
×
k
F_g ∈ \mathbb{R}^{n_g×k}
Fg?∈Rng?×k,圖像目標中具有
n
g
n_g
ng? 局部特征。
繼 DeTone 等人[65]之后,我們采用興趣點檢測器,對合成數(shù)據(jù)進行預訓練,然后進行跨域單應性適應(此處,k = 256)。
Matching Module:根據(jù)提取的特征 (
X
^
a
\hat{X}_a
X^a?,
F
a
F_a
Fa?) 和(
X
^
g
\hat{X}_g
X^g?,
F
g
F_g
Fg?),我們預測匹配的子集
X
^
a
∈
R
n
a
×
2
\hat{X}_a ∈ \mathbb{R}^{n_a×2}
X^a?∈Rna?×2 和
X
^
g
∈
R
n
g
×
2
\hat{X}_g ∈ \mathbb{R}^{n_g×2}
X^g?∈Rng?×2 。匹配被優(yōu)化以使
X
a
X_a
Xa?和
X
g
X_g
Xg?對應于同一點。
我們利用基于注意力的圖神經(jīng)網(wǎng)絡(GNN),遵循 Sarlin 等人 [52],使用最佳傳輸公式很好地解決部分匹配和遮擋問題。上述神經(jīng)特征提取器和基于 GNN 的匹配器有助于享受基于學習的方法的好處,特別是那些在大型離線視覺數(shù)據(jù)上進行預訓練的方法,而無需在線、端到端微調(diào)。
接下來描述依賴于這些神經(jīng)特征的幾何組件。
Lifting Points from 2D --> 3D。代理的 2D 局部特征相對于代理的坐標系提升為 3D,即
P
a
∈
R
n
×
3
P_a ∈ \mathbb{R}^{n×3}
Pa?∈Rn×3。這是通過利用相機固有矩陣 K(特別是主點 px、py 和焦距 fx、fy)以及 Xa 中每個位置的相應深度值(例如
d
a
∈
R
n
d_a ∈ R^n
da?∈Rn)來完成的。
P
a
P_a
Pa? 的第 i 行計算為:
Perspective-n-Point:下一步的目標,即透視 n 點 (PnP) 是找到代理和目標相機姿勢之間的旋轉(zhuǎn)和平移,以最小化重投影誤差。
具體來說,對于給定的旋轉(zhuǎn)矩陣
R
∈
R
3
×
3
\textbf{R} ∈ R^{3×3}
R∈R3×3 和平移向量
t
∈
R
3
\textbf{t} ∈ R^3
t∈R3,局部特征的 3D 位置 Pa 可以從代理的坐標系重新投影到目標相機的坐標系:
Easimating Distance and Heading to Goal: 預測的平移 t 可以幫助計算從智能體到目標的距離 ρ = ∥ t ∥ 2 ρ = \|t\|_2 ρ=∥t∥2?。類似地,從智能體到目標的航向 ? \phi ? 可以通過沿光軸(智能體視圖)的單位向量與 t 的點積獲得。具體來說, ? = sgn ? ( t [ 1 ] ) ? arccos ? ( t ? o a / ∥ t ∥ 2 ∥ o a ∥ 2 ) \phi=\operatorname{sgn}(t[1]) * \arccos \left(\mathbf{t} \cdot \mathbf{o}_{a} /\|\mathbf{t}\|_{2}\left\|\mathbf{o}_{a}\right\|_{2}\right) ?=sgn(t[1])?arccos(t?oa?/∥t∥2?∥oa?∥2?)。該符號來自 t [ 1 ] t[1] t[1],它沿著垂直于智能體光軸但平行于地面的軸指向。在計算航向時,該標志特別重要,因為它區(qū)分了代理向右轉(zhuǎn)還是向左轉(zhuǎn)
Local police: 最后,利用智能體當前位置到估計目標之間的距離 ρ ρ ρ 和航向 ? \phi ? 來估計動作空間 A 中達到目標的動作。在準確實現(xiàn)[66, 1]之后,我們采用局部度量地圖來允許代理啟發(fā)式避開障礙物并朝著目標移動
Switches
我們定義了目標發(fā)現(xiàn)(探索)和最后一英里導航(利用)兩個階段之間簡單但有效的切換。
如果對應數(shù)量 n > n t h n > n_{th} n>nth?,則觸發(fā) explore --> exploit 開關,其中 n t h n_{th} nth? 是設定閾值。這表明代理的圖像與圖像目標有顯著重疊,因此控制可以流向最后一英里的導航階段。我們發(fā)現(xiàn)這個簡單的開關比訓練特定的深度網(wǎng)絡來實現(xiàn)相同的效果更好([1,3,4]中嘗試的變體)。對于explore,如果R、t(參見方程(2))的優(yōu)化失敗或者預測距離大于 d t h d_{th} dth?(調(diào)整為4m),則智能體返回到目標發(fā)現(xiàn)階段。文章來源:http://www.zghlxwxcb.cn/news/detail-630312.html
Experiments
文章來源地址http://www.zghlxwxcb.cn/news/detail-630312.html
到了這里,關于Last-Mile Embodied Visual Navigation 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!