国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Last-Mile Embodied Visual Navigation 論文閱讀

這篇具有很好參考價值的文章主要介紹了Last-Mile Embodied Visual Navigation 論文閱讀。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

論文閱讀

題目:Last-Mile Embodied Visual Navigation
作者:JustinWasserman, Karmesh Yadav
來源:CoRL
時間:2023
代碼地址:https://jbwasse2.github.io/portfolio/SLING

Abstract

現(xiàn)實的長期任務(例如圖像目標導航)涉及探索和利用階段。

分配有目標圖像后,具體代理必須探索以發(fā)現(xiàn)目標,即使用學習到的先驗進行有效搜索。一旦發(fā)現(xiàn)目標,代理必須準確校準到目標的最后一英里導航。與任何強大的系統(tǒng)一樣,探索性目標發(fā)現(xiàn)和利用性最后一英里導航之間的切換可以更好地從錯誤中恢復。

遵循這些直觀的導軌,我們提出 SLING 來提高現(xiàn)有圖像目標導航系統(tǒng)的性能。完全補充現(xiàn)有方法,我們專注于最后一英里導航,并通過神經(jīng)描述符利用問題的底層幾何結構。通過簡單但有效的開關,我們可以輕松地將 SLING 與啟發(fā)式、強化學習和神經(jīng)模塊化策略連接起來。

在標準化圖像目標導航基準 [1] 上,我們提高了策略、場景和情節(jié)復雜性的性能,將最先進的成功率從 45% 提高到 55%。

Introduction

我們將導航到可見對象或區(qū)域的后一個問題稱為最后一英里導航。

最后一英里導航的非結構化本地策略要么是
(a)樣本效率低下(強化學習框架中的數(shù)十億幀[11]),要么是
(b)在從離線演示中學習時存在偏差且泛化能力較差(由于分布式)移位 [12, 13])

我們的主要貢獻是:
(1)通用的最后一英里導航系統(tǒng)和開關,我們將其與五種不同的目標發(fā)現(xiàn)方法連接起來,從而實現(xiàn)全面改進。
(2) 在最廣泛測試的折疊上,新的最先進技術取得了 54.8% 的成功,即與已發(fā)表的作品相比大幅躍升了 21.8% [5],與并發(fā)預印本相比躍升了 9.2%(Gibson -curved)AI Habitat 圖像目標導航基準 ;
(3) 在具有挑戰(zhàn)性的環(huán)境中進行廣泛的圖像目標導航機器人實驗,其性能優(yōu)于在真實世界數(shù)據(jù) [14] 上訓練的神經(jīng)模塊化策略 [1]。

Related Work

Embodied navigation

Anderson 等人 [15] 正式提出了評估具體代理的不同目標定義和指標。
在點目標導航中,目標的相對坐標是可用的(在所有步驟 [16,11,17,18,19] 或僅在劇集開始時 [9,20,21])。成功導航到點目標可以在沒有語義場景理解的情況下完成,正如競爭性的僅深度代理所看到的那樣 [16, 11]。語義導航需要通過圖像(圖像目標 [1, 2, 22])、聲音提示(音頻目標 [23, 24])或類別標簽(對象目標 [8, 9])來識別目標。

導航的幾個擴展包括語言條件導航[25,26,27,28],社交導航[29,30,31,32,33]和多代理任務[34,35,36,37,38] 39]。然而,這些都建立在單代理導航的基礎上,并受益于相關的進步。對于更具體的任務和范例,我們建議讀者參考最近的一項調(diào)查[40]。在這項工作中,我們專注于視覺豐富的環(huán)境中的圖像目標導航。

Image-goal navigation

Chaplot 等人 [3] 引入了一種模塊化和分層的方法,用于利用拓撲圖存儲器導航到圖像目標。 Kwon 等人 [41] 引入了一種基于圖像相似性的記憶表示,該記憶表示又以無監(jiān)督的方式從未標記的數(shù)據(jù)和代理觀察到的圖像中學習。
NRNS [1] 改進了基于拓撲圖的架構,并開源了 AI Habitat 內(nèi)的公共數(shù)據(jù)集以及 IL 和 RL 基線 [11, 3]。該數(shù)據(jù)集已用于標準化評估[5, 6]。
ZER [5] 專注于將圖像目標導航策略轉(zhuǎn)移到其他導航任務。在并發(fā)預印本中,Y adav 等人 [6] 利用自監(jiān)督預訓練 [42] 來改進圖像目標導航基準的端到端視覺 RL 策略 [11]。

Last-mile navigation

上述作品主要關注目標發(fā)現(xiàn)。相比之下,最近的研究還發(fā)現(xiàn)了當目標在智能體的視野中或附近時發(fā)生的“最后一英里”錯誤。對于多目標導航,Wani 等人 [46, 47] 在允許最終“找到”或“停止”操作的錯誤預算時觀察到了兩倍的改進。 Chattopadhyay 等人 [48] 發(fā)現(xiàn)導航的最后一步很脆弱,即小的擾動會導致嚴重的故障。 Ye 等人 [10] 將最后一英里錯誤確定為目標-目標導航中的一個突出錯誤模式(占失敗的 10%)。

Connections to 3D vision

我們最后一英里導航系統(tǒng)的目標是預測兩個圖像之間的相對相機姿勢,即代理的視圖和圖像目標。為此,根據(jù) 3D 到 2D 點對應關系對校準相機進行位姿估計,將我們的具體導航任務與幾何 3D 計算機視覺聯(lián)系起來。

SLING

我們遵循 Hahn 等人 [1] 的圖像目標導航任務基準(類似于之前的公式 [2, 3])。代理觀察 RGB 圖像 I a I_a Ia?、深度圖 D a D_a Da? 和圖像目標 I g I_g Ig?。代理可以從 A = { m o v e ? f o r w a r d , t u r n ? r i g h t , t u r n ? l e f t , s t o p } A = \{move\space forward, turn\space right, turn\space left, stop\} A={move?forward,turn?right,turn?left,stop}中采樣動作。停止動作終止該情節(jié)。

如圖 1a 所示,我們將圖像目標導航分為目標發(fā)現(xiàn)和最后一英里導航階段。

在目標發(fā)現(xiàn)階段,代理負責發(fā)現(xiàn)目標,即導航足夠近,使目標占據(jù)以自我為中心的觀察的很大一部分(“發(fā)現(xiàn)目標”圖像)。圖 1b 顯示了我們系統(tǒng)之間的控制流。如果沒有觸發(fā) explore )exploit 開關,基于學習的探索將繼續(xù)。否則,如果探索)利用開關觸發(fā),代理的觀察現(xiàn)在與圖像目標重疊,并且控制流到最后一英里導航系統(tǒng)。我們發(fā)現(xiàn)來自探索的單向流程(如[1, 3]中所嘗試的)利用過于樂觀。因此,我們引入對稱開關,包括將控制流回目標發(fā)現(xiàn)的開關。
Last-Mile Embodied Visual Navigation 論文閱讀,論文,Navigation,論文閱讀

Goal Discovery

我們可以將我們的多功能最后一英里導航系統(tǒng)和切換機制與任何現(xiàn)有方法結合起來。這些現(xiàn)有方法是先前建議的圖像目標導航解決方案。我們通過五種不同的目標發(fā)現(xiàn) (GD) 實現(xiàn)來證明這一點

直[61]Straight 。一種簡單的啟發(fā)式探索,代理向前移動,如果卡住了,可以通過右轉(zhuǎn)來解鎖自身(類似于[61]中的有效探索基線)。

距離預測網(wǎng)絡(Distance Prediction Network, NRNS-GD)[1]。探索性導航是通過在可導航區(qū)域中提出路徑點(利用代理的深度掩模確定)來完成的,使用拓撲圖維護歷史記錄,并使用圖神經(jīng)網(wǎng)絡進行處理。利用距離預測網(wǎng)絡的輸出來選擇最小成本航路點。附錄 B 和 [1] 中給出了更多詳細信息。

去中心化分布式 PPO(Decentralized Distributed PPO, DDPPO-GD)[11]。用于真實感模擬器的 PPO [62] 實現(xiàn),其中渲染是計算瓶頸。這是之前跨任務工作中的標準端到端深度強化學習基線 [18,1,5,6,63]。

離線視覺表示學習(Offline Visual Representation Learning, OVRL-GD)[6]。 DDPPO 網(wǎng)絡,其視覺編碼器使用自監(jiān)督借口任務 [42] 對從 3D 掃描 [64] 獲得的圖像進行預訓練。

環(huán)境-狀態(tài)距離預測 (Environment-State Distance Prediction, Oracle-GD)。為了量化目標發(fā)現(xiàn)階段錯誤的影響,我們設計了一個上限。這是 NRNS-GD 的一個特權變體,可獲取距環(huán)境的地面真實距離,專門用于目標發(fā)現(xiàn)階段。

Last-Mile Navigation

Neural Feature Extractor:我們首先將智能體的 RGB I a I_a Ia? 轉(zhuǎn)換為局部特征 ( X ^ a \hat{X}_a X^a?, F a F_a Fa?),其中 X ^ a ∈ R n a × 2 \hat{X}_a ∈ \mathbb{R}^{n_a×2} X^a?Rna?×2 是位置, F a ∈ R n a × k F_a ∈ \mathbb{R}^{n_a×k} Fa?Rna?×k 是智能體圖像中的視覺描述符。這里, n a n_a na?是檢測到的局部特征的數(shù)量, k k k是每個描述符的長度。
類似地, I g I_g Ig? 導致特征 ( X ^ g \hat{X}_g X^g?, F g F_g Fg?),其中 X ^ g ∈ R n g × 2 \hat{X}_g ∈ \mathbb{R}^{n_g×2} X^g?Rng?×2 F g ∈ R n g × k F_g ∈ \mathbb{R}^{n_g×k} Fg?Rng?×k,圖像目標中具有 n g n_g ng? 局部特征。
繼 DeTone 等人[65]之后,我們采用興趣點檢測器,對合成數(shù)據(jù)進行預訓練,然后進行跨域單應性適應(此處,k = 256)。

Matching Module:根據(jù)提取的特征 ( X ^ a \hat{X}_a X^a?, F a F_a Fa?) 和( X ^ g \hat{X}_g X^g?, F g F_g Fg?),我們預測匹配的子集 X ^ a ∈ R n a × 2 \hat{X}_a ∈ \mathbb{R}^{n_a×2} X^a?Rna?×2 X ^ g ∈ R n g × 2 \hat{X}_g ∈ \mathbb{R}^{n_g×2} X^g?Rng?×2 。匹配被優(yōu)化以使 X a X_a Xa? X g X_g Xg?對應于同一點。
我們利用基于注意力的圖神經(jīng)網(wǎng)絡(GNN),遵循 Sarlin 等人 [52],使用最佳傳輸公式很好地解決部分匹配和遮擋問題。上述神經(jīng)特征提取器和基于 GNN 的匹配器有助于享受基于學習的方法的好處,特別是那些在大型離線視覺數(shù)據(jù)上進行預訓練的方法,而無需在線、端到端微調(diào)。

接下來描述依賴于這些神經(jīng)特征的幾何組件。

Lifting Points from 2D --> 3D。代理的 2D 局部特征相對于代理的坐標系提升為 3D,即 P a ∈ R n × 3 P_a ∈ \mathbb{R}^{n×3} Pa?Rn×3。這是通過利用相機固有矩陣 K(特別是主點 px、py 和焦距 fx、fy)以及 Xa 中每個位置的相應深度值(例如 d a ∈ R n d_a ∈ R^n da?Rn)來完成的。 P a P_a Pa? 的第 i 行計算為:
Last-Mile Embodied Visual Navigation 論文閱讀,論文,Navigation,論文閱讀
Perspective-n-Point:下一步的目標,即透視 n 點 (PnP) 是找到代理和目標相機姿勢之間的旋轉(zhuǎn)和平移,以最小化重投影誤差。
具體來說,對于給定的旋轉(zhuǎn)矩陣 R ∈ R 3 × 3 \textbf{R} ∈ R^{3×3} RR3×3 和平移向量 t ∈ R 3 \textbf{t} ∈ R^3 tR3,局部特征的 3D 位置 Pa 可以從代理的坐標系重新投影到目標相機的坐標系:
Last-Mile Embodied Visual Navigation 論文閱讀,論文,Navigation,論文閱讀

Easimating Distance and Heading to Goal: 預測的平移 t 可以幫助計算從智能體到目標的距離 ρ = ∥ t ∥ 2 ρ = \|t\|_2 ρ=t2?。類似地,從智能體到目標的航向 ? \phi ? 可以通過沿光軸(智能體視圖)的單位向量與 t 的點積獲得。具體來說, ? = sgn ? ( t [ 1 ] ) ? arccos ? ( t ? o a / ∥ t ∥ 2 ∥ o a ∥ 2 ) \phi=\operatorname{sgn}(t[1]) * \arccos \left(\mathbf{t} \cdot \mathbf{o}_{a} /\|\mathbf{t}\|_{2}\left\|\mathbf{o}_{a}\right\|_{2}\right) ?=sgn(t[1])?arccos(t?oa?/∥t2?oa?2?)。該符號來自 t [ 1 ] t[1] t[1],它沿著垂直于智能體光軸但平行于地面的軸指向。在計算航向時,該標志特別重要,因為它區(qū)分了代理向右轉(zhuǎn)還是向左轉(zhuǎn)

Local police: 最后,利用智能體當前位置到估計目標之間的距離 ρ ρ ρ 和航向 ? \phi ? 來估計動作空間 A 中達到目標的動作。在準確實現(xiàn)[66, 1]之后,我們采用局部度量地圖來允許代理啟發(fā)式避開障礙物并朝著目標移動

Switches

我們定義了目標發(fā)現(xiàn)(探索)和最后一英里導航(利用)兩個階段之間簡單但有效的切換。

如果對應數(shù)量 n > n t h n > n_{th} n>nth?,則觸發(fā) explore --> exploit 開關,其中 n t h n_{th} nth? 是設定閾值。這表明代理的圖像與圖像目標有顯著重疊,因此控制可以流向最后一英里的導航階段。我們發(fā)現(xiàn)這個簡單的開關比訓練特定的深度網(wǎng)絡來實現(xiàn)相同的效果更好([1,3,4]中嘗試的變體)。對于explore,如果R、t(參見方程(2))的優(yōu)化失敗或者預測距離大于 d t h d_{th} dth?(調(diào)整為4m),則智能體返回到目標發(fā)現(xiàn)階段。

Experiments

Last-Mile Embodied Visual Navigation 論文閱讀,論文,Navigation,論文閱讀
Last-Mile Embodied Visual Navigation 論文閱讀,論文,Navigation,論文閱讀文章來源地址http://www.zghlxwxcb.cn/news/detail-630312.html

到了這里,關于Last-Mile Embodied Visual Navigation 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 超圖聚類論文閱讀2:Last-step算法

    超圖聚類論文閱讀2:Last-step算法

    《使用超圖模塊化的社區(qū)檢測算法》 《Community Detection Algorithm Using Hypergraph Modularity》 COMPLEX NETWORKS 2021, SCI 3區(qū) 具體實現(xiàn)源碼見HyperNetX庫 工作:提出了一種用于超圖的社區(qū)檢測算法。該算法的主要特點是它可以根據(jù)一個社區(qū)中的頂點與其他社區(qū)中的頂點共享超邊的頻率進行調(diào)

    2024年02月09日
    瀏覽(24)
  • Benchmarking Augmentation Methods for Learning Robust Navigation Agents 論文閱讀

    Benchmarking Augmentation Methods for Learning Robust Navigation Agents 論文閱讀

    題目 :Benchmarking Augmentation Methods for Learning Robust Navigation Agents: the Winning Entry of the 2021 iGibson Challenge 作者 :Naoki Yokoyama, Qian Luo 來源 :arXiv 時間 :2022 深度強化學習和可擴展的真實感模擬的最新進展使得用于各種視覺任務(包括導航)的具體人工智能日益成熟。然而,雖然在

    2024年02月14日
    瀏覽(22)
  • 【論文閱讀筆記】Endoscopic navigation in the absence of CT imaging

    ??上一篇的導航導論,是需要先驗,也就是需要事先拍攝堆疊的圖片(比如CT圖等),在體外構建相應的3D模型,再與內(nèi)窺鏡圖像進行實時匹配。對于很多情況來說,是無法擁有如此充足的先驗的。所以,本文探索的是沒有額外CT圖像的一個內(nèi)窺鏡導航算法,應用場景是鼻腔

    2024年02月11日
    瀏覽(25)
  • Is Mapping Necessary for Realistic PointGoal Navigation 論文閱讀和代碼分析

    Is Mapping Necessary for Realistic PointGoal Navigation 論文閱讀和代碼分析

    題目 :Is Mapping Necessary for Realistic PointGoal Navigation? 作者 :Ruslan Partsey、 Erik Wijmans 代碼地址 :https://rpartsey.github.io/pointgoalnav/ 來源 :CVPR 時間 :2022 目標:證明顯式地圖不是成功導航的必要條件。 對比實驗 數(shù)據(jù)集(模擬器):無地圖導航模型的標準數(shù)據(jù)集Gibson。 模擬器和現(xiàn)

    2024年02月15日
    瀏覽(21)
  • [論文閱讀]Visual Attention Network原文翻譯

    [論文閱讀]Visual Attention Network原文翻譯

    [論文鏈接]https://arxiv.org/abs/2202.09741 ??雖然一開始是被設計用于自然語言處理任務的,但是自注意力機制在多個計算機視覺領域掀起了風暴。然而,圖像的二維特性給自注意力用于計算機視覺帶來了三個挑戰(zhàn)。(1)將圖像視作一維序列忽視了它們的二維結構;(2)二次復雜

    2024年02月09日
    瀏覽(29)
  • 無標記配準論文閱讀(二)A Vision-Based Navigation System With Markerless Image Registration and Position-Sensing

    無標記配準論文閱讀(二)A Vision-Based Navigation System With Markerless Image Registration and Position-Sensing

    文章鏈接 A Vision-Based Navigation System With Markerless-- Image Registration and Position-Sensing Localization for Oral and Maxillofacial Surgery | IEEE Journals Magazine | IEEE Xplore D. Li, M. Zhu, S. Wang, Y. Hu, F. Yuan and J. Yu, \\\"A Vision-Based Navigation System With Markerless Image Registration and Position-Sensing Localization for Oral and Max

    2024年03月16日
    瀏覽(36)
  • Visual ChatGPT原理解讀——大模型論文閱讀筆記四

    Visual ChatGPT原理解讀——大模型論文閱讀筆記四

    論文:https://arxiv.org/abs/2303.04671 代碼:https://github.com/microsoft/TaskMatrix 如圖所示,用戶上傳一張黃花的圖像并輸入一個復雜的語言指令“請根據(jù)該圖像的預測深度生成一朵紅花,然后逐步使其像卡通一樣”。 在交互管理器的幫助下,Visual ChatGPT 開始了相關視覺基礎模型的執(zhí)行

    2024年02月09日
    瀏覽(19)
  • REC 系列 Visual Grounding with Transformers 論文閱讀筆記

    REC 系列 Visual Grounding with Transformers 論文閱讀筆記

    寫在前面 ??Hello,馬上又是一周過去了,快要開學了,不知道小伙伴們狀態(tài)都調(diào)整過來了嗎?加油噢~ ??這同樣是一篇關于 REC 的文章,文章時間比較早了,但也是屬于那種入門必看的文章。 論文地址:VISUAL GROUNDING WITH TRANSFORMERS 代碼地址:https://github.com/usr922/vgtr 收錄于

    2024年02月12日
    瀏覽(27)
  • 論文閱讀:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

    論文閱讀:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

    目錄 摘要 引言 相關工作 Visual ChatGPT Prompt Managing of Sysytem Principles M(P) Prompt Managing of Foundation Models M(F) Prompt Managing of User Querie M(Qi) Prompt Managing of Foundation Model Out-puts M(F(A(j)i )) 實驗 實驗設置 ?Visual ChatGPT的作用: 1、不僅可以發(fā)送和接收語言,也可以發(fā)送和接收圖像; 2、提供

    2024年02月09日
    瀏覽(20)
  • SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 論文閱讀

    SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 論文閱讀

    題目 :SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 作者 :Ue-Hwan Kim , Se-Ho Kim , and Jong-Hwan Kim , Fellow, IEEE 時間 :2022 來源 : IEEE ROBOTICS AND AUTOMATION LETTERS(RAL) 語義的缺乏和動態(tài)對象導致的性能下降阻礙了其在現(xiàn)實場景中的應用。 為了克服這些限制,我們在Simultanero

    2024年02月09日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包