国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀

這篇具有很好參考價(jià)值的文章主要介紹了One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

論文信息

題目:One-4-All: Neural Potential Fields for Embodied Navigation
作者:Sacha Morin, Miguel Saavedra-Ruiz
來(lái)源:arXiv
時(shí)間:2023

Abstract

現(xiàn)實(shí)世界的導(dǎo)航可能需要使用高維 RGB 圖像進(jìn)行長(zhǎng)視野規(guī)劃,這對(duì)基于端到端學(xué)習(xí)的方法提出了巨大的挑戰(zhàn)。

目前的半?yún)?shù)方法通過(guò)將學(xué)習(xí)的模塊與環(huán)境的拓?fù)溆洃浵嘟Y(jié)合來(lái)實(shí)現(xiàn)長(zhǎng)范圍導(dǎo)航,通常表示為先前收集的圖像上的圖形。
然而,在實(shí)踐中使用這些圖需要調(diào)整一些修剪啟發(fā)法。這些啟發(fā)式對(duì)于避免虛假邊緣、限制運(yùn)行時(shí)內(nèi)存使用以及在大型環(huán)境中保持相當(dāng)快速的圖形查詢(xún)是必要的。

我們提出了 One-4-All (O4A),這是一種利用自監(jiān)督和流形學(xué)習(xí)來(lái)獲得無(wú)圖、端到端導(dǎo)航管道的方法,其中目標(biāo)被指定為圖像。導(dǎo)航是通過(guò)貪婪地最小化在圖像嵌入上連續(xù)定義的勢(shì)函數(shù)來(lái)實(shí)現(xiàn)的。我們的系統(tǒng)在 RGB 數(shù)據(jù)和控件的非專(zhuān)家探索序列上進(jìn)行離線(xiàn)訓(xùn)練,并且不需要任何深度或姿勢(shì)測(cè)量。

One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀,論文,Navigation,論文閱讀

Introduction

導(dǎo)航問(wèn)題的特點(diǎn)是機(jī)器人能夠識(shí)別給定環(huán)境中起始姿勢(shì)和目標(biāo)姿勢(shì)之間最有效和可行的路徑。

標(biāo)準(zhǔn)方法包括首先在環(huán)境中駕駛機(jī)器人來(lái)構(gòu)建度量地圖(通常使用范圍傳感器),然后使用此表示進(jìn)行規(guī)劃 [1]。然而,這些方法的記憶復(fù)雜性隨著環(huán)境的大小而擴(kuò)展得很差,并且它們不利用語(yǔ)義信息或視覺(jué)線(xiàn)索[2]。

作為替代方案,基于學(xué)習(xí)的方法(也稱(chēng)為體驗(yàn)式學(xué)習(xí) [3])由于能夠直接處理高維數(shù)據(jù)(例如圖像)并推理場(chǎng)景中的非幾何概念而獲得了發(fā)展勢(shì)頭。此外,這些方法對(duì)于非專(zhuān)業(yè)用戶(hù)來(lái)說(shuō)使用起來(lái)更加直觀,因?yàn)樗鼈冊(cè)试S使用地點(diǎn)或?qū)ο蟮膱D像而不是度量空間中的坐標(biāo)來(lái)指定目標(biāo)位置[4]。然而,端到端的體驗(yàn)式學(xué)習(xí)通常會(huì)學(xué)習(xí)一個(gè)將圖像直接映射到動(dòng)作的全局控制器,無(wú)法推理長(zhǎng)期目標(biāo)。此外,它們因數(shù)據(jù)效率低下而聞名

為了克服長(zhǎng)視距導(dǎo)航的挑戰(zhàn),拓?fù)溆洃洷硎綶7]被用來(lái)將導(dǎo)航問(wèn)題分為兩部分。
首先,內(nèi)存表示用于生成全局一致的導(dǎo)航計(jì)劃,
然后使用學(xué)習(xí)的或經(jīng)典的本地控制器[8]逐個(gè)航路點(diǎn)地跟蹤該計(jì)劃。
結(jié)合了基于記憶和學(xué)習(xí)的組件的方法被稱(chēng)為半?yún)?shù),而僅依賴(lài)于學(xué)習(xí)的方法被稱(chēng)為全參數(shù)。

雖然半?yún)?shù)方法已被證明對(duì)于室內(nèi) [9]、[10]、[4]、[11] 和室外 [12]、[13] 基于圖像的導(dǎo)航有效,但它們?nèi)匀挥龅?strong>內(nèi)存問(wèn)題。這是拓?fù)溆洃浲ǔ1痪幋a為圖的結(jié)果,其節(jié)點(diǎn)表示訪(fǎng)問(wèn)的狀態(tài),邊表示可遍歷性。隨著環(huán)境規(guī)模的增加,圖中需要更多的節(jié)點(diǎn)和邊,從而增加內(nèi)存需求。

此外,圖中的虛假連接可能會(huì)阻礙導(dǎo)航性能,因?yàn)樗鼈兛赡艽砦锢硎澜缰胁豢尚械霓D(zhuǎn)換,從而導(dǎo)致全局規(guī)劃階段的故障模式。

為了解決這些限制,我們提出了 One-4-All (O4A),一種用于圖像目標(biāo)導(dǎo)航的端到端全參數(shù)方法。
O4A 使用 RGB 數(shù)據(jù)和控件的非專(zhuān)家探索序列進(jìn)行離線(xiàn)訓(xùn)練。
我們首先依靠自我監(jiān)督學(xué)習(xí)來(lái)識(shí)別相鄰的 RGB 觀察值。有了這種連通性的概念,我們計(jì)算一個(gè)圖來(lái)為我們的規(guī)劃模塊導(dǎo)出流形學(xué)習(xí)目標(biāo)[14]、[15],我們將其稱(chēng)為測(cè)地線(xiàn)回歸器。
測(cè)地線(xiàn)回歸器將學(xué)習(xí)預(yù)測(cè)成對(duì) RGB 圖像之間的最短路徑長(zhǎng)度,從這個(gè)意義上說(shuō),對(duì)環(huán)境的幾何形狀進(jìn)行編碼并充當(dāng)我們的內(nèi)存模塊 。雖然我們?cè)谟?xùn)練期間計(jì)算臨時(shí)圖,但我們將其丟棄以進(jìn)行導(dǎo)航,并發(fā)現(xiàn)它不需要現(xiàn)有半?yún)?shù)方法的手工圖修剪啟發(fā)式方法。直觀上,我們用圖中潛在大量的節(jié)點(diǎn)和邊來(lái)?yè)Q取固定數(shù)量的可學(xué)習(xí)參數(shù),從而減輕半?yún)?shù)方法的內(nèi)存限制。推理也得到了改進(jìn):圖查詢(xún)被神經(jīng)網(wǎng)絡(luò)中的高效前向傳遞所取代。

我們的主要貢獻(xiàn)是:
? 使用 RGB 數(shù)據(jù)和控制的非專(zhuān)家探索序列的離線(xiàn)自我監(jiān)督訓(xùn)練程序,無(wú)需任何深度或姿勢(shì)測(cè)量。
? 無(wú)圖、端到端的導(dǎo)航管道,避免調(diào)整圖修剪啟發(fā)法;
? 一個(gè)潛在的基于實(shí)地的規(guī)劃器,由于經(jīng)過(guò)多種學(xué)習(xí)目標(biāo)訓(xùn)練的測(cè)地線(xiàn)吸引子,可以避免局部極小值并達(dá)到長(zhǎng)期目標(biāo);
? 一個(gè)可解釋的系統(tǒng),即使在沒(méi)有任何姿態(tài)信息的情況下,也可以恢復(fù)其潛在空間中的環(huán)境拓?fù)洹?/p>

Related work

這部分就是Introduction的詳細(xì)版,暫時(shí)不需要過(guò)多關(guān)注

Method

Problem Definition

我們考慮一個(gè)具有離散動(dòng)作空間 A = { S T O P , F O R W A R D , R O T A T E _ R I G H T , R O T A T E _ L E F T } A = \{STOP, FORWARD, ROTATE\_RIGHT, ROTATE\_LEFT\} A={STOP,FORWARD,ROTATE_RIGHT,ROTATE_LEFT} 的機(jī)器人來(lái)執(zhí)行圖像目標(biāo)導(dǎo)航任務(wù) [31]。利用我們對(duì)機(jī)器人幾何形狀的了解和適當(dāng)?shù)耐飧惺軝C(jī)載傳感器(例如,前置激光掃描儀),我們假設(shè)可以估計(jì)一組無(wú)碰撞動(dòng)作。

當(dāng)提示目標(biāo)圖像 o g o_g og? 時(shí),智能體應(yīng)僅使用 RGB 觀測(cè)值 o t o_t ot? A f r e e A_{free} Afree? 估計(jì)在部分可觀察的設(shè)置中導(dǎo)航到目標(biāo)位置。

代理還需要通過(guò)在目標(biāo)附近自動(dòng)調(diào)用 STOP 來(lái)確定何時(shí)達(dá)到目標(biāo)

Data

我們的目標(biāo)是使用深度神經(jīng)網(wǎng)絡(luò)參數(shù)化的學(xué)習(xí)模塊來(lái)實(shí)現(xiàn)圖像目標(biāo)導(dǎo)航。對(duì)于任何給定的環(huán)境,我們假設(shè)一些先前收集的觀測(cè)軌跡 τ o = { o t } t = 1 T τ_o = \{o_t\}^T_{t=1} τo?={ot?}t=1T? 和相應(yīng)的動(dòng)作 τ a = { a t } t = 1 T τ_a = \{a_t\}^T_{t=1} τa?={at?}t=1T? 可用。為了符號(hào)簡(jiǎn)潔性,我們考慮來(lái)自單一環(huán)境的單一軌跡,但實(shí)際上使用來(lái)自不同環(huán)境的多個(gè)數(shù)據(jù)軌跡(圖 2)。我們不需要專(zhuān)家的數(shù)據(jù)收集策略,數(shù)據(jù)集可以是遠(yuǎn)程操作、自我探索或隨機(jī)游走的產(chǎn)物,只要它充分覆蓋環(huán)境的自由空間即可。

值得注意的是,我們?cè)跓o(wú)監(jiān)督的環(huán)境中處理導(dǎo)航,并且不假設(shè)可以訪(fǎng)問(wèn)每個(gè)圖像觀察的姿勢(shì)估計(jì),這極大地簡(jiǎn)化了數(shù)據(jù)收集。此外,我們不收集任何深度測(cè)量結(jié)果,僅在運(yùn)行時(shí)依靠前置激光掃描儀進(jìn)行簡(jiǎn)單的碰撞檢查。

System

Overview

我們?cè)趫D 2 中說(shuō)明并展示了我們系統(tǒng)的概述。我們首先依靠自監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)與連接頭配對(duì)的 RGB 主干,以推斷 τ o τ_o τo? 中所有圖像的圖形。然后,該圖將用于導(dǎo)出正向運(yùn)動(dòng)學(xué)模塊和測(cè)地線(xiàn)回歸器的訓(xùn)練目標(biāo)。
One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀,論文,Navigation,論文閱讀

Local Backbone

本地主干學(xué)習(xí)從原始圖像到低維嵌入 h : O R G B → X h : O_{RGB} → X h:ORGB?X 的映射。為了簡(jiǎn)單起見(jiàn),我們將提取的特征表示為 x = h(o)。函數(shù) h 將具有雙重目的:
1)提取 X = Rn 中的低維特征,將其用作其他模塊的輸入;
2)學(xué)習(xí)定義為
One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀,論文,Navigation,論文閱讀
鑒于訓(xùn)練數(shù)據(jù)中缺乏姿勢(shì)信息,h 通過(guò)自我監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練。我們使用經(jīng)常用于訓(xùn)練暹羅架構(gòu)的對(duì)比損失函數(shù)的變體:
One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀,論文,Navigation,論文閱讀
方程 2 是時(shí)間對(duì)比學(xué)習(xí)的一個(gè)實(shí)例:我們知道連續(xù)觀察(正對(duì))在姿態(tài)方面確實(shí)很接近,因此鼓勵(lì)其與 X 中的距離恰好為 m+ 。負(fù)數(shù)被推到至少 m? 的距離,反映了這樣一個(gè)事實(shí):即使現(xiàn)階段未知它們之間的確切距離,它們也不應(yīng)該共享相同的鄰域。這一最新的觀察激發(fā)了術(shù)語(yǔ)“局部度量”[15],因?yàn)閷?shí)際距離 dh 僅在應(yīng)用于潛在空間中接近的正對(duì)時(shí)才提供信息。應(yīng)該強(qiáng)調(diào)的是,dh 通常無(wú)法預(yù)測(cè)負(fù)對(duì)之間的距離,因?yàn)樗?m? 附近飽和,如[15]中所述。

Inverse Kinematics Head

組件 f ? : X × X → A ∪ { N O T _ C O N N E C T E D } f^? : X × X → A ∪ \{NOT\_CONNECTED\} f?:X×XA{NOT_CONNECTED} 預(yù)測(cè)兩個(gè)嵌入之間移動(dòng)所需的操作,或者當(dāng)認(rèn)為單個(gè)操作中的轉(zhuǎn)換不可行時(shí)返回 N O T _ C O N N E C T E D NOT\_CONNECTED NOT_CONNECTED 標(biāo)記。因此, f ? f^? f? 既充當(dāng)閉環(huán)模塊又充當(dāng)逆運(yùn)動(dòng)學(xué)預(yù)測(cè)器。

它是使用 τ a τ_a τa? 中觀察到的動(dòng)作的標(biāo)準(zhǔn)交叉熵?fù)p失進(jìn)行訓(xùn)練的。我們使用等式 2 中的相同負(fù)數(shù) N 來(lái)訓(xùn)練 NOT_CONNECTED 類(lèi)。

即使 N 中的大多數(shù)負(fù)例都是真負(fù)例(從某種意義上說(shuō),觀察結(jié)果與一個(gè)操作步驟無(wú)法連接),h 和 f ? f^? f? 在訓(xùn)練過(guò)程中也可能會(huì)遇到偶爾的假負(fù)例。例如,如果同一位置被訪(fǎng)問(wèn)兩次,則引發(fā)的觀察結(jié)果可能在時(shí)間上不連續(xù),然后可能出現(xiàn)在 N 中。這些漏報(bào)實(shí)際上對(duì)應(yīng)于經(jīng)過(guò)訓(xùn)練的系統(tǒng)應(yīng)該在數(shù)據(jù)中發(fā)現(xiàn)的閉環(huán)。在實(shí)踐中,事實(shí)證明,假陰性并不會(huì)阻止 f ? f^? f? 學(xué)習(xí)良好的連接性(圖 4)。

Graph Construction

配備了 h 和 f ? f^? f?,我們現(xiàn)在可以構(gòu)建一個(gè)有向圖 G,其邊使用 dh 進(jìn)行加權(quán)(等式 1)。我們首先將收集的數(shù)據(jù)視為具有觀察到的邊 E o = ( o t , o t + 1 ) : o t , o t + 1 ∈ τ o Eo = {(ot, ot+1) : ot, ot+1 ∈ τo} Eo=(ot,ot+1):ot,ot+1τo 的鏈圖,然后運(yùn)行成對(duì)計(jì)算以獲得新的閉環(huán)邊 Ep = {(ot, os ) : ot, os ε τo, f ?(xt, xs) ε A}。最終的圖形是 G = (τo, Eo ∪ Ep)。不需要對(duì)圖進(jìn)行額外的后處理,這與現(xiàn)有方法[9]、[10]、[12]、[26]相反,現(xiàn)有方法可能需要調(diào)整大量超參數(shù)來(lái)管理節(jié)點(diǎn)和邊。

Forward Kinematrics Head

正向運(yùn)動(dòng)學(xué)頭由 f : X × A → X f : X × A → X f:X×AX 表示,并使用來(lái)自 G 的邊/過(guò)渡進(jìn)行訓(xùn)練。對(duì)于訓(xùn)練期間 G 中的任何邊 ( o t , o s ) (o_t, o_s) (ot?,os?),使用均方誤差損失來(lái)訓(xùn)練模塊以逼近函數(shù) ( x t , f ? ( x t , x s ) ) → x s (x_t, f^?(x_t, x_s)) → x_s (xt?,f?(xt?,xs?))xs?,使用反向運(yùn)動(dòng)學(xué)頭 f ? f^? f? 提供輸入動(dòng)作,即使沒(méi)有觀察到。因此,f 將受益于 E p E_p Ep? 中最初未在 E o E_o Eo? 中觀察到的額外躍遷。上面是一個(gè)稱(chēng)為協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí)實(shí)例[33],其中函數(shù) h 和 f ? f^? f? 用于標(biāo)記訓(xùn)練集中看不見(jiàn)的轉(zhuǎn)換,從而增強(qiáng)用于訓(xùn)練 f 的監(jiān)督信號(hào)。

Geodesic Regressor

最終組件和核心規(guī)劃模塊 p + : X × X → R + p^+ : X × X → \mathbb{R}^+ p+:X×XR+ 學(xué)習(xí)預(yù)測(cè) G 上的最短路徑長(zhǎng)度。我們將這些距離表示為 d G ( o t , o g ) d_G(o_t, o_g) dG?(ot?,og?) 并使用 Dijkstra 算法計(jì)算它們。 d G d_G dG? 是在來(lái)自 G 的離散頂點(diǎn)集的觀察對(duì)上定義的。我們的目標(biāo)是將其擴(kuò)展到連續(xù)潛在空間 X 上,以在運(yùn)行時(shí)預(yù)測(cè)任何圖像對(duì)的最短路徑長(zhǎng)度。測(cè)地線(xiàn)回歸器的訓(xùn)練損失為
One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀,論文,Navigation,論文閱讀
將觀測(cè)結(jié)果解釋為來(lái)自嵌入高維 RGB 空間中的流形的樣本,主干 h 學(xué)習(xí)局部歐幾里德鄰域 (dh) 的嵌入,這些鄰域通過(guò)圖搜索鏈接在一起以計(jì)算整個(gè)流形上的測(cè)地線(xiàn)(固有)距離。方程 3 實(shí)際上對(duì)應(yīng)于流形學(xué)習(xí)目標(biāo) ,我們將在圖 4 中以可解釋的環(huán)境可視化形式顯示 O4A 訓(xùn)練結(jié)果。

一旦所有組件都經(jīng)過(guò)訓(xùn)練,G 就可以被丟棄,并且在部署系統(tǒng)時(shí)不再需要 G。事實(shí)上,f 和 p + p^+ p+ 都將提供圖像目標(biāo)導(dǎo)航所需的所有信息,我們將在第 IIID 小節(jié)中詳細(xì)介紹。事實(shí)上,測(cè)地線(xiàn)回歸量 p + p^+ p+ 可以解釋為對(duì) G 的幾何形狀進(jìn)行編碼,從而用潛在的大量節(jié)點(diǎn)和邊換取固定數(shù)量的可學(xué)習(xí)參數(shù)。

Multiple Environment Setting

當(dāng)考慮 k 個(gè)環(huán)境時(shí),我們?cè)谡麄€(gè)數(shù)據(jù)上訓(xùn)練 h 和 f ? f^? f?。為了給模型提供更具挑戰(zhàn)性的任務(wù),我們從相同環(huán)境或不同環(huán)境中采樣負(fù)樣本 N。然后,h 和 f ? f^? f? 可用于閉環(huán)并計(jì)算一組圖 { G i } i = 1 k \{G_i\}^k_{i=1} {Gi?}i=1k?,每個(gè)環(huán)境一個(gè)。然后使用所有圖表的轉(zhuǎn)換來(lái)訓(xùn)練正向運(yùn)動(dòng)學(xué) f。最后,每個(gè) G i G_i Gi? 用于訓(xùn)練測(cè)地線(xiàn)回歸器 p i + p^+_i pi+? ??傊琱、 f ? f^? f? 和 f 是跨環(huán)境共享的,而 p i + p^+_i pi+? 是特定于環(huán)境的。

Navigation

在本節(jié)中,我們討論如何部署 O4A 進(jìn)行導(dǎo)航。我們的方法受到人工勢(shì)場(chǎng) (APF) 方法 [20] 的強(qiáng)烈啟發(fā),
該方法通過(guò)定義
A)目標(biāo)周?chē)奈齽?shì)和
B)障礙物周?chē)呐懦鈩?shì)來(lái)規(guī)劃代理配置空間上的運(yùn)動(dòng)
從而使代理能夠最小化通過(guò)梯度下降的總勢(shì)函數(shù)在避開(kāi)障礙物的同時(shí)達(dá)到目標(biāo)。

與 APF 一樣,O4A 將通過(guò)最小化位于目標(biāo)處的吸引子來(lái)進(jìn)行導(dǎo)航。
由于實(shí)際的代理和目標(biāo)狀態(tài)是未觀察到的,因此潛在的計(jì)算發(fā)生在潛在空間 X 上,即代理和目標(biāo) RGB 觀察值的嵌入。
作為吸引子,我們使用測(cè)地回歸器 p+ 來(lái)估計(jì)到目標(biāo)的測(cè)地距離。
至關(guān)重要的是,這種吸引子會(huì)影響環(huán)境幾何形狀,例如,可以將智能體驅(qū)出死胡同,到達(dá)歐幾里得距離接近但測(cè)地距離較遠(yuǎn)的目標(biāo)(參見(jiàn)圖 3)。
One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀,論文,Navigation,論文閱讀
在實(shí)踐中,我們發(fā)現(xiàn)僅最小化 p+ 不足以成功導(dǎo)航。由于吸引子景觀中的局部最小值,代理通常會(huì)在兩個(gè)姿勢(shì)之間搖擺,這可能是由于學(xué)習(xí)錯(cuò)誤和離散動(dòng)作空間而發(fā)生的。因此,我們發(fā)現(xiàn)定義一個(gè)潛在排斥函數(shù)很有用,該函數(shù)僅在特定半徑 m r ∈ R + m_r ∈ \mathbb{R}^+ mr?R+ 內(nèi)有效:
One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀,論文,Navigation,論文閱讀
詳細(xì)的導(dǎo)航過(guò)程如算法 1 所示。在導(dǎo)航過(guò)程中,我們的智能體通過(guò)在由碰撞檢測(cè)函數(shù) γ 估計(jì)的集合 Af ree 上使用正向運(yùn)動(dòng)學(xué)尋找最佳候選動(dòng)作,貪婪地最小化 P。這與 APF 形成鮮明對(duì)比,因?yàn)槲覀儗⒁l(fā)碰撞的動(dòng)作列入黑名單,而不是明確地建模障礙物周?chē)某饬?。在?shí)踐中,由于代理在原地旋轉(zhuǎn),我們假設(shè)只有FORWARD動(dòng)作才能引起碰撞,這大大簡(jiǎn)化了碰撞檢測(cè)γ:我們只需根據(jù)機(jī)器人的幾何形狀在機(jī)器人前面定義一個(gè)掃描碰撞框。

還應(yīng)該注意的是,STOP 操作從未??包含在 Af ree 中。相反,我們發(fā)現(xiàn)對(duì)本地指標(biāo) dh 進(jìn)行閾值設(shè)置是在目標(biāo)附近調(diào)用 STOP 的更可靠方法。
One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀,論文,Navigation,論文閱讀

Experiments

我們?cè)谀M和現(xiàn)實(shí)環(huán)境中評(píng)估我們的方法。該代理是一個(gè)差動(dòng)驅(qū)動(dòng)機(jī)器人,配有兩個(gè) RGB 攝像頭,一個(gè)朝前,另一個(gè)朝后,每個(gè)攝像頭的視野均為 90°。每張圖像的分辨率為 96×96 像素。與[34]一致,機(jī)器人向前移動(dòng)0.25m,旋轉(zhuǎn)15°
One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀,論文,Navigation,論文閱讀
One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀,論文,Navigation,論文閱讀
One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀,論文,Navigation,論文閱讀

Conclusion

雖然經(jīng)過(guò)訓(xùn)練的 O4A 是無(wú)圖的,但我們仍然需要為每個(gè)環(huán)境學(xué)習(xí)測(cè)地線(xiàn)回歸器來(lái)對(duì)幾何進(jìn)行編碼(就像當(dāng)前的方法需要構(gòu)建特定于環(huán)境的圖一樣)。
跨環(huán)境推廣測(cè)地線(xiàn)回歸是一個(gè)有前途的研究領(lǐng)域,因?yàn)樗梢栽试S在新設(shè)置中完全跳過(guò)圖形構(gòu)建階段。此外,現(xiàn)實(shí)世界的實(shí)驗(yàn)表明,O4A 很難最大限度地減少旋轉(zhuǎn)動(dòng)作的數(shù)量,并且仍然存在一定數(shù)量的垃圾。我們認(rèn)為,這可能是由 15° 離散旋轉(zhuǎn)動(dòng)作引起的:如果機(jī)器人理想情況下需要轉(zhuǎn)動(dòng) 7.5°,它可能會(huì)在向左和向右之間振蕩,因?yàn)槭聦?shí)上每個(gè)步驟都是貪婪地采取行動(dòng),而不是明確地遵循一個(gè)長(zhǎng)的動(dòng)作。短期計(jì)劃。進(jìn)一步調(diào)整負(fù)勢(shì)或具有連續(xù)動(dòng)作空間的實(shí)現(xiàn)應(yīng)該可以解決這個(gè)問(wèn)題。
最后,與許多現(xiàn)有的導(dǎo)航和 SLAM 系統(tǒng)一樣,O4A 不考慮動(dòng)態(tài)或半靜態(tài)對(duì)象文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-634690.html

到了這里,關(guān)于One-4-All: Neural Potential Fields for Embodied Navigation 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Last-Mile Embodied Visual Navigation 論文閱讀

    Last-Mile Embodied Visual Navigation 論文閱讀

    題目 :Last-Mile Embodied Visual Navigation 作者 :JustinWasserman, Karmesh Yadav 來(lái)源 :CoRL 時(shí)間 :2023 代碼地址 :https://jbwasse2.github.io/portfolio/SLING 現(xiàn)實(shí)的長(zhǎng)期任務(wù)(例如圖像目標(biāo)導(dǎo)航)涉及 探索和利用 階段。 分配有目標(biāo)圖像后,具體代理必須探索以發(fā)現(xiàn)目標(biāo),即使用學(xué)習(xí)到的先驗(yàn)進(jìn)行

    2024年02月14日
    瀏覽(15)
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks論文筆記

    X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks論文筆記

    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code CLIP這一類(lèi)方法只能進(jìn)行圖片級(jí)別的視覺(jué)和文本對(duì)齊; 也有一些方法利用預(yù)訓(xùn)練的目標(biāo)檢測(cè)器進(jìn)行目標(biāo)級(jí)別的視覺(jué)和文本對(duì)齊,但是只能編碼目標(biāo)內(nèi)部的特征,無(wú)法有效表達(dá)多目標(biāo)上下文關(guān)聯(lián); 本文致力于進(jìn)行多粒度(

    2024年02月09日
    瀏覽(26)
  • 【論文閱讀】OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields

    【論文閱讀】OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields

    原文鏈接:https://arxiv.org/abs/2312.09243 3D目標(biāo)檢測(cè)任務(wù)受到無(wú)限類(lèi)別和長(zhǎng)尾問(wèn)題的影響。3D占用預(yù)測(cè)則不同,其關(guān)注場(chǎng)景的幾何重建,但多數(shù)方法需要從激光雷達(dá)點(diǎn)云獲取的3D監(jiān)督信號(hào)。 本文提出OccNeRF,一種自監(jiān)督多相機(jī)占用預(yù)測(cè)模型。首先使用圖像主干提取2D特征。為節(jié)省空間

    2024年02月02日
    瀏覽(31)
  • NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields 論文閱讀

    NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields 論文閱讀

    題目 :NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields 作者 :Antoni Rosinol, John J. Leonard, Luca Carlone 代碼 :https://github.com/ToniRV/NeRF-SLAM 來(lái)源 :arxiv 時(shí)間 :2022 我們提出了一種新穎的幾何和光度 3D 映射流程,用于從單目圖像進(jìn)行準(zhǔn)確、實(shí)時(shí)的場(chǎng)景重建。 為了實(shí)現(xiàn)這一目標(biāo)

    2024年02月14日
    瀏覽(19)
  • IMAGEBIND: One Embedding Space To Bind Them All論文筆記

    IMAGEBIND: One Embedding Space To Bind Them All論文筆記

    論文 https://arxiv.org/pdf/2305.05665.pdf 代碼 https://github.com/facebookresearch/ImageBind 像CLIP這一類(lèi)的方法只能實(shí)現(xiàn)Text-Image這兩個(gè)模態(tài)的 Embedding 對(duì)齊,本文提出的ImageBind能夠?qū)崿F(xiàn)六個(gè)模態(tài)(images, text, audio, depth, thermal, and IMU data)之間的聯(lián)合Embedding空間對(duì)齊。 本文的多模態(tài)之間的對(duì)齊也不

    2024年02月07日
    瀏覽(46)
  • [arxiv論文閱讀] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

    [arxiv論文閱讀] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

    Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2312.14074 最近,大型語(yǔ)言模型(LLMs)和多模態(tài)大型語(yǔ)言模型(MLLMs)在 指令跟隨 和 2D圖像理解

    2024年02月02日
    瀏覽(33)
  • 論文筆記: One Fits All:Power General Time Series Analysis by Pretrained LM

    論文筆記: One Fits All:Power General Time Series Analysis by Pretrained LM

    時(shí)間序列領(lǐng)域預(yù)訓(xùn)練模型/foundation 模型的研究還不是很多 主要挑戰(zhàn)是缺乏大量的數(shù)據(jù)來(lái)訓(xùn)練用于時(shí)間序列分析的基礎(chǔ)模型 ——論文 利用預(yù)訓(xùn)練的語(yǔ)言模型進(jìn)行通用的時(shí)間序列分析 為各種時(shí)間序列任務(wù)提供了一個(gè)統(tǒng)一的框架 ? 論文還調(diào)查了 為什么從語(yǔ)言領(lǐng)域預(yù)訓(xùn)練的Transf

    2024年02月11日
    瀏覽(25)
  • Benchmarking Augmentation Methods for Learning Robust Navigation Agents 論文閱讀

    Benchmarking Augmentation Methods for Learning Robust Navigation Agents 論文閱讀

    題目 :Benchmarking Augmentation Methods for Learning Robust Navigation Agents: the Winning Entry of the 2021 iGibson Challenge 作者 :Naoki Yokoyama, Qian Luo 來(lái)源 :arXiv 時(shí)間 :2022 深度強(qiáng)化學(xué)習(xí)和可擴(kuò)展的真實(shí)感模擬的最新進(jìn)展使得用于各種視覺(jué)任務(wù)(包括導(dǎo)航)的具體人工智能日益成熟。然而,雖然在

    2024年02月14日
    瀏覽(22)
  • 【論文閱讀】Scaling Laws for Neural Language Models

    【論文閱讀】Scaling Laws for Neural Language Models

    本文簡(jiǎn)要介紹 Scaling law 的主要結(jié)論 原文地址:Scaling Laws for Neural Language Models 個(gè)人認(rèn)為不需要特別關(guān)注公式內(nèi)各種符號(hào)的具體數(shù)值,而更應(yīng)該關(guān)注不同因素之間的關(guān)系,比例等 Performance depends strongly on scale, weakly on model shape scale: 參數(shù)量 N N N , 數(shù)據(jù)量 D D D , 計(jì)算量 C C C shape: 模

    2024年02月16日
    瀏覽(30)
  • 【論文筆記】NeuRAD: Neural Rendering for Autonomous Driving

    【論文筆記】NeuRAD: Neural Rendering for Autonomous Driving

    原文鏈接:https://arxiv.org/abs/2311.15260 神經(jīng)輻射場(chǎng)(NeRF)應(yīng)用在自動(dòng)駕駛中,可以創(chuàng)建可編輯的場(chǎng)景數(shù)字克隆(可自由編輯視角和場(chǎng)景物體),以進(jìn)行仿真。但目前的方法或者需要大量的訓(xùn)練時(shí)間,或者對(duì)傳感器的建模過(guò)于簡(jiǎn)單(導(dǎo)致仿真和真實(shí)數(shù)據(jù)的間隙),或者性能較低。

    2024年02月02日
    瀏覽(19)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包