論文信息
題目:OVRL-V2: A simple state-of-art baseline for IMAGENAV and OBJECTNAV
作者:Karmesh Yadav, Arjun Majumdar, Ram Ramrakhya
來源:arxiv
時間:2023
代碼地址: https://github.com/ykarmesh/OVRL
Abstract
我們提出了一個由與任務(wù)無關(guān)的組件(ViT、卷積和 LSTM)組成的單一神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)在 IMAGENAV(“轉(zhuǎn)到 <這張圖片> 中的位置”)和 OBJECTNAV(“查找椅子”)任務(wù)沒有任何特定于任務(wù)的模塊,如對象檢測、分割、映射或規(guī)劃模塊。這種通用方法具有設(shè)計簡單、利用可用計算進行正擴展以及對多種任務(wù)具有通用性等優(yōu)點。
我們的工作建立在最近成功的預(yù)訓(xùn)練視覺變換器(ViT)自我監(jiān)督學(xué)習(xí)(SSL)的基礎(chǔ)上。然而,雖然卷積網(wǎng)絡(luò)的訓(xùn)練方法是成熟且穩(wěn)健的,但 ViT 的方法是偶然且脆弱的,并且就用于視覺導(dǎo)航的 ViT 而言,還有待充分發(fā)現(xiàn)。具體來說,我們發(fā)現(xiàn)普通 ViT 在視覺導(dǎo)航方面并不優(yōu)于 ResNet。我們建議使用在 ViT 補丁表示上運行的壓縮層來保留空間信息以及策略訓(xùn)練改進。這些改進使我們首次在視覺導(dǎo)航任務(wù)中展示正縮放定律。因此,我們的模型將 IMAGENAV 上的最先進性能從 54.2% 成功率提高到 82.0%,并且與 OBJECTNAV 上同時最先進的性能相比,成功率分別為 64.0% 和 65.0%。
總的來說,這項工作并沒有提出一種全新的方法,而是提出了訓(xùn)練通用架構(gòu)的建議,該架構(gòu)可實現(xiàn)當(dāng)今最先進的性能,并可以作為未來方法的強大基準(zhǔn)。
Introduction
在這項工作中,我們推進了一個替代研究計劃——訓(xùn)練由與任務(wù)無關(guān)的神經(jīng)組件構(gòu)建的通才智能體,而無需任何特定于任務(wù)的模塊。這種通用方法具有設(shè)計簡單、可用計算積極擴展(結(jié)合“慘痛教訓(xùn)”[35])以及對多種任務(wù)的通用性等優(yōu)點。
最近一系列關(guān)于圖像和視頻理解的工作發(fā)現(xiàn),由自監(jiān)督表示學(xué)習(xí)驅(qū)動的視覺變換器 [13] (ViT) 可以為識別 [3, 11, 18] 和生成 [4, 6] 提供通用視覺表示] 任務(wù)。然而,雖然卷積網(wǎng)絡(luò)的訓(xùn)練方法是成熟且穩(wěn)健的,但 ViT 的方法是偶然且脆弱的,并且就用于視覺導(dǎo)航的 ViT 而言,尚未得到充分發(fā)現(xiàn) - 而這種發(fā)現(xiàn)是我們工作的重點。
我們的主要技術(shù)貢獻(xiàn)和發(fā)現(xiàn)如下:
-
視覺導(dǎo)航中的 ViT 需要壓縮層。我們發(fā)現(xiàn),與 RESNET 相比,從頭開始訓(xùn)練的基于 ViT 的智能體表現(xiàn)較差(例如,在 IMAGENAV 上僅實現(xiàn) 36.1% 的成功率 (SR),而在 RESNET 上則為 59.9%)。盡管模型容量要高得多(ViT-SMALL 的參數(shù)比半寬 ResNet50 多約 4 倍)。我們發(fā)現(xiàn)使用 ViT 解決導(dǎo)航問題的一個關(guān)鍵問題是 [CLS] 令牌嵌入和全局平均池都刪除了對任務(wù)很重要的空間結(jié)構(gòu)。我們建議使用壓縮層(由 2D 卷積加扁平化組成)在 ViT patch 表示上運行來保留空間信息,并發(fā)現(xiàn)它導(dǎo)致 ViT 優(yōu)于 RESNET(IMAGENAV 上的 SR 為 67.4% vs. 59.9%)。
-
視覺預(yù)訓(xùn)練首次解鎖正標(biāo)度法則。我們首次在 IMAGENAV 上展示了基于 ViT 的代理的正標(biāo)度律。具體來說,我們發(fā)現(xiàn)視覺表示學(xué)習(xí)(使用掩碼自動編碼(MAE)[18])不僅可以提高性能,還可以使用 ViT 進行模型縮放。通過這種預(yù)訓(xùn)練,我們能夠?qū)⒛P痛笮?ViT-SMALL 增加到 ViT-BASE,并觀察到成功率從 80.5% 增加到 82.0% (+1.5%),SPL(按路徑效率加權(quán)的成功)從 55.2% 增加到58.7%(+3.5%)。
-
單一架構(gòu)在IMAGENAV和OBJECTNAV上實現(xiàn)SoTA。將所有這些(ViT、壓縮層、預(yù)訓(xùn)練、策略訓(xùn)練改進和擴展)放在一起,我們提出了 OVRL-V2(離線視覺表示學(xué)習(xí) v2),這是一個簡單的 ViT+壓縮層+LSTM 架構(gòu),作為現(xiàn)有技術(shù)的后繼者。 - 最先進的方法,OVRL [43]。 OVRL-V2 將 IMAGENAV 上最先進的成功率從 54.2%(在[43]中)提高到 82.0%(+27.8% 絕對改進和 51.3% 相對改進),并且在 OB-JECTNAV 上實現(xiàn)了 64.0% 的成功率,與 stateof 相當(dāng)-最先進的(65.0%,通過并行但正交的工作獲得[31])。 OVRL-V2代理僅使用RGB和GPS+Compass傳感器;沒有以自我為中心的深度(如[32]所使用),沒有語義分割(如[32]所使用),沒有對象檢測(如[46]所使用),沒有語義或幾何映射(如[8, 49, 29、37、9])。
Background:Tasks and Visual Pretraining
我們研究兩種視覺導(dǎo)航任務(wù):圖像目標(biāo)導(dǎo)航(IMAGENAV)[51]和對象目標(biāo)導(dǎo)航(OBJECTNAV)[5]。為了解決這些任務(wù),我們設(shè)計了一個利用視覺轉(zhuǎn)換器(ViT)的實體代理[13]。
本節(jié)概述了每項任務(wù),然后描述了我們用于預(yù)訓(xùn)練 ViT 的方法。
Visual Navigation
圖 2 說明了 IMAGENAV [51] 和 OBJECTNAV [5] 任務(wù)。在這兩種情況下,代理都從未知 3D 場景中的隨機位置和方向開始。代理必須探索環(huán)境才能找到目標(biāo)位置。在 IMAGENAV 中,目標(biāo)是從目標(biāo)位置拍攝的圖像(例如沙發(fā)的照片)。在 OBJECTNAV 中,代理被賦予了它必須找到的對象的名稱(例如“沙發(fā)”)。
在這些任務(wù)中,代理使用以自我為中心的 RGB 相機感知環(huán)境。代理使用離散的動作空間進行導(dǎo)航。在 IMAGENAV 中,標(biāo)準(zhǔn)動作集包括:向前移動 (0.25m)、向左轉(zhuǎn) (30°)、向右轉(zhuǎn) (30°) 和停止,以指示智能體認(rèn)為它已達(dá)到目標(biāo)。在 OBJECTNAV 中,代理還可以“向上查找”(30°) 和“向下查找”(30°)。
代理在以前未見過的環(huán)境中進行評估,這可以測量導(dǎo)航行為的泛化程度。使用兩個標(biāo)準(zhǔn)指標(biāo)來評估代理的導(dǎo)航性能:成功率(SR)和按(逆)路徑長度加權(quán)的成功率(SPL)[2]。 SPL 獎勵采取較短路徑到達(dá)目標(biāo)的智能體,從而衡量智能體探索新環(huán)境的效率。
Masked Autoencoders(MAEs)
視覺導(dǎo)航任務(wù)需要理解視覺提示才能在新環(huán)境中導(dǎo)航。因此,代理需要強大的視覺表示。我們使用屏蔽自動編碼(MAE)[18]——一種高效的自監(jiān)督視覺表示學(xué)習(xí)算法,專為預(yù)訓(xùn)練視覺變換器[13](ViTs)而設(shè)計——來提高基于 ViT 的代理的性能。 MAE 的效率源自非對稱編碼器-解碼器設(shè)計。具體來說,輸入圖像首先被分成不重疊的補丁,其中很大一部分(75%)在預(yù)訓(xùn)練期間被隨機屏蔽。編碼器僅處理剩余的未屏蔽補丁,這減少了預(yù)訓(xùn)練期間的計算負(fù)擔(dān)。小型解碼器的任務(wù)是重建完整的輸入圖像。編碼器和解碼器都是 ViT,它們自然會處理可變數(shù)量的補丁。由于現(xiàn)實世界圖像中各塊之間的自然冗余,可以實現(xiàn)高掩蔽百分比,這使得僅從組成部分的一小部分子集即可預(yù)測完整圖像。預(yù)訓(xùn)練后,解碼器被丟棄,僅編碼器用于下游任務(wù)。
Approach
我們對視覺導(dǎo)航任務(wù)(IMAGENAV 和 OBJECTNAV)使用通用代理架構(gòu)。如圖 4 所示,兩個代理主要由視覺編碼器(隨機初始化或使用 MAE 預(yù)訓(xùn)練的 ViT)、目標(biāo)編碼器和循環(huán)策略網(wǎng)絡(luò)組成。本節(jié)描述了我們方法的幾個關(guān)鍵組成部分。
Compression layers for ViTs
ViT 的壓縮層。如圖 4 所示,我們的視覺導(dǎo)航代理使用基于 ViT 的視覺編碼器 fθobs 處理 RGB 觀察值 Ot。具體來說,輸入圖像在數(shù)據(jù)增強后被轉(zhuǎn)換為不重疊的 16×16 塊,與 [CLS] 令牌連接,然后用 ViT 進行處理,輸出每個塊和 [CLS] 令牌的表示。在圖像分類等任務(wù)中,通常使用(a)[CLS]令牌輸出或(b)補丁表示的平均池化(即全局平均池化)來表示圖像。
Visual Navigation with ViTs
使用 ViT 進行視覺導(dǎo)航 如圖 4 所示,視覺編碼器遙控鑰匙的輸出與目標(biāo)表示和嵌入提供姿勢信息的 GPS+羅盤傳感器(僅用于 OBJECTNAV)相連接。連接的輸出由基于 LSTM 的循環(huán)策略網(wǎng)絡(luò)進行處理,該網(wǎng)絡(luò)可預(yù)測操作。
每個任務(wù)的代理之間的區(qū)別在于用于編碼目標(biāo)的方法。在 IMAGENAV 中,圖像目標(biāo) Og 使用視覺編碼器 fθgoal 進行編碼,其架構(gòu)與 fθobs 相同。對于 OBJECTNAV,目標(biāo)對象類別(例如“沙發(fā)”)通過學(xué)習(xí)的嵌入層進行編碼。
我們使用 DD-PPO [39] 以及未來小節(jié)中描述的獎勵函數(shù)通過強化學(xué)習(xí)(RL)來訓(xùn)練我們的 IMAGENAV 代理。對于 OBJECTNAV,我們使用人類演示和分布式行為克隆版本來訓(xùn)練我們的代理 [32]。
Visual Encoder Pretraining
視覺編碼器預(yù)訓(xùn)練。我們提出的在無模型導(dǎo)航代理中使用基于 ViT 的視覺編碼器的方法(圖 4)可以從頭開始進行端到端訓(xùn)練(例如,使用下一節(jié)中描述的 RL 獎勵)。
此外,我們研究了使用第 2 節(jié)中描述的掩碼自動編碼(MAE)算法對基于 ViT 的視覺編碼器進行預(yù)訓(xùn)練。 3.2.對于預(yù)訓(xùn)練,我們從 HM3D [30] 和 Gibson [40] 場景收集域內(nèi)圖像數(shù)據(jù)集。這遵循了先前工作中的觀察結(jié)果(例如,[43]),該觀察表明對域內(nèi)數(shù)據(jù)(而不是像 ImageNet 這樣的數(shù)據(jù)集)進行預(yù)訓(xùn)練可以提高下游性能。
ImageNav rewards
IMAGENAV 獎勵。用于視覺導(dǎo)航的獎勵通常由三個部分組成:(a)成功完成任務(wù)的稀疏獎勵
c
s
c_s
cs?,(b)用于激勵效率的每時間步懲罰 γ,以及(c)一個或多個獎勵塑造項來簡化優(yōu)化問題。一個常見的獎勵塑造術(shù)語是到目標(biāo)的(測地線)距離的變化。形式上,令 dt 表示智能體在時間 t 時到目標(biāo)的測地距離;現(xiàn)在,獎勵塑造項可以寫為:
d
t
?
1
?
d
t
d_{t?1} ? d_t
dt?1??dt?。將所有三個獎勵項放在一起,該獎勵定義為:
等式中獎勵函數(shù)的一個限制。 (1) 是它對終止時智能體的“航向”無關(guān)緊要——智能體既不會因為注視目標(biāo)物體而受到獎勵(這是一種理想的行為,因為導(dǎo)航通常是操縱的前兆),也不會因注視目標(biāo)物體而受到懲罰。結(jié)束這一集,將目光從物體上移開。為了解決這個問題,[1]提出了兩個額外的角度獎勵項來激勵,1)轉(zhuǎn)向目標(biāo)(使用角度到目標(biāo)(
θ
t
θ_t
θt?)獎勵塑造項)和2)在看著目標(biāo)時停下來(使用最終獎勵)。這兩種獎勵僅在智能體進入目標(biāo)半徑 rg 后才會授予。雖然 [1] 證明了他們的獎勵可以提高 IMAGENAV 性能,但我們發(fā)現(xiàn)我們的 OVRL-V2 代理能夠通過永不結(jié)束情節(jié)、進入目標(biāo)半徑、轉(zhuǎn)向目標(biāo)、向外移動來破解獎勵函數(shù)目標(biāo)半徑,返回并重復(fù)。我們提供了有關(guān)此獎勵的更多詳細(xì)信息,并在附錄 F 中可視化了代理的行為。我們假設(shè)之前的工作沒有注意到這種可利用性,因為只有當(dāng)實驗規(guī)模適當(dāng)時它才會變得明顯。
我們在[1]中提出了對獎勵函數(shù)的原則性修復(fù)。
我們的主要見解是,我們可以將角度到目標(biāo)的獎勵塑造項轉(zhuǎn)化為潛在函數(shù)的差異,這被證明對于獎勵塑造是最佳的[26]。具體來說,我們定義一個目標(biāo)角度函數(shù)
θ
^
t
\hat{θ}_t
θ^t?,它等于目標(biāo)半徑之外的 π,否則等于目標(biāo)角度:
Experimental findings
在本節(jié)中,我們首先建立與現(xiàn)有 SoTA 方法競爭的 IMAGENAV 基線。然后,我們使用這個強大的基線來系統(tǒng)地解決以下研究問題:
-
ViT 是否可以在 IMAGENAV 中開箱即用?不。我們發(fā)現(xiàn),盡管模型容量更高,但從頭開始訓(xùn)練的基于 ViT 的智能體的表現(xiàn)比較小的 ResNet 智能體要差很多。
-
添加壓縮層對性能有何影響?我們發(fā)現(xiàn)使用壓縮層來維護圖像表示中的空間結(jié)構(gòu)可以顯著提高 IMAGENAV 上的導(dǎo)航性能。
-
性能是否會隨著 ViT 的增加而擴展?當(dāng)從頭開始訓(xùn)練時,我們觀察到不同的結(jié)果。然而,自我監(jiān)督的視覺預(yù)訓(xùn)練會帶來一致的全面改進以及縮放強大的視覺導(dǎo)航代理能否“破解”等式 3 中的新獎勵函數(shù)? 不可以??梢浴捌平狻盳ER 獎勵 [1] 的智能體不再能夠通過我們提出的修正來“破解”獎勵函數(shù)。
-
OVRL-V2 性能與 IMAGENAV SoTA 相比如何? OVRL-V2 比之前的工作有了顯著改進,包括使用額外攝像機提供環(huán)境全景的方法。
-
架構(gòu)改進是否會轉(zhuǎn)移到 OBJECTNAV 上?是的。 OVRL-V2 在 SR 方面優(yōu)于 OBJECTNAV SoTA,甚至無需使用 OBJECTNAV 常用的深度傳感器或分割模塊
Comparisions with the ImageNav SoTA
文章來源:http://www.zghlxwxcb.cn/news/detail-677274.html
Conclusion
在本文中,我們證明了由任務(wù)無關(guān)組件(ViT、卷積和 LSTM)組成的無模型導(dǎo)航代理 (OVRL-V2) 可以在 IMAGENAV 和 OBJECTNAV 上實現(xiàn)最先進的結(jié)果。為了實現(xiàn)這一目標(biāo),我們證明需要一個在 ViT 補丁表示上運行的壓縮層,它可以保留空間信息。最后,我們發(fā)現(xiàn)使用 MAE 進行視覺預(yù)訓(xùn)練可以通過更大的 ViT 架構(gòu)實現(xiàn)積極的擴展趨勢。文章來源地址http://www.zghlxwxcb.cn/news/detail-677274.html
到了這里,關(guān)于OVRL-V2: A simple state-of-art baseline for IMAGENAV and OBJECTNAV 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!