論文信息
題目:MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask
作者:Weihao Xuan, Ruijie Ren, Siyuan Wu, Changhao Chen
時間:2022
來源: IEEE/SICE International Symposium on System Integration (SII)
Abstract
深度學(xué)習(xí)的最新進展使移動機器人能夠以自我監(jiān)督的方式聯(lián)合學(xué)習(xí)自我運動和深度圖。
然而,現(xiàn)有的方法受到尺度模糊問題和環(huán)境問題的困擾,阻礙了實際應(yīng)用。
我們的工作旨在通過提出一種自監(jiān)督視覺里程計模型來解決這兩個問題,該模型利用圖像序列的時間依賴性并從單目相機產(chǎn)生尺度一致的運動變換。
我們提出的框架與新穎的掩模網(wǎng)絡(luò)集成,以提供可學(xué)習(xí)的動態(tài)掩模,減少場景動態(tài)和照明變化的影響。
Introduction
本工作旨在通過提出MaskVO來解決上述兩個問題。這種自我監(jiān)督的 VO 模型學(xué)會從圖像序列中生成準(zhǔn)確且尺度一致的自我運動估計。請注意,我們的模型僅使用單目圖像進行訓(xùn)練和測試。
該框架將之前的自監(jiān)督 VO 模型 [6] 重新表述為順序?qū)W習(xí)問題,通過循環(huán)神經(jīng)網(wǎng)絡(luò)從圖像序列中提供視覺特征,以利用它們的時間依賴性。這樣做,它為手頭的任務(wù)提供了更合適的功能。
為了減少環(huán)境動態(tài)和場景照明變化的影響,我們提出了一種基于動態(tài)場景/觀察條件的去噪自動編碼器(DAE)的新型動態(tài)掩模網(wǎng)絡(luò)。掩模網(wǎng)絡(luò)是端到端可訓(xùn)練的,提供動態(tài)掩模來解決場景問題,以進一步提高性能。
總之,我們的貢獻如下:
1)我們?yōu)樽员O(jiān)督 VO 系統(tǒng)提出了一種新穎的可學(xué)習(xí)掩模網(wǎng)絡(luò),該網(wǎng)絡(luò)提供動態(tài)掩模以消除環(huán)境問題的影響;
2)我們引入了一個時間感知的VO框架,該框架利用圖像序列中視覺運動的時間依賴性,并提取適合姿勢估計的特征,這進一步提高了模型性能;
3)我們在現(xiàn)有尺度一致的 VO 系統(tǒng)的共同基準(zhǔn)上進行了實驗,我們的模型優(yōu)于它們。
Methodology
Architecture
這項工作的目的是提出一種自監(jiān)督學(xué)習(xí)系統(tǒng),從未標(biāo)記的圖像序列中重建尺度一致的自我運動。
如圖 2 所示,兩個未標(biāo)記的 RGB 圖像
I
a
I_a
Ia? 和
I
b
I_b
Ib? 堆疊在一起并輸入到特征提取器中。
I
a
I_a
Ia? 和
I
b
I_b
Ib? 是源圖像和目標(biāo)圖像。與[6]、[12]不同,我們使用圖像序列來利用視覺運動的時間依賴性。
特征時間建模模塊提取圖像序列的時間信息,由循環(huán)神經(jīng)網(wǎng)絡(luò)組成。
然后,6-DoF 位姿
P
a
b
P_{ab}
Pab? 由位姿網(wǎng)絡(luò)生成。同時,輸入圖像的深度圖由深度網(wǎng)絡(luò)生成。
投影圖像 I a ′ I_{a}^{\prime} Ia′? 使用 D a 、 I b D_a、I_b Da?、Ib?和6-DoF位姿 P a b P_{ab} Pab?通過等式5生成。
引入掩模網(wǎng)絡(luò)將學(xué)習(xí)到的空間信息合并到框架中,減少場景動態(tài)的影響。真實圖像 I a I_{a} Ia?和合成 I a ′ I_{a}^{\prime} Ia′? 之間的差異可以用作自監(jiān)督信號來構(gòu)造光度損失。它可以約束并強制系統(tǒng)根據(jù)不同的輸入圖像序列估計姿態(tài)和深度。
Temporal-aware Feature Encoder
基于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的特征提取器從兩個串聯(lián)圖像中提取視覺特征,然后使用時間建模組件來利用這些特征的時間連接來實現(xiàn)更好的姿勢估計。
與之前的工作[6]、[12]直接從兩對圖像中提取時間特征不同,我們將這些圖像表示為一個序列,然后從該序列中提取特征。由于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)能夠捕獲序列之間的依賴關(guān)系,因此它非常適合將 RNN 結(jié)構(gòu)應(yīng)用于 VO 問題 [16]。 RNN 維護其隱藏狀態(tài)并使用以下序列更新它們:
為了處理長期圖像序列的任務(wù),利用了長短期記憶(LSTM)。在訓(xùn)練和測試過程中,我們在序列開頭初始化隱藏狀態(tài)。隨著時間信息的引入,自我運動網(wǎng)絡(luò)中提供了更合適的特征。它有助于解決長期位姿軌跡預(yù)測中的漂移問題。
Pose Network and Depth Network
Pose Network.如圖 2 所示,PoseNet 結(jié)構(gòu)被設(shè)計用于預(yù)測圖像之間的相機旋轉(zhuǎn)和平移。由于此步驟中獲得的特征是由特征提取器仔細選擇的,并且重點關(guān)注時間信息,因此利用兩個全連接層(FCN)來根據(jù)高維特征預(yù)測 6-DoF 姿勢。
Depth Network 這項工作中使用的深度網(wǎng)絡(luò)架構(gòu)基于 DispNetS [19],我們用深度殘差塊 [14] 替換卷積塊。在我們的 DispResNet 中,除了預(yù)測 6 個不同尺度深度的 6 個層之外,所有卷積層和上卷積層均由 ReLU 激活。為了迫使預(yù)測的深度值處于正且合理的范圍內(nèi),我們通過 1=(α·sigmoid(x) + β) 在不同尺度上添加非線性,其中 α = 10; β = 0:01。
Learn Dynamic Mask Network
我們的主要貢獻是可學(xué)習(xí)的動態(tài)掩模網(wǎng)絡(luò)。
通常,掩模用于解決場景動態(tài)和光照變化的問題,但現(xiàn)有的掩模仍然不足以處理這些問題。
例如,[12]和[8]是基于計算的方法,其中掩模是通過一對圖像的深度圖像的差異來計算的。因此,姿態(tài)估計精度與深度估計密切相關(guān),這進一步阻止了這些掩模徹底去除動態(tài)對象。
[6]利用簡單的編碼器-解碼器結(jié)構(gòu)來生成掩碼。它強制將 mask 訓(xùn)練得接近 1,以避免出現(xiàn)瑣碎的結(jié)果。然而,這種基于學(xué)習(xí)的方法只是簡單地生成不瑣碎的掩模以及姿勢估計過程。
在我們的工作中,我們發(fā)現(xiàn)深度差是掩模生成的有用信息源。在此背景下,我們提出了一種新型的基于去噪自動編碼器(DAE)的可學(xué)習(xí)掩模網(wǎng)絡(luò),以減少場景動態(tài)和照明變化的影響。
受 Vincent 等人[20]的啟發(fā),我們設(shè)計了一種基于條件去噪自動編碼器的動態(tài)掩模網(wǎng)絡(luò)
因此,掩碼網(wǎng)絡(luò)生成的掩碼M在[0; 1]。我們的實驗表明,學(xué)習(xí)到的掩??梢詾殪o態(tài)/一致像素分配高權(quán)重,為動態(tài)/不一致像素分配低權(quán)重。我們提出的 MaskNet 結(jié)構(gòu)可以生成更強大的掩模,其性能甚至比點積注意力的工作更好。
Image Synthesis Module
理想情況下,使用光度一致性損失作為約束假設(shè):1)圖像場景僅包括靜態(tài)物體; 2)圖像序列之間無遮擋; 3)表面是朗伯表面[6]。然而,在實踐中,這些假設(shè)無法得到保證,因此我們利用幾何一致性損失 LGC 和可學(xué)習(xí)的動態(tài)掩模 M 來解決這些限制。
Loss Function
方程中4的基本目標(biāo)函數(shù),主要涉及兩個問題:
1)場景動態(tài)、遮擋和照明打破了靜態(tài)場景的假設(shè)并影響模型性能;
2)深度和位姿的尺度不一致[6]。
為了解決這兩個問題,我們提出了可學(xué)習(xí)的動態(tài)掩模 M 來處理動態(tài)場景、遮擋和照明。受[12]的啟發(fā),我們引入了幾何一致性損失LGC,使框架能夠產(chǎn)生比例一致的姿態(tài)估計。整體損失函數(shù)定義如下
等式4的光度loss就變?yōu)?br>
為了將掩模引入到整個系統(tǒng)中,我們將 M 添加到光度損失函數(shù)中:
由于缺乏信息,光度損失無法處理低紋理區(qū)域和均勻區(qū)域。方法[23]和[12]在生成深度圖正則化之前利用平滑度損失。文章來源:http://www.zghlxwxcb.cn/news/detail-699641.html
那么幾何一致性損失定義為
借助幾何一致性約束,包括位姿估計模塊和深度估計模塊在內(nèi)的整個框架將以尺度一致性進行訓(xùn)練文章來源地址http://www.zghlxwxcb.cn/news/detail-699641.html
到了這里,關(guān)于MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!