国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀

這篇具有很好參考價(jià)值的文章主要介紹了Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文鏈接

Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction


0. Abstract

盡管基于學(xué)習(xí)的方法在單視圖深度估計(jì)和視覺里程計(jì)方面顯示出有希望的結(jié)果,但大多數(shù)現(xiàn)有方法以監(jiān)督方式處理任務(wù)。最近的單視圖深度估計(jì)方法探索了通過最小化光度誤差在沒有完全監(jiān)督的情況下學(xué)習(xí)的可能性

探索使用立體序列來學(xué)習(xí)深度和視覺里程計(jì),框架能夠從單目序列估計(jì)單視圖深度和雙視圖里程計(jì)

  • 單視圖深度和視覺里程計(jì)的聯(lián)合訓(xùn)練可以改善深度預(yù)測(cè),因?yàn)閷?duì)深度施加了額外的約束,并實(shí)現(xiàn)了視覺里程計(jì)的有競(jìng)爭(zhēng)力的結(jié)果
  • 基于深度特征的扭曲損失改進(jìn)了單視圖深度估計(jì)和視覺里程計(jì)的簡(jiǎn)單光度扭曲損失

1. Intro

  • 提出了一個(gè)框架,使用立體視頻序列(如圖 1 所示)聯(lián)合學(xué)習(xí)單視圖深度估計(jì)器和單目里程估計(jì)器進(jìn)行訓(xùn)練。該方法可以理解為深度估計(jì)的無監(jiān)督學(xué)習(xí)和立體對(duì)之間已知的姿勢(shì)的半監(jiān)督學(xué)習(xí)

  • 提出了一種額外的深度特征重建損失,它考慮了上下文信息,而不是單獨(dú)考慮每個(gè)像素的顏色匹配

Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀,SLAM,視覺里程計(jì),論文閱讀

Fig. 1 訓(xùn)練實(shí)例示例。立體相機(jī) T L → R T_{L→R} TLR? 之間的已知相機(jī)運(yùn)動(dòng)限制了深度 CNN 和里程計(jì) CNN,以實(shí)際比例預(yù)測(cè)深度和相對(duì)相機(jī)姿勢(shì)

本文貢獻(xiàn)

  • 一個(gè)用于聯(lián)合學(xué)習(xí)深度估計(jì)器和視覺里程估計(jì)器的無監(jiān)督框架,該框架不會(huì)受到尺度模糊的影響
  • 利用可從空間和時(shí)間圖像對(duì)獲得的全套約束來改進(jìn)單視圖深度估計(jì)的現(xiàn)有技術(shù)
  • 產(chǎn)生最先進(jìn)的幀到幀里程測(cè)量結(jié)果,該結(jié)果顯著改進(jìn)并且與幾何方法相當(dāng)
  • 除了基于顏色強(qiáng)度的圖像重建損失之外,還使用一種新穎的特征重建損失,顯著提高了深度和里程估計(jì)精度

2. Related Work

2.1 監(jiān)督學(xué)習(xí)方法
  • 使用 ConvNet 估計(jì)深度,使用多尺度深度網(wǎng)絡(luò)和尺度不變損失來進(jìn)行深度估計(jì)
  • 將深度估計(jì)表述為連續(xù)條件隨機(jī)場(chǎng)學(xué)習(xí)問題
  • 使用全卷積架構(gòu)的殘差網(wǎng)絡(luò)來對(duì)單目圖像和深度圖之間的映射進(jìn)行建模
  • 使用端到端學(xué)習(xí)框架來預(yù)測(cè)立體對(duì)的差異
2.2 無監(jiān)督或半監(jiān)督方法

使用光度扭曲損失來替換基于地面實(shí)況深度的損失,可以從立體圖像對(duì)中實(shí)現(xiàn)無監(jiān)督深度學(xué)習(xí)管道

  • 使用雙目立體對(duì)(相機(jī)間變換是已知的)并訓(xùn)練一個(gè)網(wǎng)絡(luò)來預(yù)測(cè)深度,以最小化真實(shí)右圖像與通過將左圖像扭曲到右視點(diǎn)而合成的圖像之間的光度差異,使用預(yù)測(cè)的深度
  • 通過引入對(duì)稱左右一致性標(biāo)準(zhǔn)和更好的立體損失函數(shù)對(duì)深度估計(jì)進(jìn)行了改進(jìn)
  • 使用提出了一種半監(jiān)督學(xué)習(xí)框架,使用稀疏深度圖進(jìn)行監(jiān)督學(xué)習(xí),使用密集光度誤差進(jìn)行無監(jiān)督學(xué)習(xí)

所有無監(jiān)督深度估計(jì)方法都依賴于照片一致性假設(shè),而這在實(shí)踐中經(jīng)常被違反。故在本文的工作中,比較了多種特征


3. Method

Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀,SLAM,視覺里程計(jì),論文閱讀

Fig. 2 在訓(xùn)練階段提出的框架的圖示。 C N N V O CNN_{VO} CNNVO? C N N D CNN_D CNND? 在測(cè)試階段可以獨(dú)立使用

3.1 圖像重建作為監(jiān)督

本文框架中的基本監(jiān)督信號(hào)來自圖像重建任務(wù)。對(duì)于兩個(gè)附近的視圖,假設(shè)參考視圖的深度和兩個(gè)視圖之間的相對(duì)相機(jī)姿態(tài)已知,就能夠從實(shí)時(shí)視圖重建參考視圖

由于深度和相對(duì)相機(jī)位姿可以通過 ConvNet 來估計(jì),因此真實(shí)視圖和重建視圖之間的不一致允許 ConvNet 的訓(xùn)練

但沒有額外約束的單目框架會(huì)遇到縮放模糊問題,因此提出了一個(gè)立體框架,在給定已知立體基線設(shè)置的額外約束的情況下,將場(chǎng)景深度和相對(duì)相機(jī)運(yùn)動(dòng)限制在共同的真實(shí)世界尺度中

對(duì)于每個(gè)訓(xùn)練實(shí)例,有一個(gè)時(shí)間對(duì) ( I L , t 1 , I L , t 2 ) (I_{L,t1},I_{L,t2}) (IL,t1?,IL,t2?) 和一個(gè)立體對(duì) ( I L , t 2 , I R , t 2 ) (I_{L,t2},I_{R,t2}) (IL,t2?,IR,t2?) ,其中 I L , t 2 I_{L,t2} IL,t2? 是參考視圖,而 I L , t 1 I_{L,t1} IL,t1? I R , t 2 I_{R,t2} IR,t2? 是實(shí)時(shí)視圖??梢苑謩e從 I L , t 1 I_{L,t1} IL,t1? I R , t 2 I_{R,t2} IR,t2? 合成兩個(gè)參考視圖 I L , t 1 ′ I^\prime_{L,t1} IL,t1? I R , t 2 ′ I^\prime_{R,t2} IR,t2?
I L , t 1 ′ = f ( I L , t 1 , K , T t 2 → t 1 , D L , t 2 ) (1) I^\prime_{L,t1} = f(I_{L,t1},K,T_{t2→t1}, D_{L,t2})\tag{1} IL,t1?=f(IL,t1?,K,Tt2t1?,DL,t2?)(1)

I R , t 2 ′ = f ( I R , t 2 , K , T L → R , D L , t 2 ) (2) I^\prime_{R,t2} = f (I_{R,t2}, K, T_{L→R}, D_{L,t2})\tag{2} IR,t2?=f(IR,t2?,K,TLR?,DL,t2?)(2)

D L , t 2 D_{L,t2} DL,t2? 表示參考視圖的深度圖; T L → R T_{L→R} TLR? T t 2 → t 1 T_{t2→t1} Tt2t1? 是參考視圖和實(shí)時(shí)視圖之間的相對(duì)相機(jī)位姿變換; K K K 表示已知的相機(jī)本征矩陣。 D L , t 2 D_{L,t2} DL,t2? 通過 C N N D \mathrm{CNN}_D CNND? I L , t 2 I_{L,t2} IL,t2? 映射,而 T t 2 → t 1 T_{t2→t1} Tt2t1? 通過 C N N V O \mathrm{CNN}_{VO} CNNVO? [ I L , t 1 , I L , t 2 ] [I_{L,t1}, I_{L,t2}] [IL,t1?,IL,t2?] 映射

計(jì)算合成視圖和真實(shí)視圖之間的圖像重建損失作為監(jiān)督信號(hào)來訓(xùn)練 C N N D \mathrm{CNN}_D CNND? C N N V O \mathrm{CNN}_{VO} CNNVO? 。圖像構(gòu)造損失表示為
L i r = ∑ p ( ∣ I L , t 2 ( p ) ? I L , t 1 ′ ( p ) ∣ + ∣ I L , t 2 ( p ) ? I R , t 2 ′ ( p ) ∣ ) (3) L_{ir}=\sum\limits_p(\left|I_{L,t2}(p)-I^\prime_{L,t1}(p)\right|+\left|I_{L,t2}(p)-I^\prime_{R,t2}(p)\right|) \tag{3} Lir?=p?( ?IL,t2?(p)?IL,t1?(p) ?+ ?IL,t2?(p)?IR,t2?(p) ?)(3)
使用立體序列代替單目序列的效果是雙重的

  • 立體對(duì)之間已知的相對(duì)姿態(tài) T L → R T_{L→R} TLR? 限制了 C N N D \mathrm{CNN}_D CNND? C N N V O \mathrm{CNN}_{VO} CNNVO? 來估計(jì)現(xiàn)實(shí)世界尺度中時(shí)間對(duì)之間的深度和相對(duì)姿態(tài)
  • 除了僅具有一個(gè)實(shí)時(shí)視圖的立體對(duì)之外,時(shí)間對(duì)還為參考視圖提供第二實(shí)時(shí)視圖
3.2 可微分幾何模塊

如方程 1 - 2 所示,學(xué)習(xí)框架中的一個(gè)重要函數(shù)是綜合函數(shù) f ( ? ) f (\cdot) f(?)。該函數(shù)由兩個(gè)可微運(yùn)算組成,允許梯度傳播用于 ConvNet 的訓(xùn)練。這兩個(gè)操作是極線幾何變換和扭曲。前者定義兩個(gè)視圖中像素之間的對(duì)應(yīng)關(guān)系,而后者通過扭曲實(shí)時(shí)視圖來合成圖像

p L , t 2 p_{L,t2} pL,t2? 為參考視圖中像素的齊次坐標(biāo)??梢允褂脤?duì)極幾何獲得 p L , t 2 p_{L,t2} pL,t2? 在實(shí)時(shí)視圖上的投影坐標(biāo)。投影坐標(biāo)通過以下方式獲得
p R , t 2 = K T L → R D L , t 2 ( p L , t 2 ) K ? 1 p L , t 2 (4) p_{R,t2} = KT_{L→R}D_{L,t2}(p_{L,t2})K^{?1}p_{L,t2}\tag{4} pR,t2?=KTLR?DL,t2?(pL,t2?)K?1pL,t2?(4)

p L , t 1 = K T t 2 → t 1 D L , t 2 ( p L , t 2 ) K ? 1 p L , t 2 (5) p_{L,t1} = KT_{t2→t1}D_{L,t2}(p_{L,t2})K^{?1}p_{L,t2}\tag{5} pL,t1?=KTt2t1?DL,t2?(pL,t2?)K?1pL,t2?(5)

其中 p R , t 2 p_{R,t2} pR,t2? p L , t 1 p_{L,t1} pL,t1? 分別是 I R , t 2 I_{R,t2} IR,t2? I L , t 1 I_{L,t1} IL,t1? 上的投影坐標(biāo)。注意 D L , t 2 ( p L , t 2 ) D_{L,t2}(p_{L,t2}) DL,t2?(pL,t2?) 是位置 p L , t 2 p_{L,t2} pL,t2? 處的深度; T ∈ S E 3 T ∈ SE3 TSE3 是由 6 個(gè)參數(shù)定義的 4x4 變換矩陣,其中 3D 向量 u ∈ s o 3 \mathbf{u} ∈ so3 uso3 是軸角表示,3D 向量 v ∈ R 3 \mathbf{v} ∈ R3 vR3 表示平移

從方程 4 5 獲得投影坐標(biāo)后,可以使用中提出的可微雙線性插值機(jī)制(扭曲)從實(shí)時(shí)幀合成新的參考幀

3.3 特征重構(gòu)作為監(jiān)督

為了提高框架的魯棒性,我們提出了特征重建損失:我們探索使用密集特征作為額外的監(jiān)督信號(hào),而不是單獨(dú)使用3通道顏色強(qiáng)度信息

F L , t 2 F_{L,t2} FL,t2?、 F L , t 1 F_{L,t1} FL,t1? F R , t 2 F_{R,t2} FR,t2? 分別為 I L , t 2 I_{L,t2} IL,t2? I L , t 1 I_{L,t1} IL,t1? I R , t 2 I_{R,t2} IR,t2? 對(duì)應(yīng)的密集特征表示。與圖像合成過程類似,可以分別從 F L , t 1 F_{L,t1} FL,t1? F R , t 2 F_{R,t2} FR,t2? 合成兩個(gè)參考視圖 F L , t 1 ′ F'_{L,t1} FL,t1? F R , t 2 ′ F'_{R,t2} FR,t2?。合成過程可以表示為
F L , t 1 ′ = f ( F L , t 1 , K , T t 2 → t 1 , D L , t 2 ) (6) F^′_{L,t1} = f (F_{L,t1}, K, T_{t2→t1}, D_{L,t2})\tag{6} FL,t1?=f(FL,t1?,K,Tt2t1?,DL,t2?)(6)

F R , t 2 ′ = f ( F R , t 2 , K , T L → R , D L , t 2 ) (7) F^′_{R,t2} = f (F_{R,t2}, K, T_{L→R}, D_{L,t2})\tag{7} FR,t2?=f(FR,t2?,K,TLR?,DL,t2?)(7)

特征重建損失可以表示為
L f r = ∑ p ∣ F L , t 2 ( p ) ? F L , t 1 ′ ( p ) ∣ + ∑ p ∣ F L , t 2 ( p ) ? F R , t 2 ′ ( p ) ∣ (8) L_{fr}=\sum\limits_p \left| F_{L,t2}(p)-F^\prime_{L,t1}(p) \right|+\sum\limits_p \left| F_{L,t2}(p)-F^\prime_{R,t2}(p) \right|\tag{8} Lfr?=p? ?FL,t2?(p)?FL,t1?(p) ?+p? ?FL,t2?(p)?FR,t2?(p) ?(8)

3.4 訓(xùn)練損失

通過引入邊緣感知平滑項(xiàng)來鼓勵(lì)深度局部平滑。如果在同一區(qū)域顯示圖像連續(xù)性,則深度不連續(xù)性會(huì)受到懲罰。否則,對(duì)于中斷深度的懲罰很小
L d s = ∑ m , n W , H ∣ ? x D m , n ∣ e ? ∣ ? x I m , n ∣ + ∣ ? y D m , n ∣ e ? ∣ ? y I m , n ∣ (9) L_{ds}=\sum\limits_{m,n}^{W,H} \left| ?_xD_{m,n} \right|e^{ -\left|?_xI_{m,n} \right|}+\left| ?_yD_{m,n} \right|e^{-\left| ?_yI_{m,n}\right|}\tag{9} Lds?=m,nW,H??x?Dm,n?e??x?Im,n?+?y?Dm,n?e??y?Im,n?(9)
其中 ? x ( ? ) ?x(\cdot) ?x(?) ? y ( ? ) ?y(\cdot) ?y(?) 分別是水平和垂直方向的梯度。請(qǐng)注意,上述正則化中的 D m , n D_{m,n} Dm,n? 是深度的倒數(shù)

最終的損失函數(shù)變?yōu)?br> L = λ i r L i r + λ f r L f r + λ d s L d s L=\lambda_{ir}L_{ir}+\lambda_{fr}L_{fr}+\lambda_{ds}L_{ds} L=λir?Lir?+λfr?Lfr?+λds?Lds?

3.5 網(wǎng)絡(luò)架構(gòu)

深度估計(jì)

深度ConvNet由兩部分組成,編碼器和解碼器。對(duì)于編碼器,出于計(jì)算成本的考慮,采用帶有半濾波器的 ResNet50 變體(ResNet50-1by2)中的卷積網(wǎng)絡(luò)。對(duì)于解碼器網(wǎng)絡(luò),解碼器首先使用 1x1 內(nèi)核將編碼器輸出(1024 通道特征圖)轉(zhuǎn)換為單通道特征圖,然后使用具有跳躍連接的傳統(tǒng)雙線性上采樣內(nèi)核

在最后一個(gè)預(yù)測(cè)層之后使用 ReLU 激活來確保正預(yù)測(cè)來自深度 ConvNet。對(duì)于深度ConvNet的輸出,框架來預(yù)測(cè)逆深度而不是深度。然而,ReLU 激活可能會(huì)導(dǎo)致零估計(jì),從而導(dǎo)致無限深度。因此,我們將預(yù)測(cè)的逆深度轉(zhuǎn)換為深度 D = 1 / ( D i n v + 1 0 ? 4 ) D = 1/(D_{inv} + 10^{?4}) D=1/(Dinv?+10?4)

視覺里程計(jì)

ConvNet 被設(shè)計(jì)為沿顏色通道采用兩個(gè)串聯(lián)視圖作為輸入,并輸出 6D 向量 [ u , v ] ∈ s e 3 [\mathbf{u}, \mathbf{v}] \in se3 [u,v]se3,然后將其轉(zhuǎn)換為 4x4 變換矩陣。該網(wǎng)絡(luò)由 6 個(gè) stride-2 卷積和后面的 3 個(gè)全連接層組成。最后一個(gè)全連接層給出了 6D 向量,它定義了從參考視圖到實(shí)時(shí)視圖的轉(zhuǎn)換 T r e f → l i v e T_{ref→live} Treflive?


4. Experiments

使用 Caffe 框架訓(xùn)練所有的 CNN。我們使用 Adam 優(yōu)化器和優(yōu)化設(shè)置,其中 [ β 1 , β 2 , ? ] = [ 0.9 , 0.999 , 1 0 ? 8 ] [β1, β2,\epsilon] = [0.9, 0.999, 10^{?8}] [β1,β2,?]=[0.9,0.999,10?8]。所有經(jīng)過訓(xùn)練的網(wǎng)絡(luò)的初始學(xué)習(xí)率為 0.001,當(dāng)訓(xùn)練損失收斂時(shí)我們手動(dòng)降低該學(xué)習(xí)率。對(duì)于最終損失函數(shù)中的損失權(quán)重,我們憑經(jīng)驗(yàn)發(fā)現(xiàn)組合 [ λ i r , λ f r , λ d s ] = [ 1 , 0.1 , 10 ] [λ_{ir}, λ_{fr}, λ_{ds}] = [1, 0.1, 10] [λir?,λfr?,λds?]=[1,0.1,10] 會(huì)產(chǎn)生穩(wěn)定的訓(xùn)練

系統(tǒng)主要在 KITTI 數(shù)據(jù)集中進(jìn)行訓(xùn)練。該數(shù)據(jù)集包含 61 個(gè)視頻序列,具有 42,382 個(gè)校正立體對(duì),原始圖像大小為 1242x375 像素,訓(xùn)練設(shè)置中使用 608x160 的圖像大小

另一方面,為了評(píng)估我們的視覺里程計(jì)性能并與之前的方法進(jìn)行比較,在官方 KITTI 里程計(jì)訓(xùn)練集上訓(xùn)練深度和姿勢(shì)網(wǎng)絡(luò)。

對(duì)于每個(gè)數(shù)據(jù)集分割,我們通過選擇幀 I t I_t It? 作為實(shí)時(shí)幀,同時(shí)選擇幀 I t + 1 I_{t+1} It+1? 作為參考幀(實(shí)時(shí)幀扭曲到該參考幀)來形成時(shí)間對(duì)

4.1 視覺里程計(jì)結(jié)果
Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀,SLAM,視覺里程計(jì),論文閱讀

Tab. 1 視覺里程計(jì)結(jié)果在 KITTI 里程計(jì)數(shù)據(jù)集的序列 09、10 上進(jìn)行評(píng)估。 t e r r t_{err} terr? 是平均平移漂移誤差。 r e r r r_{err} rerr? 是平均旋轉(zhuǎn)漂移誤差

從表1中可以看出,即使沒有任何進(jìn)一步的后處理來修復(fù)平移尺度,我們的基于立體的里程計(jì)學(xué)習(xí)方法也大大優(yōu)于單目學(xué)習(xí)方法

由于 ORB-SLAM 面臨整個(gè)序列的單一深度平移尺度模糊性,通過遵循標(biāo)準(zhǔn)協(xié)議優(yōu)化地圖比例來將 ORB-SLAM 軌跡與地面實(shí)況對(duì)齊。只是將估計(jì)的幀到幀相機(jī)姿勢(shì)整合到整個(gè)序列上,而不進(jìn)行任何后處理

Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀,SLAM,視覺里程計(jì),論文閱讀

Fig. 3 視覺里程計(jì)的定性結(jié)果。繪制了測(cè)試序列 (09, 10) 的完整軌跡

Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀,SLAM,視覺里程計(jì),論文閱讀

Fig. 4 里程計(jì)數(shù)據(jù)集序列 09 的 VO 誤差與不同平移閾值的比較

可以清楚地看到,當(dāng)平移幅度較小時(shí),本文的方法優(yōu)于ORBSLAM。隨著平移幅度的增加,幀到幀 VO 的簡(jiǎn)單集成開始逐漸漂移,這表明基于地圖的跟蹤相對(duì)于沒有捆綁調(diào)整的幀到幀 VO 具有明顯的優(yōu)勢(shì)

4.2 深度估計(jì)結(jié)果

使用特征分割來評(píng)估我們的系統(tǒng),并將結(jié)果與各種最先進(jìn)的深度估計(jì)方法進(jìn)行比較。

Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀,SLAM,視覺里程計(jì),論文閱讀

Tab. 2 單視圖深度估計(jì)性能與現(xiàn)有方法的比較。對(duì)于訓(xùn)練,K 是 KITTI 數(shù)據(jù)集(Eigen Split)。為了公平比較,所有方法均在裁剪區(qū)域上進(jìn)行評(píng)估。對(duì)于監(jiān)督,“深度”是指方法中使用的真實(shí)深度; “單核細(xì)胞增多癥?!北硎居?xùn)練中使用單目序列; “立體”是指訓(xùn)練中具有已知立體相機(jī)姿勢(shì)的立體序列

Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀,SLAM,視覺里程計(jì),論文閱讀

Fig. 5 Eigen Split 中的單視圖深度估計(jì)示例。為了可視化目的,對(duì)地面實(shí)況深度進(jìn)行插值

采用 AlexNet-FCN 架構(gòu)和 Horn 和 Schunck 損失的基于光度立體的訓(xùn)練已經(jīng)比 KITTI 上最先進(jìn)的監(jiān)督方法給出了更準(zhǔn)確的結(jié)果。受益于基于特征的重建損失和通過里程計(jì)網(wǎng)絡(luò)的附加扭曲誤差,本文的方法以合理的裕度更優(yōu)。

4.3 消融實(shí)驗(yàn)
Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀,SLAM,視覺里程計(jì),論文閱讀

Tab. 3 單視圖深度估計(jì)的消融研究。結(jié)果在 KITTI 2015 中使用 Eigen Split 測(cè)試集進(jìn)行評(píng)估,遵循評(píng)估協(xié)議。結(jié)果以 50m 深度為上限。 Stereo:立體聲對(duì)用于訓(xùn)練; Temporal:使用額外的時(shí)間對(duì);特征:使用特征重建損失

  • 與深度網(wǎng)絡(luò)聯(lián)合訓(xùn)練位姿網(wǎng)絡(luò)時(shí),深度估計(jì)精度略有提高。使用 ImageNet 特征中的特征(預(yù)訓(xùn)練的 ResNet50-1by-2 中的 conv1 特征)可以稍微提高深度估計(jì)的準(zhǔn)確性
  • 使用現(xiàn)成圖像描述符的特征可以進(jìn)一步提升效果

由于大多數(shù)其他無監(jiān)督深度估計(jì)方法使用具有反卷積網(wǎng)絡(luò)架構(gòu)的卷積編碼器來進(jìn)行密集預(yù)測(cè),我們還嘗試了可學(xué)習(xí)的反卷積架構(gòu),其中 ResNet50-1by2 作為編碼器,可學(xué)習(xí)的上采樣器作為解碼器設(shè)置。表底部的結(jié)果反映出該基線 2 的整體性能略遜于第一個(gè)基線。為了提高該基線的性能,我們探索使用從深度解碼器本身提取的深度特征。最后,解碼器輸出一個(gè) 32 通道特征圖,我們直接將其用于特征重建損失

Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀,SLAM,視覺里程計(jì),論文閱讀

Fig. 6 立體匹配示例。行:(1) 左圖; (2) 右像; (3)使用顏色強(qiáng)度和深度特征的匹配誤差。與特征損失相比,光度損失并不穩(wěn)健,尤其是在模糊區(qū)域


5. Conclusion

提出了一種使用立體數(shù)據(jù)進(jìn)行訓(xùn)練的單視圖深度估計(jì)和單目視覺里程計(jì)的無監(jiān)督學(xué)習(xí)框架

  • 已經(jīng)證明,使用雙目立體序列來聯(lián)合學(xué)習(xí)這兩個(gè)任務(wù),只需給定 2 幀即可實(shí)現(xiàn)公制尺度的里程計(jì)預(yù)測(cè)
  • 除了單視圖深度的立體對(duì)對(duì)齊之外,我們還展示了使用時(shí)間圖像對(duì)齊的優(yōu)勢(shì)預(yù)測(cè)
  • 此外,我們提出了一種新穎的特征重建損失,以具有最先進(jìn)的無監(jiān)督單視圖深度和幀到幀里程計(jì),而沒有尺度模糊性

仍有許多挑戰(zhàn)需要解決文章來源地址http://www.zghlxwxcb.cn/news/detail-838103.html

  • 框架假設(shè)沒有遮擋,并且場(chǎng)景假設(shè)是剛性的
  • 在深度學(xué)習(xí)框架中顯式地對(duì)場(chǎng)景動(dòng)態(tài)和遮擋進(jìn)行建模將為在真實(shí)場(chǎng)景中進(jìn)行更實(shí)用和有用的導(dǎo)航提供一種自然的方法

到了這里,關(guān)于Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文閱讀:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects-6DoF位姿估計(jì)

    論文閱讀:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects-6DoF位姿估計(jì)

    CVPR2024滿分文章,英偉達(dá)團(tuán)隊(duì)工作。 文章地址:https://arxiv.org/pdf/2312.08344.pdf 代碼地址:https://github.com/NVlabs/FoundationPose 提出FoundationPose,能用于6D位姿估計(jì)與跟蹤,無論模型是否可用都支持。只需要CAD模型或少量參考圖像就能進(jìn)行zero-shot測(cè)試,泛化能力依靠大規(guī)模訓(xùn)練, LLM 和

    2024年04月29日
    瀏覽(17)
  • Transformer & 立體視覺 & Depth Estimation

    1. Intro 立體深度估計(jì)具有重要的意義,因?yàn)樗軌蛑亟ㄈS信息。為此,在左右相機(jī)圖像之間匹配相應(yīng)的像素;對(duì)應(yīng)像素位置的差異,即視差,可以用來推斷深度并重建3D場(chǎng)景。最近基于深度學(xué)習(xí)的立體深度估計(jì)方法已經(jīng)顯示出有希望的結(jié)果,但仍然存在一些挑戰(zhàn)。 其中一個(gè)挑

    2024年02月14日
    瀏覽(19)
  • 【論文筆記】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images

    【論文筆記】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images

    原文鏈接:https://arxiv.org/abs/2308.05026 目前的軌跡預(yù)測(cè)方法多基于道路使用者的真實(shí)信息,但在實(shí)際自動(dòng)駕駛系統(tǒng)中這些信息是通過檢測(cè)和跟蹤模塊得到的,不可避免的存在噪聲。本文將感知模塊與軌跡預(yù)測(cè)整合,進(jìn)行端到端的檢測(cè)、跟蹤和軌跡預(yù)測(cè)。 本文感知模塊使用單目圖

    2024年04月28日
    瀏覽(23)
  • 論文閱讀:AdaBins: Depth Estimation using Adaptive Bins

    論文閱讀:AdaBins: Depth Estimation using Adaptive Bins

    信息的全局處理會(huì)幫助提高整體深度估計(jì)。 提出的AdaBins預(yù)測(cè)的bin中心集中在較小的深度值附近,對(duì)于深度值范圍更廣的圖像,分布廣泛。 Fu et al. 發(fā)現(xiàn)將深度回歸任務(wù)轉(zhuǎn)化為分類任務(wù)可以提升效果,將深度范圍分成固定數(shù)量的bins。本文則解決了原始方法的多個(gè)限制: 計(jì)算根

    2024年04月17日
    瀏覽(25)
  • Monocular 3D Object Detection with Depth from Motion 論文學(xué)習(xí)

    Monocular 3D Object Detection with Depth from Motion 論文學(xué)習(xí)

    論文鏈接:Monocular 3D Object Detection with Depth from Motion 從單目輸入感知 3D 目標(biāo)對(duì)于自動(dòng)駕駛非常重要,因?yàn)閱文?3D 的成本要比多傳感器的方案低許多。但單目方法很難取得令人滿意的效果,因?yàn)閱螐垐D像并沒有提供任何關(guān)于深度的信息,該方案實(shí)現(xiàn)起來非常困難。 Two view 場(chǎng)景

    2024年02月17日
    瀏覽(26)
  • The Intersection of Deep Learning and Natural Language Processing

    自從深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展以來,它已經(jīng)成為了人工智能領(lǐng)域的重要技術(shù)之一。深度學(xué)習(xí)的發(fā)展也為自然語言處理(NLP)領(lǐng)域提供了強(qiáng)大的支持。在這篇文章中,我們將探討深度學(xué)習(xí)與自然語言處理的相互作用,以及它們?cè)趯?shí)際應(yīng)用中的表現(xiàn)。 自然語言處理是計(jì)算機(jī)科學(xué)與

    2024年01月17日
    瀏覽(28)
  • Deep learning of free boundary and Stefan problems論文閱讀復(fù)現(xiàn)

    Deep learning of free boundary and Stefan problems論文閱讀復(fù)現(xiàn)

    在這項(xiàng)工作中,作者提出了一個(gè)基于物理信息神經(jīng)網(wǎng)絡(luò)的多網(wǎng)絡(luò)模型,來解決一類一般的正和逆自由邊界問題,稱為Stefan問題。具體地說,用兩個(gè)深度神經(jīng)網(wǎng)絡(luò)來近似未知解以及任何移動(dòng)邊界。作者提供了三個(gè)案例研究(一維一相Stefan問題,一維二相Stefan問題,二維一相Ste

    2024年02月08日
    瀏覽(25)
  • MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection 論文解讀

    MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection 論文解讀

    單目目標(biāo)檢測(cè)在自動(dòng)駕駛領(lǐng)域,一直是一個(gè)具有挑戰(zhàn)的任務(wù)?,F(xiàn)在大部分的方式都是沿用基于卷積的2D 檢測(cè)器,首先檢測(cè)物體中心,后通過中心附近的特征去預(yù)測(cè)3D屬性。 但是僅僅通過局部的特征去預(yù)測(cè)3D特征是不高效的,且并沒有考慮一些長(zhǎng)距離的物體之間的深度關(guān)系,丟

    2024年02月09日
    瀏覽(24)
  • MonoDTR Monocular 3D Object Detection with Depth-Aware Transformer 論文學(xué)習(xí)

    MonoDTR Monocular 3D Object Detection with Depth-Aware Transformer 論文學(xué)習(xí)

    論文鏈接:MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer 單目 3D 目標(biāo)檢測(cè)對(duì)于自動(dòng)駕駛很重要,也很有挑戰(zhàn)性。 現(xiàn)有的一些方法通過深度預(yù)測(cè)網(wǎng)絡(luò)得到深度信息,然后輔助 3D 檢測(cè),這造成計(jì)算量激增,不適合實(shí)際部署。此外,如果深度先驗(yàn)不準(zhǔn)確的話,也會(huì)影響算法

    2024年02月17日
    瀏覽(26)
  • 論文精讀 《CaDNN: Categorical Depth Distribution Network for Monocular 3D Object Detection》

    論文精讀 《CaDNN: Categorical Depth Distribution Network for Monocular 3D Object Detection》

    研究動(dòng)機(jī):?jiǎn)文?D目標(biāo)檢測(cè)難以預(yù)測(cè)物體的深度 單目 3D 目標(biāo)檢測(cè)是自動(dòng)駕駛領(lǐng)域的一個(gè)關(guān)鍵問題,因?yàn)樗c典型的多傳感器系統(tǒng)相比配置比較簡(jiǎn)單。 單目 3D 檢測(cè)的主要挑戰(zhàn)在于準(zhǔn)確預(yù)測(cè)物體深度 ,由于缺乏直接的距離測(cè)量,因此必須從物體和場(chǎng)景線索推斷出物體深度。許多

    2023年04月22日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包