論文鏈接
Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction
0. Abstract
盡管基于學(xué)習(xí)的方法在單視圖深度估計(jì)和視覺里程計(jì)方面顯示出有希望的結(jié)果,但大多數(shù)現(xiàn)有方法以監(jiān)督方式處理任務(wù)。最近的單視圖深度估計(jì)方法探索了通過最小化光度誤差在沒有完全監(jiān)督的情況下學(xué)習(xí)的可能性
探索使用立體序列來學(xué)習(xí)深度和視覺里程計(jì),框架能夠從單目序列估計(jì)單視圖深度和雙視圖里程計(jì)
- 單視圖深度和視覺里程計(jì)的聯(lián)合訓(xùn)練可以改善深度預(yù)測(cè),因?yàn)閷?duì)深度施加了額外的約束,并實(shí)現(xiàn)了視覺里程計(jì)的有競(jìng)爭(zhēng)力的結(jié)果
- 基于深度特征的扭曲損失改進(jìn)了單視圖深度估計(jì)和視覺里程計(jì)的簡(jiǎn)單光度扭曲損失
1. Intro
-
提出了一個(gè)框架,使用立體視頻序列(如圖 1 所示)聯(lián)合學(xué)習(xí)單視圖深度估計(jì)器和單目里程估計(jì)器進(jìn)行訓(xùn)練。該方法可以理解為深度估計(jì)的無監(jiān)督學(xué)習(xí)和立體對(duì)之間已知的姿勢(shì)的半監(jiān)督學(xué)習(xí)
-
提出了一種額外的深度特征重建損失,它考慮了上下文信息,而不是單獨(dú)考慮每個(gè)像素的顏色匹配

Fig. 1 訓(xùn)練實(shí)例示例。立體相機(jī) T L → R T_{L→R} TL→R? 之間的已知相機(jī)運(yùn)動(dòng)限制了深度 CNN 和里程計(jì) CNN,以實(shí)際比例預(yù)測(cè)深度和相對(duì)相機(jī)姿勢(shì)
本文貢獻(xiàn)
- 一個(gè)用于聯(lián)合學(xué)習(xí)深度估計(jì)器和視覺里程估計(jì)器的無監(jiān)督框架,該框架不會(huì)受到尺度模糊的影響
- 利用可從空間和時(shí)間圖像對(duì)獲得的全套約束來改進(jìn)單視圖深度估計(jì)的現(xiàn)有技術(shù)
- 產(chǎn)生最先進(jìn)的幀到幀里程測(cè)量結(jié)果,該結(jié)果顯著改進(jìn)并且與幾何方法相當(dāng)
- 除了基于顏色強(qiáng)度的圖像重建損失之外,還使用一種新穎的特征重建損失,顯著提高了深度和里程估計(jì)精度
2. Related Work
2.1 監(jiān)督學(xué)習(xí)方法
- 使用 ConvNet 估計(jì)深度,使用多尺度深度網(wǎng)絡(luò)和尺度不變損失來進(jìn)行深度估計(jì)
- 將深度估計(jì)表述為連續(xù)條件隨機(jī)場(chǎng)學(xué)習(xí)問題
- 使用全卷積架構(gòu)的殘差網(wǎng)絡(luò)來對(duì)單目圖像和深度圖之間的映射進(jìn)行建模
- 使用端到端學(xué)習(xí)框架來預(yù)測(cè)立體對(duì)的差異
2.2 無監(jiān)督或半監(jiān)督方法
使用光度扭曲損失來替換基于地面實(shí)況深度的損失,可以從立體圖像對(duì)中實(shí)現(xiàn)無監(jiān)督深度學(xué)習(xí)管道
- 使用雙目立體對(duì)(相機(jī)間變換是已知的)并訓(xùn)練一個(gè)網(wǎng)絡(luò)來預(yù)測(cè)深度,以最小化真實(shí)右圖像與通過將左圖像扭曲到右視點(diǎn)而合成的圖像之間的光度差異,使用預(yù)測(cè)的深度
- 通過引入對(duì)稱左右一致性標(biāo)準(zhǔn)和更好的立體損失函數(shù)對(duì)深度估計(jì)進(jìn)行了改進(jìn)
- 使用提出了一種半監(jiān)督學(xué)習(xí)框架,使用稀疏深度圖進(jìn)行監(jiān)督學(xué)習(xí),使用密集光度誤差進(jìn)行無監(jiān)督學(xué)習(xí)
所有無監(jiān)督深度估計(jì)方法都依賴于照片一致性假設(shè),而這在實(shí)踐中經(jīng)常被違反。故在本文的工作中,比較了多種特征
3. Method

Fig. 2 在訓(xùn)練階段提出的框架的圖示。 C N N V O CNN_{VO} CNNVO? 和 C N N D CNN_D CNND? 在測(cè)試階段可以獨(dú)立使用
3.1 圖像重建作為監(jiān)督
本文框架中的基本監(jiān)督信號(hào)來自圖像重建任務(wù)。對(duì)于兩個(gè)附近的視圖,假設(shè)參考視圖的深度和兩個(gè)視圖之間的相對(duì)相機(jī)姿態(tài)已知,就能夠從實(shí)時(shí)視圖重建參考視圖
由于深度和相對(duì)相機(jī)位姿可以通過 ConvNet 來估計(jì),因此真實(shí)視圖和重建視圖之間的不一致允許 ConvNet 的訓(xùn)練
但沒有額外約束的單目框架會(huì)遇到縮放模糊問題,因此提出了一個(gè)立體框架,在給定已知立體基線設(shè)置的額外約束的情況下,將場(chǎng)景深度和相對(duì)相機(jī)運(yùn)動(dòng)限制在共同的真實(shí)世界尺度中
對(duì)于每個(gè)訓(xùn)練實(shí)例,有一個(gè)時(shí)間對(duì)
(
I
L
,
t
1
,
I
L
,
t
2
)
(I_{L,t1},I_{L,t2})
(IL,t1?,IL,t2?) 和一個(gè)立體對(duì)
(
I
L
,
t
2
,
I
R
,
t
2
)
(I_{L,t2},I_{R,t2})
(IL,t2?,IR,t2?) ,其中
I
L
,
t
2
I_{L,t2}
IL,t2? 是參考視圖,而
I
L
,
t
1
I_{L,t1}
IL,t1? 和
I
R
,
t
2
I_{R,t2}
IR,t2? 是實(shí)時(shí)視圖??梢苑謩e從
I
L
,
t
1
I_{L,t1}
IL,t1? 和
I
R
,
t
2
I_{R,t2}
IR,t2? 合成兩個(gè)參考視圖
I
L
,
t
1
′
I^\prime_{L,t1}
IL,t1′? 和
I
R
,
t
2
′
I^\prime_{R,t2}
IR,t2′?
I
L
,
t
1
′
=
f
(
I
L
,
t
1
,
K
,
T
t
2
→
t
1
,
D
L
,
t
2
)
(1)
I^\prime_{L,t1} = f(I_{L,t1},K,T_{t2→t1}, D_{L,t2})\tag{1}
IL,t1′?=f(IL,t1?,K,Tt2→t1?,DL,t2?)(1)
I R , t 2 ′ = f ( I R , t 2 , K , T L → R , D L , t 2 ) (2) I^\prime_{R,t2} = f (I_{R,t2}, K, T_{L→R}, D_{L,t2})\tag{2} IR,t2′?=f(IR,t2?,K,TL→R?,DL,t2?)(2)
D L , t 2 D_{L,t2} DL,t2? 表示參考視圖的深度圖; T L → R T_{L→R} TL→R? 和 T t 2 → t 1 T_{t2→t1} Tt2→t1? 是參考視圖和實(shí)時(shí)視圖之間的相對(duì)相機(jī)位姿變換; K K K 表示已知的相機(jī)本征矩陣。 D L , t 2 D_{L,t2} DL,t2? 通過 C N N D \mathrm{CNN}_D CNND? 從 I L , t 2 I_{L,t2} IL,t2? 映射,而 T t 2 → t 1 T_{t2→t1} Tt2→t1? 通過 C N N V O \mathrm{CNN}_{VO} CNNVO? 從 [ I L , t 1 , I L , t 2 ] [I_{L,t1}, I_{L,t2}] [IL,t1?,IL,t2?] 映射
計(jì)算合成視圖和真實(shí)視圖之間的圖像重建損失作為監(jiān)督信號(hào)來訓(xùn)練
C
N
N
D
\mathrm{CNN}_D
CNND? 和
C
N
N
V
O
\mathrm{CNN}_{VO}
CNNVO? 。圖像構(gòu)造損失表示為
L
i
r
=
∑
p
(
∣
I
L
,
t
2
(
p
)
?
I
L
,
t
1
′
(
p
)
∣
+
∣
I
L
,
t
2
(
p
)
?
I
R
,
t
2
′
(
p
)
∣
)
(3)
L_{ir}=\sum\limits_p(\left|I_{L,t2}(p)-I^\prime_{L,t1}(p)\right|+\left|I_{L,t2}(p)-I^\prime_{R,t2}(p)\right|) \tag{3}
Lir?=p∑?(
?IL,t2?(p)?IL,t1′?(p)
?+
?IL,t2?(p)?IR,t2′?(p)
?)(3)
使用立體序列代替單目序列的效果是雙重的
- 立體對(duì)之間已知的相對(duì)姿態(tài) T L → R T_{L→R} TL→R? 限制了 C N N D \mathrm{CNN}_D CNND? 和 C N N V O \mathrm{CNN}_{VO} CNNVO? 來估計(jì)現(xiàn)實(shí)世界尺度中時(shí)間對(duì)之間的深度和相對(duì)姿態(tài)
- 除了僅具有一個(gè)實(shí)時(shí)視圖的立體對(duì)之外,時(shí)間對(duì)還為參考視圖提供第二實(shí)時(shí)視圖
3.2 可微分幾何模塊
如方程 1 - 2 所示,學(xué)習(xí)框架中的一個(gè)重要函數(shù)是綜合函數(shù) f ( ? ) f (\cdot) f(?)。該函數(shù)由兩個(gè)可微運(yùn)算組成,允許梯度傳播用于 ConvNet 的訓(xùn)練。這兩個(gè)操作是極線幾何變換和扭曲。前者定義兩個(gè)視圖中像素之間的對(duì)應(yīng)關(guān)系,而后者通過扭曲實(shí)時(shí)視圖來合成圖像
令
p
L
,
t
2
p_{L,t2}
pL,t2? 為參考視圖中像素的齊次坐標(biāo)??梢允褂脤?duì)極幾何獲得
p
L
,
t
2
p_{L,t2}
pL,t2? 在實(shí)時(shí)視圖上的投影坐標(biāo)。投影坐標(biāo)通過以下方式獲得
p
R
,
t
2
=
K
T
L
→
R
D
L
,
t
2
(
p
L
,
t
2
)
K
?
1
p
L
,
t
2
(4)
p_{R,t2} = KT_{L→R}D_{L,t2}(p_{L,t2})K^{?1}p_{L,t2}\tag{4}
pR,t2?=KTL→R?DL,t2?(pL,t2?)K?1pL,t2?(4)
p L , t 1 = K T t 2 → t 1 D L , t 2 ( p L , t 2 ) K ? 1 p L , t 2 (5) p_{L,t1} = KT_{t2→t1}D_{L,t2}(p_{L,t2})K^{?1}p_{L,t2}\tag{5} pL,t1?=KTt2→t1?DL,t2?(pL,t2?)K?1pL,t2?(5)
其中 p R , t 2 p_{R,t2} pR,t2? 和 p L , t 1 p_{L,t1} pL,t1? 分別是 I R , t 2 I_{R,t2} IR,t2? 和 I L , t 1 I_{L,t1} IL,t1? 上的投影坐標(biāo)。注意 D L , t 2 ( p L , t 2 ) D_{L,t2}(p_{L,t2}) DL,t2?(pL,t2?) 是位置 p L , t 2 p_{L,t2} pL,t2? 處的深度; T ∈ S E 3 T ∈ SE3 T∈SE3 是由 6 個(gè)參數(shù)定義的 4x4 變換矩陣,其中 3D 向量 u ∈ s o 3 \mathbf{u} ∈ so3 u∈so3 是軸角表示,3D 向量 v ∈ R 3 \mathbf{v} ∈ R3 v∈R3 表示平移
從方程 4 5 獲得投影坐標(biāo)后,可以使用中提出的可微雙線性插值機(jī)制(扭曲)從實(shí)時(shí)幀合成新的參考幀
3.3 特征重構(gòu)作為監(jiān)督
為了提高框架的魯棒性,我們提出了特征重建損失:我們探索使用密集特征作為額外的監(jiān)督信號(hào),而不是單獨(dú)使用3通道顏色強(qiáng)度信息
令
F
L
,
t
2
F_{L,t2}
FL,t2?、
F
L
,
t
1
F_{L,t1}
FL,t1? 和
F
R
,
t
2
F_{R,t2}
FR,t2? 分別為
I
L
,
t
2
I_{L,t2}
IL,t2?、
I
L
,
t
1
I_{L,t1}
IL,t1? 和
I
R
,
t
2
I_{R,t2}
IR,t2? 對(duì)應(yīng)的密集特征表示。與圖像合成過程類似,可以分別從
F
L
,
t
1
F_{L,t1}
FL,t1? 和
F
R
,
t
2
F_{R,t2}
FR,t2? 合成兩個(gè)參考視圖
F
L
,
t
1
′
F'_{L,t1}
FL,t1′? 和
F
R
,
t
2
′
F'_{R,t2}
FR,t2′?。合成過程可以表示為
F
L
,
t
1
′
=
f
(
F
L
,
t
1
,
K
,
T
t
2
→
t
1
,
D
L
,
t
2
)
(6)
F^′_{L,t1} = f (F_{L,t1}, K, T_{t2→t1}, D_{L,t2})\tag{6}
FL,t1′?=f(FL,t1?,K,Tt2→t1?,DL,t2?)(6)
F R , t 2 ′ = f ( F R , t 2 , K , T L → R , D L , t 2 ) (7) F^′_{R,t2} = f (F_{R,t2}, K, T_{L→R}, D_{L,t2})\tag{7} FR,t2′?=f(FR,t2?,K,TL→R?,DL,t2?)(7)
特征重建損失可以表示為
L
f
r
=
∑
p
∣
F
L
,
t
2
(
p
)
?
F
L
,
t
1
′
(
p
)
∣
+
∑
p
∣
F
L
,
t
2
(
p
)
?
F
R
,
t
2
′
(
p
)
∣
(8)
L_{fr}=\sum\limits_p \left| F_{L,t2}(p)-F^\prime_{L,t1}(p) \right|+\sum\limits_p \left| F_{L,t2}(p)-F^\prime_{R,t2}(p) \right|\tag{8}
Lfr?=p∑?
?FL,t2?(p)?FL,t1′?(p)
?+p∑?
?FL,t2?(p)?FR,t2′?(p)
?(8)
3.4 訓(xùn)練損失
通過引入邊緣感知平滑項(xiàng)來鼓勵(lì)深度局部平滑。如果在同一區(qū)域顯示圖像連續(xù)性,則深度不連續(xù)性會(huì)受到懲罰。否則,對(duì)于中斷深度的懲罰很小
L
d
s
=
∑
m
,
n
W
,
H
∣
?
x
D
m
,
n
∣
e
?
∣
?
x
I
m
,
n
∣
+
∣
?
y
D
m
,
n
∣
e
?
∣
?
y
I
m
,
n
∣
(9)
L_{ds}=\sum\limits_{m,n}^{W,H} \left| ?_xD_{m,n} \right|e^{ -\left|?_xI_{m,n} \right|}+\left| ?_yD_{m,n} \right|e^{-\left| ?_yI_{m,n}\right|}\tag{9}
Lds?=m,n∑W,H?∣?x?Dm,n?∣e?∣?x?Im,n?∣+∣?y?Dm,n?∣e?∣?y?Im,n?∣(9)
其中
?
x
(
?
)
?x(\cdot)
?x(?) 和
?
y
(
?
)
?y(\cdot)
?y(?) 分別是水平和垂直方向的梯度。請(qǐng)注意,上述正則化中的
D
m
,
n
D_{m,n}
Dm,n? 是深度的倒數(shù)
最終的損失函數(shù)變?yōu)?br> L = λ i r L i r + λ f r L f r + λ d s L d s L=\lambda_{ir}L_{ir}+\lambda_{fr}L_{fr}+\lambda_{ds}L_{ds} L=λir?Lir?+λfr?Lfr?+λds?Lds?
3.5 網(wǎng)絡(luò)架構(gòu)
深度估計(jì)
深度ConvNet由兩部分組成,編碼器和解碼器。對(duì)于編碼器,出于計(jì)算成本的考慮,采用帶有半濾波器的 ResNet50 變體(ResNet50-1by2)中的卷積網(wǎng)絡(luò)。對(duì)于解碼器網(wǎng)絡(luò),解碼器首先使用 1x1 內(nèi)核將編碼器輸出(1024 通道特征圖)轉(zhuǎn)換為單通道特征圖,然后使用具有跳躍連接的傳統(tǒng)雙線性上采樣內(nèi)核
在最后一個(gè)預(yù)測(cè)層之后使用 ReLU 激活來確保正預(yù)測(cè)來自深度 ConvNet。對(duì)于深度ConvNet的輸出,框架來預(yù)測(cè)逆深度而不是深度。然而,ReLU 激活可能會(huì)導(dǎo)致零估計(jì),從而導(dǎo)致無限深度。因此,我們將預(yù)測(cè)的逆深度轉(zhuǎn)換為深度 D = 1 / ( D i n v + 1 0 ? 4 ) D = 1/(D_{inv} + 10^{?4}) D=1/(Dinv?+10?4)
視覺里程計(jì)
ConvNet 被設(shè)計(jì)為沿顏色通道采用兩個(gè)串聯(lián)視圖作為輸入,并輸出 6D 向量 [ u , v ] ∈ s e 3 [\mathbf{u}, \mathbf{v}] \in se3 [u,v]∈se3,然后將其轉(zhuǎn)換為 4x4 變換矩陣。該網(wǎng)絡(luò)由 6 個(gè) stride-2 卷積和后面的 3 個(gè)全連接層組成。最后一個(gè)全連接層給出了 6D 向量,它定義了從參考視圖到實(shí)時(shí)視圖的轉(zhuǎn)換 T r e f → l i v e T_{ref→live} Tref→live?
4. Experiments
使用 Caffe 框架訓(xùn)練所有的 CNN。我們使用 Adam 優(yōu)化器和優(yōu)化設(shè)置,其中 [ β 1 , β 2 , ? ] = [ 0.9 , 0.999 , 1 0 ? 8 ] [β1, β2,\epsilon] = [0.9, 0.999, 10^{?8}] [β1,β2,?]=[0.9,0.999,10?8]。所有經(jīng)過訓(xùn)練的網(wǎng)絡(luò)的初始學(xué)習(xí)率為 0.001,當(dāng)訓(xùn)練損失收斂時(shí)我們手動(dòng)降低該學(xué)習(xí)率。對(duì)于最終損失函數(shù)中的損失權(quán)重,我們憑經(jīng)驗(yàn)發(fā)現(xiàn)組合 [ λ i r , λ f r , λ d s ] = [ 1 , 0.1 , 10 ] [λ_{ir}, λ_{fr}, λ_{ds}] = [1, 0.1, 10] [λir?,λfr?,λds?]=[1,0.1,10] 會(huì)產(chǎn)生穩(wěn)定的訓(xùn)練
系統(tǒng)主要在 KITTI 數(shù)據(jù)集中進(jìn)行訓(xùn)練。該數(shù)據(jù)集包含 61 個(gè)視頻序列,具有 42,382 個(gè)校正立體對(duì),原始圖像大小為 1242x375 像素,訓(xùn)練設(shè)置中使用 608x160 的圖像大小
另一方面,為了評(píng)估我們的視覺里程計(jì)性能并與之前的方法進(jìn)行比較,在官方 KITTI 里程計(jì)訓(xùn)練集上訓(xùn)練深度和姿勢(shì)網(wǎng)絡(luò)。
對(duì)于每個(gè)數(shù)據(jù)集分割,我們通過選擇幀 I t I_t It? 作為實(shí)時(shí)幀,同時(shí)選擇幀 I t + 1 I_{t+1} It+1? 作為參考幀(實(shí)時(shí)幀扭曲到該參考幀)來形成時(shí)間對(duì)
4.1 視覺里程計(jì)結(jié)果

Tab. 1 視覺里程計(jì)結(jié)果在 KITTI 里程計(jì)數(shù)據(jù)集的序列 09、10 上進(jìn)行評(píng)估。 t e r r t_{err} terr? 是平均平移漂移誤差。 r e r r r_{err} rerr? 是平均旋轉(zhuǎn)漂移誤差
從表1中可以看出,即使沒有任何進(jìn)一步的后處理來修復(fù)平移尺度,我們的基于立體的里程計(jì)學(xué)習(xí)方法也大大優(yōu)于單目學(xué)習(xí)方法
由于 ORB-SLAM 面臨整個(gè)序列的單一深度平移尺度模糊性,通過遵循標(biāo)準(zhǔn)協(xié)議優(yōu)化地圖比例來將 ORB-SLAM 軌跡與地面實(shí)況對(duì)齊。只是將估計(jì)的幀到幀相機(jī)姿勢(shì)整合到整個(gè)序列上,而不進(jìn)行任何后處理

Fig. 3 視覺里程計(jì)的定性結(jié)果。繪制了測(cè)試序列 (09, 10) 的完整軌跡

Fig. 4 里程計(jì)數(shù)據(jù)集序列 09 的 VO 誤差與不同平移閾值的比較
可以清楚地看到,當(dāng)平移幅度較小時(shí),本文的方法優(yōu)于ORBSLAM。隨著平移幅度的增加,幀到幀 VO 的簡(jiǎn)單集成開始逐漸漂移,這表明基于地圖的跟蹤相對(duì)于沒有捆綁調(diào)整的幀到幀 VO 具有明顯的優(yōu)勢(shì)
4.2 深度估計(jì)結(jié)果
使用特征分割來評(píng)估我們的系統(tǒng),并將結(jié)果與各種最先進(jìn)的深度估計(jì)方法進(jìn)行比較。

Tab. 2 單視圖深度估計(jì)性能與現(xiàn)有方法的比較。對(duì)于訓(xùn)練,K 是 KITTI 數(shù)據(jù)集(Eigen Split)。為了公平比較,所有方法均在裁剪區(qū)域上進(jìn)行評(píng)估。對(duì)于監(jiān)督,“深度”是指方法中使用的真實(shí)深度; “單核細(xì)胞增多癥?!北硎居?xùn)練中使用單目序列; “立體”是指訓(xùn)練中具有已知立體相機(jī)姿勢(shì)的立體序列

Fig. 5 Eigen Split 中的單視圖深度估計(jì)示例。為了可視化目的,對(duì)地面實(shí)況深度進(jìn)行插值
采用 AlexNet-FCN 架構(gòu)和 Horn 和 Schunck 損失的基于光度立體的訓(xùn)練已經(jīng)比 KITTI 上最先進(jìn)的監(jiān)督方法給出了更準(zhǔn)確的結(jié)果。受益于基于特征的重建損失和通過里程計(jì)網(wǎng)絡(luò)的附加扭曲誤差,本文的方法以合理的裕度更優(yōu)。
4.3 消融實(shí)驗(yàn)

Tab. 3 單視圖深度估計(jì)的消融研究。結(jié)果在 KITTI 2015 中使用 Eigen Split 測(cè)試集進(jìn)行評(píng)估,遵循評(píng)估協(xié)議。結(jié)果以 50m 深度為上限。 Stereo:立體聲對(duì)用于訓(xùn)練; Temporal:使用額外的時(shí)間對(duì);特征:使用特征重建損失
- 與深度網(wǎng)絡(luò)聯(lián)合訓(xùn)練位姿網(wǎng)絡(luò)時(shí),深度估計(jì)精度略有提高。使用 ImageNet 特征中的特征(預(yù)訓(xùn)練的 ResNet50-1by-2 中的 conv1 特征)可以稍微提高深度估計(jì)的準(zhǔn)確性
- 使用現(xiàn)成圖像描述符的特征可以進(jìn)一步提升效果
由于大多數(shù)其他無監(jiān)督深度估計(jì)方法使用具有反卷積網(wǎng)絡(luò)架構(gòu)的卷積編碼器來進(jìn)行密集預(yù)測(cè),我們還嘗試了可學(xué)習(xí)的反卷積架構(gòu),其中 ResNet50-1by2 作為編碼器,可學(xué)習(xí)的上采樣器作為解碼器設(shè)置。表底部的結(jié)果反映出該基線 2 的整體性能略遜于第一個(gè)基線。為了提高該基線的性能,我們探索使用從深度解碼器本身提取的深度特征。最后,解碼器輸出一個(gè) 32 通道特征圖,我們直接將其用于特征重建損失

Fig. 6 立體匹配示例。行:(1) 左圖; (2) 右像; (3)使用顏色強(qiáng)度和深度特征的匹配誤差。與特征損失相比,光度損失并不穩(wěn)健,尤其是在模糊區(qū)域
5. Conclusion
提出了一種使用立體數(shù)據(jù)進(jìn)行訓(xùn)練的單視圖深度估計(jì)和單目視覺里程計(jì)的無監(jiān)督學(xué)習(xí)框架文章來源:http://www.zghlxwxcb.cn/news/detail-838103.html
- 已經(jīng)證明,使用雙目立體序列來聯(lián)合學(xué)習(xí)這兩個(gè)任務(wù),只需給定 2 幀即可實(shí)現(xiàn)公制尺度的里程計(jì)預(yù)測(cè)
- 除了單視圖深度的立體對(duì)對(duì)齊之外,我們還展示了使用時(shí)間圖像對(duì)齊的優(yōu)勢(shì)預(yù)測(cè)
- 此外,我們提出了一種新穎的特征重建損失,以具有最先進(jìn)的無監(jiān)督單視圖深度和幀到幀里程計(jì),而沒有尺度模糊性
仍有許多挑戰(zhàn)需要解決文章來源地址http://www.zghlxwxcb.cn/news/detail-838103.html
- 框架假設(shè)沒有遮擋,并且場(chǎng)景假設(shè)是剛性的
- 在深度學(xué)習(xí)框架中顯式地對(duì)場(chǎng)景動(dòng)態(tài)和遮擋進(jìn)行建模將為在真實(shí)場(chǎng)景中進(jìn)行更實(shí)用和有用的導(dǎo)航提供一種自然的方法
到了這里,關(guān)于Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!