原文鏈接:https://arxiv.org/abs/2303.10076
1. 引言
本文提出基于環(huán)視圖像進行3D占用估計的簡單框架,探索了網(wǎng)絡(luò)設(shè)計、優(yōu)化和評估。網(wǎng)絡(luò)設(shè)計方面,雖然輸出形式與單目深度估計和立體匹配不同,但網(wǎng)絡(luò)結(jié)構(gòu)與立體匹配網(wǎng)絡(luò)相似(如下圖所示),可以使用立體匹配的經(jīng)驗設(shè)計網(wǎng)絡(luò)。優(yōu)化方面,可以基于渲染深度圖和點級分類標(biāo)簽,使用監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)。評估方面,受體積渲染啟發(fā),引入基于距離的占用評估指標(biāo),這比其余指標(biāo)更加公平;此外該指標(biāo)只需要點云作為真值。
3. 方法
3.1 準(zhǔn)備知識
本節(jié)介紹了NeRF的體積渲染公式,見神經(jīng)輻射場的簡單介紹。
3.2 模型設(shè)計
如上圖所示為本文的端到端占用預(yù)測網(wǎng)絡(luò)
Q
:
(
I
1
,
I
2
,
?
?
,
I
n
)
→
V
X
×
Y
×
Z
Q: (I^1,I^2,\cdots,I^n)\rightarrow V^{X\times Y\times Z}
Q:(I1,I2,?,In)→VX×Y×Z。
編碼器:使用預(yù)訓(xùn)練ResNet。
圖像特征到3D體素:使用Simple-BEV的方法,即定義3D點并投影回圖像,通過雙線性插值采樣特征。對于出現(xiàn)在多個視圖中的點使用采樣特征的均值。
3D體素空間學(xué)習(xí):由于上述無參數(shù)變換導(dǎo)致沿圖像射線的點特征相同,需要進行進一步處理。使用基于沙漏結(jié)構(gòu)的3D CNN,但僅取單一尺度輸出,因為多尺度輸出需要更多計算資源,且不會帶來性能提升。
占用概率:使用體素特征預(yù)測密度 σ \sigma σ后,通過Sigmoid函數(shù)得到占用概率。
有符號距離函數(shù):之前的工作發(fā)現(xiàn),體積渲染的密度不是可靠的幾何表達,本文使用有符號距離函數(shù)(SDF),將SDF值
s
s
s轉(zhuǎn)化為密度
σ
\sigma
σ用于體積渲染:
σ
β
(
s
)
=
{
1
2
β
exp
?
(
s
β
)
s
≤
0
1
β
(
1
?
1
2
exp
?
(
?
s
β
)
)
s
>
0
\sigma_\beta(s)=\left\{\begin{matrix}\frac{1}{2\beta}\exp(\frac{s}{\beta})&s\leq 0\\\frac{1}{\beta}(1-\frac{1}{2}\exp(-\frac{s}{\beta}))&s>0\end{matrix}\right.
σβ?(s)={2β1?exp(βs?)β1?(1?21?exp(?βs?))?s≤0s>0?
其中 β \beta β為可學(xué)習(xí)的參數(shù)。
網(wǎng)絡(luò)的輸出可以是密度、占用概率或SDF。使用SDF輸出時,訓(xùn)練時將其轉(zhuǎn)化為密度后進行體積渲染。測試時,占用概率接近1的/SDF值接近0的位置表示被占用,需要設(shè)置具體的閾值決定。
3.3 模型評估
本文使用現(xiàn)有的數(shù)據(jù)集,以類似深度估計的方式進行3D占用估計,但需要注意:
- 使用點云作為真值標(biāo)簽是稀疏的;
- 只能確定激光雷達中心到點云之間的空間;
- 3D占用是離散表達,不可避免存在量化誤差。
本文使用兩種評估指標(biāo):分類指標(biāo)和離散深度指標(biāo),且兩種指標(biāo)與兩種監(jiān)督訓(xùn)練方式相關(guān)。
占用標(biāo)簽生成:使用分層抽樣策略得到空空間的標(biāo)簽:在各激光雷達射線均勻采樣固定數(shù)量的點。占用空間通過體素化點云得到。
激光雷達點云生成的占用標(biāo)簽和激光雷達投影得到的稀疏深度圖會作為不同的監(jiān)督。
分類指標(biāo):使用二元分類指標(biāo)進行評估,但該指標(biāo)只能評估已知區(qū)域。如下圖所示,情況2比情況1的估計更準(zhǔn)確,但分類指標(biāo)表示出情況1的性能更好。
離散深度指標(biāo):若一條射線上所有點都預(yù)測為空,則設(shè)置最后一個點作為第一個預(yù)測占用點。離散深度誤差即為第一個占用預(yù)測點到激光雷達點的距離。類似深度估計評估,可以使用Abs Rel、Sq Rel、RMSE、RMSE log和
δ
<
t
\delta<t
δ<t精度指標(biāo)。
3.4 模型優(yōu)化
3.4.1 監(jiān)督學(xué)習(xí)
兩種不同的訓(xùn)練方式:一種使用深度損失,即使用體渲染得到的深度圖受真實深度圖監(jiān)督;另一種直接計算已知空間內(nèi)的二元分類損失,包括交叉熵?fù)p失和L1損失。
深度圖損失:使用尺度不變對數(shù)(SILog)損失:
L
d
e
p
t
h
=
α
1
M
∑
i
Δ
d
i
2
?
λ
M
2
(
∑
i
Δ
d
i
)
2
\mathcal{L}_{depth}=\alpha\sqrt{\frac{1}{M}\sum_i\Delta d^2_i-\frac{\lambda}{M^2}(\sum_i\Delta d_i)^2}
Ldepth?=αM1?i∑?Δdi2??M2λ?(i∑?Δdi?)2?
其中 Δ d i = log ? d ^ i ? log ? d i ? \Delta d_i=\log \hatn5n3t3z_i-\log d_i^* Δdi?=logd^i??logdi??, M M M為有效像素數(shù)量; α \alpha α與 λ \lambda λ為超參數(shù)。
分類損失:除二元交叉熵外,對采樣點使用L1損失:
L
L
1
=
1
N
∑
i
=
1
N
L
1
(
1
?
p
i
)
+
1
K
ω
∑
j
=
1
K
L
1
(
0
?
p
j
)
\mathcal{L}_{L1}=\frac{1}{N}\sum_{i=1}^NL_1(1-p_i)+\frac{1}{K}\omega\sum_{j=1}^KL_1(0-p_j)
LL1?=N1?i=1∑N?L1?(1?pi?)+K1?ωj=1∑K?L1?(0?pj?)
其中 p i p_i pi?為點云位置的預(yù)測概率, p j p_j pj?為空空間采樣點位置的預(yù)測概率; N N N為有效點數(shù), K K K為空空間的采樣點數(shù); ω \omega ω為超參數(shù)。
3.4.2 自監(jiān)督學(xué)習(xí)
對渲染合成圖像使用光度一致性損失:
L
s
e
l
f
(
I
t
,
I
^
t
)
=
β
1
?
SSIM
(
I
t
,
I
^
t
)
2
+
(
1
?
β
)
∥
I
t
?
I
^
t
∥
\mathcal{L}_{self}(I_t,\hat{I}_t)=\beta\frac{1-\text{SSIM}(I_t,\hat{I}_t)}{2}+(1-\beta)\|I_t-\hat{I}_t\|
Lself?(It?,I^t?)=β21?SSIM(It?,I^t?)?+(1?β)∥It??I^t?∥
注意此處需要相機內(nèi)參和外參。
4. 實驗
4.3 有監(jiān)督損失和網(wǎng)絡(luò)結(jié)構(gòu)的消融研究
有監(jiān)督損失函數(shù)分析:實驗表明,深度損失與離散深度損失均優(yōu)于分類損失。分類損失容易在天空區(qū)域產(chǎn)生漂浮物,因為損失無法處理未知區(qū)域(無點云區(qū)域)。而深度損失能防止這一現(xiàn)象,因為渲染會從整條射線采樣,從而隱式地優(yōu)化這些區(qū)域。深度損失會在前景與背景的交界處產(chǎn)生長尾假陽性預(yù)測。聯(lián)合使用深度損失和分類損失不如僅使用深度損失。
網(wǎng)絡(luò)設(shè)計:實驗表明,使用更大的圖像編碼器和預(yù)訓(xùn)練均能提高性能。對于反投影方法,改為使用LSS或基于查詢(交叉注意力)的方法,性能會降低。
4.4 自監(jiān)督學(xué)習(xí)和3D重建
自監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)之間有較大的差距。SDF表達在離散距離指標(biāo)下性能更優(yōu),但在深度指標(biāo)下略低。這是由于概率與密度表達優(yōu)化更靈活,而有符號距離值的優(yōu)化更困難。但這種靈活性可能不利于網(wǎng)孔提取。對3D重建而言,SDF表達是更優(yōu)的。
4.5 深度估計基準(zhǔn)
與監(jiān)督和自監(jiān)督單目/環(huán)視深度估計網(wǎng)絡(luò)相比,本文的方法有相當(dāng)?shù)男阅?。對自監(jiān)督學(xué)習(xí),本文的方法在誤差指標(biāo)上更優(yōu)而在精度指標(biāo)上更差,這可能是由于體積渲染和編碼器-解碼器結(jié)構(gòu)的差異。
本文方法的缺點是比單目深度估計方法需要更長的推斷時間,主要在3D特征提取和渲染上。但對于占用估計任務(wù)來說,無需渲染。
4.6 語義3D占用估計的討論
本文框架下的SurroundOcc:使用與SurroundOcc相同的損失和相似的訓(xùn)練策略。實驗表明,本文方法在性能和速度上均更優(yōu)。此外在自監(jiān)督下,SurroundOcc優(yōu)化困難,性能較差。
SurroundOcc的預(yù)訓(xùn)練策略:本文使用點級訓(xùn)練策略,而現(xiàn)有方法使用體素級訓(xùn)練策略。點級訓(xùn)練能產(chǎn)生更細(xì)粒度的預(yù)測。為證明這一點,使用本文方法進行預(yù)訓(xùn)練,即使用本文的采樣方法生成點級語義標(biāo)簽,并使用體素級語義標(biāo)簽微調(diào)。實驗表明這樣做能有效提高性能??梢暬砻?,使用稀疏點級標(biāo)簽訓(xùn)練的模型除了在天空區(qū)域會錯誤分類為植被或人造物以外,場景其余部分的估計都很合理。這說明這種方法可以作為后續(xù)微調(diào)的有效初始化。文章來源:http://www.zghlxwxcb.cn/news/detail-784307.html
5. 局限性和未來工作
引入序列數(shù)據(jù);更細(xì)的分辨率;使用MLP回歸最終幾何并引入額外正則化損失(如eikonal損失)。文章來源地址http://www.zghlxwxcb.cn/news/detail-784307.html
到了這里,關(guān)于【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!