【論文筆記】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement
原文鏈接:https://ieeexplore.ieee.org/abstract/document/10363646
I. 引言
本文的3DOPFormer使用空間交叉注意力機制和反卷積恢復(fù)3D占用,然后基于激光雷達射線方向特征提出優(yōu)化3D占用感知模型的新方法。使用神經(jīng)渲染方法合成激光雷達射線方向的距離,通過最小化合成距離與原始點云距離之間的損失,使模型生成精確的占用預(yù)測。通過插值可以得到任意3D點的特征,從而預(yù)測任意分辨率下的3D場景占用。
III. 方法
A. 準(zhǔn)備知識
本節(jié)介紹了NeRF的體積渲染公式,見神經(jīng)輻射場的簡單介紹。
在粗糙采樣的基礎(chǔ)上,還可進行細(xì)化采樣,即根據(jù)粗糙采樣的權(quán)重分布采樣新的點,再將粗糙采樣點與細(xì)化采樣點一起用于計算渲染結(jié)果。損失函數(shù)為粗糙采樣渲染結(jié)果光度損失與細(xì)化采樣渲染結(jié)果光度損失的均值。
對于激光雷達距離合成,將上述渲染公式中的RGB值替換為距離即可。由于點的距離是采樣得到,需要預(yù)測的僅有
σ
\sigma
σ,因此可改為直接預(yù)測不透明度
α
\alpha
α:
d
^
=
∑
i
=
1
N
T
i
α
i
t
i
T
i
=
∑
j
=
1
i
?
1
(
1
?
α
j
)
α
i
=
F
(
x
i
)
\hatn5n3t3z=\sum_{i=1}^NT_i\alpha_it_i\\T_i=\sum_{j=1}^{i-1}(1-\alpha_j)\\\alpha_i=F(x_i)
d^=i=1∑N?Ti?αi?ti?Ti?=j=1∑i?1?(1?αj?)αi?=F(xi?)
其中
F
F
F為3D占用感知模型(見后文)。
B. 概述
如上圖所示,首先用主干網(wǎng)絡(luò)提取圖像特征,并使用空間注意力提升到3D空間得到
V
i
∈
R
H
×
W
×
Z
×
C
V_i\in\mathbb{R}^{H\times W\times Z\times C}
Vi?∈RH×W×Z×C,并使用3D反卷積得到更高分辨率的3D體素特征。最后,使用MLP預(yù)測3D占用結(jié)果。
C. 3D占用感知查詢
定義可學(xué)習(xí)參數(shù) Q ∈ R H × W × Z × C Q\in\mathbb{R}^{H\times W\times Z\times C} Q∈RH×W×Z×C(與初始3D體素 V i V_i Vi?大小相同)。位于網(wǎng)格 p = ( x , y , z ) p=(x,y,z) p=(x,y,z)處的查詢?yōu)?span id="n5n3t3z" class="katex--inline"> Q p ∈ R C Q_p\in\mathbb{R}^C Qp?∈RC。
D. 空間占用交叉注意力
本文使用可變形注意力以減小計算,其中3D體素查詢與2D圖像特征中的相應(yīng)區(qū)域的特征交互。
首先將查詢
Q
p
Q_p
Qp?投影到圖像上,采樣附近的圖像特征,然后按下式得到
V
i
V_i
Vi?:
S
O
C
A
(
Q
p
,
F
)
=
1
∣
V
h
i
t
∣
∑
i
∈
V
h
i
t
D
A
(
Q
p
,
P
(
p
,
i
)
,
F
i
)
D
A
(
q
,
p
,
x
)
=
∑
i
′
=
1
N
h
e
a
d
W
i
′
∑
j
′
=
1
N
k
e
y
A
i
′
j
′
W
i
′
′
x
(
p
+
Δ
p
i
′
j
′
)
SOCA(Q_p,F)=\frac{1}{|\mathcal{V}_{hit}|}\sum_{i\in\mathcal{V}_{hit}}DA(Q_p,\mathcal{P}(p,i),F^i)\\DA(q,p,x)=\sum_{i'=1}^{N_{head}}W_{i'}\sum_{j'=1}^{N_{key}}A_{i'j'}W'_{i'}x(p+\Delta p_{i'j'})
SOCA(Qp?,F)=∣Vhit?∣1?i∈Vhit?∑?DA(Qp?,P(p,i),Fi)DA(q,p,x)=i′=1∑Nhead??Wi′?j′=1∑Nkey??Ai′j′?Wi′′?x(p+Δpi′j′?)
其中 V h i t \mathcal{V}_{hit} Vhit?為查詢所屬視圖數(shù)量, P ( p , i ) \mathcal{P}(p,i) P(p,i)為將點 p p p投影到視圖 i i i上的函數(shù), F i F^i Fi為視圖 i i i的特征。 N h e a d , N k e y N_{head},N_{key} Nhead?,Nkey?分別為注意力頭數(shù)和采樣點數(shù), W i ′ ∈ R C × ( C / N h e a d ) , W i ′ ′ ∈ R ( C / N h e a d ) × C W_{i'}\in\mathbb{R}^{C\times(C/N_{head})},W'_{i'}\in\mathbb{R}^{(C/N_{head})\times C} Wi′?∈RC×(C/Nhead?),Wi′′?∈R(C/Nhead?)×C為權(quán)重, A i ′ j ′ ∈ [ 0 , 1 ] A_{i'j'}\in[0,1] Ai′j′?∈[0,1]為預(yù)測注意力權(quán)重,滿足 ∑ j ′ = 1 N k e y A i ′ j ′ = 1 \sum_{j'=1}^{N_{key}}A_{i'j'}=1 ∑j′=1Nkey??Ai′j′?=1。 Δ p i ′ j ′ ∈ R 2 \Delta p_{i'j'}\in\mathbb{R}^2 Δpi′j′?∈R2為預(yù)測偏移量。
下面是投影函數(shù)
P
(
p
,
i
)
\mathcal{P}(p,i)
P(p,i)的介紹。首先根據(jù)體素索引
(
x
,
y
,
z
)
(x,y,z)
(x,y,z)計算查詢的真實世界坐標(biāo)
(
x
w
,
y
w
,
z
w
)
(x_w,y_w,z_w)
(xw?,yw?,zw?):
x
w
=
x
+
0.5
W
(
X
max
?
?
X
min
?
)
+
X
min
?
y
w
=
x
+
0.5
H
(
Y
max
?
?
Y
min
?
)
+
Y
min
?
z
w
=
x
+
0.5
Z
(
Z
max
?
?
Z
min
?
)
+
Z
min
?
x_w=\frac{x+0.5}{W}(X_{\max}-X_{\min})+X_{\min}\\ y_w=\frac{x+0.5}{H}(Y_{\max}-Y_{\min})+Y_{\min}\\ z_w=\frac{x+0.5}{Z}(Z_{\max}-Z_{\min})+Z_{\min}
xw?=Wx+0.5?(Xmax??Xmin?)+Xmin?yw?=Hx+0.5?(Ymax??Ymin?)+Ymin?zw?=Zx+0.5?(Zmax??Zmin?)+Zmin?
然后使用投影矩陣投影到圖像上:
P
(
p
,
i
)
=
(
x
i
,
y
i
)
z
i
[
x
i
y
i
1
1
/
z
i
]
=
[
K
O
O
1
]
[
R
T
O
1
]
[
x
w
y
w
z
w
1
]
\mathcal{P}(p,i)=(x_i,y_i)\\ z_i\begin{bmatrix}x_i\\y_i\\1\\1/z_i\end{bmatrix}=\begin{bmatrix}K&O\\O&1\end{bmatrix}\begin{bmatrix}R&T\\O&1\end{bmatrix}\begin{bmatrix}x_w\\y_w\\z_w\\1\end{bmatrix}
P(p,i)=(xi?,yi?)zi?
?xi?yi?11/zi??
?=[KO?O1?][RO?T1?]
?xw?yw?zw?1?
?
其中 K , R , T K,R,T K,R,T分別為相機內(nèi)參、外參旋轉(zhuǎn)矩陣與外參平移矩陣, z i z_i zi?為深度。
E. 模型優(yōu)化
除交叉熵?fù)p失和lovasz-softmax損失外,還提出基于點云方向特征的方向體素?fù)p失和基于神經(jīng)渲染的距離損失。
1) 方向體素?fù)p失
如下左圖所示,激光雷達射線會從原點出發(fā),穿過未占用體素(empty顏色)到達占用體素處。記經(jīng)過的體素編號為1到
m
m
m,則方向體素?fù)p失為:
L
d
i
r
v
o
x
e
l
=
1
n
∑
L
1
s
m
o
o
t
h
(
m
log
?
p
c
+
∑
i
=
1
m
?
1
(
m
?
i
)
log
?
(
1
?
p
i
)
,
0
)
L
1
s
m
o
o
t
h
(
x
,
y
)
=
{
0.5
(
x
?
y
)
2
若
∣
x
?
y
∣
<
1
∣
x
?
y
∣
?
0.5
否則
\mathcal{L}_{dirvoxel}=\frac{1}{n}\sum L1_{smooth}(m\log p_c+\sum_{i=1}^{m-1}(m-i)\log(1-p_i),0)\\L1_{smooth}(x,y)=\left\{\begin{matrix}0.5(x-y)^2&若|x-y|<1\\|x-y|-0.5&否則\end{matrix}\right.
Ldirvoxel?=n1?∑L1smooth?(mlogpc?+i=1∑m?1?(m?i)log(1?pi?),0)L1smooth?(x,y)={0.5(x?y)2∣x?y∣?0.5?若∣x?y∣<1否則?
其中 n n n為激光雷達射線數(shù), p i p_i pi?為中間點的預(yù)測占用概率, p c p_c pc?為預(yù)測所屬真實類別的概率。 log ? \log log前的 ( m ? i ) (m-i) (m?i)為權(quán)重,射線從原點到激光雷達點的權(quán)重逐漸減小。方向體素?fù)p失可以促進模型收斂并提高性能。


2) 距離損失
如上右圖所示,粗糙階段將激光雷達射線段均勻分為
N
N
N段進行采樣,細(xì)化階段根據(jù)粗糙階段采樣點的權(quán)重分布,再采樣
N
N
N個點。采樣點的特征從體素特征中插值,并輸入MLP預(yù)測不透明度,進行渲染。距離損失為:
L
d
i
s
t
a
n
c
e
=
1
2
∣
R
∣
∑
(
L
1
s
m
o
o
t
h
(
log
?
d
^
c
,
log
?
d
)
+
L
1
s
m
o
o
t
h
(
log
?
d
^
f
,
log
?
d
)
)
\mathcal{L}_{distance}=\frac{1}{2|\mathcal{R}|}\sum(L1_{smooth}(\log\hat d_c,\log d)+L1_{smooth}(\log\hat d_f,\log d))
Ldistance?=2∣R∣1?∑(L1smooth?(logd^c?,logd)+L1smooth?(logd^f?,logd))
其中 R \mathcal{R} R為射線集合。
IV. 實驗
C. 評估指標(biāo)
使用IoU(不考慮類別)和mIoU評估性能。此外還僅針對激光雷達射線穿過的體素進行評估。
D. 主要結(jié)果
1) nuScenes數(shù)據(jù)集上的3D語義占用預(yù)測
實驗表明,本文的方法與基準(zhǔn)方案相比有更高的性能,且在激光雷達射線穿過的體素上的性能優(yōu)勢更明顯。
可視化表明,本文的方法能更精確地表達物體的結(jié)構(gòu),且能成功預(yù)測一些遠處的物體或小物體。文章來源:http://www.zghlxwxcb.cn/news/detail-822414.html
E. 消融研究
實驗表明,本文的方向體素?fù)p失和距離損失均能提高模型性能,且前者作用更大。文章來源地址http://www.zghlxwxcb.cn/news/detail-822414.html
到了這里,關(guān)于【論文筆記】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!