0. 簡(jiǎn)介
多波束激光雷達(dá)傳感器,常用于自動(dòng)駕駛汽車和移動(dòng)機(jī)器人,獲取三維范圍掃描序列(“幀”)。由于角度掃描分辨率有限和遮擋,每幀只稀疏地覆蓋場(chǎng)景。稀疏性限制了下游過程的性能,如語義分割或表面重建。幸運(yùn)的是,當(dāng)傳感器移動(dòng)時(shí),從不同的視點(diǎn)捕獲幀。這提供了補(bǔ)充信息,并在公共場(chǎng)景坐標(biāo)系中累積時(shí),產(chǎn)生了更密集的采樣和對(duì)基礎(chǔ)三維場(chǎng)景的更全面覆蓋。然而,掃描的場(chǎng)景通常包含移動(dòng)的物體。僅通過補(bǔ)償掃描儀的運(yùn)動(dòng)無法正確對(duì)齊這些移動(dòng)物體上的點(diǎn)。為此文章《Dynamic 3D Scene Analysis by Point Cloud Accumulation》提供了多幀點(diǎn)云積累作為 3D 掃描序列的中間表示,并開發(fā)了一種利用戶外街景幾何布局和剛性物體的歸納偏差的方法。該文代碼也在Github中完成了開源。
Dynamic 3D Scene Analysis by Point Cloud Accumulation
1. 文章貢獻(xiàn)
- 提出了一種新穎的,可學(xué)習(xí)的模型,用于在多幀中時(shí)間累積三維點(diǎn)云序列,將背景與動(dòng)態(tài)前景物體分開。通過將場(chǎng)景分解為隨時(shí)間移動(dòng)的固體物體,我們的模型能夠?qū)W習(xí)多幀運(yùn)動(dòng),并在更長(zhǎng)時(shí)間序列中以上下文的方式推理車輛運(yùn)動(dòng)。
- 該方法允許低延遲處理,因?yàn)樗鼘?duì)原始點(diǎn)云進(jìn)行操作,僅需要它們的序列順序作為進(jìn)一步的輸入。因此,適用于在線場(chǎng)景。
- 相比于之前的工作,本文著重對(duì)移動(dòng)物體和靜止場(chǎng)景相對(duì)于移動(dòng)中的 LiDAR 傳感器運(yùn)動(dòng)建模,而不是對(duì)每一個(gè)點(diǎn)獨(dú)立地估計(jì)運(yùn)動(dòng)流。這樣的方式可以充分利用剛體運(yùn)動(dòng)的假設(shè),從而提升運(yùn)動(dòng)流估計(jì)的準(zhǔn)確性。
2. 詳細(xì)內(nèi)容
多任務(wù)模型的網(wǎng)絡(luò)架構(gòu)在圖2中示意描述。為了隨著時(shí)間累積點(diǎn),我們利用了場(chǎng)景可以分解為移動(dòng)為剛體的代理[19]的歸納偏見。我們首先提取每個(gè)單獨(dú)幀的潛在基礎(chǔ)特征(§3.1),然后將其作為輸入到任務(wù)特定的頭部。為了估計(jì)自我運(yùn)動(dòng),我們使用可微分的配準(zhǔn)模塊(§3.2)。我們不僅使用自我運(yùn)動(dòng)來對(duì)齊靜態(tài)場(chǎng)景部分,還使用它來對(duì)齊基礎(chǔ)特征,這些基礎(chǔ)特征在后續(xù)階段中被重復(fù)使用。為了解釋動(dòng)態(tài)前景的運(yùn)動(dòng),我們利用對(duì)齊的基礎(chǔ)特征并進(jìn)行運(yùn)動(dòng)分割(§3.3)以及動(dòng)態(tài)前景對(duì)象的時(shí)空關(guān)聯(lián)(§3.4)。最后,我們從每個(gè)前景對(duì)象的時(shí)空特征解碼出它的剛體運(yùn)動(dòng)(§3.5)。我們端對(duì)端地訓(xùn)練整個(gè)模型,使用由五個(gè)項(xiàng)組成的損失L:
在下面,我們對(duì)每個(gè)模塊進(jìn)行高層次的描述。詳細(xì)的網(wǎng)絡(luò)架構(gòu)。
2.1 問題設(shè)定
考慮有序點(diǎn)云序列
X
=
X
t
t
=
1
T
X={X^t}^T_{t=1}
X=Xtt=1T?,其由變量大小的
T
T
T 幀組成,每幀
X
t
=
[
x
1
t
,
.
.
.
,
x
i
t
,
.
.
.
,
x
t
n
t
]
∈
R
3
×
n
t
X^t=[x^t_1 ,...,x^t_i ,...,x^t{n_t} ]∈R^{3×n_t}
Xt=[x1t?,...,xit?,...,xtnt?]∈R3×nt? 是由移動(dòng)的車輛在恒定時(shí)間間隔
?
t
?t
?t內(nèi)捕獲。每一幀點(diǎn)云進(jìn)行前景與背景分割。背景點(diǎn)被用來估計(jì)傳感器的自我運(yùn)動(dòng),而前景點(diǎn)則繼續(xù)被分類為移動(dòng)或靜止的前景。我們將第一幀
X
1
X^1
X1 稱為目標(biāo)幀,而其余幀
{
X
t
∣
t
>
1
}
\{X^t | t>1\}
{Xt∣t>1} 稱為原始幀。文中的目標(biāo)是估計(jì)將每個(gè)原始幀對(duì)齊到目標(biāo)幀的流向量
{
V
t
∈
R
3
×
n
t
∣
t
>
1
}
\{V^t∈\mathbb{R}^{3×n_t} | t>1\}
{Vt∈R3×nt?∣t>1},從而累積點(diǎn)云。每個(gè)幀可以分解為靜態(tài)部分
X
s
t
a
t
i
c
t
X^t_{static}
Xstatict? 和
K
t
K_t
Kt? 剛性移動(dòng)動(dòng)態(tài)部分
X
d
y
n
a
m
i
c
t
=
{
X
k
t
}
k
=
1
K
t
X^t_{dynamic}=\{X^t_k \}^{K_t}_{k=1}
Xdynamict?={Xkt?}k=1Kt?? 。具體如下所示:
其中
T
?
X
(
T
?
x
)
T?X(T ? x)
T?X(T?x)表示將變換應(yīng)用于點(diǎn)集
X
X
X(或點(diǎn)
x
x
x)。
2.2 骨干網(wǎng)絡(luò)
骨干網(wǎng)絡(luò)將單幀的 3D 點(diǎn)云轉(zhuǎn)換為俯視圖(BEV)潛在特征圖像。具體來說,我們使用點(diǎn)級(jí) MLP 將點(diǎn)坐標(biāo)提升到更高維潛在空間,然后將它們散射到與重力軸對(duì)齊的 H × W H×W H×W 特征網(wǎng)格中。使用最大池化聚合每個(gè)網(wǎng)格單元(“柱”)的特征,然后通過 2D UNet [37] 擴(kuò)大其感受野并加強(qiáng)局部上下文。骨干網(wǎng)絡(luò)的輸出是每個(gè) T T T幀的 2D 潛在基礎(chǔ)特征圖 F b a s e t F^t_{base} Fbaset?。
2.3 傳感器運(yùn)動(dòng)估計(jì)
我們使用基于對(duì)應(yīng)關(guān)系的配準(zhǔn)模塊單獨(dú)為每個(gè)源幀估計(jì)本體運(yùn)動(dòng) T e g o t T^t_{ego} Tegot?。屬于動(dòng)態(tài)對(duì)象的點(diǎn)可以偏離本體運(yùn)動(dòng)的估計(jì),特別是在使用基于對(duì)應(yīng)關(guān)系的方法時(shí),應(yīng)該被舍棄。然而,在流水線的早期階段,需要考慮場(chǎng)景動(dòng)態(tài)性是很困難的,因此我們采用保守的方法并將點(diǎn)分類為背景和前景,其中前景包含所有可移動(dòng)的對(duì)象(例如,汽車和行人),而不考慮實(shí)際的動(dòng)態(tài)性[19]。預(yù)測(cè)的前景蒙版后來用于在§3.3中指導(dǎo)運(yùn)動(dòng)分割。
我們首先使用兩個(gè)專用的頭部從每個(gè)
F
b
a
s
e
t
F^t_{base}
Fbaset?中提取本體運(yùn)動(dòng)特征
F
e
t
g
o
F^t_ego
Fet?go和前景得分
s
F
G
t
s^t_{FG}
sFGt?,每個(gè)都包含兩個(gè)卷積層,由ReLU激活和批量標(biāo)準(zhǔn)化隔開。然后,我們隨機(jī)抽樣
s
F
G
t
<
τ
s^t_{FG} < τ
sFGt?<τ的Nego背景柱,并計(jì)算柱心坐標(biāo)
P
t
=
p
l
t
P_t = {p^t_l}
Pt?=plt?。本體運(yùn)動(dòng)
T
e
g
o
t
T^t_{ego}
Tegot?被估計(jì)為:
在這里,
?
(
p
l
t
,
P
1
)
?(p^t_l , P^1)
?(plt?,P1) 找到了
p
l
t
p^t_l
plt? 在
P
1
P^1
P1中的軟對(duì)應(yīng),而
w
l
t
w^t_l
wlt?是對(duì)應(yīng)對(duì)
(
p
l
t
,
?
(
p
l
t
,
P
1
)
)
(p^t_l, ?(p^t_l , P^1))
(plt?,?(plt?,P1)) 之間的權(quán)重。
?
(
p
l
t
,
P
1
)
?(p^t_l , P^1)
?(plt?,P1) 和
w
l
t
w^t_l
wlt? 都是使用帶有熵正則化的 Sinkhorn 算法從
F
e
g
o
t
F^t_{ego}
Fegot?估計(jì)出來的,其中
F
e
g
o
t
F^t_{ego}
Fegot?有一些松弛行/列填充[11,66],并且
T
e
g
o
t
T^t_{ego}
Tegot?的最優(yōu)值是通過可微分的Kabsch算法[27]計(jì)算出來的。簡(jiǎn)要來說,其中
p
p
p為 Pillar 中心的坐標(biāo),
?
?
? 為 幀
t
t
t 中Pillar
p
p
p在幀1中的軟映射,
w
w
w為相應(yīng)的映射權(quán)重。文章來源:http://www.zghlxwxcb.cn/news/detail-437342.html
2.4 移動(dòng)物體分割
執(zhí)行動(dòng)作分割,重新使用每幀基礎(chǔ)功能 { F b a s e t } \{F^t_{base}\} {Fbaset?}。具體來說,我們應(yīng)用可微分的特征扭曲方案[49],使用預(yù)測(cè)的自我運(yùn)動(dòng) T e g o t T^t_{ego} Tegot?扭曲每個(gè) F b a s e t F^t_{base} Fbaset?,并通過沿通道維度堆疊扭曲的特征圖來獲得大小為 C × T × H × W C×T×H×W C×T×H×W的時(shí)空3D特征張量。然后將這個(gè)特征張量通過一系列3D卷積層,再經(jīng)過沿時(shí)間維度 T T T的最大池化。最后,我們應(yīng)用一個(gè)小的2D UNet來獲得2D運(yùn)動(dòng)特征圖F motion。為了減少離散誤差,我們將網(wǎng)格運(yùn)動(dòng)特征雙線性插值到每幀中所有前景點(diǎn)上。計(jì)算 x i t x^t_i xit?的點(diǎn)級(jí)運(yùn)動(dòng)特征如下:文章來源地址http://www.zghlxwxcb.cn/news/detail-437342.html
…詳情請(qǐng)參照古月居
到了這里,關(guān)于經(jīng)典文獻(xiàn)閱讀之--PCAccumulation(動(dòng)態(tài)三維場(chǎng)景構(gòu)建)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!