Query 初始化
Input-dependent
以往 Query 位置是隨機生成或學習作為網(wǎng)絡參數(shù)的,而與輸入數(shù)據(jù)無關,因此需要額外的階段(解碼器層)來學習模型向真實對象中心移動的過程。
論文提出了一種基于center heatmap 的 input-dependent 初始化策略。(decoder :6 layers —> 1 layer)
給定一個
d
d
d 維的 LiDAR BEV 特征圖
F
L
∈
R
X
×
Y
×
d
F_L\in \R^{X \times Y \times d}
FL?∈RX×Y×d,首先預測一個 class-specific heatmap
S
^
∈
R
X
×
Y
×
K
\hat S \in \R^{X\times Y \times K}
S^∈RX×Y×K,
X
×
Y
X \times Y
X×Y 表示 BEV 特征圖的大小,
K
K
K 是類別數(shù)量。
然后,將 heatMap 看作
X
×
Y
×
K
X×Y×K
X×Y×K 個候選對象,并選擇所有類別的前
N
N
N 個候選對象作為初始對象 Queries。
選擇局部最大值元素作為對象Queries:避免空間上過于封閉的Queries。這些元素的值大于或等于它們的 8連通 neighbors。
所選候選對象的位置和特征用于初始化Queries位置和Queries特征。
初始對象Queries將位于或接近潛在的對象中心,消除了需要多個解碼器層來細化位置。
Category-aware
BEV平面上的物體都是絕對尺度的,同一類別之間的尺度差異很小。通過為每個 Query 配備 category embedding 來使對象 Queries 具有 Category-aware (類別感知性)。
使用每個選定的候選對象的類別,也就是說 S ^ i , j , k \hat S_{i,j,k} S^i,j,k? 屬于第 k k k 個類別。通過線性映射 one-hot category 向量 到一個 R d \R^d Rd 向量,來將 Query 特征和 category embedding 進行元素求和。
category embedding:
1.在對自我注意模塊中的對象-對象關系和交叉注意模塊中的對象-上下文關系進行建模中作為有用的輔助信息。
2.在預測時,可以傳遞有價值的對象先驗知識,使網(wǎng)絡關注類別內的方差,從而有利于屬性預測。
Transformer Decoder 和 FFN
上圖:左-用于初始邊界框預測的 transformer decoder 層的架構。 右-用于圖像融合的 transformer decoder 層的體系結構。
在對象 Queries 與 特征映射(點云或圖像)的交叉注意力將相關的上下文信息,聚集到候選對象上,而對象 Queries 之間的自我注意則導致不同候選對象之間的成對關系。
將 Query 位置嵌入到 MLP 的
D
D
D 維位置編碼中,并與 Query 特征進行元素求和。 這使得網(wǎng)絡能夠聯(lián)合推理上下文和位置。
然后,通過前饋網(wǎng)絡(FFN)將包含豐富實例信息的
N
N
N 個對象 Queries 獨立的解碼為邊界框和類標簽。
通過并行地將每個對象 Query 譯碼為預測,得到一組預測值
{
b
^
t
,
p
^
t
}
t
N
\{\hat b_t,\hat p_t\}_t^N
{b^t?,p^?t?}tN? 作為輸出,其中
b
^
t
\hat b_t
b^t? 是第
i
i
i 個 Query 的預測邊界框,
p
^
∈
[
0
,
1
]
K
\hat p \in [0,1]^K
p^?∈[0,1]K為
K
K
K 個語義類 pre-class 概率。
采用了輔助譯碼機制,在每個decoder層后加入 FFN 和監(jiān)督。因此,可以從第一個decoder層得到初始邊界框。
LiDAR-Camera 融合
圖像特征提取
點級融合融合質量在很大程度上受到激光雷達點稀疏性的限制。當一個物體只包含少量的激光雷達點時,它只能獲取相同數(shù)量的圖像特征,浪費了高分辨率圖像豐富的語義信息。
論文不提取基于激光雷達點和圖像像素之間的硬關聯(lián)的多視圖圖像特征。保留所有圖像特征
F
C
∈
R
N
v
×
H
×
W
×
d
F_C\in R^{N_v×H×W×d}
FC?∈RNv?×H×W×d 作為 memory bank,并利用 transformer decoder 中的交叉注意機制,以稀疏到密集的自適應方式進行特征融合。在給定來自 convolutional backbones 的一個 LiDAR BEV 特征圖和一個圖像特征圖的基礎上,我們的基于 transformer 的檢測頭首先利用 LiDAR 信息將目標 queriers 解碼為初始邊界框預測,然后通過將目標 queries 與有用的圖像特征集中融合,進行 LiDAR-camera 融合。
用于圖像特征融合的SMCA(空間調制交叉注意)
為了降低帶來的傳感器標定敏感性和圖像劣質特征對硬關聯(lián)策略的影響,利用交叉關注機制建立了激光雷達與圖像之間的軟關聯(lián),使網(wǎng)絡能夠自適應地確定從圖像中獲取信息的位置和內容。
首先使用先前的預測和校準矩陣來識別對象 Queries 所在的特定圖像,然后在對象 Queries 和相應的圖像特征映射之間進行交叉注意。
然而,由于激光雷達特征和圖像特征來自完全不同的領域,目標 Queries 可能涉及到與待預測邊界框無關的視覺區(qū)域,導致網(wǎng)絡需要很長的訓練時間來準確識別圖像上的正確區(qū)域。
SCMA:通過圍繞每個 Query 的投影2D中心的2D圓形高斯 mask 來加權交叉注意。這個2D高斯權重 mask 與 Center-Net 的生成方式類似,
M
i
,
j
=
exp
?
(
?
(
i
?
c
x
)
2
+
(
j
?
c
y
)
2
σ
r
2
)
M_{i,j}=\exp (-\frac{(i-c_x)^2+(j-c_y)^2}{\sigma r^2})
Mi,j?=exp(?σr2(i?cx?)2+(j?cy?)2?),其中
(
i
,
j
)
(i,j)
(i,j)是權重 mask M 的空間索引,
(
c
x
,
c
y
)
(c_x,c_y)
(cx?,cy?) 是通過投影 Query 預測在圖像平面的2D中心,
r
r
r 是3D邊界框的投影角點的最小外接圓半徑,
σ
σ
σ 是調制高斯分布帶寬的超參數(shù)。。然后,這個權重圖與所有注意力頭之間的交叉注意力圖進行基本相乘。這樣,每個對象 Query 只關注投影二維框周圍的相關區(qū)域,從而使網(wǎng)絡能夠更好更快地根據(jù)輸入的激光雷達特征學習在哪里選擇圖像特征。上圖:第一行顯示輸入圖像和投影在圖像上的對象 Query 預測,第二行顯示交叉注意圖。
該網(wǎng)絡通常傾向于關注靠近目標中心的前景像素,而忽略不相關的像素,為目標分類和邊界框回歸提供有價值的語義信息。
在SMCA之后,使用另一個FFN使用包含激光雷達和圖像信息的對象 Queries 來產生最終的邊界框預測。
圖像引導 Query 初始化
recall也叫召回率,記做R,表示你預測的結果中有多少正樣本被正確檢測出來,當R=100%的時候,表示沒有漏檢
僅使用激光雷達特征進行選擇對象 Query ,可能導致在檢測召回率方面存在亞優(yōu)性。
為了進一步利用高分辨率圖像檢測小目標的能力,并使算法對稀疏的激光雷達點云更具魯棒性,利用激光雷達和相機信息選擇對象 Query 。文章來源:http://www.zghlxwxcb.cn/news/detail-503202.html
通過與激光雷達BEV特征
F
L
F_{L}
FL? 交叉關注,將圖像特征
F
C
F_C
FC? 投影到BEV平面上,生成一個激光雷達-相機BEV特征
F
L
C
F_{LC}
FLC?。
使用沿高度軸折疊的 multiView 圖像特征作為注意力機制的 key-value 序列。折疊操作基于觀察到BEV位置與圖像列之間的關系可以很容易地利用攝像機幾何來建立,通常每個圖像列上最多有一個物體。
因此,沿高度軸折疊可以在不丟失關鍵信息的情況下顯著減少計算量。 雖然在這個過程中可能會丟失一些細粒度的圖像特征,但它已經(jīng)滿足了需要:因為它只需要對潛在的目標位置進行提示。使用
F
L
C
F_{LC}
FLC?來預測 heatmap,并用僅有激光雷達的 heatmap
S
^
\hat S
S^ 進行平均,作為最終的 heatmap
S
^
L
C
\hat S_{LC}
S^LC?。利用
S
^
L
C
\hat S_{LC}
S^LC? 選擇和初始化目標 Query ,模型就能夠檢測出激光雷達點云中難以檢測的目標。文章來源地址http://www.zghlxwxcb.cn/news/detail-503202.html
到了這里,關于TransFusion:利用 Transformer 進行魯棒性融合來進行 3D 目標檢測的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!