圖 1:(a) 給定一個不完整 LiDAR 觀測的對象,可能存在多個具有不同大小和形狀的潛在合理的真實(shí)邊界框。 (b) 當(dāng)注釋來自 2D 圖像和部分點(diǎn)時,標(biāo)簽過程中的模糊和不準(zhǔn)確是不可避免的。在給定的情況下,只有后部的汽車類別的類似點(diǎn)云可以用不同長度的不同真實(shí)值框進(jìn)行注釋,長度Length有非常明顯的變化。
在上述現(xiàn)象的推動下,還存在另一類概率檢測器,它們明確考慮了標(biāo)簽?zāi):缘臐撛谟绊?。最后,這些方法可以分為兩種范式,如圖 2 所示,(b)范式傾向于輸出邊界框的概率分布,而不是直接以確定的方式回歸確定的框坐標(biāo)。例如,在高斯分布的假設(shè)下,檢測頭據(jù)此預(yù)測分布的均值和方差。為了監(jiān)督這種概率模型,這些工作只是將真實(shí)邊界框視為Dirac增量分布,然后在估計(jì)分布和真實(shí)值之間應(yīng)用 KL 散度。
注:KL散度的概念來源于概率論和信息論中。KL散度又被稱為:相對熵、互熵、鑒別信息。在機(jī)器學(xué)習(xí)、深度學(xué)習(xí)領(lǐng)域中,KL散度被廣泛運(yùn)用于變分自編碼器中、EM算法、GAN網(wǎng)絡(luò)中。在統(tǒng)計(jì)學(xué)意義上來說,KL散度可以用來衡量兩個分布之間的差異程度。若兩者差異越小,KL散度越小,反之亦反。當(dāng)兩分布一致時,其KL散度為0。正是因?yàn)槠淇梢院饬績蓚€分布之間的差異,所以在VAE、EM、GAN中均有使用到KL散度。
圖 2:概率對象檢測器的兩種不同學(xué)習(xí)范式的圖示:(a)在檢測頭中采用概率建模,但本質(zhì)上仍然忽略地面實(shí)況邊界框模糊性問題的方法。 (b)明確估計(jì)真實(shí)邊界框分布以用作更可靠的監(jiān)督信號的方法。
顯然,這些方法的主要限制在于它們無法從本質(zhì)上解決標(biāo)簽?zāi):龁栴},因?yàn)榈孛鎸?shí)況邊界框仍然被認(rèn)為是具有零不確定性的確定性。為此,學(xué)習(xí)框架的第二范式試圖量化源自一些簡單啟發(fā)式或貝葉斯的標(biāo)簽不確定性,這樣檢測器可以在更可靠的邊界框分布。然而,由于建模能力不足,這些方法仍然不能產(chǎn)生令人滿意的標(biāo)簽不確定性估計(jì)結(jié)果??偟膩碚f,這一系列工作仍處于初始階段,研究數(shù)量非常有限,盡管它在以數(shù)據(jù)驅(qū)動的方式產(chǎn)生更高質(zhì)量的標(biāo)簽不確定性估計(jì)方面具有更大的潛力。
本文在架構(gòu)上遵循第二種設(shè)計(jì)理念,我們特別定制了一個強(qiáng)大的基于深度學(xué)習(xí)的標(biāo)簽不確定性量化框架,以提高估計(jì)的真實(shí)邊界框分布的可靠性。從技術(shù)上講,我們將標(biāo)簽不確定性問題表述為潛在合理邊界框的多樣性,并在基于學(xué)習(xí)的框架中明確建模典型 3D 對象與其潛在合理真實(shí)框之間的一對多關(guān)系。從技術(shù)上講,我們提出了 GLENet,這是一種改編自條件的變分自動編碼器的新型深度生成網(wǎng)絡(luò),它引入了一個潛在變量來捕獲點(diǎn)云對象的潛在合理邊界框上的分布。圖 3:通過多次采樣潛在變量,說明GLENet的多個可能合理的邊界框。點(diǎn)云、真值框和GLENet預(yù)測框分別用黑色、紅色和綠色表示。GLENet 為稀疏點(diǎn)云和不完整輪廓表示的對象生成不同的預(yù)測,并為具有高質(zhì)量點(diǎn)云的對象生成一致的邊界框。GLENet 多次預(yù)測的方差用于估計(jì)帶注釋的地面真值邊界框的不確定性。
在推理過程中,我們對潛在變量進(jìn)行多次采樣以生成不同的邊界框(圖 3),其方差作為標(biāo)簽不確定性來指導(dǎo)下游檢測任務(wù)中定位不確定性估計(jì)的學(xué)習(xí)。此外,基于觀察到概率檢測器中定位不確定性較低的檢測結(jié)果往往具有準(zhǔn)確的實(shí)際定位質(zhì)量(見 4.2 節(jié)),我們進(jìn)一步提出了不確定性感知質(zhì)量評估器(UAQE),它有助于使用定位不確定性估計(jì)訓(xùn)練 IoU 分支。
為了證明我們的有效性和普遍性,我們將 GLENet 集成到幾個流行的 3D 對象檢測框架中,以構(gòu)建強(qiáng)大的概率檢測器。在 KITTI 和 Waymo數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們的方法可以帶來一致的性能提升并實(shí)現(xiàn)當(dāng)前最先進(jìn)的水平。特別是,在競爭激烈的 KITTI 3D 檢測基準(zhǔn)上,所提出的 GLENet-VR 大大超過了所有已發(fā)布的單模態(tài)檢測方法,并在所有已發(fā)布的基于 LiDAR 的方法中排名第一。
我們將本文的主要貢獻(xiàn)總結(jié)如下:
- 我們是第一個將 3D 標(biāo)簽不確定性問題表述為對象的潛在合理邊界框的多樣性。為了捕捉典型 3D 對象和可能合理的真實(shí)邊界框之間的一對多關(guān)系,我們提出了一個名為 GLENet 的深度生成模型。此外,我們引入了一個通用且統(tǒng)一的基于深度學(xué)習(xí)的范式,包括網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)、評估指標(biāo)等。
- 受定位質(zhì)量和概率檢測器中預(yù)測不確定性之間強(qiáng)相關(guān)性的啟發(fā),我們提出了 UAQE 來促進(jìn) IoU 分支的訓(xùn)練。
在本文的其余部分安排如下:
- 在第 2 節(jié),回顧了基于 LiDAR 的檢測器和標(biāo)簽不確定性估計(jì)方法的現(xiàn)有工作。
- 在第 3 節(jié),從概率分布的角度明確地制定了標(biāo)簽不確定性估計(jì)問題,然后是 GLENet 的技術(shù)實(shí)現(xiàn)。
- 在第 4 節(jié),介紹了一種將 GLENet 預(yù)測的標(biāo)簽不確定性統(tǒng)計(jì)數(shù)據(jù)集成到現(xiàn)有 3D 對象檢測框架中的統(tǒng)一方法,以構(gòu)建更強(qiáng)大的概率檢測器,以及一些理論分析。
- 在第 5 節(jié),在 KITTI 數(shù)據(jù)集和 Waymo Open 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),以證明我們的方法在增強(qiáng)現(xiàn)有 3D 檢測器和消融研究以分析不同組件的效果方面的有效性。
- 在第 6 節(jié),最后總結(jié)了本文。
2 相關(guān)工作
2.1 基于激光雷達(dá)的 3D 目標(biāo)檢測
現(xiàn)有的 3D 物體檢測器可以分為兩類:單級和兩級。對于單級檢測器,Zhou 提出將原始點(diǎn)云轉(zhuǎn)換為常規(guī)體積表示,并采用基于體素的特征編碼。嚴(yán)等提出了一種更有效的稀疏卷積。朗使用柱子將點(diǎn)云轉(zhuǎn)換為稀疏的假圖像。與 2D 目標(biāo)檢測相比,3D 目標(biāo)檢測中由于遮擋和信號遺漏導(dǎo)致的邊界模糊問題更為嚴(yán)重。 SPG 研究嘗試使用點(diǎn)云補(bǔ)全方法來恢復(fù)物體的完整形狀并提高檢測性能。但是,僅使用不完整的點(diǎn)云生成完整且精確的形狀并非易事。
2.2 概率 3D 物體檢測器
深度學(xué)習(xí)預(yù)測中有兩種類型的不確定性。一種不確定性,稱為任意不確定性,是由觀測數(shù)據(jù)中的固有噪聲引起的,無法消除。另一種類型稱為認(rèn)知不確定性或模型不確定性,這是由不完整的訓(xùn)練引起的,可以通過更多的訓(xùn)練數(shù)據(jù)來緩解。大多數(shù)現(xiàn)有的最先進(jìn)的 2D和 3D對象檢測器都會產(chǎn)生確定性框每次檢測都有一個置信度分?jǐn)?shù)。雖然概率分?jǐn)?shù)代表了存在性和語義置信度,但它不能很好地反映預(yù)測定位的不確定性。相比之下,概率目標(biāo)檢測器估計(jì)預(yù)測邊界框的概率分布,而不是采用它們作為確定性結(jié)果。 Choi 將預(yù)測框建模為高斯分布,其方差可以指示定位不確定性,并通過檢測頭中的附加層進(jìn)行預(yù)測。它在預(yù)測的高斯分布和建模為狄拉克函數(shù)的真實(shí)邊界框之間引入了 KL 損失,因此回歸分支有望輸出更大的方差并獲得更小的不準(zhǔn)確定位估計(jì)損失對于邊界不明確的情況。與將盒子建模為高斯分布的常見做法不同,Harakeh 學(xué)習(xí)了多元高斯分布的協(xié)方差矩陣的非對角元素作為不確定性估計(jì)。邁耶提出了一種概率 3D 對象檢測器,將邊界框角的分布建模為拉普拉斯分布。然而,大多數(shù)概率檢測器將地面實(shí)況邊界框視為確定性的狄拉克增量分布,而忽略了地面實(shí)況的模糊性。因此,定位方差實(shí)際上是以無監(jiān)督的方式學(xué)習(xí)的,這可能導(dǎo)致次優(yōu)的定位精度和不穩(wěn)定的訓(xùn)練。
2.3 標(biāo)簽不確定度估計(jì)
標(biāo)簽噪聲(或不確定性)是現(xiàn)實(shí)世界數(shù)據(jù)集中的常見問題,可能會嚴(yán)重影響監(jiān)督學(xué)習(xí)算法的性能。由于神經(jīng)網(wǎng)絡(luò)容易過度擬合甚至完全隨機(jī)噪聲,因此防止網(wǎng)絡(luò)過度擬合噪聲標(biāo)簽非常重要。一個明顯的解決方案是考慮錯誤分類樣本的標(biāo)簽是不確定的并移除樣本。加西亞基于為一組二元分類器計(jì)算的噪聲度預(yù)測的聚合,使用軟投票方法來近似每個樣本的噪聲水平。當(dāng)大多數(shù)分類器預(yù)測噪聲樣本的相同標(biāo)簽時,通過糾正標(biāo)簽擴(kuò)展了這項(xiàng)工作。自信學(xué)習(xí)通過估計(jì)噪聲標(biāo)簽和真實(shí)標(biāo)簽的聯(lián)合分布來估計(jì)數(shù)據(jù)集標(biāo)簽的不確定性。然而,上述研究主要集中在圖像分類任務(wù)上。
只有有限數(shù)量的先前工作專注于量化帶注釋的真實(shí)邊界框的不確定性統(tǒng)計(jì)。 Meyer 和 Thakurdesai 提出通過標(biāo)簽邊界框與聚合 LiDAR 觀測值的相應(yīng)凸包之間的 IoU 對標(biāo)簽不確定性進(jìn)行建模。然而,它是非基于學(xué)習(xí)的,因此建模能力有限。此外,它只會產(chǎn)生整個真實(shí)框的不確定性,而不是每個維度。王提出了一種貝葉斯方法,通過使用高斯混合模型量化給定邊界框的點(diǎn)云匹配度來估計(jì)標(biāo)簽噪聲。然而,它關(guān)于點(diǎn)云之間的條件概率獨(dú)立性的假設(shè)在實(shí)踐中通常是站不住腳的。不同的是,我們將標(biāo)簽不確定性表述為潛在合理邊界框的多樣性。
可能有一些對象的點(diǎn)數(shù)很少,與對應(yīng)的標(biāo)記 Bbox 的學(xué)習(xí)表面點(diǎn)完全匹配,因此Wang認(rèn)為該標(biāo)簽是確定性的。但是對于具有稀疏點(diǎn)云的對象,我們的 GLENet 將輸出不同且合理的 Bbox,并基于它們進(jìn)一步估計(jì)高標(biāo)簽不確定性,而不管點(diǎn)是否與給定標(biāo)簽匹配。一般來說,使用貝葉斯范式將注釋框的正確性估計(jì)為標(biāo)簽不確定性,而我們的方法將其表述為潛在合理邊界框的多樣性并通過 GLENet 進(jìn)行預(yù)測。
2.4 條件式變換自編碼機(jī)
變分自動編碼器 (VAE) 已廣泛用于圖像和形狀生成任務(wù) 。它將自然樣本轉(zhuǎn)換為可以提取潛在變量并將其傳遞給解碼器網(wǎng)絡(luò)以生成不同樣本的分布。孫提出了條件變分自動編碼器(CVAE),用一個額外的條件擴(kuò)展了 VAE,以監(jiān)督生成過程。在 NLP 領(lǐng)域,VAE 已廣泛應(yīng)用于許多文本生成任務(wù),例如對話響應(yīng) 、機(jī)器翻譯、故事生成和詩歌創(chuàng)作。 VAE 和 CVAE 也已應(yīng)用于計(jì)算機(jī)視覺任務(wù),例如圖像生成 、人體姿態(tài)估計(jì)、醫(yī)學(xué)圖像分割 、顯著目標(biāo)檢測和人體運(yùn)動動力學(xué)建模。最近,VAE 和 CVAE 算法也被廣泛應(yīng)用于 3D 點(diǎn)云的應(yīng)用,例如生成抓取姿勢和實(shí)例分割。
受 CVAE 在對話系統(tǒng)中生成各種合理響應(yīng)的啟發(fā),我們提出了從 CVAE 改編的 GLENet,以捕獲具有不完整點(diǎn)云的對象與可能合理的真實(shí)邊界框之間的一對多關(guān)系。據(jù)我們所知,我們是第一個在 3D 對象檢測中使用 CVAE 來模擬標(biāo)簽不確定性的。
3 建議標(biāo)簽不確定性估計(jì)
如前所述,帶注釋的真實(shí)標(biāo)簽的模糊性廣泛存在于 3D 對象檢測場景中,并對深度模型學(xué)習(xí)過程產(chǎn)生不利影響,這在以前的工作中沒有得到很好的解決甚至完全忽略。為此,我們提出了 GLENet,這是一個通用且統(tǒng)一的深度學(xué)習(xí)框架,它通過對點(diǎn)云對象和可能合理的邊界框標(biāo)簽之間的一對多關(guān)系進(jìn)行建模來生成標(biāo)簽不確定性。然后將單個對象的 GLENet 多個輸出的方差計(jì)算為標(biāo)簽不確定性,將其擴(kuò)展為輔助回歸目標(biāo),以增強(qiáng) 3D 對象檢測任務(wù)的性能。
3.1 問題表述
我們將對象的帶注釋的ground-truth標(biāo)簽的不確定性表述為對象的潛在合理邊界框的多樣性,這可以通過潛在邊界框分布的方差來定量測量。首先,我們以點(diǎn)云 ?? 為條件對這些潛在框的分布進(jìn)行建模,表示為 。具體來說,基于貝葉斯定理,我們引入一個中間變量??來將條件分布寫為:
P
(
X
∣
C
)
=
∫
z
p
(
X
∣
z
,
C
)
p
(
z
∣
C
)
d
z
P(X|C)=\int_ zp(X|z,C)p(z|C) dz
P(X∣C)=∫z?p(X∣z,C)p(z∣C)dz
然后,在已知情況下,我們可以采用蒙特卡羅方法通過多次采樣??得到多個邊界框預(yù)測,并逼近采樣預(yù)測的結(jié)果相同。下面,我們將介紹我們基于學(xué)習(xí)的框架 GLENet 來實(shí)現(xiàn)估計(jì)過程。
3.2 GLENet的推理過程
圖 4:GLENet 的整體工作流程。在訓(xùn)練階段,我們通過先驗(yàn)網(wǎng)絡(luò)
P
r
i
o
r
?
n
e
t
w
o
r
k
Prior\ network
Prior?network學(xué)習(xí)潛在變量
z
z
z(對應(yīng)
z
′
z'
z′)的參數(shù)
μ
\mu
μ和
σ
\sigma
σ(對應(yīng)
μ
′
\mu'
μ′和
σ
′
\sigma'
σ′),接著由一組對
z
′
z'
z′的采樣和由
C
o
n
t
e
x
t
?
E
n
c
o
d
e
r
Context\ Encoder
Context?Encoder產(chǎn)生的對應(yīng)幾何
E
m
b
e
d
d
i
n
g
Embedding
Embedding被一起用來評估邊界框的分布。在推理階段,我們從
z
z
z分布中多次采樣以生成不同的邊界框,將其方差用作標(biāo)簽不確定性。
注:什么是深度學(xué)習(xí)里的Embedding?這個概念在深度學(xué)習(xí)領(lǐng)域最原初的切入點(diǎn)是所謂的Manifold Hypothesis(流形假設(shè))。流形假設(shè)是指“自然的原始數(shù)據(jù)是低維的流形嵌入于(embedded in)原始數(shù)據(jù)所在的高維空間”。那么,深度學(xué)習(xí)的任務(wù)就是把高維原始數(shù)據(jù)(圖像,句子)映射到低維流形,使得高維的原始數(shù)據(jù)被映射到低維流形之后變得可分,而這個映射就叫嵌入(Embedding)
3.3 GLENet 的訓(xùn)練過程
3.3.1 Recognition Network
其中
(
w
a
,
l
a
,
h
a
)
(w^a,l^a,h^a)
(wa,la,ha)是預(yù)先定好的點(diǎn)云中心anchor的尺寸,
d
=
(
l
a
)
2
+
(
w
a
)
2
d=\sqrt{(l^a)^2+(w^a)^2}
d=(la)2+(wa)2?是anchor對角線。我們還將
c
o
s
(
r
)
cos(r)
cos(r) 作為識別網(wǎng)絡(luò)的附加輸入來處理角度周期性問題。
3.3.2 目標(biāo)函數(shù)
在 CAVE 之后,我們通過最大化條件對數(shù)似然的變分下限來優(yōu)化 GLENet
4 具有標(biāo)簽不確定性的概率 3D 檢測器
為了將典型檢測器改造成概率目標(biāo)檢測器,我們可以強(qiáng)制檢測頭估計(jì)邊界框上的概率分布,表示為 P Θ ( y ) P_\Theta(y) PΘ?(y),而不是確定性邊界框位置:
因此,我們還假設(shè)真實(shí)邊界框?yàn)楦咚狗植??? ?? (??),方差為 ?? 2 ,其值由 GLENet 估計(jì):
4.1 分析KL-Loss
當(dāng)忽略標(biāo)簽?zāi):圆⒄鎸?shí)邊界框公式化為 Dirac delta 函數(shù)時,方程式中的損失化為
因此,當(dāng)預(yù)測分布達(dá)到最優(yōu)解時,即為真值分布,導(dǎo)數(shù)都變?yōu)榱?,這是損失函數(shù)的理想屬性,避免了上述梯度爆炸問題。
圖 5 顯示了在不同標(biāo)簽不確定性 ?? 下的 KL 散度損失函數(shù)的情況,它們在形狀和屬性上顯著不同。 但是,當(dāng)我們引入估計(jì)的標(biāo)簽不確定性并且預(yù)測分布等于 ground-truth 分布時,KL Loss 的最小值確定為 0.5,梯度更平滑。
4.2不確定性感知質(zhì)量估計(jì)器
大多數(shù)最先進(jìn)的兩階段 3D 對象檢測器預(yù)測 IoU 相關(guān)的置信度分?jǐn)?shù),指示定位質(zhì)量,而不是將分類分?jǐn)?shù)作為 NMS(非最大抑制)中的排序標(biāo)準(zhǔn)。如圖 6 所示,可以觀察到每個邊界框的不確定性與實(shí)際定位質(zhì)量之間存在很強(qiáng)的相關(guān)性,這鼓勵我們使用不確定性作為判斷框質(zhì)量的標(biāo)準(zhǔn)。然而,估計(jì)的不確定性是 7 維的,因此直接用不確定性替換 IoU 置信度分?jǐn)?shù)是不可行的。為此,我們提出了不確定性感知質(zhì)量估計(jì)器(UAQE),它引入了不確定性信息以促進(jìn) IoU 分支的訓(xùn)練并提高 IoU 估計(jì)的準(zhǔn)確性。具體來說,如圖 7 所示,給定預(yù)測的不確定性作為輸入,我們構(gòu)建了一個輕量級子模塊,該子模塊由兩個全連接 (FC) 層組成,隨后是 Sigmoid 激活以生成系數(shù)。然后我們將 IoU 分支的原始輸出乘以系數(shù)作為最終估計(jì)。
4.3 3D 方差投票
考慮到在概率目標(biāo)檢測器中,通過 KL 損失學(xué)習(xí)的定位方差可以反映預(yù)測邊界框的不確定性,我們還提出了 3D 方差投票來組合相鄰邊界框?qū)で蟾_的框表示。具體來說,在循環(huán)中的單次迭代中,選擇得分最高的框??,并根據(jù)自身和相鄰框計(jì)算其新位置。在合并過程中,距離較近且方差較小的相鄰框被賦予較高的權(quán)重。請注意,與 ?? 角度差較大的相鄰框不參與角度的集成。我們建議讀者參考算法 1 了解詳細(xì)信息。文章來源:http://www.zghlxwxcb.cn/news/detail-402352.html
5 實(shí)驗(yàn)
為了揭示我們方法的有效性和普遍性,我們將 GLENet 集成到幾種流行的 3D 對象檢測框架中以形成概率檢測器,并在兩個常用的基準(zhǔn)數(shù)據(jù)集上進(jìn)行評估,即 Waymo 開放數(shù)據(jù)集 (WOD) (Sun et al., 2020) 和 KITTI 數(shù)據(jù)集 (Geiger et al., 2012)。具體來說,我們首先在 5.1 節(jié)中介紹具體的實(shí)驗(yàn)設(shè)置和實(shí)現(xiàn)細(xì)節(jié)。之后,我們在第 5.2 節(jié)和第 5.3 節(jié)中報告了生成的概率檢測器的檢測性能,并與以前的最先進(jìn)方法進(jìn)行了比較。最后,我們進(jìn)行了一系列消融研究,以驗(yàn)證第 5.4 節(jié)中不同關(guān)鍵組件和配置的必要性。文章來源地址http://www.zghlxwxcb.cn/news/detail-402352.html
到了這里,關(guān)于CVPR2022 3D目標(biāo)檢測(GLENet )增強(qiáng)型3D目標(biāo)檢測網(wǎng)絡(luò)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!