多模態(tài)背景
在駕駛場(chǎng)景中,自動(dòng)駕駛車輛需要精準(zhǔn)高效的感知運(yùn)算,時(shí)刻預(yù)測(cè)其所處的駕駛環(huán)境。 其中,感知系統(tǒng)將各種傳感器數(shù)據(jù)轉(zhuǎn)化為語義信息,是自動(dòng)駕駛系統(tǒng)的核心和不可缺少的組成部分。圖像具有豐富的語義信息,點(diǎn)云包含深度信息。 兩者具有互補(bǔ)特性,可以提高三維物體檢測(cè)精度,幫助車輛更好地感知周圍環(huán)境。
3D 目標(biāo)檢測(cè),可以智能預(yù)測(cè)車輛附近重要目標(biāo)的位置、大小和類別,在感知系統(tǒng)中起著基礎(chǔ)作用,為下游感知任務(wù)提供目標(biāo)級(jí)信息.
最初,僅使用激光雷達(dá)點(diǎn)云或圖像的單模態(tài)方法得到了迅速發(fā)展。 然而,只有一種模態(tài)有其自身的缺陷。
Y. Guo, H. Wang, Q. Hu, H. Liu, L. Liu, and M. Bennamoun, “Deep learning for 3d point clouds: A survey,” IEEE transactions on pattern analysis and machine intelligence, vol. 43, no. 12, pp. 4338–4364, 2020.
基于點(diǎn)云的方法:由于點(diǎn)云在紋理和遮擋區(qū)域提供的信息較差,在遠(yuǎn)距離時(shí)更為嚴(yán)重,因此點(diǎn)云的稀疏性和無序性大大限制了它們的性能。
基于圖像的方法:提供了足夠的紋理和上下文信息,但沒有提供足夠的幾何信息。
為了解決單一模態(tài)的內(nèi)在局限性,人們提出了多模態(tài)方法,希望通過多源融合來提供更好、更完整的 3D 環(huán)境感知。
多模態(tài)方法
Multi-view 方法提出將來自不同模態(tài)的輸入融合到同一維度。
frustum-baed 模型為組合異構(gòu)特征提供了一種新的方法。
基于特征的融合技術(shù)在多模態(tài)任務(wù)中得到了廣泛的應(yīng)用,從而開創(chuàng)了基于特征的多模態(tài)三維目標(biāo)檢測(cè)方法的發(fā)展趨勢(shì)。
不同維度的特征會(huì)產(chǎn)生大量額外的噪聲、更多的時(shí)間消耗等。
多模態(tài)方法主要關(guān)注三個(gè)問題:
1.數(shù)據(jù)表示是一個(gè)基本的組成部分,要挖掘和總結(jié)異構(gòu)模式的互補(bǔ)性。
2.由于坐標(biāo)系的異構(gòu)性,需要確定兩個(gè)或多個(gè)模態(tài)之間的關(guān)系。
3.要將異構(gòu)數(shù)據(jù)組合成聯(lián)合信息。
比較出名的 3D 目標(biāo)檢測(cè)工作:
3D 目標(biāo)檢測(cè)背景
3D 目標(biāo)檢測(cè)
問題描述
3D 目標(biāo)檢測(cè)問題定義為: β ( b 1 , b 2 , . . . , b N ) = F d e t e c t ( α ) (1) \tag{1}\beta(b_{1},b_{2},...,b_{N})=F_{detect}(\alpha) β(b1?,b2?,...,bN?)=Fdetect?(α)(1) 其中 β ( b 1 , b 2 , . . . , b N ) \beta(b_{1},b_{2},...,b_{N}) β(b1?,b2?,...,bN?) 表示在一幀視角中一個(gè)包含 N N N 個(gè)目標(biāo)狀態(tài)的集合。 ( b 1 , b 2 , . . . , b N ) (b_{1},b_{2},...,b_{N}) (b1?,b2?,...,bN?) 是 N N N 個(gè) 3D 目標(biāo)。 F d e t e c t F_{detect} Fdetect? 是 3D 檢測(cè)函數(shù), α \alpha α 是輸入數(shù)據(jù),通常來自于傳感器。 b i b_i bi?(邊界框)通常包含位置、大小、類別等信息,根據(jù)模型集可能包含更多信息。
傳感器類型
Monocular Camera: 相機(jī)捕捉的圖像具有豐富的色彩和紋理屬性,具有高幀率和可忽略不計(jì)的成本優(yōu)勢(shì)。 但它缺乏深度信息,易受光照影響。
Stereo Camera: 深度感知能力強(qiáng),對(duì)光照條件不敏感,適合遠(yuǎn)距離測(cè)量和機(jī)器人視覺 ;但成本較高,需要校準(zhǔn),易失真,視野有限,不適合透明或反射表面 。
LiDAR: 激光雷達(dá)提供高精度、高密度、高分辨率的點(diǎn)云數(shù)據(jù),用于目標(biāo)檢測(cè)。需要大量的計(jì)算資源,并且對(duì)不利的天氣條件很敏感。
RADAR: 以在大范圍內(nèi)測(cè)量點(diǎn)云數(shù)據(jù),不受環(huán)境條件影響,并探測(cè)運(yùn)動(dòng)物體。 但其測(cè)量精度和目標(biāo)分辨率較低,且會(huì)受到反射干擾的影響。
數(shù)據(jù)集和評(píng)估指標(biāo)
KITTI
Dataset:由 Karlsruhe Institute of Technology 和 Toyota Institute of Technology 在 2012 年聯(lián)合創(chuàng)建。KITTI 數(shù)據(jù)集通過駕駛采集車獲取數(shù)據(jù),包括來自城市、公路和農(nóng)村場(chǎng)景的數(shù)據(jù)。 每幀最多可包含15輛車和30名行人,并有不同程度的遮擋和截?cái)唷?該數(shù)據(jù)集包括 389 個(gè)立體圖像對(duì)、光流圖、39.2 km 可視范圍序列、15000 個(gè)點(diǎn)云幀和 200000 個(gè)人工標(biāo)記的三維目標(biāo)幀。 數(shù)據(jù)采集車有兩個(gè)灰度,兩個(gè)彩色攝像機(jī),一個(gè)Velodyne 64線激光雷達(dá),四個(gè)光學(xué)鏡頭和一個(gè)GPS導(dǎo)航系統(tǒng)。 KITTI 提供了 3D 感知基準(zhǔn)中的原始數(shù)據(jù)、每個(gè)對(duì)應(yīng)基準(zhǔn)的不同評(píng)估度量,以及測(cè)試和比較不同方法性能的在線測(cè)試平臺(tái)。
評(píng)估:KITTI 使用
A
P
R
40
APR_{40}
APR40? 插值方法作為他們的官方評(píng)估方法。 兩種類型在官方的KITTI評(píng)估中排名,包括 3D 目標(biāo)檢測(cè)和鳥瞰(BEV)檢測(cè)。 在 3D 目標(biāo)檢測(cè)評(píng)價(jià)中,3D 相交比 (3D intersection over Union, 3D IoU) 作為檢測(cè)閾值,預(yù)測(cè)的邊界框(predicted bounding box)與真實(shí)邊界框(real bounding box)相交比大于閾值,則認(rèn)為檢測(cè)正確。 它是通過將 3D 邊界框投影到地面上進(jìn)行評(píng)估等來計(jì)算的。
KITTI數(shù)據(jù)集使用
A
P
R
40
APR_{40}
APR40? 到2019年8月10日,3D目標(biāo)檢測(cè)的評(píng)價(jià)標(biāo)準(zhǔn)從
A
P
R
11
APR_{11}
APR11? 調(diào)整至
A
P
R
40
APR_{40}
APR40?。
KITTI數(shù)據(jù)集還根據(jù)目標(biāo)的識(shí)別程度將其分為三種困難:容易、中等和難。
對(duì)于目標(biāo)方位預(yù)測(cè)(For object orientation prediction),KITTI使用了一種新的評(píng)估度量,平均方向相似性 AOS (Average Orientation Similarity): A O S = 1 11 ∑ r ∈ 0 , 0.1 , . . . , 1 max ? r ? : r ? ≥ r s ( r ? ) (2) \tag 2 AOS=\frac{1}{11}\sum_{r\in0,0.1,...,1}{\max_{\~r:\~r\geq r}s(\~r)} AOS=111?r∈0,0.1,...,1∑?r?:r?≥rmax?s(r?)(2)其中 r r r 表示 PASCAL 目標(biāo)檢測(cè)中的召回; s s s 表示方向相似度,取值范圍為 [ 0 , 1 ] [0,1] [0,1]; s ( r ) s(r) s(r)是余弦相似度的一個(gè)變體,定義為: s ( r ) = 1 ∣ D ( r ) ∣ ∑ i ∈ D ( r ) 1 + cos ? Δ θ ( i ) 2 δ i (3) \tag 3 s(r)=\frac{1}{|D(r)|}\sum_{i \in {D(r)}}\frac{1+\cos \Delta_\theta^{(i)}}{2}\delta_i s(r)=∣D(r)∣1?i∈D(r)∑?21+cosΔθ(i)??δi?(3) 其中 D ( r ) D(r) D(r) 表示在召回率 r r r 下所有目標(biāo)檢測(cè)結(jié)果的集合。 Δ θ ( i ) \Delta_\theta^{(i)} Δθ(i)? 是探測(cè)對(duì)象 i i i 的預(yù)測(cè)方向和真實(shí)方向之間的角度差。
召回率(Recall):也稱為查全率,表示真正為正類別的樣本中被正確分類為正類別的比例。計(jì)算公式為:Recall = TP / (TP + FN),其中TP是真正例,F(xiàn)N是假反例(模型錯(cuò)誤預(yù)測(cè)為負(fù)類別的樣本數(shù))。
nuScenes
Dataset:是 NuTonomy 于2019年構(gòu)建的自動(dòng)駕駛大型數(shù)據(jù)集。nuScenes 提供了一些優(yōu)秀的基準(zhǔn),如 3D 目標(biāo)檢測(cè)和 3D 跟蹤,并提出了相應(yīng)的在線基準(zhǔn),用于測(cè)試和比較眾多作品的性能。 為了使數(shù)據(jù)多樣化,Nuscenes在波士頓和新加坡進(jìn)行了收集,這兩個(gè)城市以復(fù)雜的交通環(huán)境和挑戰(zhàn)性的駕駛條件而聞名。 在這兩個(gè)城市中,收集了 1000 個(gè)完整的場(chǎng)景,每個(gè)場(chǎng)景約 20 秒,包含晴天、雨天和黑夜等復(fù)雜場(chǎng)景。 nuScenes 總共包括大約 140 萬個(gè)相機(jī)圖像、39 萬個(gè)激光雷達(dá)掃描、130 萬個(gè)毫米波雷達(dá)掃描和 140 萬個(gè) 3D 物體標(biāo)注。 與其他數(shù)據(jù)集相比,它的所有傳感器都提供了360度的視圖。 具體來說,Nuscenes有六個(gè)攝像頭,五個(gè)雷達(dá)和一個(gè)激光雷達(dá)。 這些多角度攝像機(jī)和雷達(dá)允許 nuScenes 從不同角度獲得視圖,從而形成一個(gè)像樣的360度場(chǎng)景。
評(píng)估:nuScenes 數(shù)據(jù)集利用 nuScenes 檢測(cè)得分(NDS,nuScenes Detection Score)作為評(píng)估分析的度量: N D S = 1 10 [ 5 m A P + ∑ m T P ∈ T P ( 1 ? min ? ( 1 , m Y P ) ) ] (4) \tag 4 NDS=\frac{1}{10}[5mAP+\sum_{mTP\in TP}(1-\min(1,mYP))] NDS=101?[5mAP+mTP∈TP∑?(1?min(1,mYP))](4)其中,MAP表示均值平均精度; MTP(True Positive metrics)由5個(gè)度量組成: (1)平均翻譯誤差 Average Translation Error (ATE); (2)平均標(biāo)度誤差 Average Scale Error (ASE); (3)平均方位誤差 Average Orientation Error (AOE); (4)平均速度誤差 Average Velocity Error (AVE); (5)平均屬性誤差 Average Attribute Error, (AAE)。mTP 是每個(gè)類的平均 mTP 是每個(gè)類的平均mTP: m T P = 1 ∣ C ∣ ∑ c ∈ C T P c (5) \tag 5 mTP=\frac{1}{|C|}\sum_{c\in C}TP_c mTP=∣C∣1?c∈C∑?TPc?(5)其中 C C C 是目標(biāo)類別的集合??傊琋DS是一個(gè)組合度量,它結(jié)合了預(yù)測(cè)對(duì)象的位置、大小、方向和速度的屬性。 在NDS中,一半的權(quán)重來自于檢測(cè)性能,另一半是對(duì)預(yù)測(cè)幀的位置、大小、方向、速度和屬性的質(zhì)量評(píng)估。 由于 mAVE、mAOE 和 mATE 的值將大于1,所以每個(gè)值都約束在區(qū)間 [ 0 , 1 [0,1 [0,1]內(nèi)。
Waymo
Dataset:是2020年發(fā)布的大規(guī)模自動(dòng)駕駛數(shù)據(jù)集,現(xiàn)在是最大、最多樣化的多模態(tài)數(shù)據(jù)集。Waymo提供了幾個(gè) 3D 感知基準(zhǔn),如 3D 對(duì)象檢測(cè)和 3D 語義分割。它收集多個(gè)城市的數(shù)據(jù),如舊金山、鳳凰城等。這些城市有很大的地理覆蓋范圍,包括各種駕駛條件下的不同場(chǎng)景,如白天、夜晚、黎明、黃昏和下雨。 具體來說,整個(gè)數(shù)據(jù)集由1150個(gè)場(chǎng)景組成,每個(gè)場(chǎng)景大約20秒,總共有23萬幀數(shù)據(jù),其中大約1200萬個(gè)對(duì)象是人工標(biāo)記的。 Waymo 使用10 Hz 的頻率同時(shí)獲取多個(gè)傳感器。 具體來說,采集設(shè)備包括五個(gè)高分辨率攝像機(jī)和五個(gè)高質(zhì)量激光雷達(dá)傳感器。
評(píng)估:
Waymo數(shù)據(jù)集采用航向加權(quán)平均精度(Average Precision weighted byHeading,APH)作為模型的主要評(píng)價(jià)指標(biāo)。該度量是在AP的基礎(chǔ)上改進(jìn)的 :
A
P
=
100
∫
0
1
max
?
p
(
r
′
)
∣
r
′
>
=
r
d
r
(6)
\tag 6 AP=100\int_0^1 \max p(r^{'})|r^{'} >= rdr
AP=100∫01?maxp(r′)∣r′>=rdr(6)
A
P
H
=
100
∫
0
1
max
?
h
(
r
′
)
∣
r
′
>
=
r
d
r
(7)
\tag 7 APH=100\int_0^1 \max h(r^{'})|r^{'} >= rdr
APH=100∫01?maxh(r′)∣r′>=rdr(7)其中
h
(
r
′
)
h(r^{'})
h(r′) 的計(jì)算類似于P/R曲線,
p
(
r
)
p(r)
p(r) 是P/R曲線;
h
(
r
)
h(r)
h(r) 的計(jì)算類似于
p
(
r
)
p(r)
p(r)。其中使用的 TP(True Positives)是由方向(Heading)加權(quán)的值,
r
r
r 表示回召函數(shù), 它使用 21 個(gè)等間距的回召間隔
r
∈
[
0
,
1
/
20
,
2
/
20
,
.
.
.
,
1
]
r∈[0,1/20,2/20,...,1]
r∈[0,1/20,2/20,...,1]。
多模態(tài)表示
由于在多模態(tài)環(huán)境中,不同的傳感器可以感知三維環(huán)境,因此數(shù)據(jù)表示成為融合不同傳感器信息的關(guān)鍵設(shè)計(jì)選擇。
在多模態(tài)學(xué)習(xí)中,數(shù)據(jù)表示是決定建模任務(wù)輸入最關(guān)鍵階段的重要部分。
用的多模態(tài) 3D 目標(biāo)檢測(cè)表示:
圖像:
a.原始圖像 Raw Image 2D
b.虛擬點(diǎn)云(偽點(diǎn)云)Pseudo-Point 3D
c.鳥瞰圖特征 BEV Feature 2D
點(diǎn)云:
d.原始點(diǎn)云 Raw Point 3D
e.前視圖 Front View 2D
f.范圍視圖 Range View 2D
g.BEV地圖 BEV Map 2D
h.體素 Voxel 3D
統(tǒng)一表示
統(tǒng)一表示旨在以重合的格式處理異構(gòu)數(shù)據(jù)(或特征),以縮小 heterogeneous gap。 根據(jù)表示方法的類型,可將其分為三大類:hybrid-based, 3D-based, and BEV-based。
統(tǒng)一表示將多模態(tài)數(shù)據(jù)(或特征)投射到一個(gè)統(tǒng)一的格式(或空間)中,并解決表示或格式的不對(duì)齊問題。
Hybrid-based
Hybrid-based 旨在將異構(gòu)信息以一種相同的格式組合在一起,例如,通過將三維點(diǎn)云轉(zhuǎn)換為二維表示(與圖像相同)?;诨旌系姆椒◤膬蓚€(gè)方面來解決多模態(tài)檢測(cè)問題:設(shè)計(jì)新的能夠處理異質(zhì)性的表示形式和選擇合適的學(xué)習(xí)視點(diǎn)。
MV3D 為前視圖(類似于范圍視圖)和Brid-eye視圖提出了一種編碼方法,其中包含高度、密度和強(qiáng)度。
X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3d object detection network for autonomous driving,” in Proceedings ofthe IEEE conference on Computer Vision and Pattern Recognition, 2017, pp. 1907–1915.
MV3D 感知融合框架:
Stereoscopic-based
基于立體的方法的目標(biāo)是通過將2D表示轉(zhuǎn)化為3D來融合三維空間中的異構(gòu)表示。、
SFD 將圖像從二維空間轉(zhuǎn)換成一個(gè)同時(shí)包含幾何和紋理信息的偽點(diǎn)云。 由于生成偽點(diǎn)云的這種方式需要每個(gè)像素的深度信息,基于立體的方法總是利用深度估計(jì)模型,例如深度補(bǔ)全。SFD 提出了一種結(jié)合原始體素和偽點(diǎn)特征的基本 pipeline,消除了原始數(shù)據(jù)表示之間的異構(gòu)鴻溝。
X. Wu, L. Peng, H. Yang, L. Xie, C. Huang, C. Deng, H. Liu, and D. Cai, “Sparse fuse dense: Towards high quality 3d detection with depth completion,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 5418–5427.
BEV-based
在三維感知中,BEV表示具有很強(qiáng)的解釋性,有利于擴(kuò)展傳感器的模態(tài)和開發(fā)下游任務(wù)。BEV表示可以解決自動(dòng)駕駛場(chǎng)景中存在的具有挑戰(zhàn)性的問題,如車輛遮擋、稀疏表示等。 對(duì)于點(diǎn)云,改變視點(diǎn)很容易。 相比之下,改變攝像機(jī)的視點(diǎn)需要費(fèi)力的參數(shù)和轉(zhuǎn)換決策。
原始表示
統(tǒng)一的多模態(tài)表示的另一種選擇是原始表示,其目的是不采取額外表示、再現(xiàn)、翻譯或編碼,以保存最大限度的可用信息。
原始表示不對(duì)原始表示進(jìn)行變換,以保留最大的原始信息。
Pointpainting 用來自語義分割任務(wù)的語義得分裝飾原始點(diǎn)云。
S. Vora, A. H. Lang, B. Helou, and O. Beijbom, “Pointpainting: Sequential fusion for 3d object detection,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp. 4604–4612.
F-PointNet 使用2D原始表示和2D目標(biāo)檢測(cè),以縮小3D表示的范圍,從而得到準(zhǔn)確的預(yù)測(cè)前景信息。
C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum pointnets for 3d object detection from rgb-d data,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 918– 927.
雖然這些方法可以減少特征之間的差距,但它們并沒有在特征級(jí)別充分利用來自異構(gòu)數(shù)據(jù)的原始信息。
PointFusion 利用 Vanilla Backbones、PointNet 用于 3D 和 ResNet 用于 2D,直接從原始表示中提取特征。
Maff-net 提出了一種基于柱的編碼方法,將原始表示轉(zhuǎn)換為柱表示并處理柱特征。
Z. Zhang, Y. Shen, H. Li, X. Zhao, M. Yang, W. Tan, S. Pu, and H. Mao, “Maff-net: Filter false positive for 3d vehicle detection with multi-modal adaptive feature fusion,” in 2022 IEEE 25th International Conference on Intelligent Transportation Systems (ITSC). IEEE, 2022, pp. 369–376.
對(duì)圖像分支中的原始圖像使用2D檢測(cè),這實(shí)現(xiàn)了用于ROI池(感興趣區(qū)域池)的2D和3D檢測(cè):
M. Zhu, C. Ma, P. Ji, and X. Yang, “Cross-modality 3d object detection,” in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2021, pp. 3772–3781.
Epnet、Epnet++ 提出使用 encoder-decoder 結(jié)構(gòu)來增強(qiáng)異構(gòu)表示的交互和融合。 由于原始二維表示的優(yōu)越性,允許更多的二維輔助任務(wù)的變體。
T. Huang, Z. Liu, X. Chen, and X. Bai, “Epnet: Enhancing point features with image semantics for 3d object detection,” in European Conference on Computer Vision. Springer, 2020, pp. 35–52.
Z. Liu, B. Li, X. Chen, X. Wang, X. Bai et al., “Epnet++: Cascade bidirectional fusion for multi-modal 3d object detection,” arXiv preprint arXiv:2112.11088, 2021.
在多模態(tài)方法中,基于特征的融合越來越普遍,原始表示可以保留原始傳感器的更多信息,更適合于多模態(tài)推理。
兩種表示方式對(duì)比
多模態(tài)對(duì)齊
多模態(tài)融合的輸入數(shù)據(jù)具有不同形式的特征表示,通常是異構(gòu)的。 因此,要構(gòu)建數(shù)據(jù)與不同模態(tài)之間的對(duì)應(yīng)關(guān)系。將這一步驟概括為對(duì)齊,因?yàn)?strong>如果直接使用來自不同模態(tài)的未對(duì)齊特征,很可能會(huì)降低多模態(tài)數(shù)據(jù)的增益,甚至適得其反。 因此,必須考慮特征對(duì)齊來構(gòu)造不同模態(tài)數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系。
多模態(tài)特征對(duì)齊是指構(gòu)建不同模態(tài)數(shù)據(jù)特征之間的對(duì)應(yīng)關(guān)系。
激光雷達(dá)與攝像機(jī)之間的對(duì)應(yīng)關(guān)系由投影矩陣構(gòu)成,投影矩陣由內(nèi)參數(shù)和外參數(shù)組成,將三維世界坐標(biāo)空間轉(zhuǎn)換為二維圖像坐標(biāo)。
利用標(biāo)定矩陣尋找三維與二維的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)特征對(duì)齊,是有效的,但破壞了圖像的語義信息。
為了更好地解決這一問題,因此采用深度學(xué)習(xí)技術(shù)來實(shí)現(xiàn)特征對(duì)齊。
特征對(duì)齊方法分為兩類:1)Projection-based 2)Model-based
基于投影的特征對(duì)齊
基于投影的方法大致可分為全局投影和局部投影。
全局投影: 使用整個(gè)圖像作為點(diǎn)云的搜索區(qū)域。
局部投影: 點(diǎn)云的搜索區(qū)域僅為圖像中用邊界框標(biāo)記的范圍。
這兩種方法的本質(zhì)區(qū)別在于是否通過二維邊界框縮小點(diǎn)云的范圍。
利用攝像機(jī)投影矩陣對(duì)圖像和點(diǎn)云進(jìn)行對(duì)齊是有效的。 雖然特征的聚合是在精細(xì)像素級(jí)進(jìn)行的,但點(diǎn)云是稀疏的,而圖像是稠密的。 利用投影矩陣求出激光雷達(dá)點(diǎn)與圖像像素的對(duì)應(yīng)關(guān)系。 點(diǎn)云特征通過這種硬關(guān)聯(lián)以粗粒度的方式聚合圖像信息,會(huì)破壞圖像中的語義信息。
通過軟關(guān)聯(lián)機(jī)制,利用交叉注意力機(jī)制來尋找激光雷達(dá)點(diǎn)和圖像像素之間的對(duì)應(yīng)關(guān)系。 它可以動(dòng)態(tài)聚焦于來自圖像的像素級(jí)信息。 每個(gè)點(diǎn)云的特征對(duì)整個(gè)圖像進(jìn)行查詢,使得點(diǎn)云特征能夠以細(xì)粒度的方式聚合圖像信息,得到像素級(jí)的語義對(duì)齊圖。 該方法雖然能更好地獲取圖像中的語義信息,但由于使用了注意力機(jī)制,圖像中的每個(gè)像素都會(huì)進(jìn)行匹配,模型計(jì)算量大,耗時(shí)較多。
全局投影
全局投影是指以實(shí)例分割網(wǎng)絡(luò)處理后的圖像特征或?qū)D像轉(zhuǎn)換成一個(gè)BEV作為輸入,將點(diǎn)云投影到處理后的圖像上,并輸入到3D backbone 中進(jìn)行進(jìn)一步處理。
PointPainting 和 PI-RCNN 將圖像分支中的圖像特征和原始激光雷達(dá)點(diǎn)云中的語義特征進(jìn)行融合,利用基于圖像的語義分割增強(qiáng)點(diǎn)云。 將圖像通過分割網(wǎng)絡(luò)獲得像素級(jí)語義標(biāo)簽,然后通過點(diǎn)-像素投影將語義標(biāo)簽附著到3D點(diǎn)上。
S. Vora, A. H. Lang, B. Helou, and O. Beijbom, “Pointpainting: Sequential fusion for 3d object detection,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp. 4604–4612.
L. Xie, C. Xiang, Z. Yu, G. Xu, Z. Yang, D. Cai, and X. He, “Pi-rcnn: An efficient multi-sensor 3d object detector with point-based attentive cont-conv fusion module,” in Proceedings of the AAAI conference on artificial intelligence, vol. 34, no. 07, 2020, pp. 12 460–12 467.
MVP 借鑒了 PointPainting 的思想,首先使用圖像實(shí)例分割,通過投影矩陣建立實(shí)例分割掩碼與點(diǎn)云的對(duì)齊關(guān)系,但不同的是MVP 隨機(jī)采樣每個(gè)范圍內(nèi)的像素,與點(diǎn)云一致;點(diǎn)投影上的像素采用最近鄰連接,連接上激光點(diǎn)的深度作為當(dāng)前像素的深度。這些點(diǎn)然后被投影回激光坐標(biāo)系以獲得虛擬激光雷達(dá)點(diǎn)。
T. Yin, X. Zhou, and P. Kr¨ahenb¨uhl, “Multimodal virtual point 3d detection,” Advances in Neural Information Processing Systems, vol. 34, pp. 16 494–16 507, 2021.
MVXNet 不使用PointNet 網(wǎng)絡(luò)提取點(diǎn)云特征而是將原始激光雷達(dá)點(diǎn)云預(yù)處理為體素,以進(jìn)一步使用更先進(jìn)的單模三維物體檢測(cè)的 backbone,并通過附著在體素上的投影方法傳遞相應(yīng)像素的圖像特征向量。MVXNet 將ROI圖像特征向量附加到激光雷達(dá)點(diǎn)云中每個(gè)體素的密集特征向量上。
V. A. Sindagi, Y. Zhou, and O. Tuzel, “Mvx-net: Multimodal voxelnet for 3d object detection,” in 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019, pp. 7276–7282.
ContFuse、BevFusion 和 3D-CVF 三種方法統(tǒng)一表達(dá)了這兩種模態(tài)的數(shù)據(jù)。 通過投影將圖像特征轉(zhuǎn)化為BEV表示,并與點(diǎn)云BEV表示對(duì)齊。
Contfuse:通過 MLP learning 將圖像特征投影到 BEV 空間。 首先在圖像中找到每個(gè)像素的k個(gè)鄰域點(diǎn),然后將投影矩陣傳遞到三維空間,然后投影到圖像中。特征和對(duì)象像素的坐標(biāo)偏移被輸入到MLP中。 得到了目標(biāo)點(diǎn)的圖像特征。 然后與BEV特征映射融合形成稠密特征映射。
M. Liang, B. Yang, S. Wang, and R. Urtasun, “Deep continuous fusion for multi-sensor 3d object detection,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 641–656.
BEVFusion 通過將攝像機(jī)圖像轉(zhuǎn)換為3D ego-汽車坐標(biāo)并使用BEV編碼器模塊,將3D ego-汽車坐標(biāo)轉(zhuǎn)換為BEV表示。
T. Liang, H. Xie, K. Yu, Z. Xia, Z. Lin, Y. Wang, T. Tang, B. Wang, and Z. Tang, “Bevfusion: A simple and robust lidar-camera fusion framework,” arXiv preprint arXiv:2205.13790, 2022.
3D-CVF 通過自標(biāo)定投影將 2D 相機(jī)特征轉(zhuǎn)換成與 BEV 中雷達(dá)特征最大對(duì)應(yīng)的平滑空間特征圖。 此特征圖也屬于BEV。
J. H. Yoo, Y. Kim, J. Kim, and J. W. Choi, “3d-cvf: Generating joint camera and lidar features using cross-view spatial feature fusion for 3d object detection,” in European Conference on Computer Vision. Springer, 2020, pp. 720–736.
局部投影
局部投影利用二維檢測(cè)從圖像中提取信息,縮小三維點(diǎn)云中的目標(biāo)候選區(qū)域,將圖像信息傳遞到點(diǎn)云中,最后將增強(qiáng)后的點(diǎn)云輸入到基于激光雷達(dá)的 3D 目標(biāo)檢測(cè)器中。
Frustum-PointNet 提出了一個(gè)具有預(yù)測(cè)的前向和后向截?cái)鄰较蚓嚯x的錐面,將 2D box 擴(kuò)展到 3D box 。
首先,圖像通過 2D 目標(biāo)檢測(cè)器以生成感興趣目標(biāo)周圍的 2D box。 然后,使用校準(zhǔn)矩陣將 2D box 內(nèi)的對(duì)象投影到 3D frustum 中。 將 3D frustum 中的信息應(yīng)用于激光雷達(dá)點(diǎn)云,實(shí)現(xiàn)圖像與點(diǎn)云的對(duì)齊 。
C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum pointnets for 3d object detection from rgb-d data,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 918– 927.
MV3D通過投影將激光雷達(dá)點(diǎn)云轉(zhuǎn)換為BEV和前視圖(FV),生成 proposals,然后融合BEV、FV和圖像特征來預(yù)測(cè)最終的3D邊界框。 在此過程中,利用三維 proposals 網(wǎng)絡(luò)生成高精度的三維候選框,并將三維 proposals 投影到多個(gè)視圖中的特征映射中,實(shí)現(xiàn)兩種模式之間的特征對(duì)齊。 AVOD 也采用了相同的思想,但與 MV3D 不同,AVOD 刪除了 FV 并提出了一個(gè)更精細(xì)的區(qū)域方案。
X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3d object detection network for autonomous driving,” in Proceedings ofthe IEEE conference on Computer Vision and Pattern Recognition, 2017, pp. 1907–1915.
J. Ku, M. Mozifian, J. Lee, A. Harakeh, and S. L. Waslander, “Joint 3d proposal generation and object detection from view aggregation,” in 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2018, pp. 1–8.
AVOD 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
Pointaugmenting 不使用從圖像實(shí)例分割網(wǎng)絡(luò)獲得的特征,而是使用目標(biāo)檢測(cè)網(wǎng)絡(luò)的特征映射。
C. Wang, C. Ma, M. Zhu, and X. Yang, “Pointaugmenting: Crossmodal augmentation for 3d object detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 11 794–11 803.
SFD 提出了一種利用偽點(diǎn)云的方法,點(diǎn)云分支對(duì)原始點(diǎn)云進(jìn)行處理,生成ROI區(qū)域。 利用投影矩陣將點(diǎn)云投影到圖像上,生成帶顏色的偽點(diǎn)云,實(shí)現(xiàn)兩個(gè)數(shù)據(jù)的特征對(duì)齊。 最后,通過生成的ROI縮小點(diǎn)云的搜索范圍。
基于模型的特征對(duì)齊
多模態(tài) 3D 目標(biāo)檢測(cè)方法提出了通過一種主要利用 attention 的學(xué)習(xí)方法對(duì)圖像和點(diǎn)云進(jìn)行對(duì)齊。
Autoalign 和 DeepFusion 都采用交叉注意力機(jī)制來實(shí)現(xiàn)兩種模態(tài)的特征對(duì)齊。 它們將體素分別轉(zhuǎn)換為查詢Q和相機(jī)特征、鍵值K和值V。對(duì)于每個(gè)查詢(即體素單元),執(zhí)行查詢與鍵值之間的內(nèi)積,以獲得包含體素與其所有相應(yīng)相機(jī)特征之間相關(guān)性的矩陣。 采用Softmax算子對(duì)其進(jìn)行歸一化,然后用包含攝像機(jī)信息的V值對(duì)其進(jìn)行聚合和加權(quán)。
Z. Chen, Z. Li, S. Zhang, L. Fang, Q. Jiang, F. Zhao, B. Zhou, and H. Zhao, “Autoalign: Pixel-instance feature aggregation for multimodal 3d object detection,” arXiv preprint arXiv:2201.06493, 2022.
Y. Li, A. W. Yu, T. Meng, B. Caine, J. Ngiam, D. Peng, J. Shen, Y. Lu, D. Zhou, Q. V. Le et al., “Deepfusion: Lidar-camera deep fusion for multi-modal 3d object detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 17 182–17 191.
AutoAlignV2 提出了一種跨域的 DEformCAFA 操作。 DeformCAFA使用一種可變形的交叉注意力機(jī)制,其中查詢q和鍵值k仍然采用自動(dòng)對(duì)齊中的設(shè)置。 值V有了新的變化。 首先,利用投影矩陣查詢對(duì)應(yīng)于體素特征的圖像特征。 然后,通過MLP學(xué)習(xí)偏移量,提取與偏移量相對(duì)應(yīng)的圖像特征作為值V。交叉注意力使每個(gè)體素都能感知整個(gè)圖像,從而實(shí)現(xiàn)兩種模式的特征對(duì)齊。
Transfusion 中使用了 Transformer decoder。 第一 decoder 層利用稀疏的對(duì)象查詢集從激光雷達(dá)特征生成初始包圍盒。 第二decoder 自適應(yīng)地融合對(duì)象查詢和與空間和上下文關(guān)系相關(guān)的有用圖像特征。
Z. Chen, Z. Li, S. Zhang, L. Fang, Q. Jiang, and F. Zhao, “Autoalignv2: Deformable feature aggregation for dynamic multi-modal 3d object detection,” arXiv preprint arXiv:2207.10316, 2022.
X. Bai, Z. Hu, X. Zhu, Q. Huang, Y. Chen, H. Fu, and C.-L. Tai, “Transfusion: Robust lidar-camera fusion for 3d object detection with transformers,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 1090–1099.
多模態(tài)融合
目前,多模態(tài) 3D 目標(biāo)檢測(cè)中最主要的融合方法是互補(bǔ),即一種模態(tài)對(duì)另一種模態(tài)的增強(qiáng)。多模態(tài)方法主要是圖像特征對(duì)點(diǎn)云特征的特征互補(bǔ)。在 3D 目標(biāo)檢測(cè)領(lǐng)域,點(diǎn)云的檢測(cè)精度遠(yuǎn)高于圖像。圖像中深度信息的缺乏導(dǎo)致了 3D 目標(biāo)檢測(cè)的精度不高,但同時(shí),圖像信息具有豐富的語義信息,可以作為點(diǎn)云信息的數(shù)據(jù)補(bǔ)充。
目前的多模態(tài)互補(bǔ)方法是通過不同的融合方法來實(shí)現(xiàn)的。 主要區(qū)別在于多模態(tài) 3D 目標(biāo)檢測(cè)融合過程中是否需要學(xué)習(xí):learning-agnostic
和 learning-based
.learning-agnostic
對(duì)特征進(jìn)行算術(shù)運(yùn)算和拼接運(yùn)算。 這些方法操作簡(jiǎn)單,易于計(jì)算,但不具有良好的可擴(kuò)展性和魯棒性。learning-based
利用對(duì)融合特征的關(guān)注,這相對(duì)復(fù)雜,并增加了參數(shù)的數(shù)量。 但可以關(guān)注權(quán)重較高的重要信息,忽略權(quán)重較低的無關(guān)信息,因此具有較高的可擴(kuò)展性和魯棒性。
Learning-Agnostic 融合
Learning-Agnostic 融合有兩種主要類型:元素操作(求和、均值)和級(jí)聯(lián)。
元素操作
元素操作利用算術(shù)操作來處理相同維度(求和、均值)的特征。 元素操作易于并行操作。 它將兩個(gè)特征組合成一個(gè)復(fù)合向量。 具有計(jì)算簡(jiǎn)單、易于操作的優(yōu)點(diǎn) 。同時(shí),計(jì)算不同通道的均值或求和增加了點(diǎn)云特征的信息量,但特征維數(shù)并沒有增加。 只是每個(gè)維度下的信息量增加。信息量的增加可以提高檢測(cè)精度。
AVOD 以 MV3D 為基準(zhǔn)(均值法融合不同視角的特征),通過元素均值從兩個(gè)視圖的特征映射中生成新的融合特征。 它繼承了MV3D融合時(shí)計(jì)算量小的優(yōu)點(diǎn)。 這樣可以有效地融合相同形狀的特征映射。
ContFuse 通過傳感器坐標(biāo)對(duì)應(yīng)來關(guān)聯(lián)特征,并使用元素求和來組合相同維度的元素映射以融合不同的模態(tài)信息。
M. Liang, B. Yang, S. Wang, and R. Urtasun, “Deep continuous fusion for multi-sensor 3d object detection,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 641–656.
Focals Conv 提出了一種輕量級(jí)融合模塊,該模塊使用語義分割網(wǎng)絡(luò)提取圖像特征,并利用元素求和來聚合圖像特征和體素特征。
Y. Chen, Y. Li, X. Zhang, J. Sun, and J. Jia, “Focal sparse convolutional networks for 3d object detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 5428–5437.
元素化不能準(zhǔn)確地獲得正確的前景信息,并且通常帶有噪聲。
級(jí)聯(lián)操作
特征級(jí)聯(lián)是將變換后的多模態(tài)特征轉(zhuǎn)換成相同大小的特征向量,然后將圖像特征向量與點(diǎn)云特征向量級(jí)聯(lián)起來。
與元素操作不同,級(jí)聯(lián)操作是通道數(shù)的合并,它比元素操作的計(jì)算強(qiáng)度更大。 但它避免了直接按元素操作所造成的信息損失。 同時(shí),級(jí)聯(lián)操作不受通道數(shù)目的限制。
PointFusion 是將級(jí)聯(lián)操作應(yīng)用于多模態(tài) 3D 目標(biāo)檢測(cè)的先驅(qū)。 將逐點(diǎn)特征和圖像特征連接起來,以最大限度地保留每個(gè)模態(tài)的信息。
D. Xu, D. Anguelov, and A. Jain, “Pointfusion: Deep sensor fusion for 3d bounding box estimation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 244–253.
VoxelNet 將單模態(tài)輸入擴(kuò)展到多模態(tài)輸入,進(jìn)一步提高了性能。
Y. Zhou and O. Tuzel, “Voxelnet: End-to-end learning for point cloud based 3d object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 4490–4499.
MVX-NET 和 SegvoxelNET 使用串聯(lián)操作將相應(yīng)的圖像特征補(bǔ)充到 3D 點(diǎn)的坐標(biāo)。 與元素操作不同,級(jí)聯(lián)操作可以更大程度地保留模態(tài)信息,且信息損失較小。
V. A. Sindagi, Y. Zhou, and O. Tuzel, “Mvx-net: Multimodal voxelnet for 3d object detection,” in 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019, pp. 7276–7282.
“Seg-voxelnet for 3d vehicle detection from rgb and lidar data,” in 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019, pp. 4362–4368.
PointPainting 方法通過語義分割網(wǎng)絡(luò)獲得像素分割得分。該方法通過一個(gè)級(jí)聯(lián)操作對(duì)分割后的分?jǐn)?shù)進(jìn)行融合來補(bǔ)全點(diǎn)云,以保留點(diǎn)云信息和分割后的分?jǐn)?shù)。
S. Vora, A. H. Lang, B. Helou, and O. Beijbom, “Pointpainting: Sequential fusion for 3d object detection,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp. 4604–4612.
learning-based 融合
DETR使整個(gè)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)端到端的對(duì)象檢測(cè),顯著簡(jiǎn)化了目標(biāo)檢測(cè) pipeline。后來的 DETR3D 將注意力應(yīng)用于 3D 目標(biāo)檢測(cè)。
Y. Wang, V. C. Guizilini, T. Zhang, Y. Wang, H. Zhao, and J. Solomon, “Detr3d: 3d object detection from multi-view images via 3d-to-2d queries,” in Conference on Robot Learning. PMLR, 2022, pp. 180– 191.
Y. Wang, T. Ye, L. Cao, W. Huang, F. Sun, F. He, and D. Tao, “Bridged transformer for vision and point cloud 3d object detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 12 114–12 123.
隨著注意力的發(fā)展,跨模態(tài)注意力可以為多模態(tài)方法提供一種新的融合途徑。 基于學(xué)習(xí)的方法學(xué)習(xí)權(quán)重分布,即輸入數(shù)據(jù)或特征圖的不同部分具有不同的權(quán)重。 根據(jù)權(quán)重的不同,高權(quán)重用于保留重要信息,低權(quán)重忽略無關(guān)信息。 基于學(xué)習(xí)的融合方法具有較好的魯棒性。
將注意力應(yīng)用于多模態(tài) 3D 目標(biāo)檢測(cè),3D-CVF,MVAF-NET,MAFF-NET,EPNET。
3D-CVF 提出了一種自適應(yīng)門控融合網(wǎng)絡(luò),極大地簡(jiǎn)化了 3×3 卷積層和 Sigmoid 函數(shù)。 注意力映射將投影圖像特征補(bǔ)充到點(diǎn)云特征中。 這種類型的融合允許更好地聚焦有用的信息進(jìn)行融合,使融合方法具有可學(xué)習(xí)性。
J. H. Yoo, Y. Kim, J. Kim, and J. W. Choi, “3d-cvf: Generating joint camera and lidar features using cross-view spatial feature fusion for 3d object detection,” in European Conference on Computer Vision. Springer, 2020, pp. 720–736.
MVAF-Net 中的 MVFF 部分提出與 APF 模塊相結(jié)合,利用注意力機(jī)制自適應(yīng)地融合多任務(wù)特征。
G. Wang, B. Tian, Y. Zhang, L. Chen, D. Cao, and J. Wu, “Multiview adaptive fusion network for 3d object detection,” arXiv preprint arXiv:2011.00652, 2020.
MAFF-NET 模型提出了 PointAttentionFusion(PAF) 模塊。 PAF通過融合一個(gè)圖像特征和兩個(gè)注意力特征對(duì)每個(gè)三維點(diǎn)進(jìn)行融合,實(shí)現(xiàn)自適應(yīng)融合特征。
Z. Zhang, Y. Shen, H. Li, X. Zhao, M. Yang, W. Tan, S. Pu, and H. Mao, “Maff-net: Filter false positive for 3d vehicle detection with multi-modal adaptive feature fusion,” in 2022 IEEE 25th International Conference on Intelligent Transportation Systems (ITSC). IEEE, 2022, pp. 369–376.
由于攝像機(jī)傳感器容易受到光照、遮擋等因素的影響,在對(duì)點(diǎn)云特征進(jìn)行補(bǔ)充的過程中引入了干擾信息。 為解決這一問題, EPNET 采用 attention 方法自適應(yīng)地估計(jì)圖像的重要性以進(jìn)行融合。
T. Huang, Z. Liu, X. Chen, and X. Bai, “Epnet: Enhancing point features with image semantics for 3d object detection,” in European Conference on Computer Vision. Springer, 2020, pp. 35–52.
利用注意力融合可以融合高權(quán)重的關(guān)鍵信息和低權(quán)重的冗余信息。 這極大地提高了融合效率,并防止了干擾信息影響檢測(cè)效率。
多模態(tài)融合仍面臨以下挑戰(zhàn):
1.數(shù)據(jù)信息在特征變換中存在不同程度的信息丟失。
2.目前的融合方法都是用圖像特征來補(bǔ)充點(diǎn)特征,而圖像特征在使用點(diǎn)云基線時(shí)會(huì)出現(xiàn)域間隙等問題。
3.Learning-Agnostic 需要根據(jù)信息的重要性考慮融合問題。
4.Learning-based 方法參數(shù)多,需要考慮參數(shù)數(shù)優(yōu)化問題。
挑戰(zhàn)和趨勢(shì)
1. 數(shù)據(jù)噪聲
由于傳感器種類繁多,來自不同模態(tài)的數(shù)據(jù)之間存在 information gap,導(dǎo)致信息不同步。該問題在特征融合中引入了顯著的噪聲,從而損害了信息表示學(xué)習(xí)。
例如,two-stage 檢測(cè)器在融合過程中,由于不同維度的 ROI 區(qū)域的存在,導(dǎo)致背景特征在圖像中的融合。 利用BEV表示來統(tǒng)一不同的異構(gòu)模態(tài),為解決這一問題提供了一個(gè)新的視角。
2.開源數(shù)據(jù)集的 Limited Reception Field
傳感器覆蓋 coverage 不足不利于多模態(tài)檢測(cè)的性能。
Nuscenes 具有良好的感知范圍(點(diǎn)云和攝像機(jī)都可以360度)和 Waymo 提高多模態(tài)檢測(cè)系統(tǒng)的復(fù)蓋率,增強(qiáng)其在復(fù)雜環(huán)境下的性能,為解決開源數(shù)據(jù)集中接收域有限的問題提供了一種可能的思路。
3.緊湊表示
緊湊表示以較少的數(shù)據(jù)規(guī)模包含更多的信息。 現(xiàn)有的工作將稀疏的三維表示編碼為二維表示,但在編碼過程中存在大量的信息損失。 一幅 range image 的投影會(huì)導(dǎo)致多個(gè)點(diǎn)落在同一像素中,從而導(dǎo)致信息丟失。
4.信息丟失
如何最大限度地保留多模態(tài)信息一直是多模態(tài) 3D 目標(biāo)檢測(cè)的關(guān)鍵問題之一 。例如,在融合階段,當(dāng)圖像與點(diǎn)云特征互補(bǔ)時(shí),圖像語義信息丟失。這就導(dǎo)致融合過程不能更好地利用圖像的特征信息,導(dǎo)致模型性能次優(yōu)。
4.未標(biāo)注數(shù)據(jù)
無標(biāo)注數(shù)據(jù)在自動(dòng)駕駛場(chǎng)景中普遍存在,無監(jiān)督學(xué)習(xí)可以提供更魯棒的表征學(xué)習(xí),這在類似任務(wù)中得到了一定程度的研究,比如2D 目標(biāo)檢測(cè)。然而,在當(dāng)前的多模態(tài)三維目標(biāo)檢測(cè)中,對(duì)無監(jiān)督表示還沒有 convincing 的研究。 在多模態(tài)研究領(lǐng)域,如何更好地進(jìn)行多模態(tài)表征的無監(jiān)督學(xué)習(xí)是一個(gè)具有挑戰(zhàn)性的研究課題。
5.計(jì)算復(fù)雜度高
多模態(tài)三維物體檢測(cè)的一個(gè)重要挑戰(zhàn)是在自動(dòng)駕駛場(chǎng)景下快速、實(shí)時(shí)地檢測(cè)出物體。 由于多模態(tài)方法需要處理多種信息,導(dǎo)致參數(shù)和計(jì)算量增加,訓(xùn)練時(shí)間長,推理時(shí)間長,不能滿足應(yīng)用的實(shí)時(shí)性。
最近的多模態(tài)方法也考慮實(shí)時(shí)性,例如 MVP,BEVFusion 在 Nuscenes 數(shù)據(jù)集上的實(shí)驗(yàn)使用 FPS 作為模型評(píng)估度量 。
未來的工作將鼓勵(lì)探索模型剪枝和量化技術(shù),旨在簡(jiǎn)化模型結(jié)構(gòu),減少模型參數(shù),以實(shí)現(xiàn)高效的模型部署。
6.Long Tail Effect
自動(dòng)駕駛場(chǎng)景有很多品類。 在檢測(cè)汽車方面有效的模型在檢測(cè)行人方面可能是無效的,這導(dǎo)致類別檢測(cè)不均勻。 在今后的工作中,可能會(huì)探索使用損失函數(shù)和抽樣策略作為解決上述問題的潛在解決方案。
7.跨模態(tài)數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)是實(shí)現(xiàn)三維目標(biāo)檢測(cè)的關(guān)鍵環(huán)節(jié),但數(shù)據(jù)增強(qiáng)大多應(yīng)用于單模態(tài)方法,在多模態(tài)場(chǎng)景中很少考慮。由于點(diǎn)云和圖像是兩種異構(gòu)數(shù)據(jù),很難實(shí)現(xiàn)跨模態(tài)同步增強(qiáng),會(huì)導(dǎo)致嚴(yán)重的跨模態(tài)失調(diào)。
8.時(shí)間同步
時(shí)間同步是多模態(tài) 3D 目標(biāo)檢測(cè)中的一個(gè)關(guān)鍵問題。由于不同傳感器的采樣率、工作方式、采集速度等方面的差異,傳感器采集的數(shù)據(jù)之間存在時(shí)間偏差,導(dǎo)致多模態(tài)數(shù)據(jù)不對(duì)齊,進(jìn)而影響多模態(tài)三維物體檢測(cè)的精度和效率。 首先,不同傳感器的時(shí)間戳可能存在誤差。 即使采用硬件進(jìn)行定時(shí)同步,也很難完全保證傳感器時(shí)間戳的一致性。 其次,傳感器數(shù)據(jù)存在丟幀或延遲,也影響了多模態(tài) 3D 目標(biāo)檢測(cè)的精度。文章來源:http://www.zghlxwxcb.cn/news/detail-776719.html
主要參考文獻(xiàn)
1.Multi-modal 3D Object Detection in Autonomous Driving: A Survey and Taxonomy
2.李熙瑩,葉芝檜,韋世奎等.基于圖像的自動(dòng)駕駛3D目標(biāo)檢測(cè)綜述——基準(zhǔn)、制約因素和誤差分析[J].中國圖象圖形學(xué)報(bào),2023,28(06):1709-1740.文章來源地址http://www.zghlxwxcb.cn/news/detail-776719.html
到了這里,關(guān)于綜述:自動(dòng)駕駛中的多模態(tài) 3D 目標(biāo)檢測(cè)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!