Abstract
BEV方法最近在多視圖3D檢測任務(wù)中取得了很大進(jìn)展。Sparse4D通過sparsely sampling和fusing spatial-temporal features 對anchor box進(jìn)行迭代改進(jìn):
(1)Sparse 4D Sampling: 對于每個3D anchor,我們分配多個4D關(guān)鍵點(diǎn),然后將其投影到多視圖/尺度/時間戳圖像特征,用來采樣相應(yīng)的特征。
(2)Hierarchy Feature Fusion: 分層融合不同視圖/尺度,不同時間戳和不同關(guān)鍵點(diǎn)的采樣特征,生成高質(zhì)量的實(shí)例特征。
這樣一來,sparse 4D就不再依賴dense view transformation 和 global attention。也就可以高效有效的實(shí)現(xiàn)3d檢測,對邊緣設(shè)別部署更加有好。
此外,sparse4D引入了一個instance-level depth reweight module來緩解3d到2d投影中的不確定性問題。
Introduction
如果沒有明確的深度線索,來自2D圖像的3D感知是一個不確定的問題,導(dǎo)致如何正確融合多相機(jī)圖像是解決3D感知任務(wù)的長期挑戰(zhàn)。最近的方法主要分為兩類主流:基于BEV和基于sparse的方法。
BEV-method:將多視圖圖像特征轉(zhuǎn)化為統(tǒng)一的BEV空間,實(shí)現(xiàn)性能提升。存在的問題是:
(1)圖像到BEV的透視比那還需要密集的特征采樣或者重新排列,對于低成本的邊緣設(shè)備部署不友好
(2)最大感知范圍受BEV特征圖大小的限制,難以在感知范圍,效率和精度之間權(quán)衡
(3)BEV特征中,高維度特征被壓縮,紋理線索丟失。因此BEV無法勝任某些感知任務(wù):標(biāo)志檢測
sparse-method:直接采樣系數(shù)特征進(jìn)行3D anchor改進(jìn),緩解上述問題。DETR3D,SRNC3D。
sparse 4D 優(yōu)點(diǎn):
(1)可以有效的提取每個anchor box內(nèi)豐富完整的上下文
(2)可以簡單的擴(kuò)展到時間維度作為4D關(guān)鍵點(diǎn),然后可以有效的對齊時間信息。
對于4D關(guān)鍵點(diǎn),Sparse4D首先為每個關(guān)鍵點(diǎn)執(zhí)行多時間戳,多視圖和多尺度。然后,這些采樣特征通過分層融合模塊生成用于3D實(shí)例特征。
為了緩解基于相機(jī)的3D檢測的不確定行問題并提高感知性能,sparse4D添加了一個實(shí)例級深度重加權(quán)模塊,其中實(shí)例特征通過從預(yù)測中采樣的深度置信度進(jìn)行重加權(quán)深度分布。該模塊以系數(shù)方式進(jìn)行訓(xùn)練,無需額外的激光雷達(dá)點(diǎn)云監(jiān)督。
總結(jié):
(1)提出一個時間上下文融合的系數(shù)多視圖3D檢測蘇納發(fā),它可以高效且有效地對齊空間和時間視覺線索以實(shí)現(xiàn)精確的3D檢測
(2)提出了一個可變性的4D聚合模塊,可以靈活的完成多維(點(diǎn),時間戳,視圖和尺度)特征的采樣和融合。
(3)引入深度重新加權(quán)模塊來緩解基于圖像的3D感知系統(tǒng)中的ill-posed issue
Related work
Sparse Object Detection
早期的目標(biāo)檢測方法,使用密集預(yù)測作為輸出,然后利用nms來處理這些密集預(yù)測。DETR引入一種新的檢測范式,利用基于集合的損失和變換器來直接預(yù)測系數(shù)檢測結(jié)果。DETR 使用global-cross-attention和全局圖像上下文,導(dǎo)致計算成本高且收斂困難。
Deormable Dert修改DERT并提出基于參考點(diǎn)的 local-cross-attention,加速模型收斂并降低了計算的復(fù)雜度。sparse RCNN 基于 region proposal的思想提出了另一種系數(shù)檢測框架。 monodert,dert3D,sparse RCNN3D,SimMOD。
Monocular 3D Object Detection
FCOS3D和SMOKE在單級二維檢測網(wǎng)絡(luò)的基礎(chǔ)上經(jīng)行擴(kuò)展,使用去那卷集網(wǎng)絡(luò)直接回歸每個對象的深度,將2d圖像轉(zhuǎn)化為具有單目深度估計結(jié)果的3d偽點(diǎn)云信號。OFT和CaDDN借助視圖變換模塊將密集的2D圖像特征轉(zhuǎn)化為BEV空間,然后將BEV特征發(fā)送到檢測器以完成3D對象檢測。不同的是,OFT利用3D到2D的逆投影關(guān)系完成特征空間變換,而CaDNN是基于2D到3D的投影,更像是一種偽LIDAR方法。
Multi-view 3D Object Detection
稠密算法是多視角3D檢測的主要研究方向,利用稠密特征向量進(jìn)行視角變換/特征融合或框預(yù)測。目前,基于BEV的方法是密集算法的主要部分。BEVFormer采用deformable attention來完成BEV特征生成和密集時空特征融合。BEVDet使用lift-splat操作來實(shí)現(xiàn)視圖變換。BEVDepth在BECDet的基礎(chǔ)上增加了顯式深度監(jiān)督,顯著提高了檢測的準(zhǔn)確性。BEVStereo和SOLOFusion將時間立體技術(shù)引入3D檢測中,進(jìn)一步提高了深度估計效果。PETR利用3D位置編碼和全局交叉注意力進(jìn)行特征融合,但全局交叉注意力的計算量很大。與vanilla DETR一樣,PETR不能被視為純粹的稀疏方法。DETR3D是一個代表稀疏方法的創(chuàng)新工作,它基于稀疏參考點(diǎn)執(zhí)行特征采樣和融合。Graph DETR3D在DETR3D之后引入了圖網(wǎng)絡(luò)以實(shí)現(xiàn)更好的空間特征融合,特別是對于多視圖重疊區(qū)域。
Methodology
框架
Sparse4D符合編碼器-解碼器結(jié)構(gòu)。圖像編碼器用于提取具有共享權(quán)重的圖像特征,其中包含主干(ResNet和VoVNet)和頸部(FPN)。在時間t給定N個視圖輸入圖像,圖像編碼器提取多視圖多尺度特征映射。為了利用時間上下文,我們提取最近T幀的圖像特征作為圖像特征隊列。然后,解碼器以迭代細(xì)化的方式預(yù)測檢測結(jié)果,其中包含一些列細(xì)化模塊和一個分類頭,用于最終預(yù)測最終的分類置信度。每個改進(jìn)模塊以圖像特征隊列I,3D anchor boxes BR M11和相應(yīng)的實(shí)例特征FR MC作為輸入,然后輸出具有更新實(shí)例特征的改進(jìn)3D框。M是anchor的數(shù)量,C是特征通道數(shù)量,anchor的格式是
{x,y,z,ln w,ln h, ln l, sin yaw, cos yaw, vx, vy,vz}
所有3Danchor都設(shè)置在統(tǒng)一的3D坐標(biāo)系中。
在每個改進(jìn)模塊中,我們首先采用self-attention來實(shí)現(xiàn)實(shí)例之間的交互,前后添加anchor 參數(shù)的潛入。然后,我們進(jìn)行可變形4D聚合以融合多視圖,多尺度,多時間戳和多關(guān)鍵點(diǎn)特征。此外,我們引入了深度重新加權(quán)模塊來緩解基于圖像的3D檢測中的不確定性問題,最后,使用回歸頭通過預(yù)測ground truth和當(dāng)前anchor之間的偏移來改進(jìn)當(dāng)前anchor。
Deformable 4D Aggregation
實(shí)例特征的質(zhì)量對整個稀疏感知系統(tǒng)具有關(guān)鍵影響。為了解決這個問題,引入了可變性4D聚合模塊,以通過稀疏特征采樣和層次特征融合獲得高質(zhì)量的實(shí)例特征。
(1)對于每個anchor生成多個4D關(guān)鍵點(diǎn)
(2)將4D關(guān)鍵點(diǎn)投射到多時間戳/視圖/比例圖像特征圖并采樣相應(yīng)的特征
(3)將關(guān)鍵點(diǎn)特征與預(yù)測權(quán)重分層融合以生成融合實(shí)例特征## Depth Reweight Model
3D到2D的轉(zhuǎn)化具有一定的歧義性,即不同的3D點(diǎn)可能對應(yīng)于相同的2D坐標(biāo)。對于不同的3D anchors,可能會采樣得到相同的特征。這就增加了神經(jīng)網(wǎng)絡(luò)擬合的難度。為了緩解這個問題,我們結(jié)合了一個顯式深度估計模塊Ddeoth,它由多個具有生于連接的MLP組成。對于每個聚合特征Fm,估計一個李三的深度分布,并使用3d anchor box中心點(diǎn)的深度來采樣相應(yīng)的執(zhí)行度Cm,并用于重新加權(quán)實(shí)例特征文章來源:http://www.zghlxwxcb.cn/news/detail-849668.html
對于3D中心點(diǎn)在深度方向上遠(yuǎn)離ground truth的實(shí)例,即使2d圖像坐標(biāo)飛行行接近ground truth,對應(yīng)的深度置信度也趨近于0.結(jié)合顯式深度估計模塊可以幫助視覺感知系統(tǒng)進(jìn)一步提高感知精度。因此,深度估計模塊可以作為單獨(dú)的部分進(jìn)行設(shè)計和優(yōu)化。文章來源地址http://www.zghlxwxcb.cn/news/detail-849668.html
到了這里,關(guān)于BEV學(xué)習(xí)--Sparse4D Multi-view 3d object detection with Sparse Spatial-Temporal Fusion的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!