PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images
作者單位
曠視
目的
本文的目標是 通過擴展 PETR,使其有時序建模和多任務學習的能力 以此建立一個 強有力且統(tǒng)一的框架。
本文主要貢獻:
- 將 位置 embedding 轉換到 時序表示學習,時序的對齊 是在 3D PE 上做 姿態(tài)變換實現(xiàn)的。提出了 feature-guided 位置編碼,可以通過 2D 圖像特征 reweigth 3D PE
- 提出了一個簡單但有效的方法(引入了基于特定任務的 queries),讓 PETR 支持 多任務學習,包括 BEV 分割 和 3D lane 檢測
- 本文提出的框架想,在 3D 目標檢測,BEV 分割 和 3D lane 檢測 上達到了 sota 的性能。
方法
網絡結構
時序建模
時序建模:
3D 坐標對齊:
目的是將 t-1 幀的 3D 坐標 變換到 t 幀的 3D 坐標系統(tǒng)。
為了清楚的描述,這里定義一些符號:
- c(t): 相機坐標
- l(t) : lidar 坐標
- e(t) : 自車坐標
- g: 全局坐標
- T_dst^src : 原坐標系 到 目標坐標系的 變換矩陣
首先將 t-1 幀 和 t 幀 的 相機坐標系下的3D點集 投影到 雷達坐標系,然后 使用全局坐標系 作為橋梁 ,將 t-1幀雷達坐標系下的 3D點集 投影到 t 幀的 雷達坐標系下
對其之后的 t 幀 和 t-1幀的 點集 會被用于 生成 3D PE
Multi-task Learning
為了讓 PETR 支持多任務學習,設計了不同的 queries,包括 BEV segmentation 和 3D lane detection
- BEV segmentation
剛開始在 BEV空間中 初始化一些 anchor points, 然后將這些 points 送入兩層的 MLP 生成 seg queries
使用 CVT 中相同的 head 生成最后預測的分割結果
- 3D Lane Detection
3D anchor lanes 作為 query
每一個 lane 都是由 一個有序的 3d 坐標點集(n 個)組成的。這些點集都是沿著 Y軸 均勻采樣的,這些 anchor 是與 Y軸 平行的。
3D 的 Lane head 會預測 lane 的 類別 以及 相對于 x 軸 和 Z 軸的偏移量。 同時由于每個車道線的長度是不固定的,所以也會預測 一個可見 向量 T (sizn n),用于控制 lane 的起始點
Feature-guided Position Encoder
PETR 中的 3D 坐標 到 3D 位置編碼的 過程是 數(shù)據無關的。本文認為 3D PE 應該由 2D features 驅動,因為 圖像特征 可以提供 一些信息的指導,比如深度信息。
因此在 PETRv2 中 將 2D features 經過兩層 1x1 的卷積,然后最后經過一層 sigmoid 獲得 attention weights,
3D 坐標 通過另一個 mlp 并與 attention weight 相乘生成 3D PE。3D PE 毀于 2D features 相加,作為 key 輸入到 transformer decoder 中。
魯棒性分析
雖然有很多關于自動駕駛系統(tǒng)的工作,但是只有極少數(shù)的工作 探究了 自動駕駛方法的 魯棒性。本文針對幾種 傳感器的誤差 對 算法的影響 進行了 探究。文章來源:http://www.zghlxwxcb.cn/news/detail-599320.html
- 外參噪聲
外參噪聲是很常見的,比如相機抖動 導致 外參的不準。 - 相機丟失
- 相機時延
相機曝光的時間過長(比如在晚上),輸入系統(tǒng)的圖像可能是之前的圖像,會對輸出造成影響
魯棒性分析結果文章來源地址http://www.zghlxwxcb.cn/news/detail-599320.html
- 外參噪聲
噪聲越大,性能下降越多,F(xiàn)PE 可以提升 對 外參噪聲的魯棒性 - 相機丟失:front (5.05% mAP 下降) 和 back(13.19% mAP下降) 相機丟失帶來的影響最大,其它的相機丟失噪聲的性能下降要小一些。back的視角大一些 (120°),所以影響最大。(在 nuScenes 上的實驗)
- 使用一些未標注的 frame 來代替 關鍵幀,來模擬時延,下降了 3.19% mAP 和 8.4% NDS(delay 0.083s),26.08 mAP 和 36.54% NDS (delay 0.3s)
到了這里,關于PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!