国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

這篇具有很好參考價值的文章主要介紹了PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

作者單位

曠視

目的

本文的目標是 通過擴展 PETR,使其有時序建模和多任務學習的能力 以此建立一個 強有力且統(tǒng)一的框架。

本文主要貢獻:

  1. 將 位置 embedding 轉換到 時序表示學習,時序的對齊 是在 3D PE 上做 姿態(tài)變換實現(xiàn)的。提出了 feature-guided 位置編碼,可以通過 2D 圖像特征 reweigth 3D PE
  2. 提出了一個簡單但有效的方法(引入了基于特定任務的 queries),讓 PETR 支持 多任務學習,包括 BEV 分割 和 3D lane 檢測
  3. 本文提出的框架想,在 3D 目標檢測,BEV 分割 和 3D lane 檢測 上達到了 sota 的性能。

方法

網絡結構

PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images,論文筆記,3d,PETRv2

時序建模

時序建模:
3D 坐標對齊:
目的是將 t-1 幀的 3D 坐標 變換到 t 幀的 3D 坐標系統(tǒng)。
為了清楚的描述,這里定義一些符號:

  • c(t): 相機坐標
  • l(t) : lidar 坐標
  • e(t) : 自車坐標
  • g: 全局坐標
  • T_dst^src : 原坐標系 到 目標坐標系的 變換矩陣

首先將 t-1 幀 和 t 幀 的 相機坐標系下的3D點集 投影到 雷達坐標系,然后 使用全局坐標系 作為橋梁 ,將 t-1幀雷達坐標系下的 3D點集 投影到 t 幀的 雷達坐標系下
對其之后的 t 幀 和 t-1幀的 點集 會被用于 生成 3D PE

Multi-task Learning

為了讓 PETR 支持多任務學習,設計了不同的 queries,包括 BEV segmentation 和 3D lane detection

  • BEV segmentation

剛開始在 BEV空間中 初始化一些 anchor points, 然后將這些 points 送入兩層的 MLP 生成 seg queries
使用 CVT 中相同的 head 生成最后預測的分割結果

  • 3D Lane Detection

3D anchor lanes 作為 query
每一個 lane 都是由 一個有序的 3d 坐標點集(n 個)組成的。這些點集都是沿著 Y軸 均勻采樣的,這些 anchor 是與 Y軸 平行的。
3D 的 Lane head 會預測 lane 的 類別 以及 相對于 x 軸 和 Z 軸的偏移量。 同時由于每個車道線的長度是不固定的,所以也會預測 一個可見 向量 T (sizn n),用于控制 lane 的起始點

Feature-guided Position Encoder

PETR 中的 3D 坐標 到 3D 位置編碼的 過程是 數(shù)據無關的。本文認為 3D PE 應該由 2D features 驅動,因為 圖像特征 可以提供 一些信息的指導,比如深度信息。
因此在 PETRv2 中 將 2D features 經過兩層 1x1 的卷積,然后最后經過一層 sigmoid 獲得 attention weights,
3D 坐標 通過另一個 mlp 并與 attention weight 相乘生成 3D PE。3D PE 毀于 2D features 相加,作為 key 輸入到 transformer decoder 中。

魯棒性分析

雖然有很多關于自動駕駛系統(tǒng)的工作,但是只有極少數(shù)的工作 探究了 自動駕駛方法的 魯棒性。本文針對幾種 傳感器的誤差 對 算法的影響 進行了 探究。

  • 外參噪聲
    外參噪聲是很常見的,比如相機抖動 導致 外參的不準。
  • 相機丟失
  • 相機時延
    相機曝光的時間過長(比如在晚上),輸入系統(tǒng)的圖像可能是之前的圖像,會對輸出造成影響

魯棒性分析結果文章來源地址http://www.zghlxwxcb.cn/news/detail-599320.html

  1. 外參噪聲
    噪聲越大,性能下降越多,F(xiàn)PE 可以提升 對 外參噪聲的魯棒性
  2. 相機丟失:front (5.05% mAP 下降) 和 back(13.19% mAP下降) 相機丟失帶來的影響最大,其它的相機丟失噪聲的性能下降要小一些。back的視角大一些 (120°),所以影響最大。(在 nuScenes 上的實驗)
  3. 使用一些未標注的 frame 來代替 關鍵幀,來模擬時延,下降了 3.19% mAP 和 8.4% NDS(delay 0.083s),26.08 mAP 和 36.54% NDS (delay 0.3s)

到了這里,關于PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • [論文筆記] SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving

    [論文筆記] SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving

    Wei, Yi, et al. “Surroundocc: Multi-camera 3d occupancy prediction for autonomous driving.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. 將占用網格應用到多個相機構成的3D空間中; 使用BEVFormer中的方法獲取3D特征, 然后使用交叉熵損失計算loss; 和BEVFormer區(qū)別是BEV中z軸高度為1, 這里

    2024年02月04日
    瀏覽(26)
  • 【論文筆記】CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception

    【論文筆記】CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception

    原文鏈接:https://arxiv.org/abs/2304.00670 ??本文提出兩階段融合方法CRN,能使用相機和雷達生成語義豐富且位置精確的BEV特征。具體來說,首先將圖像透視特征轉換到BEV下,該步驟依賴雷達,稱為雷達輔助的視圖變換(RVT)。由于轉換得到的BEV特征并非完全精確,接下來的多模

    2024年02月03日
    瀏覽(46)
  • CFT:Multi-Camera Calibration Free BEV Representation for 3D Object Detection——論文筆記

    CFT:Multi-Camera Calibration Free BEV Representation for 3D Object Detection——論文筆記

    參考代碼:暫無 介紹:在相機數(shù)據作為輸入的BEV感知算法中很多是需要顯式或是隱式使用相機內外參數(shù)的,但是相機的參數(shù)自標定之后并不是一直保持不變的,這就對依賴相機標定參數(shù)的算法帶來了麻煩。如何提升模型對相機參數(shù)魯棒性,甚至是如何去掉相機參數(shù)成為一種趨

    2024年02月01日
    瀏覽(32)
  • AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback

    本文是LLM系列文章,針對《》的翻譯。 像ChatGPT這樣的大型語言模型由于能夠很好地遵循用戶指令而被廣泛采用。開發(fā)這些LLM涉及一個復雜但鮮為人知的工作流程,需要通過人工反饋進行訓練。復制和理解此指令跟隨過程面臨三大挑戰(zhàn):數(shù)據收集成本高、缺乏可靠的評估以及

    2024年02月11日
    瀏覽(17)
  • pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

    pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

    Paper: 鏈接 Code: https://github.com/dcharatan/pixelsplat Author: MIT, SFU 1)幾種常見的偽影 quad ① ghosting artifacts :當攝像機運動,或者物體運動時,畫面會在物體舊位置留下重影,其實就是殘影。 quad ② Blurring :和ghosting類似,都是把畫面變糊,但是有區(qū)別。blurring指的是空域高頻圖像

    2024年01月20日
    瀏覽(45)
  • 【3D目標檢測】3D Object Detection from Images for Autonomous Driving: A Survey

    【3D目標檢測】3D Object Detection from Images for Autonomous Driving: A Survey

    這是一篇22年的綜述,介紹了3D目標檢測中基于圖像的檢測算法。 背景: 基于圖像的3D目標檢測是一個病態(tài)的問題,因為我們要做的是從2D的輸入中得到一個3D的結果。 相關性: 基于圖像的3D目標檢測通常會與很多任務,如2D目標檢測、深度估計、立體匹配和基于點云的3D目標

    2024年02月08日
    瀏覽(17)
  • A Simple Framework for 3D Lensless Imaging with Programmablle Masks 論文代碼部分

    A Simple Framework for 3D Lensless Imaging with Programmablle Masks 論文代碼部分

    1.1 data數(shù)據 net 在這里插入圖片描述 2.1 代碼整體介紹 這段代碼的作用是加載PSFs數(shù)據,并進行一系列參數(shù)設置。 首先,通過設置 data_dir 變量為數(shù)據目錄的路徑。然后,根據場景名來選擇特定于場景的參數(shù)。根據不同的場景名,設置 d1 和 d2 的值。 net 場景包括一個距離相機約

    2024年04月10日
    瀏覽(24)
  • 【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    原文鏈接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html 本文使用概率去噪擴散模型的技術,提出完全可微的雷達-相機框架。使用校準矩陣將雷達點云投影到圖像上后,在特征編碼器和BEV下的Transformer檢測解碼器中

    2024年01月18日
    瀏覽(28)
  • 【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

    【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

    原文鏈接:https://arxiv.org/abs/2303.10076 本文提出基于環(huán)視圖像進行3D占用估計的簡單框架,探索了網絡設計、優(yōu)化和評估。網絡設計方面,雖然輸出形式與單目深度估計和立體匹配不同,但網絡結構與立體匹配網絡相似(如下圖所示),可以使用立體匹配的經驗設計網絡。優(yōu)化

    2024年02月02日
    瀏覽(21)
  • 超全 | 基于純視覺Multi-Camera的3D感知方法匯總!

    超全 | 基于純視覺Multi-Camera的3D感知方法匯總!

    近兩年,基于純視覺BEV方案的3D目標檢測備受關注,all in one方式,確實能將基于camera的3D檢測算法性能提升一大截,甚至直逼激光雷達方案,這次整理了領域中一些備受關注的multi-camera bev純視覺感知方案,包括DETR3D、BEVDet、ImVoxelNet、PETR、BEVFormer、BEVDepth、BEVDet4D、BEVerse等!

    2023年04月08日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包