国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

這篇具有很好參考價值的文章主要介紹了【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

原文鏈接:https://arxiv.org/abs/2303.10076

1. 引言

本文提出基于環(huán)視圖像進行3D占用估計的簡單框架,探索了網(wǎng)絡(luò)設(shè)計、優(yōu)化和評估。網(wǎng)絡(luò)設(shè)計方面,雖然輸出形式與單目深度估計和立體匹配不同,但網(wǎng)絡(luò)結(jié)構(gòu)與立體匹配網(wǎng)絡(luò)相似(如下圖所示),可以使用立體匹配的經(jīng)驗設(shè)計網(wǎng)絡(luò)。優(yōu)化方面,可以基于渲染深度圖和點級分類標(biāo)簽,使用監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)。評估方面,受體積渲染啟發(fā),引入基于距離的占用評估指標(biāo),這比其余指標(biāo)更加公平;此外該指標(biāo)只需要點云作為真值。
【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy),自動駕駛中的3D占用預(yù)測,論文閱讀,計算機視覺,自動駕駛,深度學(xué)習(xí)

3. 方法

3.1 準(zhǔn)備知識

本節(jié)介紹了NeRF的體積渲染公式,見神經(jīng)輻射場的簡單介紹。

3.2 模型設(shè)計

【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy),自動駕駛中的3D占用預(yù)測,論文閱讀,計算機視覺,自動駕駛,深度學(xué)習(xí)
如上圖所示為本文的端到端占用預(yù)測網(wǎng)絡(luò) Q : ( I 1 , I 2 , ? ? , I n ) → V X × Y × Z Q: (I^1,I^2,\cdots,I^n)\rightarrow V^{X\times Y\times Z} Q:(I1,I2,?,In)VX×Y×Z。

編碼器:使用預(yù)訓(xùn)練ResNet。

圖像特征到3D體素:使用Simple-BEV的方法,即定義3D點并投影回圖像,通過雙線性插值采樣特征。對于出現(xiàn)在多個視圖中的點使用采樣特征的均值。

3D體素空間學(xué)習(xí):由于上述無參數(shù)變換導(dǎo)致沿圖像射線的點特征相同,需要進行進一步處理。使用基于沙漏結(jié)構(gòu)的3D CNN,但僅取單一尺度輸出,因為多尺度輸出需要更多計算資源,且不會帶來性能提升。

占用概率:使用體素特征預(yù)測密度 σ \sigma σ后,通過Sigmoid函數(shù)得到占用概率。

有符號距離函數(shù):之前的工作發(fā)現(xiàn),體積渲染的密度不是可靠的幾何表達,本文使用有符號距離函數(shù)(SDF),將SDF值 s s s轉(zhuǎn)化為密度 σ \sigma σ用于體積渲染:
σ β ( s ) = { 1 2 β exp ? ( s β ) s ≤ 0 1 β ( 1 ? 1 2 exp ? ( ? s β ) ) s > 0 \sigma_\beta(s)=\left\{\begin{matrix}\frac{1}{2\beta}\exp(\frac{s}{\beta})&s\leq 0\\\frac{1}{\beta}(1-\frac{1}{2}\exp(-\frac{s}{\beta}))&s>0\end{matrix}\right. σβ?(s)={2β1?exp(βs?)β1?(1?21?exp(?βs?))?s0s>0?

其中 β \beta β為可學(xué)習(xí)的參數(shù)。

網(wǎng)絡(luò)的輸出可以是密度、占用概率或SDF。使用SDF輸出時,訓(xùn)練時將其轉(zhuǎn)化為密度后進行體積渲染。測試時,占用概率接近1的/SDF值接近0的位置表示被占用,需要設(shè)置具體的閾值決定。

3.3 模型評估

本文使用現(xiàn)有的數(shù)據(jù)集,以類似深度估計的方式進行3D占用估計,但需要注意:

  1. 使用點云作為真值標(biāo)簽是稀疏的;
  2. 只能確定激光雷達中心到點云之間的空間;
  3. 3D占用是離散表達,不可避免存在量化誤差。

本文使用兩種評估指標(biāo):分類指標(biāo)和離散深度指標(biāo),且兩種指標(biāo)與兩種監(jiān)督訓(xùn)練方式相關(guān)。

占用標(biāo)簽生成:使用分層抽樣策略得到空空間的標(biāo)簽:在各激光雷達射線均勻采樣固定數(shù)量的點。占用空間通過體素化點云得到。
【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy),自動駕駛中的3D占用預(yù)測,論文閱讀,計算機視覺,自動駕駛,深度學(xué)習(xí)

激光雷達點云生成的占用標(biāo)簽和激光雷達投影得到的稀疏深度圖會作為不同的監(jiān)督。

分類指標(biāo):使用二元分類指標(biāo)進行評估,但該指標(biāo)只能評估已知區(qū)域。如下圖所示,情況2比情況1的估計更準(zhǔn)確,但分類指標(biāo)表示出情況1的性能更好。
【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy),自動駕駛中的3D占用預(yù)測,論文閱讀,計算機視覺,自動駕駛,深度學(xué)習(xí)
離散深度指標(biāo):若一條射線上所有點都預(yù)測為空,則設(shè)置最后一個點作為第一個預(yù)測占用點。離散深度誤差即為第一個占用預(yù)測點到激光雷達點的距離。類似深度估計評估,可以使用Abs Rel、Sq Rel、RMSE、RMSE log和 δ < t \delta<t δ<t精度指標(biāo)。

3.4 模型優(yōu)化

3.4.1 監(jiān)督學(xué)習(xí)

兩種不同的訓(xùn)練方式:一種使用深度損失,即使用體渲染得到的深度圖受真實深度圖監(jiān)督;另一種直接計算已知空間內(nèi)的二元分類損失,包括交叉熵?fù)p失和L1損失。

深度圖損失:使用尺度不變對數(shù)(SILog)損失:
L d e p t h = α 1 M ∑ i Δ d i 2 ? λ M 2 ( ∑ i Δ d i ) 2 \mathcal{L}_{depth}=\alpha\sqrt{\frac{1}{M}\sum_i\Delta d^2_i-\frac{\lambda}{M^2}(\sum_i\Delta d_i)^2} Ldepth?=αM1?i?Δdi2??M2λ?(i?Δdi?)2 ?

其中 Δ d i = log ? d ^ i ? log ? d i ? \Delta d_i=\log \hatn5n3t3z_i-\log d_i^* Δdi?=logd^i??logdi??, M M M為有效像素數(shù)量; α \alpha α λ \lambda λ為超參數(shù)。

分類損失:除二元交叉熵外,對采樣點使用L1損失:
L L 1 = 1 N ∑ i = 1 N L 1 ( 1 ? p i ) + 1 K ω ∑ j = 1 K L 1 ( 0 ? p j ) \mathcal{L}_{L1}=\frac{1}{N}\sum_{i=1}^NL_1(1-p_i)+\frac{1}{K}\omega\sum_{j=1}^KL_1(0-p_j) LL1?=N1?i=1N?L1?(1?pi?)+K1?ωj=1K?L1?(0?pj?)

其中 p i p_i pi?為點云位置的預(yù)測概率, p j p_j pj?為空空間采樣點位置的預(yù)測概率; N N N為有效點數(shù), K K K為空空間的采樣點數(shù); ω \omega ω為超參數(shù)。

3.4.2 自監(jiān)督學(xué)習(xí)

對渲染合成圖像使用光度一致性損失:
L s e l f ( I t , I ^ t ) = β 1 ? SSIM ( I t , I ^ t ) 2 + ( 1 ? β ) ∥ I t ? I ^ t ∥ \mathcal{L}_{self}(I_t,\hat{I}_t)=\beta\frac{1-\text{SSIM}(I_t,\hat{I}_t)}{2}+(1-\beta)\|I_t-\hat{I}_t\| Lself?(It?,I^t?)=β21?SSIM(It?,I^t?)?+(1?β)It??I^t?

注意此處需要相機內(nèi)參和外參。

4. 實驗

4.3 有監(jiān)督損失和網(wǎng)絡(luò)結(jié)構(gòu)的消融研究

有監(jiān)督損失函數(shù)分析:實驗表明,深度損失與離散深度損失均優(yōu)于分類損失。分類損失容易在天空區(qū)域產(chǎn)生漂浮物,因為損失無法處理未知區(qū)域(無點云區(qū)域)。而深度損失能防止這一現(xiàn)象,因為渲染會從整條射線采樣,從而隱式地優(yōu)化這些區(qū)域。深度損失會在前景與背景的交界處產(chǎn)生長尾假陽性預(yù)測。聯(lián)合使用深度損失和分類損失不如僅使用深度損失。

網(wǎng)絡(luò)設(shè)計:實驗表明,使用更大的圖像編碼器和預(yù)訓(xùn)練均能提高性能。對于反投影方法,改為使用LSS或基于查詢(交叉注意力)的方法,性能會降低。

4.4 自監(jiān)督學(xué)習(xí)和3D重建

自監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)之間有較大的差距。SDF表達在離散距離指標(biāo)下性能更優(yōu),但在深度指標(biāo)下略低。這是由于概率與密度表達優(yōu)化更靈活,而有符號距離值的優(yōu)化更困難。但這種靈活性可能不利于網(wǎng)孔提取。對3D重建而言,SDF表達是更優(yōu)的。

4.5 深度估計基準(zhǔn)

與監(jiān)督和自監(jiān)督單目/環(huán)視深度估計網(wǎng)絡(luò)相比,本文的方法有相當(dāng)?shù)男阅?。對自監(jiān)督學(xué)習(xí),本文的方法在誤差指標(biāo)上更優(yōu)而在精度指標(biāo)上更差,這可能是由于體積渲染和編碼器-解碼器結(jié)構(gòu)的差異。

本文方法的缺點是比單目深度估計方法需要更長的推斷時間,主要在3D特征提取和渲染上。但對于占用估計任務(wù)來說,無需渲染。

4.6 語義3D占用估計的討論

本文框架下的SurroundOcc:使用與SurroundOcc相同的損失和相似的訓(xùn)練策略。實驗表明,本文方法在性能和速度上均更優(yōu)。此外在自監(jiān)督下,SurroundOcc優(yōu)化困難,性能較差。

SurroundOcc的預(yù)訓(xùn)練策略:本文使用點級訓(xùn)練策略,而現(xiàn)有方法使用體素級訓(xùn)練策略。點級訓(xùn)練能產(chǎn)生更細(xì)粒度的預(yù)測。為證明這一點,使用本文方法進行預(yù)訓(xùn)練,即使用本文的采樣方法生成點級語義標(biāo)簽,并使用體素級語義標(biāo)簽微調(diào)。實驗表明這樣做能有效提高性能??梢暬砻?,使用稀疏點級標(biāo)簽訓(xùn)練的模型除了在天空區(qū)域會錯誤分類為植被或人造物以外,場景其余部分的估計都很合理。這說明這種方法可以作為后續(xù)微調(diào)的有效初始化。

5. 局限性和未來工作

引入序列數(shù)據(jù);更細(xì)的分辨率;使用MLP回歸最終幾何并引入額外正則化損失(如eikonal損失)。文章來源地址http://www.zghlxwxcb.cn/news/detail-784307.html

到了這里,關(guān)于【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【論文筆記】UniVision: A Unified Framework for Vision-Centric 3D Perception

    【論文筆記】UniVision: A Unified Framework for Vision-Centric 3D Perception

    原文鏈接:https://arxiv.org/pdf/2401.06994.pdf 目前,同時處理基于圖像的3D檢測任務(wù)和占用預(yù)測任務(wù)還未得到充分探索。3D占用預(yù)測需要細(xì)粒度信息,多使用體素表達;而3D檢測多使用BEV表達,因其更加高效。 本文提出UniVision,同時處理3D檢測與占用預(yù)測任務(wù)的統(tǒng)一網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)為

    2024年02月19日
    瀏覽(17)
  • 【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    原文鏈接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html 本文使用概率去噪擴散模型的技術(shù),提出完全可微的雷達-相機框架。使用校準(zhǔn)矩陣將雷達點云投影到圖像上后,在特征編碼器和BEV下的Transformer檢測解碼器中

    2024年01月18日
    瀏覽(27)
  • 【論文筆記】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

    【論文筆記】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

    【論文筆記】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement 原文鏈接:https://ieeexplore.ieee.org/abstract/document/10363646 本文的3DOPFormer使用空間交叉注意力機制和反卷積恢復(fù)3D占用,然后基于激光雷達射線方向特征提出優(yōu)化3D占用感知模型的新方法。使

    2024年01月25日
    瀏覽(46)
  • 論文筆記:A Simple and Effective Pruning Approach for Large Language Models

    論文筆記:A Simple and Effective Pruning Approach for Large Language Models

    iclr 2024 reviewer 評分 5668 大模型網(wǎng)絡(luò)剪枝的paper 在努力保持性能的同時,舍棄網(wǎng)絡(luò)權(quán)重的一個子集 現(xiàn)有方法 要么需要重新訓(xùn)練 這對于十億級別的LLMs來說往往不現(xiàn)實 要么需要解決依賴于二階信息的權(quán)重重建問題 這同樣可能帶來高昂的計算成本 ——引入了一種新穎、簡單且有

    2024年04月17日
    瀏覽(27)
  • 論文筆記 Spatial-Temporal Identity: A Simple yet Effective Baseline for Multivariate Time Series Forecas

    論文筆記 Spatial-Temporal Identity: A Simple yet Effective Baseline for Multivariate Time Series Forecas

    CIKM 2022 多維時間序列(Multivariate Time Series, MTS)?最關(guān)鍵的、區(qū)別于其他數(shù)據(jù)的特點是,這些 時間序列之間存在著明顯的依賴關(guān)系 MTS 預(yù)測的關(guān)鍵是:對 MTS 的第?i?條時間序列進行預(yù)測的時候,不僅要考慮這第?i?條時間序列的歷史信息,也要考慮其他時間序列的歷史信息】

    2024年02月02日
    瀏覽(19)
  • 論文筆記--OpenPrompt: An Open-source Framework for Prompt-learning

    論文筆記--OpenPrompt: An Open-source Framework for Prompt-learning

    標(biāo)題:OpenPrompt: An Open-source Framework for Prompt-learning 作者:Ning Ding, Shengding Hu, Weilin Zhao, Yulin Chen, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun 日期:2022 期刊:ACL ??文章介紹了一種開源的工具OpenPrompt,該工具將prompt-learning的一些操作進行封裝處理,設(shè)計成為一種用戶友好的開源三方庫,使

    2024年02月17日
    瀏覽(46)
  • 論文筆記--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    論文筆記--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    標(biāo)題:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 作者:Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang 日期:2020 期刊:AAAI ??文章給出了一種新的NLP預(yù)訓(xùn)練模型的訓(xùn)練方法,并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE

    2024年02月09日
    瀏覽(37)
  • SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning論文閱讀筆記

    SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning論文閱讀筆記

    SAFEFL,這是一個利用安全多方計算 (MPC) 來評估聯(lián)邦學(xué)習(xí) (FL) 技術(shù)在防止隱私推斷和中毒攻擊方面的有效性和性能的框架。 傳統(tǒng)機器學(xué)習(xí)(ML):集中收集數(shù)據(jù)-隱私保護問題 privacy-preserving ML (PPML)采用的隱私保護技術(shù):安全多方計算,同態(tài)加密(運算成本高) 聯(lián)邦學(xué)習(xí)(FL):

    2024年04月22日
    瀏覽(38)
  • 【原文鏈接】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

    【原文鏈接】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

    原文鏈接:https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Tri-Perspective_View_for_Vision-Based_3D_Semantic_Occupancy_Prediction_CVPR_2023_paper.pdf 體素表達需要較大的計算量和特別的技巧(如稀疏卷積),BEV表達難以使用平面特征編碼所有3D結(jié)構(gòu)。 本文提出三視圖(TPV)表達3D場景。為得到空間

    2024年01月23日
    瀏覽(17)
  • 【論文閱讀】以及部署B(yǎng)EVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

    【論文閱讀】以及部署B(yǎng)EVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

    BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework BEVFusion:一個簡單而強大的LiDAR-相機融合框架 NeurIPS 2022 多模態(tài)傳感器融合意味著信息互補、穩(wěn)定,是自動駕駛感知的重要一環(huán),本文注重工業(yè)落地,實際應(yīng)用 融合方案: 前融合(數(shù)據(jù)級融合)指通過空間對齊直接融合不同模態(tài)的

    2024年02月04日
    瀏覽(51)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包