国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文筆記】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

這篇具有很好參考價值的文章主要介紹了【論文筆記】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

【論文筆記】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement
原文鏈接:https://ieeexplore.ieee.org/abstract/document/10363646

I. 引言

本文的3DOPFormer使用空間交叉注意力機制和反卷積恢復(fù)3D占用,然后基于激光雷達射線方向特征提出優(yōu)化3D占用感知模型的新方法。使用神經(jīng)渲染方法合成激光雷達射線方向的距離,通過最小化合成距離與原始點云距離之間的損失,使模型生成精確的占用預(yù)測。通過插值可以得到任意3D點的特征,從而預(yù)測任意分辨率下的3D場景占用。

III. 方法

A. 準(zhǔn)備知識

本節(jié)介紹了NeRF的體積渲染公式,見神經(jīng)輻射場的簡單介紹。

在粗糙采樣的基礎(chǔ)上,還可進行細(xì)化采樣,即根據(jù)粗糙采樣的權(quán)重分布采樣新的點,再將粗糙采樣點與細(xì)化采樣點一起用于計算渲染結(jié)果。損失函數(shù)為粗糙采樣渲染結(jié)果光度損失與細(xì)化采樣渲染結(jié)果光度損失的均值。

對于激光雷達距離合成,將上述渲染公式中的RGB值替換為距離即可。由于點的距離是采樣得到,需要預(yù)測的僅有 σ \sigma σ,因此可改為直接預(yù)測不透明度 α \alpha α
d ^ = ∑ i = 1 N T i α i t i T i = ∑ j = 1 i ? 1 ( 1 ? α j ) α i = F ( x i ) \hatn5n3t3z=\sum_{i=1}^NT_i\alpha_it_i\\T_i=\sum_{j=1}^{i-1}(1-\alpha_j)\\\alpha_i=F(x_i) d^=i=1N?Ti?αi?ti?Ti?=j=1i?1?(1?αj?)αi?=F(xi?)
其中 F F F為3D占用感知模型(見后文)。

B. 概述

【論文筆記】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh,自動駕駛中的3D占用預(yù)測,論文閱讀,深度學(xué)習(xí),計算機視覺,自動駕駛
如上圖所示,首先用主干網(wǎng)絡(luò)提取圖像特征,并使用空間注意力提升到3D空間得到 V i ∈ R H × W × Z × C V_i\in\mathbb{R}^{H\times W\times Z\times C} Vi?RH×W×Z×C,并使用3D反卷積得到更高分辨率的3D體素特征。最后,使用MLP預(yù)測3D占用結(jié)果。

C. 3D占用感知查詢

定義可學(xué)習(xí)參數(shù) Q ∈ R H × W × Z × C Q\in\mathbb{R}^{H\times W\times Z\times C} QRH×W×Z×C(與初始3D體素 V i V_i Vi?大小相同)。位于網(wǎng)格 p = ( x , y , z ) p=(x,y,z) p=(x,y,z)處的查詢?yōu)?span id="n5n3t3z" class="katex--inline"> Q p ∈ R C Q_p\in\mathbb{R}^C Qp?RC

D. 空間占用交叉注意力

本文使用可變形注意力以減小計算,其中3D體素查詢與2D圖像特征中的相應(yīng)區(qū)域的特征交互。

首先將查詢 Q p Q_p Qp?投影到圖像上,采樣附近的圖像特征,然后按下式得到 V i V_i Vi?
S O C A ( Q p , F ) = 1 ∣ V h i t ∣ ∑ i ∈ V h i t D A ( Q p , P ( p , i ) , F i ) D A ( q , p , x ) = ∑ i ′ = 1 N h e a d W i ′ ∑ j ′ = 1 N k e y A i ′ j ′ W i ′ ′ x ( p + Δ p i ′ j ′ ) SOCA(Q_p,F)=\frac{1}{|\mathcal{V}_{hit}|}\sum_{i\in\mathcal{V}_{hit}}DA(Q_p,\mathcal{P}(p,i),F^i)\\DA(q,p,x)=\sum_{i'=1}^{N_{head}}W_{i'}\sum_{j'=1}^{N_{key}}A_{i'j'}W'_{i'}x(p+\Delta p_{i'j'}) SOCA(Qp?,F)=Vhit?1?iVhit??DA(Qp?,P(p,i),Fi)DA(q,p,x)=i=1Nhead??Wi?j=1Nkey??Aij?Wi?x(p+Δpij?)

其中 V h i t \mathcal{V}_{hit} Vhit?為查詢所屬視圖數(shù)量, P ( p , i ) \mathcal{P}(p,i) P(p,i)為將點 p p p投影到視圖 i i i上的函數(shù), F i F^i Fi為視圖 i i i的特征。 N h e a d , N k e y N_{head},N_{key} Nhead?,Nkey?分別為注意力頭數(shù)和采樣點數(shù), W i ′ ∈ R C × ( C / N h e a d ) , W i ′ ′ ∈ R ( C / N h e a d ) × C W_{i'}\in\mathbb{R}^{C\times(C/N_{head})},W'_{i'}\in\mathbb{R}^{(C/N_{head})\times C} Wi?RC×(C/Nhead?),Wi?R(C/Nhead?)×C為權(quán)重, A i ′ j ′ ∈ [ 0 , 1 ] A_{i'j'}\in[0,1] Aij?[0,1]為預(yù)測注意力權(quán)重,滿足 ∑ j ′ = 1 N k e y A i ′ j ′ = 1 \sum_{j'=1}^{N_{key}}A_{i'j'}=1 j=1Nkey??Aij?=1。 Δ p i ′ j ′ ∈ R 2 \Delta p_{i'j'}\in\mathbb{R}^2 Δpij?R2為預(yù)測偏移量。

下面是投影函數(shù) P ( p , i ) \mathcal{P}(p,i) P(p,i)的介紹。首先根據(jù)體素索引 ( x , y , z ) (x,y,z) (x,y,z)計算查詢的真實世界坐標(biāo) ( x w , y w , z w ) (x_w,y_w,z_w) (xw?,yw?,zw?)
x w = x + 0.5 W ( X max ? ? X min ? ) + X min ? y w = x + 0.5 H ( Y max ? ? Y min ? ) + Y min ? z w = x + 0.5 Z ( Z max ? ? Z min ? ) + Z min ? x_w=\frac{x+0.5}{W}(X_{\max}-X_{\min})+X_{\min}\\ y_w=\frac{x+0.5}{H}(Y_{\max}-Y_{\min})+Y_{\min}\\ z_w=\frac{x+0.5}{Z}(Z_{\max}-Z_{\min})+Z_{\min} xw?=Wx+0.5?(Xmax??Xmin?)+Xmin?yw?=Hx+0.5?(Ymax??Ymin?)+Ymin?zw?=Zx+0.5?(Zmax??Zmin?)+Zmin?

然后使用投影矩陣投影到圖像上:
P ( p , i ) = ( x i , y i ) z i [ x i y i 1 1 / z i ] = [ K O O 1 ] [ R T O 1 ] [ x w y w z w 1 ] \mathcal{P}(p,i)=(x_i,y_i)\\ z_i\begin{bmatrix}x_i\\y_i\\1\\1/z_i\end{bmatrix}=\begin{bmatrix}K&O\\O&1\end{bmatrix}\begin{bmatrix}R&T\\O&1\end{bmatrix}\begin{bmatrix}x_w\\y_w\\z_w\\1\end{bmatrix} P(p,i)=(xi?,yi?)zi? ?xi?yi?11/zi?? ?=[KO?O1?][RO?T1?] ?xw?yw?zw?1? ?

其中 K , R , T K,R,T K,R,T分別為相機內(nèi)參、外參旋轉(zhuǎn)矩陣與外參平移矩陣, z i z_i zi?為深度。

E. 模型優(yōu)化

除交叉熵?fù)p失和lovasz-softmax損失外,還提出基于點云方向特征的方向體素?fù)p失和基于神經(jīng)渲染的距離損失。

1) 方向體素?fù)p失

如下左圖所示,激光雷達射線會從原點出發(fā),穿過未占用體素(empty顏色)到達占用體素處。記經(jīng)過的體素編號為1到 m m m,則方向體素?fù)p失為:
L d i r v o x e l = 1 n ∑ L 1 s m o o t h ( m log ? p c + ∑ i = 1 m ? 1 ( m ? i ) log ? ( 1 ? p i ) , 0 ) L 1 s m o o t h ( x , y ) = { 0.5 ( x ? y ) 2 若 ∣ x ? y ∣ < 1 ∣ x ? y ∣ ? 0.5 否則 \mathcal{L}_{dirvoxel}=\frac{1}{n}\sum L1_{smooth}(m\log p_c+\sum_{i=1}^{m-1}(m-i)\log(1-p_i),0)\\L1_{smooth}(x,y)=\left\{\begin{matrix}0.5(x-y)^2&若|x-y|<1\\|x-y|-0.5&否則\end{matrix}\right. Ldirvoxel?=n1?L1smooth?(mlogpc?+i=1m?1?(m?i)log(1?pi?),0)L1smooth?(x,y)={0.5(x?y)2x?y?0.5?x?y<1否則?

其中 n n n為激光雷達射線數(shù), p i p_i pi?為中間點的預(yù)測占用概率, p c p_c pc?為預(yù)測所屬真實類別的概率。 log ? \log log前的 ( m ? i ) (m-i) (m?i)為權(quán)重,射線從原點到激光雷達點的權(quán)重逐漸減小。方向體素?fù)p失可以促進模型收斂并提高性能。

【論文筆記】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh,自動駕駛中的3D占用預(yù)測,論文閱讀,深度學(xué)習(xí),計算機視覺,自動駕駛【論文筆記】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh,自動駕駛中的3D占用預(yù)測,論文閱讀,深度學(xué)習(xí),計算機視覺,自動駕駛

2) 距離損失

如上右圖所示,粗糙階段將激光雷達射線段均勻分為 N N N段進行采樣,細(xì)化階段根據(jù)粗糙階段采樣點的權(quán)重分布,再采樣 N N N個點。采樣點的特征從體素特征中插值,并輸入MLP預(yù)測不透明度,進行渲染。距離損失為:
L d i s t a n c e = 1 2 ∣ R ∣ ∑ ( L 1 s m o o t h ( log ? d ^ c , log ? d ) + L 1 s m o o t h ( log ? d ^ f , log ? d ) ) \mathcal{L}_{distance}=\frac{1}{2|\mathcal{R}|}\sum(L1_{smooth}(\log\hat d_c,\log d)+L1_{smooth}(\log\hat d_f,\log d)) Ldistance?=2∣R1?(L1smooth?(logd^c?,logd)+L1smooth?(logd^f?,logd))

其中 R \mathcal{R} R為射線集合。

IV. 實驗

C. 評估指標(biāo)

使用IoU(不考慮類別)和mIoU評估性能。此外還僅針對激光雷達射線穿過的體素進行評估。

D. 主要結(jié)果

1) nuScenes數(shù)據(jù)集上的3D語義占用預(yù)測

實驗表明,本文的方法與基準(zhǔn)方案相比有更高的性能,且在激光雷達射線穿過的體素上的性能優(yōu)勢更明顯。

可視化表明,本文的方法能更精確地表達物體的結(jié)構(gòu),且能成功預(yù)測一些遠處的物體或小物體。

E. 消融研究

實驗表明,本文的方向體素?fù)p失和距離損失均能提高模型性能,且前者作用更大。文章來源地址http://www.zghlxwxcb.cn/news/detail-822414.html

到了這里,關(guān)于【論文筆記】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

    PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

    PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images 曠視 本文的目標(biāo)是 通過擴展 PETR,使其有時序建模和多任務(wù)學(xué)習(xí)的能力 以此建立一個 強有力且統(tǒng)一的框架。 本文主要貢獻: 將 位置 embedding 轉(zhuǎn)換到 時序表示學(xué)習(xí),時序的對齊 是在 3D PE 上做 姿態(tài)變換實現(xiàn)的。提出了

    2024年02月16日
    瀏覽(22)
  • 【論文筆記】Perception, Planning, Control, and Coordination for Autonomous Vehicles

    【論文筆記】Perception, Planning, Control, and Coordination for Autonomous Vehicles

    單純作為閱讀筆記,文章內(nèi)容可能有些混亂。 作者先介紹了一些關(guān)于自動駕駛汽車在未來城市交通系統(tǒng)中的潛在作用,包括增加安全性、提高生產(chǎn)力、提高可達性、提高道路效率以及對環(huán)境的積極影響;接著介紹自動駕駛汽車的起源與發(fā)展,當(dāng)然少不了介紹DARPA;作者還介紹

    2024年02月08日
    瀏覽(21)
  • 大一統(tǒng)模型 Universal Instance Perception as Object Discovery and Retrieval 論文閱讀筆記

    大一統(tǒng)模型 Universal Instance Perception as Object Discovery and Retrieval 論文閱讀筆記

    寫在前面 ??馬上又是一周周末了,開始寫論文博客啦。 ??這是一篇頂會文章,標(biāo)題很清楚,就是一個一統(tǒng)的框架用于解決各種任務(wù)。這類文章在 21 年的時候挺多的,現(xiàn)在倒是不常見了。因為需要的資源很多,外部數(shù)據(jù)集也很龐大,一般的小資源團隊基本搞不定。但一旦

    2024年02月04日
    瀏覽(18)
  • Monocular 3D Object Detection with Depth from Motion 論文學(xué)習(xí)

    Monocular 3D Object Detection with Depth from Motion 論文學(xué)習(xí)

    論文鏈接:Monocular 3D Object Detection with Depth from Motion 從單目輸入感知 3D 目標(biāo)對于自動駕駛非常重要,因為單目 3D 的成本要比多傳感器的方案低許多。但單目方法很難取得令人滿意的效果,因為單張圖像并沒有提供任何關(guān)于深度的信息,該方案實現(xiàn)起來非常困難。 Two view 場景

    2024年02月17日
    瀏覽(26)
  • 論文閱讀:Offboard 3D Object Detection from Point Cloud Sequences

    論文閱讀:Offboard 3D Object Detection from Point Cloud Sequences

    目錄 概要 Motivation 整體架構(gòu)流程 技術(shù)細(xì)節(jié) 3D Auto Labeling Pipeline The static object auto labeling model The dynamic object auto labeling model 小結(jié) 論文地址: [2103.05073] Offboard 3D Object Detection from Point Cloud Sequences (arxiv.org) ? ? 該論文提出了一種利用點云序列數(shù)據(jù)進行離線三維物體檢測的方法,稱

    2024年02月06日
    瀏覽(30)
  • 論文閱讀 TripoSR: Fast 3D Object Reconstruction from a Single Image 單張圖片快速完成3D重建

    論文閱讀 TripoSR: Fast 3D Object Reconstruction from a Single Image 單張圖片快速完成3D重建

    本文為記錄自己在NeRF學(xué)習(xí)道路的一些筆記,包括對論文以及其代碼的思考內(nèi)容。公眾號: AI知識物語 B站講解:出門吃三碗飯 論文地址: https://arxiv.org/abs/2403.02151 代碼: https://github.com/VAST-AI-Research/Tr ipoSR 先來看下演示效果 TripoSR可以在0.5秒內(nèi)從單張圖片重建高質(zhì)量3D模型,并

    2024年04月14日
    瀏覽(23)
  • 淺談3D隱式表示(SDF,Occupancy field,NeRF)

    淺談3D隱式表示(SDF,Occupancy field,NeRF)

    本篇文章介紹了符號距離函數(shù)Signed Distance Funciton(SDF),占用場Occupancy Field,神經(jīng)輻射場Neural Radiance Field(NeRF)的概念、聯(lián)系與區(qū)別。 三維空間的表示形式可以分為顯式和隱式。 比較常用的顯式表示比如 體素Voxel , 點云Point Cloud , 三角面片Mesh 等。 比較常用的隱式表示有 符

    2024年02月15日
    瀏覽(22)
  • 51 -25 Scene as Occupancy,場景作為占用 論文精讀

    51 -25 Scene as Occupancy,場景作為占用 論文精讀

    本文閱讀的文章是Scene as Occupancy,介紹了一種將物體表示為3D occupancy的新方法,以描述三維場景,并用于檢測、分割和規(guī)劃。 文章提出了OccNet和OpenOcc兩個核心概念。 OccNet 3D占用網(wǎng)絡(luò)是一種以多視圖視覺為中心的方法,通過層級化的體素解碼器,可以重建3D感知模型和3D占用,

    2024年02月22日
    瀏覽(20)
  • 51 -25 Scene as Occupancy 場景即占用 論文精讀

    51 -25 Scene as Occupancy 場景即占用 論文精讀

    本文閱讀的文章是Scene as Occupancy,介紹了一種將物體表示為3D occupancy的新方法,以描述三維場景,并用于檢測、分割和規(guī)劃。 文章提出了OccNet和OpenOcc兩個核心概念。 OccNet 3D占用網(wǎng)絡(luò)是一種以多視圖視覺為中心的方法,通過層級化的體素解碼器,可以重建3D感知模型和3D占用,

    2024年02月21日
    瀏覽(17)
  • 【PMLR21‘論文閱讀】Perceiver: General Perception with Iterative Attention

    【PMLR21‘論文閱讀】Perceiver: General Perception with Iterative Attention

    Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., Carreira, J. (18–24 Jul 2021). Perceiver: General Perception with Iterative Attention. In M. Meila T. Zhang (Eds.), Proceedings of the 38th International Conference on Machine Learning (Vol. 139, pp. 4651–4664). PMLR. https://proceedings.mlr.press/v139/jaegle21a.html Perceiver:迭代關(guān)注的

    2024年02月20日
    瀏覽(16)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包