国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection

這篇具有很好參考價值的文章主要介紹了論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection

論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection,Occupancy,3d,計算機(jī)視覺,人工智能
論文:https://arxiv.org/pdf/2103.10039.pdf
代碼:https://github.com/tusen-ai/RangeDet

問題

提出了一個名為RangeDet的新型3D物體檢測技術(shù),利用激光雷達(dá)數(shù)據(jù)。
RangeDet的核心在于使用了一種緊湊的表示方法,稱為范圍視圖,與其他常用方法相比,它避免了計算誤差。

論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection,Occupancy,3d,計算機(jī)視覺,人工智能
根據(jù)論文中的討論,使用范圍視圖(range view)表示法面臨幾個挑戰(zhàn):

  1. 尺寸變化問題: 范圍視圖的一個主要問題是,它繼承了傳統(tǒng)2D圖像檢測中的一個典型問題,即物體因距離不同而呈現(xiàn)出的“近大遠(yuǎn)小”現(xiàn)象,這導(dǎo)致物體尺寸變化多端,給物體檢測帶來挑戰(zhàn)。相比之下,鳥瞰圖(Bird’s Eye View, BEV)表示法不會遇到這種問題,但BEV的主要問題在于數(shù)據(jù)稀疏性和量化損失。

  2. 處理難度: 第二個挑戰(zhàn)是不能簡單地采用傳統(tǒng)的2D卷積網(wǎng)絡(luò)處理范圍圖像。因為在范圍圖像中,每個像素點(diǎn)都有一個明確的距離值,使得相鄰像素之間的實際空間距離各不相同。這一特性要求在處理時必須考慮到像素間的這種空間距離差異。

  3. 稠密特征的利用: 盡管范圍圖像相比點(diǎn)云和BEV視圖具有更稠密的特征,這理論上可以使得特征學(xué)習(xí)更加高效,但如何有效地利用這些稠密特征來提高檢測精度是一個問題。稠密特征提供了更豐富的信息,但同時也需要更復(fù)雜的方法來正確地解析這些信息,并轉(zhuǎn)化為對物體檢測有利的形式。

笛卡爾坐標(biāo)

在論文中提到,對于一個掃描周期內(nèi)包含m個光束和n次測量的激光雷達(dá),其一次掃描返回的數(shù)據(jù)構(gòu)成了一個m乘以n的矩陣,被稱為測距儀圖像。此測距圖像的每一列對應(yīng)一個方位角,每一行對應(yīng)一個傾角,這些角度代表了返回點(diǎn)與激光雷達(dá)原點(diǎn)之間的相對垂直和水平位置。測距圖像中的像素值不僅包括了相應(yīng)點(diǎn)的距離(深度)、返回激光脈沖的強(qiáng)度(即強(qiáng)度值)等信息,還可能包含其他輔助信息。在測距圖像中,每個像素至少囊括了三個幾何參數(shù):測距(r)、方位角(θ)和傾角(φ)。
論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection,Occupancy,3d,計算機(jī)視覺,人工智能

結(jié)構(gòu)圖

論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection,Occupancy,3d,計算機(jī)視覺,人工智能
這個過程針對處理激光雷達(dá)的范圍圖像(Range Image)采用了一種特殊的框架,其中范圍圖像被看作是一個具有8個通道的2D圖像。這些通道分別代表不同的測量和幾何特性,包括距離、反射率、伸長率、X、Y、Z坐標(biāo)、方位角和傾角。這樣的多維表示富含了環(huán)境的詳細(xì)信息,對于后續(xù)的處理至關(guān)重要。

接下來,這個8通道的2D圖像會依次經(jīng)過兩個基礎(chǔ)塊(BasicBlock),這是何凱明等人在ResNet架構(gòu)中提出的一種結(jié)構(gòu)單元。第一個BasicBlock按照原始設(shè)計進(jìn)行處理,而第二個BasicBlock則采用了一種被稱為Meta-Kernel的特殊卷積核,旨在捕獲和提煉更豐富的特征信息,生成所謂的特征圖(Featuremap)。

在第二個BasicBlock中,作者還引入了特征金字塔網(wǎng)絡(luò)(FPN)的結(jié)構(gòu),通過不同尺度的特征圖上采樣和聚合,進(jìn)一步豐富了特征表示。這一步驟在處理深度學(xué)習(xí)任務(wù)中常見,特別是在需要捕獲多尺度信息的視覺任務(wù)中。

文章中的另一大創(chuàng)新點(diǎn)是范圍條件金字塔分配(Range Conditioned Pyramid Assignment),這個方法根據(jù)物體距離的遠(yuǎn)近,將標(biāo)簽分配到不同尺度的特征圖中。這種策略使得模型能夠針對不同距離范圍的目標(biāo),更加精準(zhǔn)地處理信息,尤其是對近距離和遠(yuǎn)距離的目標(biāo)進(jìn)行了優(yōu)化處理。

最后,模型通過四個3x3的卷積層分別構(gòu)造了分類和回歸的頭部(head),并采用了Varifocal lossSmooth L1 Loss作為損失函數(shù)來優(yōu)化模型。這些設(shè)計和優(yōu)化策略共同提高了模型對于3D物體檢測的性能,特別是在處理復(fù)雜的激光雷達(dá)數(shù)據(jù)時的準(zhǔn)確性和魯棒性。

Varifocal loss
論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection,Occupancy,3d,計算機(jī)視覺,人工智能
Smooth L1 Loss
論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection,Occupancy,3d,計算機(jī)視覺,人工智能
IoU target calculation
論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection,Occupancy,3d,計算機(jī)視覺,人工智能

  • 左圖: 描述的是一個方法,其中對于模型考慮的每一個點(diǎn),都將以該點(diǎn)為中心,而且該點(diǎn)的x軸被定義為局部x軸。這種方法簡單地將每個點(diǎn)自身作為坐標(biāo)系的起點(diǎn),而不考慮任何外部的方向信息或者點(diǎn)的方位角。

  • 右圖: 在這個方法中,每個點(diǎn)的方位角方向被定義為局部x軸。這意味著,與左圖的方法相比,局部坐標(biāo)系的定義考慮到了每個點(diǎn)的方位,使得局部x軸的定義更加動態(tài),依賴于每個點(diǎn)相對于全局坐標(biāo)系的方向。

在模型處理回歸任務(wù),特別是在計算回歸損失之前,將采用左圖的目標(biāo)方式轉(zhuǎn)換成右圖的目標(biāo)方式。這樣的轉(zhuǎn)換是為了利用方位角信息,從而更精確地定義局部坐標(biāo)系,提高模型對于物體位置和方向的估計精度。

Meta-Kernel Convolution

論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection,Occupancy,3d,計算機(jī)視覺,人工智能
在這個過程中,首先通過一個3x3的采樣網(wǎng)格,我們確定了九個鄰近點(diǎn)的位置,這些位置的坐標(biāo)被轉(zhuǎn)換成相對于中心點(diǎn)的直角坐標(biāo)系統(tǒng)下的位置。這一步驟的目的是獲取空間上鄰近點(diǎn)的布局信息。

接著,使用一個共享的多層感知器_MLP對這些相對坐標(biāo)進(jìn)行處理。MLP是一種簡單的神經(jīng)網(wǎng)絡(luò),它可以從輸入數(shù)據(jù)中學(xué)習(xí)復(fù)雜的函數(shù)映射。在這里,它被用來根據(jù)鄰近中心的相對坐標(biāo)生成九個不同的權(quán)重向量(w1到w9)。這些權(quán)重向量反映了每個鄰近點(diǎn)相對于中心點(diǎn)的空間重要性或貢獻(xiàn)度。

然后,對應(yīng)于這九個位置的輸入特征向量f1到f9)被采樣。這些特征向量可能包含了那些位置上的物體的形狀、紋理等信息。

最后,通過一個特殊的操作,將這九個鄰域的輸出(oi)組合起來。這通常通過連接(concatenating)這些輸出并應(yīng)用一個1x1的卷積來實現(xiàn)。1x1卷積在這里的作用是將來自不同通道和不同采樣位置的信息匯總,生成一個輸出特征向量。這個輸出特征向量綜合了周圍鄰域的信息。

總結(jié)來說,這個過程通過分析鄰近點(diǎn)的空間布局和特征信息,以及它們相對于中心點(diǎn)的重要性,有效地生成了融合了局部信息的輸出特征向量。這種方法可以增強(qiáng)模型對于空間信息的理解和利用,從而提高其性能。

參考

https://zhuanlan.zhihu.com/p/526985263文章來源地址http://www.zghlxwxcb.cn/news/detail-849965.html

到了這里,關(guān)于論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • BMR論文閱讀筆記(Bootstrapping Multi-view Representations for Fake News Detection)

    BMR論文閱讀筆記(Bootstrapping Multi-view Representations for Fake News Detection)

    論文標(biāo)題:Bootstrapping Multi-view Representations for Fake News Detection 論文作者:Qichao Ying, Xiaoxiao Hu, Yangming Zhou, Zhenxing Qian, Dan Zeng, Shiming Ge 論文來源:AAAI 2023,Paper 代碼來源:Code 基于深度學(xué)習(xí)的多模態(tài) 虛假新聞檢測 (Fake News Detection, FND)一直飽受關(guān)注,本文發(fā)現(xiàn)以往關(guān)于多模態(tài)FND的研

    2024年02月05日
    瀏覽(26)
  • 【論文閱讀筆記】Endoscopic navigation in the absence of CT imaging

    ??上一篇的導(dǎo)航導(dǎo)論,是需要先驗,也就是需要事先拍攝堆疊的圖片(比如CT圖等),在體外構(gòu)建相應(yīng)的3D模型,再與內(nèi)窺鏡圖像進(jìn)行實時匹配。對于很多情況來說,是無法擁有如此充足的先驗的。所以,本文探索的是沒有額外CT圖像的一個內(nèi)窺鏡導(dǎo)航算法,應(yīng)用場景是鼻腔

    2024年02月11日
    瀏覽(25)
  • 論文閱讀:Towards a Unified View of Parameter-Efficient Transfer Learning對參數(shù)高效遷移學(xué)習(xí)的統(tǒng)一看法

    論文閱讀:Towards a Unified View of Parameter-Efficient Transfer Learning對參數(shù)高效遷移學(xué)習(xí)的統(tǒng)一看法

    Towards a Unified View of Parameter-Efficient Transfer Learning對參數(shù)高效遷移學(xué)習(xí)的統(tǒng)一看法 參數(shù)高效的微調(diào)在NLP中是較新的方法,早期的代表工作是2019年發(fā)表的adapter。2021年開始有越來越多的人關(guān)注這一方向并有不同的方法被提出, 代表工作有prefix tuning, P-tuning, prompt tuning, bitfit, LoRA等

    2024年02月08日
    瀏覽(24)
  • 【論文閱讀記錄】地震數(shù)據(jù)增強(qiáng)方法:APPLICATIONS OF DEEP LEARNING IN SEISMOLOGY

    ?隨機(jī)位移(Random shift)技術(shù)對于提高模型泛化能力的重要性。通過將地震訓(xùn)練數(shù)據(jù)在時間上進(jìn)行隨機(jī)位移,可以減少模型對于特定時間點(diǎn)的位置偏見,從而提高其對地震波到達(dá)時間預(yù)測的準(zhǔn)確性。 目標(biāo):利用隨機(jī)位移增強(qiáng)地震波到達(dá)時間(如P波)的預(yù)測準(zhǔn)確性,通過在每

    2024年04月09日
    瀏覽(25)
  • 論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models

    論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models

    本文主要對2023一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》主要內(nèi)容進(jìn)行介紹。 大型語言模型(LLM)通過利用思想鏈(CoT)提示生成中間推理鏈作為推斷答案的基本原理,在復(fù)雜推理方面表現(xiàn)出了令人印象深刻的性能。然而,現(xiàn)有的CoT研究主要集中在語言模態(tài)上。

    2024年03月14日
    瀏覽(79)
  • 論文閱讀 The Power of Tiling for Small Object Detection

    論文閱讀 The Power of Tiling for Small Object Detection

    Abstract 基于深度神經(jīng)網(wǎng)絡(luò)的技術(shù)在目標(biāo)檢測和分類方面表現(xiàn)出色。但這些網(wǎng)絡(luò)在適應(yīng)移動平臺時可能會降低準(zhǔn)確性,因為圖像分辨率的增加使問題變得更加困難。在低功耗移動設(shè)備上實現(xiàn)實時小物體檢測一直是監(jiān)控應(yīng)用的基本問題之一。在本研究中,我們解決了在高分辨率微

    2024年02月11日
    瀏覽(34)
  • 論文閱讀筆記A Systematic Review of the State of Cyber-Security in Water Systems

    論文閱讀筆記A Systematic Review of the State of Cyber-Security in Water Systems

    該論文主要回顧了水系統(tǒng)的網(wǎng)絡(luò)安全研究,研究重點(diǎn)是提高供水、廢水收集和處理系統(tǒng)的安全性 一、 Introduction 過去的供水系統(tǒng)安全:通過隔離、限制對控制組件的訪問來實現(xiàn)的。 基于IoT的供水系統(tǒng):依靠連接多層網(wǎng)絡(luò)物理系統(tǒng)來促進(jìn)自主去中心化決策,并改善實時數(shù)據(jù)和預(yù)

    2024年02月04日
    瀏覽(23)
  • 論文閱讀 - Social bot detection in the age of ChatGPT: Challenges and opportunities

    論文閱讀 - Social bot detection in the age of ChatGPT: Challenges and opportunities

    論文鏈接:https://www.researchgate.net/publication/371661341_Social_bot_detection_in_the_age_of_ChatGPT_Challenges_and_opportunities 目錄 摘要: 引言 1.1. Background on social bots and their role in society 1.2. The rise of AI-generated chatbots like ChatGPT 1.3. The importance of social bot detection 1.4. Scope and objectives of the paper? 2. T

    2024年02月14日
    瀏覽(18)
  • (論文閱讀)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

    (論文閱讀)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

    論文地址 https://openreview.net/pdf?id=_VjQlMeSB_J ????????我們探索如何生成一個思維鏈——一系列中間推理步驟——如何顯著提高大型語言模型執(zhí)行復(fù)雜推理的能力。 特別是,我們展示了這種推理能力如何通過一種稱為思維鏈提示的簡單方法自然地出現(xiàn)在足夠大的語言模型中,

    2024年02月08日
    瀏覽(39)
  • 論文閱讀《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》

    論文閱讀《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》

    論文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Efficient_and_Explicit_Modelling_of_Image_Hierarchies_for_Image_Restoration_CVPR_2023_paper.pdf 源碼地址:https://github.com/ofsoundof/GRL-Image-Restoration ??圖像復(fù)原任務(wù)旨在從低分辨率的圖像(模糊,子采樣,噪聲污染,JPEG壓縮)中恢復(fù)高質(zhì)量的圖

    2024年02月03日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包