国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

[arxiv論文閱讀] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

這篇具有很好參考價值的文章主要介紹了[arxiv論文閱讀] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., & Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2312.14074

最近,大型語言模型(LLMs)和多模態(tài)大型語言模型(MLLMs)在指令跟隨2D圖像理解方面表現(xiàn)出了潛力。雖然這些模型很強大,但它們尚未被開發(fā)成能夠理解更具挑戰(zhàn)性的3D物理場景,特別是在稀疏的戶外LiDAR數(shù)據(jù)方面。在本文中,我們引入了LiDAR-LLM,該模型以原始LiDAR數(shù)據(jù)作為輸入,并利用LLMs的卓越推理能力來全面理解戶外3D場景。我們的LiDAR-LLM的核心見解是將3D戶外場景認知重新構想為一個語言建模問題,涵蓋了3D字幕生成、3D定位、3D問答等任務。具體而言,由于缺乏3D LiDAR-文本配對數(shù)據(jù),我們引入了一個三階段的訓練策略,并生成相關數(shù)據(jù)集,逐步將3D模態(tài)與LLMs的語言嵌入空間對齊。此外,我們設計了一個視圖感知變壓器(VAT)來連接3D編碼器和LLM,有效地彌合了模態(tài)差距,并增強了LLM對視覺特征的空間定位理解。我們的實驗表明,LiDAR-LLM具有理解關于3D場景的各種指令并進行復雜的空間推理的優(yōu)越能力。LiDAR-LLM在3D字幕生成任務上取得了40.9的BLEU-1,而在3D定位任務上實現(xiàn)了63.1%的分類準確率和14.3%的BEV mIoU。網頁鏈接:https://sites.google.com/view/lidar-llm

exploring the potential of large language models (llms) in learning on graph,機器視覺,論文閱讀,語言模型,人工智能
圖1. LiDAR-LLM的特性。我們提出的LiDAR-LLM以3D LiDAR數(shù)據(jù)為輸入,并將3D模態(tài)與語言嵌入空間對齊,充分利用LLM的卓越推理能力來理解戶外3D場景。為了增強LiDAR特征的空間定位表示,我們在LiDAR編碼器和LLM之間引入了一個View-Aware Transformer 視圖感知變壓器。同時,底部展示了從我們生成或使用的LiDAR-文本數(shù)據(jù)中衍生出的示例,涵蓋了一系列與3D相關的任務。
exploring the potential of large language models (llms) in learning on graph,機器視覺,論文閱讀,語言模型,人工智能
圖2 我們LiDAR-LLM框架的概述。初始列展示了我們的3D特征提取器,該提取器處理LiDAR點云輸入以得到3D體素特征。隨后,特征沿z軸展平,生成鳥瞰圖(BEV)特征。視圖感知變壓器(VAT)接受BEV嵌入和可學習的查詢作為輸入,輸出的查詢作為軟提示輸入到凍結的LLM。在VAT中,我們引入了六個視圖位置嵌入到BEV特征中,以及相應的查詢,以增強空間定位表示的能力。該框架將LiDAR模態(tài)與語言嵌入空間對齊,使我們能夠充分利用LLM來全面理解戶外3D場景。
exploring the potential of large language models (llms) in learning on graph,機器視覺,論文閱讀,語言模型,人工智能
圖3. 提示性問題和LiDAR-LLM預測的定性示例文章來源地址http://www.zghlxwxcb.cn/news/detail-785864.html

到了這里,關于[arxiv論文閱讀] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 論文閱讀:SERE: Exploring Feature Self-relation for Self-supervised Transformer

    論文閱讀:SERE: Exploring Feature Self-relation for Self-supervised Transformer

    Self-supervised 學習目的是在無人工標注的情況下通過自定制的任務(hand-crafted pretext tasks)學習豐富的表示。 使用 自監(jiān)督學習 為卷積網絡(CNN)學習表示已經被驗證對視覺任務有效。作為CNN的一種替代方案, 視覺變換器 (ViT)具有強大的表示能力,具有 空間自注意力和通道

    2024年02月09日
    瀏覽(27)
  • 論文閱讀 2DPASS: 2D Priors Assisted SemanticSegmentation on LiDAR Point Clouds LiDAR

    論文閱讀 2DPASS: 2D Priors Assisted SemanticSegmentation on LiDAR Point Clouds LiDAR

    題目:2DPASS: 2D Priors Assisted SemanticSegmentation on LiDAR Point Clouds ECCV 2022。建議打開csdn右側目錄欄,部分個人理解和覺得重要內容有加粗表示,其余內容主要是機器翻譯。如果對整個領域比較熟悉直接從第三章開始看就行。 主要貢獻:2D先驗輔助語義分割 (2DPASS)+多尺度融合到單知

    2024年01月25日
    瀏覽(20)
  • [論文閱讀]PillarNeXt——基于LiDAR點云的3D目標檢測網絡設計

    [論文閱讀]PillarNeXt——基于LiDAR點云的3D目標檢測網絡設計

    PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds 基于LiDAR點云的3D目標檢測網絡設計 論文網址:PillarNeXt 代碼:PillarNeXt 這篇論文\\\"PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds\\\"重新思考了用于激光雷達點云3D目標檢測的網絡設計。主要的貢獻

    2024年02月08日
    瀏覽(28)
  • 論文閱讀:SuMa++: Efficient LiDAR-based Semantic SLAM

    論文閱讀:SuMa++: Efficient LiDAR-based Semantic SLAM

    來源:IROS 2019 鏈接:https://ieeexplore.ieee.org/document/8967704 可靠、準確的定位和映射是大多數(shù)自動駕駛系統(tǒng)的關鍵組成部分。除了映射環(huán)境的幾何信息外,語義在實現(xiàn)智能導航行為方面也起著重要作用。在大多數(shù)現(xiàn)實環(huán)境中,由于移動對象引起的動態(tài)變換,這個任務特別復雜,這

    2024年03月12日
    瀏覽(29)
  • 論文閱讀:Rethinking Range View Representation for LiDAR Segmentation

    論文閱讀:Rethinking Range View Representation for LiDAR Segmentation

    來源ICCV2023 LiDAR分割對于自動駕駛感知至關重要。最近的趨勢有利于基于點或體素的方法,因為它們通常產生比傳統(tǒng)的距離視圖表示更好的性能。在這項工作中,我們揭示了建立強大的距離視圖模型的幾個關鍵因素。我們觀察到, “多對一”的映射 , 語義不連貫性 , 形狀變

    2024年02月02日
    瀏覽(24)
  • [論文閱讀]MVF——基于 LiDAR 點云的 3D 目標檢測的端到端多視圖融合

    [論文閱讀]MVF——基于 LiDAR 點云的 3D 目標檢測的端到端多視圖融合

    End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds 論文網址:MVF 論文代碼: 這篇論文提出了一個端到端的多視角融合(Multi-View Fusion, MVF)算法,用于在激光雷達點云中進行3D目標檢測。論文的主要貢獻有兩個: 提出了動態(tài)體素化(Dynamic Voxelization)的概念。相比傳統(tǒng)的硬體素

    2024年01月23日
    瀏覽(18)
  • 【論文閱讀】以及部署B(yǎng)EVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

    【論文閱讀】以及部署B(yǎng)EVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

    BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework BEVFusion:一個簡單而強大的LiDAR-相機融合框架 NeurIPS 2022 多模態(tài)傳感器融合意味著信息互補、穩(wěn)定,是自動駕駛感知的重要一環(huán),本文注重工業(yè)落地,實際應用 融合方案: 前融合(數(shù)據(jù)級融合)指通過空間對齊直接融合不同模態(tài)的

    2024年02月04日
    瀏覽(52)
  • 論文閱讀:Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data

    論文閱讀:Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data

    目錄 摘要 Motivation 整體架構流程 技術細節(jié) 雷達和圖像數(shù)據(jù)的同步 小結 論文地址:? [2203.16258] Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data (arxiv.org) 論文代碼: GitHub - valeoai/SLidR: Official PyTorch implementation of \\\"Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data\\\" ? ?

    2024年02月08日
    瀏覽(30)
  • 論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection

    論文閱讀RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection

    論文:https://arxiv.org/pdf/2103.10039.pdf 代碼:https://github.com/tusen-ai/RangeDet 提出了一個名為RangeDet的新型3D物體檢測技術,利用激光雷達數(shù)據(jù)。 RangeDet的核心在于使用了一種緊湊的表示方法,稱為范圍視圖,與其他常用方法相比,它避免了計算誤差。 根據(jù)論文中的討論,使用范圍視

    2024年04月13日
    瀏覽(27)
  • 論文閱讀:LIF-Seg: LiDAR and Camera Image Fusion for 3DLiDAR Semantic Segmentation

    論文閱讀:LIF-Seg: LiDAR and Camera Image Fusion for 3DLiDAR Semantic Segmentation

    LIF-Seg:用于 3D LiDAR 語義分割的 LiDAR 和相機圖像融合 來源:華科 + 商湯 未發(fā)表2021 鏈接:https://arxiv.org/abs/2108.07511 個人覺得有用的和自己理解加粗和()內表示,盡量翻譯的比較全,有一些官方話就沒有翻譯了,一些疑惑的地方歡迎大家探討。如果對整個領域比較熟悉看一、

    2023年04月25日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包