Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., & Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2312.14074
最近,大型語言模型(LLMs)和多模態(tài)大型語言模型(MLLMs)在指令跟隨和2D圖像理解方面表現(xiàn)出了潛力。雖然這些模型很強大,但它們尚未被開發(fā)成能夠理解更具挑戰(zhàn)性的3D物理場景,特別是在稀疏的戶外LiDAR數(shù)據(jù)方面。在本文中,我們引入了LiDAR-LLM,該模型以原始LiDAR數(shù)據(jù)作為輸入,并利用LLMs的卓越推理能力來全面理解戶外3D場景。我們的LiDAR-LLM的核心見解是將3D戶外場景認知重新構想為一個語言建模問題,涵蓋了3D字幕生成、3D定位、3D問答等任務。具體而言,由于缺乏3D LiDAR-文本配對數(shù)據(jù),我們引入了一個三階段的訓練策略,并生成相關數(shù)據(jù)集,逐步將3D模態(tài)與LLMs的語言嵌入空間對齊。此外,我們設計了一個視圖感知變壓器(VAT)來連接3D編碼器和LLM,有效地彌合了模態(tài)差距,并增強了LLM對視覺特征的空間定位理解。我們的實驗表明,LiDAR-LLM具有理解關于3D場景的各種指令并進行復雜的空間推理的優(yōu)越能力。LiDAR-LLM在3D字幕生成任務上取得了40.9的BLEU-1,而在3D定位任務上實現(xiàn)了63.1%的分類準確率和14.3%的BEV mIoU。網頁鏈接:https://sites.google.com/view/lidar-llm文章來源:http://www.zghlxwxcb.cn/news/detail-785864.html
圖1. LiDAR-LLM的特性。我們提出的LiDAR-LLM以3D LiDAR數(shù)據(jù)為輸入,并將3D模態(tài)與語言嵌入空間對齊,充分利用LLM的卓越推理能力來理解戶外3D場景。為了增強LiDAR特征的空間定位表示,我們在LiDAR編碼器和LLM之間引入了一個View-Aware Transformer 視圖感知變壓器。同時,底部展示了從我們生成或使用的LiDAR-文本數(shù)據(jù)中衍生出的示例,涵蓋了一系列與3D相關的任務。
圖2 我們LiDAR-LLM框架的概述。初始列展示了我們的3D特征提取器,該提取器處理LiDAR點云輸入以得到3D體素特征。隨后,特征沿z軸展平,生成鳥瞰圖(BEV)特征。視圖感知變壓器(VAT)接受BEV嵌入和可學習的查詢作為輸入,輸出的查詢作為軟提示輸入到凍結的LLM。在VAT中,我們引入了六個視圖位置嵌入到BEV特征中,以及相應的查詢,以增強空間定位表示的能力。該框架將LiDAR模態(tài)與語言嵌入空間對齊,使我們能夠充分利用LLM來全面理解戶外3D場景。
圖3. 提示性問題和LiDAR-LLM預測的定性示例文章來源地址http://www.zghlxwxcb.cn/news/detail-785864.html
到了這里,關于[arxiv論文閱讀] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!