国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

這篇具有很好參考價值的文章主要介紹了21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

簡介

官網(wǎng)
21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding,# NLP,語言模型,3d,人工智能
?將原始LiDAR數(shù)據(jù)作為輸入,利用LLMs卓越的推理能力,來獲得對室外3D場景的全面了解,將3D戶外場景認知重構(gòu)為語言建模問題,如3D captioning, 3D grounding, 3D question answering。

實現(xiàn)流程

21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding,# NLP,語言模型,3d,人工智能
?給定LiDAR輸入 L ∈ R n × 3 L \in \R^{n \times 3} LRn×3,n 是點的數(shù)量,使用 VoxelNet 獲取 LiDAR Feature,考慮到計算成本,沿著 z軸展平特征以生成鳥瞰圖(BEV) Feature F v ∈ R c × h × w F_v \in \R^{c \times h \times w} Fv?Rc×h×w,對于最大 m 個字符的文本輸入 T,使用 LLaMA 進行文本特征提取 F t ∈ R m × d F_t \in \R^{m \times d} Ft?Rm×d,d 是特征的維數(shù)。只微調(diào) LLaMA 和 VAT 模塊中注入的 Adapter,同時凍結(jié)主要參數(shù)。

VAT

21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding,# NLP,語言模型,3d,人工智能
?設(shè)計 K=576 個可學(xué)習(xí)的 query Embeddings,VAT生成一個包含 K 個編碼視覺向量的輸出,向量通過多層感知器(MLP)進行處理,然后輸入到凍結(jié)的LLM中。

?由于戶外LiDAR數(shù)據(jù),如nuScenes,需要全面了解不同對象與汽車之間的方向關(guān)系,為BEV特征引入視圖位置嵌入,以提高模型學(xué)習(xí)方向和幾何關(guān)系的能力,構(gòu)建初始參數(shù)為 0 的視圖位置嵌入 V p ∈ R c × 6 V_p\in \R^{c×6} Vp?Rc×6,根據(jù)6個視圖劃分BEV特征,包括前視圖、前右視圖、前左視圖、后視圖、后右視圖和后左視圖,在訓(xùn)練過程中,當(dāng)處理與特定視圖相關(guān)的問題時,將相應(yīng)的位置嵌入注入到BEV特征和 queries 中。

在訓(xùn)練與左前視圖相關(guān)的標(biāo)題樣本時,只將嵌入 V p ∈ R c × 1 V_p \in \R^{c×1} Vp?Rc×1 的左前位置注入到BEV特征和queries的左前視圖部分。如果訓(xùn)練樣本涉及到關(guān)于整個全景場景的問題,在訓(xùn)練期間注入所有六個視圖位置嵌入。

Training

通過三階段訓(xùn)練策略,LiDAR-LLM開發(fā)了初步的規(guī)劃能力。可以刺激模型對3D LiDAR數(shù)據(jù)的推理能力。
21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding,# NLP,語言模型,3d,人工智能

Cross-Modal Alignment (3D Captioning)

?通過將整個3D場景集成到LLMs中,使模型能夠捕捉LiDAR數(shù)據(jù)中的基本信息和細節(jié)。利用nuScenes中與LiDAR數(shù)據(jù)對齊的現(xiàn)有多視圖圖像來創(chuàng)建文本描述,利用強大的現(xiàn)成2D多模態(tài)LLMs (MLLMs),為每個視圖生成標(biāo)題,創(chuàng)建與LiDAR場景相對應(yīng)的文本描述。然而,由于2D MLLM可能為2D圖像提供與天氣或顏色相關(guān)的描述,而這些描述并不適用于LiDAR數(shù)據(jù),因此LiDAR數(shù)據(jù)的描述與2D多視圖的描述并不是完全對齊的。為了解決這種不一致性,進一步使用GPT-4來過濾出更相關(guān)、更適合LiDAR數(shù)據(jù)的標(biāo)題。

?LiDAR數(shù)據(jù)的文本說明往往由于其復(fù)雜的幾何結(jié)構(gòu)而過于詳細和冗長。聯(lián)合學(xué)習(xí)整體標(biāo)題可能會導(dǎo)致LLM推理中的糾纏。訓(xùn)練模型來描述單個視圖,以降低復(fù)雜性,輸出標(biāo)題由相應(yīng)視圖的基本事實答案使用交叉熵損失進行監(jiān)督,然后指導(dǎo)模型理解整個全景場景并生成全局描述,將3D特征表示與LLM的文本特征空間對齊,使模型能夠理解LiDAR數(shù)據(jù)中的上下文。

Perception

?賦予模型實例級的感知能力,因為它們是規(guī)劃等高級教學(xué)任務(wù)的基礎(chǔ)。采用以對象為中心的學(xué)習(xí)策略,確保模型認識到各種對象細節(jié),如數(shù)量、定位和空間關(guān)系。學(xué)習(xí)單個3D對象的表示和與對象相關(guān)的LLM相應(yīng)的文本嵌入之間的對齊。

?對象首先表示為離散標(biāo)記序列,其中提取每個對象的標(biāo)簽和邊界框。給定一個帶有注釋的3D對象,使用預(yù)訓(xùn)練的LLM的標(biāo)記器將類別名稱位置編碼為詞嵌入,在整個3D場景中實現(xiàn)對象感知。模型學(xué)習(xí)生成位置標(biāo)記,根據(jù)LiDAR輸入和指令指定區(qū)域位置(x1, y1, z1, x2, y2, z2, θ),其中θ是盒子角。通過利用輸入的LiDAR數(shù)據(jù)和帶有位置信息的文本,訓(xùn)練模型生成描述性文本。兩個任務(wù)的輸出都通過交叉熵損失進行監(jiān)督,解鎖LLM的3D感知能力。

High-level Instruction

?利用高級指令數(shù)據(jù)集(如nuScenes-QA)進一步增強模型在3D空間中的推理能力。通過使用該數(shù)據(jù)集對LiDAR-LLM進行微調(diào),不僅提高了其理解各種指令數(shù)組的熟練程度,還使其能夠生成既具有創(chuàng)造性又符合上下文的響應(yīng)。此外,這種細化過程使LiDAR-LLM具備了進行復(fù)雜空間推理的能力,并將外部知識整合到其生成的響應(yīng)中。這些任務(wù)還通過交叉熵損失進行監(jiān)督,確保模型的輸出與所需的高級指令有效對齊。探索了LiDAR-LLM在nuScenes數(shù)據(jù)集上的自動駕駛規(guī)劃能力。直接利用訓(xùn)練好的模型來推斷與規(guī)劃相關(guān)的問題,而不是生成任何規(guī)劃QA數(shù)據(jù)。

details

?采用了標(biāo)準(zhǔn)的預(yù)訓(xùn)練3D檢測器提取激光雷達特征,CenterPoint-Voxel遵循其默認設(shè)置。點云范圍為[-54.0m, 54.0m, -5.0m, 54.0m, 54.0m, 3.0m], BEV網(wǎng)格尺寸為[0.6m, 0.6m]。對于VAT,將可學(xué)習(xí)queries的令牌數(shù)量設(shè)置為576,令牌的維度為768。在LLM方面,采用了LLaMA-7B,兼顧效率和功效。在整個三個階段的訓(xùn)練階段,使用Adam優(yōu)化器(β1, β2) =(0.9, 0.999),初始學(xué)習(xí)率為1e-4,每兩個epochs將其減半。對LLaMA2中的VAT和adapter進行了6個epoch的微調(diào)。所有實驗均在NVIDIA Tesla A100 gpu上進行。文章來源地址http://www.zghlxwxcb.cn/news/detail-811286.html

到了這里,關(guān)于21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • LLM 大模型實用指南 | The Practical Guides for Large Language Models
  • 【人工智能】大模型LLM技術(shù)生態(tài)全景圖 | The Foundation Large Language Model (LLM) & Tooling Landscape

    目錄 “Software is eating the world…”??“軟件正在吞噬世界...”~ Marc Andreessen?~ 馬克·安德森 Every company is a software company…soon every company will be an AI company.每家公司都是軟件公司...很快,每家公司都將成為人工智能公司。 Everybody is using software…soon everybody will directly be using AI.每個

    2024年02月08日
    瀏覽(19)
  • 論文筆記:Evaluating the Performance of Large Language Models on GAOKAO Benchmark

    論文筆記:Evaluating the Performance of Large Language Models on GAOKAO Benchmark

    采用zero-shot prompting的方式,將試題轉(zhuǎn)化為ChatGPT的輸入 對于數(shù)學(xué)題,將公式轉(zhuǎn)化為latex輸入? 主觀題由專業(yè)教師打分 2010~2022年,一共13年間的全國A卷和全國B卷

    2024年03月15日
    瀏覽(26)
  • LLM(Large Language Model)大語言模型

    語言模型夠大,訓(xùn)練的語料夠多,涌現(xiàn)出推理能力飆升等 ? Generative Pre-trained Transformer 3(GPT-3)是最著名的LLM之一,擁有1750億個參數(shù)。該模型在文本生成、翻譯和其他任務(wù)中表現(xiàn)出顯著的性能,在全球范圍內(nèi)引起了熱烈的反響,目前OpenAI已經(jīng)迭代到了GPT-4版本 Generative :能產(chǎn)

    2024年02月15日
    瀏覽(25)
  • Exploring the Underlying Architecture of CSS3

    在現(xiàn)代的網(wǎng)頁設(shè)計中,CSS(層疊樣式表)起著至關(guān)重要的作用。CSS3作為最新的CSS標(biāo)準(zhǔn),引入了許多令人興奮的功能和特性。但是,要真正理解CSS3的底層架構(gòu)實現(xiàn)原理,對于前端開發(fā)者來說,是非常重要的。本文將深入探討CSS3的底層架構(gòu),幫助讀者更好地理解CSS3的工作原理。

    2024年02月14日
    瀏覽(18)
  • LLM:Training Compute-Optimal Large Language Models

    LLM:Training Compute-Optimal Large Language Models

    論文:https://arxiv.org/pdf/2203.15556.pdf 發(fā)表:2022 前文回顧: OpenAI在2020年提出《Scaling Laws for Neural Language Models》:Scaling Laws(縮放法則)也一直影響了后續(xù)大模型的訓(xùn)練。其給出的 結(jié)論是最佳計算效率訓(xùn)練涉及在相對適中的數(shù)據(jù)量上訓(xùn)練非常大的模型并在收斂之前early stopping 。

    2024年01月20日
    瀏覽(33)
  • Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

    Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

    大開眼界?探索多模態(tài)模型種視覺編碼器的缺陷。 論文中指出,上面這些VQA問題,人類可以瞬間給出正確的答案,但是多模態(tài)給出的結(jié)果卻是錯誤的。是哪個環(huán)節(jié)出了問題呢?視覺編碼器的問題?大語言模型出現(xiàn)了幻覺?還是視覺特征與語言模型間的特征沒有對齊? 作者將

    2024年01月24日
    瀏覽(23)
  • 吳恩達gradio課程:基于開源LLM(large language model)的聊天應(yīng)用

    內(nèi)容簡介 Falcon 40B 是當(dāng)前最好的開源語言模型之一。 使用 text-generation 庫調(diào)用 Falcon 40B 的問答 API 接口。 首先僅僅在代碼中與模型聊天,后續(xù)通過Gradio構(gòu)建聊天界面。 Gradio 聊天界面可以保存對話歷史上下文。 在聊天過程中,需要將之前對話記錄與新消息一起發(fā)送給模型,才能進

    2024年02月09日
    瀏覽(60)
  • A Survey of Large Language Models

    A Survey of Large Language Models

    本文是LLM系列的第一篇文章,針對《A Survey of Large Language Models》的翻譯。 自從20世紀50年代提出圖靈測試以來,人類一直在探索通過機器掌握語言智能。語言本質(zhì)上是一個由語法規(guī)則控制的復(fù)雜的人類表達系統(tǒng)。開發(fā)能夠理解和掌握語言的人工智能算法是一個重大挑戰(zhàn)。在過

    2024年02月09日
    瀏覽(64)
  • 大型語言模型(LLM, Large Language Models)基模和 Chat 模型之間的區(qū)別

    最近看大模型相關(guān)的知識,有看到大模型都有基礎(chǔ)模型(base)和對話模型(chat),不太清楚什么時候用到基礎(chǔ)模型,什么時候用到對話模型,故有此文。 通過了解,最簡單的概述就是基于基礎(chǔ)模型會訓(xùn)練出一個對話(Chat)模型,對話模型主要用于對話場景,基礎(chǔ)模型主要做

    2024年02月21日
    瀏覽(52)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包