簡介
官網(wǎng)
?將原始LiDAR數(shù)據(jù)作為輸入,利用LLMs卓越的推理能力,來獲得對室外3D場景的全面了解,將3D戶外場景認知重構(gòu)為語言建模問題,如3D captioning, 3D grounding, 3D question answering。
實現(xiàn)流程
?給定LiDAR輸入
L
∈
R
n
×
3
L \in \R^{n \times 3}
L∈Rn×3,n 是點的數(shù)量,使用 VoxelNet 獲取 LiDAR Feature,考慮到計算成本,沿著 z軸展平特征以生成鳥瞰圖(BEV) Feature
F
v
∈
R
c
×
h
×
w
F_v \in \R^{c \times h \times w}
Fv?∈Rc×h×w,對于最大 m 個字符的文本輸入 T,使用 LLaMA 進行文本特征提取
F
t
∈
R
m
×
d
F_t \in \R^{m \times d}
Ft?∈Rm×d,d 是特征的維數(shù)。只微調(diào) LLaMA 和 VAT 模塊中注入的 Adapter,同時凍結(jié)主要參數(shù)。
VAT
?設(shè)計 K=576 個可學(xué)習(xí)的 query Embeddings,VAT生成一個包含 K 個編碼視覺向量的輸出,向量通過多層感知器(MLP)進行處理,然后輸入到凍結(jié)的LLM中。
?由于戶外LiDAR數(shù)據(jù),如nuScenes,需要全面了解不同對象與汽車之間的方向關(guān)系,為BEV特征引入視圖位置嵌入,以提高模型學(xué)習(xí)方向和幾何關(guān)系的能力,構(gòu)建初始參數(shù)為 0 的視圖位置嵌入 V p ∈ R c × 6 V_p\in \R^{c×6} Vp?∈Rc×6,根據(jù)6個視圖劃分BEV特征,包括前視圖、前右視圖、前左視圖、后視圖、后右視圖和后左視圖,在訓(xùn)練過程中,當(dāng)處理與特定視圖相關(guān)的問題時,將相應(yīng)的位置嵌入注入到BEV特征和 queries 中。
在訓(xùn)練與左前視圖相關(guān)的標(biāo)題樣本時,只將嵌入 V p ∈ R c × 1 V_p \in \R^{c×1} Vp?∈Rc×1 的左前位置注入到BEV特征和queries的左前視圖部分。如果訓(xùn)練樣本涉及到關(guān)于整個全景場景的問題,在訓(xùn)練期間注入所有六個視圖位置嵌入。
Training
通過三階段訓(xùn)練策略,LiDAR-LLM開發(fā)了初步的規(guī)劃能力。可以刺激模型對3D LiDAR數(shù)據(jù)的推理能力。
Cross-Modal Alignment (3D Captioning)
?通過將整個3D場景集成到LLMs中,使模型能夠捕捉LiDAR數(shù)據(jù)中的基本信息和細節(jié)。利用nuScenes中與LiDAR數(shù)據(jù)對齊的現(xiàn)有多視圖圖像來創(chuàng)建文本描述,利用強大的現(xiàn)成2D多模態(tài)LLMs (MLLMs),為每個視圖生成標(biāo)題,創(chuàng)建與LiDAR場景相對應(yīng)的文本描述。然而,由于2D MLLM可能為2D圖像提供與天氣或顏色相關(guān)的描述,而這些描述并不適用于LiDAR數(shù)據(jù),因此LiDAR數(shù)據(jù)的描述與2D多視圖的描述并不是完全對齊的。為了解決這種不一致性,進一步使用GPT-4來過濾出更相關(guān)、更適合LiDAR數(shù)據(jù)的標(biāo)題。
?LiDAR數(shù)據(jù)的文本說明往往由于其復(fù)雜的幾何結(jié)構(gòu)而過于詳細和冗長。聯(lián)合學(xué)習(xí)整體標(biāo)題可能會導(dǎo)致LLM推理中的糾纏。訓(xùn)練模型來描述單個視圖,以降低復(fù)雜性,輸出標(biāo)題由相應(yīng)視圖的基本事實答案使用交叉熵損失進行監(jiān)督,然后指導(dǎo)模型理解整個全景場景并生成全局描述,將3D特征表示與LLM的文本特征空間對齊,使模型能夠理解LiDAR數(shù)據(jù)中的上下文。
Perception
?賦予模型實例級的感知能力,因為它們是規(guī)劃等高級教學(xué)任務(wù)的基礎(chǔ)。采用以對象為中心的學(xué)習(xí)策略,確保模型認識到各種對象細節(jié),如數(shù)量、定位和空間關(guān)系。學(xué)習(xí)單個3D對象的表示和與對象相關(guān)的LLM相應(yīng)的文本嵌入之間的對齊。
?對象首先表示為離散標(biāo)記序列,其中提取每個對象的標(biāo)簽和邊界框。給定一個帶有注釋的3D對象,使用預(yù)訓(xùn)練的LLM的標(biāo)記器將類別名稱和位置編碼為詞嵌入,在整個3D場景中實現(xiàn)對象感知。模型學(xué)習(xí)生成位置標(biāo)記,根據(jù)LiDAR輸入和指令指定區(qū)域位置(x1, y1, z1, x2, y2, z2, θ),其中θ是盒子角。通過利用輸入的LiDAR數(shù)據(jù)和帶有位置信息的文本,訓(xùn)練模型生成描述性文本。兩個任務(wù)的輸出都通過交叉熵損失進行監(jiān)督,解鎖LLM的3D感知能力。
High-level Instruction
?利用高級指令數(shù)據(jù)集(如nuScenes-QA)進一步增強模型在3D空間中的推理能力。通過使用該數(shù)據(jù)集對LiDAR-LLM進行微調(diào),不僅提高了其理解各種指令數(shù)組的熟練程度,還使其能夠生成既具有創(chuàng)造性又符合上下文的響應(yīng)。此外,這種細化過程使LiDAR-LLM具備了進行復(fù)雜空間推理的能力,并將外部知識整合到其生成的響應(yīng)中。這些任務(wù)還通過交叉熵損失進行監(jiān)督,確保模型的輸出與所需的高級指令有效對齊。探索了LiDAR-LLM在nuScenes數(shù)據(jù)集上的自動駕駛規(guī)劃能力。直接利用訓(xùn)練好的模型來推斷與規(guī)劃相關(guān)的問題,而不是生成任何規(guī)劃QA數(shù)據(jù)。文章來源:http://www.zghlxwxcb.cn/news/detail-811286.html
details
?采用了標(biāo)準(zhǔn)的預(yù)訓(xùn)練3D檢測器提取激光雷達特征,CenterPoint-Voxel遵循其默認設(shè)置。點云范圍為[-54.0m, 54.0m, -5.0m, 54.0m, 54.0m, 3.0m], BEV網(wǎng)格尺寸為[0.6m, 0.6m]。對于VAT,將可學(xué)習(xí)queries的令牌數(shù)量設(shè)置為576,令牌的維度為768。在LLM方面,采用了LLaMA-7B,兼顧效率和功效。在整個三個階段的訓(xùn)練階段,使用Adam優(yōu)化器(β1, β2) =(0.9, 0.999),初始學(xué)習(xí)率為1e-4,每兩個epochs將其減半。對LLaMA2中的VAT和adapter進行了6個epoch的微調(diào)。所有實驗均在NVIDIA Tesla A100 gpu上進行。文章來源地址http://www.zghlxwxcb.cn/news/detail-811286.html
到了這里,關(guān)于21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!