国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

TransFusion:利用 Transformer 進行魯棒性融合來進行 3D 目標檢測

這篇具有很好參考價值的文章主要介紹了TransFusion:利用 Transformer 進行魯棒性融合來進行 3D 目標檢測。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Query 初始化

Input-dependent

以往 Query 位置是隨機生成或學習作為網(wǎng)絡參數(shù)的,而與輸入數(shù)據(jù)無關,因此需要額外的階段(解碼器層)來學習模型向真實對象中心移動的過程。
論文提出了一種基于center heatmap 的 input-dependent 初始化策略。(decoder :6 layers —> 1 layer)

給定一個 d d d 維的 LiDAR BEV 特征圖 F L ∈ R X × Y × d F_L\in \R^{X \times Y \times d} FL?RX×Y×d,首先預測一個 class-specific heatmap S ^ ∈ R X × Y × K \hat S \in \R^{X\times Y \times K} S^RX×Y×K X × Y X \times Y X×Y 表示 BEV 特征圖的大小, K K K 是類別數(shù)量。
然后,將 heatMap 看作 X × Y × K X×Y×K X×Y×K 個候選對象,并選擇所有類別的前 N N N 個候選對象作為初始對象 Queries。
選擇局部最大值元素作為對象Queries:避免空間上過于封閉的Queries。這些元素的值大于或等于它們的 8連通 neighbors。
所選候選對象的位置和特征用于初始化Queries位置和Queries特征。
初始對象Queries將位于或接近潛在的對象中心,消除了需要多個解碼器層來細化位置。

Category-aware

BEV平面上的物體都是絕對尺度的,同一類別之間的尺度差異很小。通過為每個 Query 配備 category embedding 來使對象 Queries 具有 Category-aware (類別感知性)。

使用每個選定的候選對象的類別,也就是說 S ^ i , j , k \hat S_{i,j,k} S^i,j,k? 屬于第 k k k 個類別。通過線性映射 one-hot category 向量 到一個 R d \R^d Rd 向量,來將 Query 特征和 category embedding 進行元素求和。

category embedding:
1.在對自我注意模塊中的對象-對象關系和交叉注意模塊中的對象-上下文關系進行建模中作為有用的輔助信息。
2.在預測時,可以傳遞有價值的對象先驗知識,使網(wǎng)絡關注類別內的方差,從而有利于屬性預測。

Transformer Decoder 和 FFN

TransFusion:利用 Transformer 進行魯棒性融合來進行 3D 目標檢測
上圖:左-用于初始邊界框預測的 transformer decoder 層的架構。 右-用于圖像融合的 transformer decoder 層的體系結構。

在對象 Queries 與 特征映射(點云或圖像)的交叉注意力將相關的上下文信息,聚集到候選對象上,而對象 Queries 之間的自我注意則導致不同候選對象之間的成對關系。
將 Query 位置嵌入到 MLP 的 D D D 維位置編碼中,并與 Query 特征進行元素求和。 這使得網(wǎng)絡能夠聯(lián)合推理上下文和位置。
然后,通過前饋網(wǎng)絡(FFN)將包含豐富實例信息的 N N N 個對象 Queries 獨立的解碼為邊界框和類標簽。
通過并行地將每個對象 Query 譯碼為預測,得到一組預測值 { b ^ t , p ^ t } t N \{\hat b_t,\hat p_t\}_t^N {b^t?,p^?t?}tN? 作為輸出,其中 b ^ t \hat b_t b^t? 是第 i i i 個 Query 的預測邊界框, p ^ ∈ [ 0 , 1 ] K \hat p \in [0,1]^K p^?[0,1]K K K K 個語義類 pre-class 概率。
采用了輔助譯碼機制,在每個decoder層后加入 FFN 和監(jiān)督。因此,可以從第一個decoder層得到初始邊界框。

LiDAR-Camera 融合

圖像特征提取

點級融合融合質量在很大程度上受到激光雷達點稀疏性的限制。當一個物體只包含少量的激光雷達點時,它只能獲取相同數(shù)量的圖像特征,浪費了高分辨率圖像豐富的語義信息。

論文不提取基于激光雷達點和圖像像素之間的硬關聯(lián)的多視圖圖像特征。保留所有圖像特征 F C ∈ R N v × H × W × d F_C\in R^{N_v×H×W×d} FC?RNv?×H×W×d 作為 memory bank,并利用 transformer decoder 中的交叉注意機制,以稀疏到密集的自適應方式進行特征融合。
TransFusion:利用 Transformer 進行魯棒性融合來進行 3D 目標檢測在給定來自 convolutional backbones 的一個 LiDAR BEV 特征圖和一個圖像特征圖的基礎上,我們的基于 transformer 的檢測頭首先利用 LiDAR 信息將目標 queriers 解碼為初始邊界框預測,然后通過將目標 queries 與有用的圖像特征集中融合,進行 LiDAR-camera 融合。

用于圖像特征融合的SMCA(空間調制交叉注意)

為了降低帶來的傳感器標定敏感性和圖像劣質特征對硬關聯(lián)策略的影響,利用交叉關注機制建立了激光雷達與圖像之間的軟關聯(lián),使網(wǎng)絡能夠自適應地確定從圖像中獲取信息的位置和內容。

首先使用先前的預測和校準矩陣來識別對象 Queries 所在的特定圖像,然后在對象 Queries 和相應的圖像特征映射之間進行交叉注意。

然而,由于激光雷達特征和圖像特征來自完全不同的領域,目標 Queries 可能涉及到與待預測邊界框無關的視覺區(qū)域,導致網(wǎng)絡需要很長的訓練時間來準確識別圖像上的正確區(qū)域。

SCMA:通過圍繞每個 Query 的投影2D中心的2D圓形高斯 mask 來加權交叉注意。這個2D高斯權重 mask 與 Center-Net 的生成方式類似, M i , j = exp ? ( ? ( i ? c x ) 2 + ( j ? c y ) 2 σ r 2 ) M_{i,j}=\exp (-\frac{(i-c_x)^2+(j-c_y)^2}{\sigma r^2}) Mi,j?=exp(?σr2(i?cx?)2+(j?cy?)2?),其中 ( i , j ) (i,j) (i,j)是權重 mask M 的空間索引, ( c x , c y ) (c_x,c_y) (cx?,cy?) 是通過投影 Query 預測在圖像平面的2D中心, r r r 是3D邊界框的投影角點的最小外接圓半徑, σ σ σ 是調制高斯分布帶寬的超參數(shù)。。然后,這個權重圖與所有注意力頭之間的交叉注意力圖進行基本相乘。這樣,每個對象 Query 只關注投影二維框周圍的相關區(qū)域,從而使網(wǎng)絡能夠更好更快地根據(jù)輸入的激光雷達特征學習在哪里選擇圖像特征。
TransFusion:利用 Transformer 進行魯棒性融合來進行 3D 目標檢測上圖:第一行顯示輸入圖像和投影在圖像上的對象 Query 預測,第二行顯示交叉注意圖。
該網(wǎng)絡通常傾向于關注靠近目標中心的前景像素,而忽略不相關的像素,為目標分類和邊界框回歸提供有價值的語義信息。

在SMCA之后,使用另一個FFN使用包含激光雷達和圖像信息的對象 Queries 來產生最終的邊界框預測。

圖像引導 Query 初始化

recall也叫召回率,記做R,表示你預測的結果中有多少正樣本被正確檢測出來,當R=100%的時候,表示沒有漏檢

僅使用激光雷達特征進行選擇對象 Query ,可能導致在檢測召回率方面存在亞優(yōu)性。

為了進一步利用高分辨率圖像檢測小目標的能力,并使算法對稀疏的激光雷達點云更具魯棒性,利用激光雷達和相機信息選擇對象 Query 。

通過與激光雷達BEV特征 F L F_{L} FL? 交叉關注,將圖像特征 F C F_C FC? 投影到BEV平面上,生成一個激光雷達-相機BEV特征 F L C F_{LC} FLC?。
TransFusion:利用 Transformer 進行魯棒性融合來進行 3D 目標檢測
使用沿高度軸折疊的 multiView 圖像特征作為注意力機制的 key-value 序列。折疊操作基于觀察到BEV位置與圖像列之間的關系可以很容易地利用攝像機幾何來建立,通常每個圖像列上最多有一個物體。
因此,沿高度軸折疊可以在不丟失關鍵信息的情況下顯著減少計算量。 雖然在這個過程中可能會丟失一些細粒度的圖像特征,但它已經(jīng)滿足了需要:因為它只需要對潛在的目標位置進行提示。使用 F L C F_{LC} FLC?來預測 heatmap,并用僅有激光雷達的 heatmap S ^ \hat S S^ 進行平均,作為最終的 heatmap S ^ L C \hat S_{LC} S^LC?。利用 S ^ L C \hat S_{LC} S^LC? 選擇和初始化目標 Query ,模型就能夠檢測出激光雷達點云中難以檢測的目標。文章來源地址http://www.zghlxwxcb.cn/news/detail-503202.html

到了這里,關于TransFusion:利用 Transformer 進行魯棒性融合來進行 3D 目標檢測的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 機器學習魯棒性筆記

    魯棒性(Robustness)在統(tǒng)計學和數(shù)據(jù)分析中是一個重要的概念。它指的是某個統(tǒng)計方法或模型對于異常值或偏離數(shù)據(jù)集正常分布的情況的敏感程度。一個魯棒性較好的方法能夠在存在異常值或數(shù)據(jù)分布不符合假設的情況下依然給出可靠的結果,而不會被極端值影響太大。 魯棒

    2024年02月14日
    瀏覽(17)
  • 脆弱性-魯棒性-反脆弱性

    哈嘍大家好,我是咸魚 ? 在開始本篇文章之前,我想先問小伙伴們一個問題: ? 每個人都渴望穩(wěn)定且有序的生活,但如果一個人的生活過于穩(wěn)定有秩序且可預測,會有什么不好的影響嗎? ? 如果你每天做同樣的事情,都按照同樣的方式來度過,一旦出現(xiàn)不可預測的變故,你

    2024年02月16日
    瀏覽(19)
  • 圖像魯棒性--常見14種圖像攻擊matlab實現(xiàn)

    圖像魯棒性--常見14種圖像攻擊matlab實現(xiàn)

    一、14種圖像攻擊 ( a )JPEG壓縮。質量因子Q分別為10%、30%、50%、70%、90%。 ( b )高斯噪聲。平均μ為0,方差σ分別為0.001、0.005和0.1。 ( c )椒鹽噪音。平均μ為0,方差σ分別為0.001、0.005、0.1。 ( d )散斑噪聲。平均μ為0,方差σ分別為0.01、0.05、0.1。 ( e )平均濾波。窗口大小分別為3

    2024年02月05日
    瀏覽(16)
  • 手機類目知識圖譜的對抗學習與魯棒性

    手機類目知識圖譜的對抗學習與魯棒性 作者:禪與計算機程序設計藝術 在電子商務行業(yè),構建高質量的產品類目知識圖譜對于提升搜索體驗、推薦系統(tǒng)和供應鏈管理等關鍵業(yè)務至關重要。然而,由于類目信息的復雜性、動態(tài)性和噪聲干擾,如何構建魯棒、準確的知識圖譜一直是

    2024年04月15日
    瀏覽(34)
  • 深度學習中的魯棒性和泛化性有什么區(qū)別

    魯棒性(Robustness)和泛化性(Generalization)是評估模型性能時常用的兩個術語,尤其在機器學習和統(tǒng)計建模領域。雖然這兩個概念相關,但它們關注的方面有所不同。 魯棒性 魯棒性指的是模型在面對輸入數(shù)據(jù)的小幅變動或存在噪聲時仍能保持性能不受顯著影響的能力。一個

    2024年02月21日
    瀏覽(20)
  • 小成本大幅度增幅CNN魯棒性,完美的結合GLCM+CNN

    小成本大幅度增幅CNN魯棒性,完美的結合GLCM+CNN

    ? ? ? ? 本文以實驗為導向,使用vgg16+GLCM實現(xiàn)一場精彩的新冠肺炎的分類識別,并且對比不加GLCM后的效果。在這之前,我們需要弄明白一些前綴知識和概念問題: GLCM (Gray-Level Co-occurrence Matrix),中文稱為灰度共生矩陣,是一種用于圖像紋理特征提取的統(tǒng)計方法。它是由

    2024年02月14日
    瀏覽(15)
  • 【從零開始數(shù)學建模(3)】敏感性和魯棒性分析例

    【從零開始數(shù)學建模(3)】敏感性和魯棒性分析例

    敏感性與強?。敯簦┬????????? 靈敏度分析 是研究與分析一個系統(tǒng)(或模型)的狀態(tài)或輸出變化對系統(tǒng)參數(shù)或周圍條件變化的敏感程度的方法。在最優(yōu)化方法中經(jīng)常利用靈敏度分析來研究原始數(shù)據(jù)不準確或發(fā)生變化時最優(yōu)解的穩(wěn)定性。通過靈敏度分析還可以決定哪些參

    2024年02月04日
    瀏覽(16)
  • MATLAB|主動噪聲和振動控制算法——對較大的次級路徑變化具有魯棒性

    MATLAB|主動噪聲和振動控制算法——對較大的次級路徑變化具有魯棒性

    ? ???????? 歡迎來到本博客 ???????? ??博主優(yōu)勢: ?????? 博客內容盡量做到思維縝密,邏輯清晰,為了方便讀者。 ?? 座右銘: 行百里者,半于九十。 ?????? 本文目錄如下: ?????? 目錄 ??1 概述 ??2 運行結果 ??3?參考文獻 ??4 Matlab代碼實現(xiàn) ? 主

    2024年02月10日
    瀏覽(18)
  • 用AI技術提高智能安防攝像頭的魯棒性和安全性

    作者:禪與計算機程序設計藝術 隨著人工智能技術的飛速發(fā)展,智能安防攝像頭作為其應用場景之一,得到了越來越廣泛的應用。然而,智能安防攝像頭在面臨各種挑戰(zhàn)時,如圖像識別、目標檢測、運動跟蹤等,依然存在許多的魯棒性和安全性問題。為了解決這些問題,本文

    2024年02月06日
    瀏覽(21)
  • 基于深度學習的多模態(tài)語音識別:如何提高語音識別準確率和魯棒性

    作者:禪與計算機程序設計藝術 隨著語音識別技術的發(fā)展,采用多種模態(tài)(聲學、語言模型、視覺特征等)進行聯(lián)合建模,基于深度學習的多模態(tài)語音識別取得了新進展。傳統(tǒng)的聲學模型或手工特征工程方法已經(jīng)無法滿足實時、高精度、低延遲的需求,多模態(tài)語音識別需要解決

    2024年02月13日
    瀏覽(147)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包