国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》

這篇具有很好參考價值的文章主要介紹了論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

論文:《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》

Code:https://github.com/tjiiv-cprg/epro-pnp (909 star)

作者的視頻簡單介紹:https://www.bilibili.com/video/BV13T411E7kb

摘要:

  • 解決問題:對于6D位姿估計,基于幾何(PnP)的方法性能要好一些,但以前的方法都不是端到端的,因為PnP不可微。最近有人開始提出基于PnP的端到端網(wǎng)絡,把PnP作為可微層,采用位姿驅(qū)動的損失函數(shù),使得位姿誤差的梯度可以反向傳播到2D-3D對應關系中。但是,這些工作僅學習一部分對應關系(2D坐標、3D坐標或相應的權重),而假設其他分量是先驗的。為什么不以端到端的方式完全學習整套點和權重?這是因為,PnP問題的解在某些點上本質(zhì)上是不可微的,這會導致訓練困難和收斂問題。更具體地說,PnP問題可能具有模糊的解,這使得反向傳播不穩(wěn)定。 => 本文方法:提出了一種廣義的端到端概率PnP(EPro-PnP)方法,該方法能夠完全從頭開始學習加權2D-3D點對應關系。其主要思想很簡單:確定性姿勢是不可微的,但姿勢的 概率密度 顯然是可微的——就像分類得分一樣。因此,我們將PnP的輸出解釋為由可學習的2D-3D對應關系參數(shù)化的概率分布。在訓練過程中,預測姿態(tài)分布和目標姿態(tài)分布之間的Kullback-Leibler(KL)散度被計算為損失函數(shù),該損失函數(shù)可通過有效的蒙特卡羅姿態(tài)采樣進行數(shù)值處理。

    **端到端訓練的好處:**縮減人工的預處理、后續(xù)處理和特征提取步驟,減少了人為的工作量,盡可能是模型直接實現(xiàn)從原始輸入到最終輸出;給模型更多可以根據(jù)數(shù)據(jù)自動調(diào)節(jié)的空間,增加模型的整體契合度。

  • 提出了EPro-PnP,這是一個用于端到端姿態(tài)估計的概率PnP層,輸入RGB圖像,輸出SE(3)流形上的姿態(tài)分布,本質(zhì)上將分類Softmax帶入連續(xù)域。2D-3D坐標和相應的權重被視為通過最小化預測姿態(tài)分布和目標姿態(tài)分布之間的KL偏差而學習的中間變量?;驹瓌t統(tǒng)一了現(xiàn)有的方法,類似于注意力機制。

  • 效果:顯著優(yōu)于競爭性基線,縮小了基于PnP的方法與LineMOD 6DoF姿態(tài)估計和nuScenes 3D物體檢測基準上的特定任務領先者之間的差距。同時,EPro-PnP可以通過簡單地將其插入CDPN框架中,輕松地達到6DoF姿態(tài)估計的頂級性能。

實驗原理:

把PnP求解器變成一個可微分的一個Layer(層),或者說是一個模塊,使得它在整個網(wǎng)絡中可以實現(xiàn)一個端到端的訓練。

以前的解決方法:lmmplicit differentiation(隱式微分),但是有一個問題argmin函數(shù)并不是真正完全可導的,在某些點是不連續(xù)的,所以會導致反向傳播不穩(wěn)定,就必須要依賴整個代理損失來做一個正則化,來保證整個PnP它優(yōu)化的目標函數(shù)如果它是一個凸優(yōu)化問題的話,然后用隱式微分就可以解決,但是如果沒有前面這些東西,光靠端到端的一個損失函數(shù),沒有辦法穩(wěn)定的通過反向傳播來學習所有的這些2D、3D點。

論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》,6D位姿估計,計算機視覺,人工智能,3d

本文試圖把不可微分的一個最優(yōu)解deterministic pose固定的一個單獨位姿把它變成一個可微的東西。用了概率框架,把PnP視角轉換一下,輸出一個關于位姿的概率分布。輸入Correspondence X是一個可導的東西,通過經(jīng)典的貝葉斯公式推導得到一個概率密度。

  • Define the likelihood function:定義一個似然函數(shù),通過重授影誤差的─個平方和,來取負號再取exp,可以得到關于位姿的一個likelihood似然。
  • Prior:先驗使用一個無信息的uninformative prior,其實是一個flat prior(扁平先驗)的求碼小模,可以直接粑整個likelihood做一個normalization歸—化,就得到了最終的后驗的─個概率密度,即圖右上角的分布。
論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》,6D位姿估計,計算機視覺,人工智能,3d

實質(zhì)上是分類的Softmax在一個連續(xù)域上的推廣,因為實際Softmax它就是用類似的一種方法Sumation(求和)在離散的類別上的求和,但本文是一個積分的情況,一個不可導的arg min問題來變成一個可導的問題。

這是因為優(yōu)化層中的argmin函數(shù)不可導,因此最優(yōu)位姿不可導,但將位姿視為概率分布后,位姿的概率密度是可導的。從本質(zhì)上來說,這一做法等同于訓練分類網(wǎng)絡時,將argmax層替換為softargmax(即softmax)層,本文實際上是將離散softmax推廣到了連續(xù)分布上。

損失函數(shù):

得到一個具體的分布后,損失函數(shù)的反向傳播是基于KL Divergence來計算和真值之間的誤差,和分類里面的cross entropy交叉嫡它本身是一回事,是一個連續(xù)的cross entropy。

論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》,6D位姿估計,計算機視覺,人工智能,3d

實現(xiàn)具體分布的KL Divergence計算時用蒙特卡洛的方法對這個分布做一個近似。

論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》,6D位姿估計,計算機視覺,人工智能,3d

網(wǎng)絡結構:

  • 方案一:

    6DoF Pose Estimation 的Benchmark上現(xiàn)有的網(wǎng)絡CDPN,—個Surrograte loss(代理損失)來直接監(jiān)督confidence map(置信圖)和3D坐標,把它原始的這個PnP換成EPro-PnP,去做一個端到端的反向傳播的訓練。

    論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》,6D位姿估計,計算機視覺,人工智能,3d
  • 方案二:

    更加激進一點的方案:驗證EPro-PnP不需要3D坐標的回歸損失,只用端到端的損失,把3D坐標2D坐標還有關聯(lián)權重一起學出來。

    參考Deformable DETR,首先用defformable samplling的一個模塊去預測2D點,確定沒一個物體的中心參照點,然后去預測各個2D點對于參照點的偏移,就可以得到這些2D點的位置。然后從一個特征中通過interpolation(插值)來得到各個點的特征,經(jīng)過一些處理,用很小的Transformer做一些信息交互,然后就得到各個點對應的3D坐標和權重。整個框架是做3D物體檢測的,還需要各個點的特征聚集起來得到一個物體的特征,來預測整個物體的一些屬性。文章來源地址http://www.zghlxwxcb.cn/news/detail-773017.html

    論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》,6D位姿估計,計算機視覺,人工智能,3d

到了這里,關于論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • DETR-《End-to-End Object Detection with Transformers》論文精讀筆記

    DETR-《End-to-End Object Detection with Transformers》論文精讀筆記

    End-to-End Object Detection with Transformers 參考:跟著李沐學AI-DETR 論文精讀【論文精讀】 在摘要部分作者,主要說明了如下幾點: DETR是一個端到端(end-to-end)框架,釋放了傳統(tǒng)基于CNN框架的一階段(YOLO等)、二階段(FasterRCNN等)目標檢測器中需要大量的人工參與的步驟,例如:

    2024年02月11日
    瀏覽(29)
  • 【論文筆記】End-to-End Diffusion Latent Optimization Improves Classifier Guidance

    【論文筆記】End-to-End Diffusion Latent Optimization Improves Classifier Guidance

    Classifier guidance為圖像生成帶來了控制,但是需要訓練新的噪聲感知模型(noise-aware models)來獲得準確的梯度,或使用最終生成的一步去噪近似,這會導致梯度錯位(misaligned gradients)和次優(yōu)控制(sub-optimal control)。 梯度錯位(misaligned gradients):通過噪聲感知模型指導生成模型時,兩個

    2024年02月02日
    瀏覽(22)
  • 《Dense Distinct Query for End-to-End Object Detection》論文筆記(ing)

    《Dense Distinct Query for End-to-End Object Detection》論文筆記(ing)

    作者這里認為傳統(tǒng)個目標檢測的anchor/anchorpoint其實跟detr中的query作用一樣,可以看作query (1)dense query:傳統(tǒng)目標檢測生成一堆密集anchor,但是one to many需要NMS去除重復框,無法end to end。 (2)spare query 在one2one:egDETR,100個qeury,數(shù)量太少造成稀疏監(jiān)督,收斂慢召回率低。 (

    2024年01月25日
    瀏覽(23)
  • DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 論文精讀筆記

    DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 論文精讀筆記

    DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 參考:AI-雜貨鋪-Transformer跨界CV又一佳作!Deformable DETR:超強的小目標檢測算法! 摘要 摘要部分,作者主要說明了如下幾點: 為了解決DETR中使用Transformer架構在處理圖像特征圖時的局限性而導致的收斂速度慢,特征空間

    2024年02月10日
    瀏覽(19)
  • Trajectory-guided Control Prediction for End-to-end Autonomous Driving論文學習

    Trajectory-guided Control Prediction for End-to-end Autonomous Driving論文學習

    端到端自動駕駛方法直接將原始傳感器數(shù)據(jù)映射為規(guī)劃軌跡或控制信號,范式非常簡潔,從理論上避免了多模塊設計的錯誤疊加問題和繁瑣的人為規(guī)則設計。當前的端到端自動駕駛方法主要有兩條獨立的研究路線,要么基于規(guī)劃軌跡來運行控制器,要么直接預測控制信號。端

    2024年02月05日
    瀏覽(34)
  • [論文閱讀&代碼]DehazeNet: An End-to-End System for Single Image Haze Removal

    [論文閱讀&代碼]DehazeNet: An End-to-End System for Single Image Haze Removal

    現(xiàn)有的單圖像去霧方法使用很多約束和先驗來獲得去霧結果,去霧的關鍵是根據(jù)輸入的霧圖獲得得到介質(zhì)傳輸圖(medium transmission map) 這篇文章提出了一種端到端的可訓練的去霧系統(tǒng)—Dehaze Net,用于估計介質(zhì)傳輸圖 Dehaze Net中,輸入為霧圖,輸出為介質(zhì)傳輸圖,隨后通過大氣散

    2024年02月08日
    瀏覽(18)
  • 【論文閱讀】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    【論文閱讀】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    相較于傳統(tǒng)的視覺里程計,端到端的方法可以認為是把特征提取、匹配、位姿估計等模塊用深度學習模型進行了替代。不同于那種用深度學習模型取代里程計框架一部分的算法,端到端的視覺里程計是直接將整個任務替換為深度學習,輸入依然是圖像流,結果也依然是位姿,

    2024年03月18日
    瀏覽(30)
  • An End-to-End Learning-Based Metadata Management Approach for Distributed File Systems——論文閱讀

    An End-to-End Learning-Based Metadata Management Approach for Distributed File Systems——論文閱讀

    TC 2022 Paper,元數(shù)據(jù)論文閱讀匯總 “multiple metadata server (MDS)” 多個元數(shù)據(jù)服務器 “l(fā)ocality preserving hashing (LPH)” 局部保持哈希 “Multiple Subset Sum Problem (MSSP).” 多子集和問題 “polynomial-time approximation scheme (PTAS)” 多項式時間近似方法 目前的分布式文件系統(tǒng)被設計用于支持 PB 規(guī)

    2024年02月02日
    瀏覽(24)
  • 【論文筆記】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images

    【論文筆記】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images

    原文鏈接:https://arxiv.org/abs/2308.05026 目前的軌跡預測方法多基于道路使用者的真實信息,但在實際自動駕駛系統(tǒng)中這些信息是通過檢測和跟蹤模塊得到的,不可避免的存在噪聲。本文將感知模塊與軌跡預測整合,進行端到端的檢測、跟蹤和軌跡預測。 本文感知模塊使用單目圖

    2024年04月28日
    瀏覽(23)
  • 【論文筆記3】RFN-Nest: An end-to-end residual fusion network for infrared and visible images

    【論文筆記3】RFN-Nest: An end-to-end residual fusion network for infrared and visible images

    RFN-Nest:紅外與可見光圖像的端對端殘差融合網(wǎng)絡 寶子們,今天學習了RFN-Nest這篇文獻,和上一篇的DenseFuse同一個作者。下面是我的學習記錄,希望對各位寶子們有所幫助~ 設計可學習的融合策略是圖像融合領域的一個極具挑戰(zhàn)性的問題。前面我們學習的DenseNet就是手工融合策

    2024年03月27日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包