論文:《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》
Code:https://github.com/tjiiv-cprg/epro-pnp (909 star)
作者的視頻簡單介紹:https://www.bilibili.com/video/BV13T411E7kb
摘要:
-
解決問題:對于6D位姿估計,基于幾何(PnP)的方法性能要好一些,但以前的方法都不是端到端的,因為PnP不可微。最近有人開始提出基于PnP的端到端網(wǎng)絡,把PnP作為可微層,采用位姿驅(qū)動的損失函數(shù),使得位姿誤差的梯度可以反向傳播到2D-3D對應關系中。但是,這些工作僅學習一部分對應關系(2D坐標、3D坐標或相應的權重),而假設其他分量是先驗的。為什么不以端到端的方式完全學習整套點和權重?這是因為,PnP問題的解在某些點上本質(zhì)上是不可微的,這會導致訓練困難和收斂問題。更具體地說,PnP問題可能具有模糊的解,這使得反向傳播不穩(wěn)定。 => 本文方法:提出了一種廣義的端到端概率PnP(EPro-PnP)方法,該方法能夠完全從頭開始學習加權2D-3D點對應關系。其主要思想很簡單:確定性姿勢是不可微的,但姿勢的 概率密度 顯然是可微的——就像分類得分一樣。因此,我們將PnP的輸出解釋為由可學習的2D-3D對應關系參數(shù)化的概率分布。在訓練過程中,預測姿態(tài)分布和目標姿態(tài)分布之間的Kullback-Leibler(KL)散度被計算為損失函數(shù),該損失函數(shù)可通過有效的蒙特卡羅姿態(tài)采樣進行數(shù)值處理。
**端到端訓練的好處:**縮減人工的預處理、后續(xù)處理和特征提取步驟,減少了人為的工作量,盡可能是模型直接實現(xiàn)從原始輸入到最終輸出;給模型更多可以根據(jù)數(shù)據(jù)自動調(diào)節(jié)的空間,增加模型的整體契合度。
-
提出了EPro-PnP,這是一個用于端到端姿態(tài)估計的概率PnP層,輸入RGB圖像,輸出SE(3)流形上的姿態(tài)分布,本質(zhì)上將分類Softmax帶入連續(xù)域。2D-3D坐標和相應的權重被視為通過最小化預測姿態(tài)分布和目標姿態(tài)分布之間的KL偏差而學習的中間變量?;驹瓌t統(tǒng)一了現(xiàn)有的方法,類似于注意力機制。
-
效果:顯著優(yōu)于競爭性基線,縮小了基于PnP的方法與LineMOD 6DoF姿態(tài)估計和nuScenes 3D物體檢測基準上的特定任務領先者之間的差距。同時,EPro-PnP可以通過簡單地將其插入CDPN框架中,輕松地達到6DoF姿態(tài)估計的頂級性能。
實驗原理:
把PnP求解器變成一個可微分的一個Layer(層),或者說是一個模塊,使得它在整個網(wǎng)絡中可以實現(xiàn)一個端到端的訓練。
以前的解決方法:lmmplicit differentiation(隱式微分),但是有一個問題argmin函數(shù)并不是真正完全可導的,在某些點是不連續(xù)的,所以會導致反向傳播不穩(wěn)定,就必須要依賴整個代理損失來做一個正則化,來保證整個PnP它優(yōu)化的目標函數(shù)如果它是一個凸優(yōu)化問題的話,然后用隱式微分就可以解決,但是如果沒有前面這些東西,光靠端到端的一個損失函數(shù),沒有辦法穩(wěn)定的通過反向傳播來學習所有的這些2D、3D點。

本文試圖把不可微分的一個最優(yōu)解deterministic pose固定的一個單獨位姿把它變成一個可微的東西。用了概率框架,把PnP視角轉換一下,輸出一個關于位姿的概率分布。輸入Correspondence X是一個可導的東西,通過經(jīng)典的貝葉斯公式推導得到一個概率密度。
- Define the likelihood function:定義一個似然函數(shù),通過重授影誤差的─個平方和,來取負號再取exp,可以得到關于位姿的一個likelihood似然。
- Prior:先驗使用一個無信息的uninformative prior,其實是一個flat prior(扁平先驗)的求碼小模,可以直接粑整個likelihood做一個normalization歸—化,就得到了最終的后驗的─個概率密度,即圖右上角的分布。

實質(zhì)上是分類的Softmax在一個連續(xù)域上的推廣,因為實際Softmax它就是用類似的一種方法Sumation(求和)在離散的類別上的求和,但本文是一個積分的情況,一個不可導的arg min問題來變成一個可導的問題。
這是因為優(yōu)化層中的argmin函數(shù)不可導,因此最優(yōu)位姿不可導,但將位姿視為概率分布后,位姿的概率密度是可導的。從本質(zhì)上來說,這一做法等同于訓練分類網(wǎng)絡時,將argmax層替換為softargmax(即softmax)層,本文實際上是將離散softmax推廣到了連續(xù)分布上。
損失函數(shù):
得到一個具體的分布后,損失函數(shù)的反向傳播是基于KL Divergence來計算和真值之間的誤差,和分類里面的cross entropy交叉嫡它本身是一回事,是一個連續(xù)的cross entropy。

實現(xiàn)具體分布的KL Divergence計算時用蒙特卡洛的方法對這個分布做一個近似。

網(wǎng)絡結構:
-
方案一:
6DoF Pose Estimation 的Benchmark上現(xiàn)有的網(wǎng)絡CDPN,—個Surrograte loss(代理損失)來直接監(jiān)督confidence map(置信圖)和3D坐標,把它原始的這個PnP換成EPro-PnP,去做一個端到端的反向傳播的訓練。
-
方案二:
更加激進一點的方案:驗證EPro-PnP不需要3D坐標的回歸損失,只用端到端的損失,把3D坐標2D坐標還有關聯(lián)權重一起學出來。文章來源:http://www.zghlxwxcb.cn/news/detail-773017.html
參考Deformable DETR,首先用defformable samplling的一個模塊去預測2D點,確定沒一個物體的中心參照點,然后去預測各個2D點對于參照點的偏移,就可以得到這些2D點的位置。然后從一個特征中通過interpolation(插值)來得到各個點的特征,經(jīng)過一些處理,用很小的Transformer做一些信息交互,然后就得到各個點對應的3D坐標和權重。整個框架是做3D物體檢測的,還需要各個點的特征聚集起來得到一個物體的特征,來預測整個物體的一些屬性。文章來源地址http://www.zghlxwxcb.cn/news/detail-773017.html
到了這里,關于論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!