国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》

2年前作者：ZYLer_分類：Toy博客閱讀(20)違法舉報

這篇具有很好參考價值的文章主要介紹了論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

論文：《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》

Code：https://github.com/tjiiv-cprg/epro-pnp （909 star）

作者的視頻簡單介紹：https://www.bilibili.com/video/BV13T411E7kb

摘要：

解決問題：對于6D位姿估計，基于幾何（PnP）的方法性能要好一些，但以前的方法都不是端到端的，因為PnP不可微。最近有人開始提出基于PnP的端到端網(wǎng)絡，把PnP作為可微層，采用位姿驅(qū)動的損失函數(shù)，使得位姿誤差的梯度可以反向傳播到2D-3D對應關系中。但是，這些工作僅學習一部分對應關系（2D坐標、3D坐標或相應的權重），而假設其他分量是先驗的。為什么不以端到端的方式完全學習整套點和權重？這是因為，PnP問題的解在某些點上本質(zhì)上是不可微的，這會導致訓練困難和收斂問題。更具體地說，PnP問題可能具有模糊的解，這使得反向傳播不穩(wěn)定。 => 本文方法：提出了一種廣義的端到端概率PnP（EPro-PnP）方法，該方法能夠完全從頭開始學習加權2D-3D點對應關系。其主要思想很簡單：確定性姿勢是不可微的，但姿勢的概率密度顯然是可微的——就像分類得分一樣。因此，我們將PnP的輸出解釋為由可學習的2D-3D對應關系參數(shù)化的概率分布。在訓練過程中，預測姿態(tài)分布和目標姿態(tài)分布之間的Kullback-Leibler（KL）散度被計算為損失函數(shù)，該損失函數(shù)可通過有效的蒙特卡羅姿態(tài)采樣進行數(shù)值處理。

**端到端訓練的好處：**縮減人工的預處理、后續(xù)處理和特征提取步驟，減少了人為的工作量，盡可能是模型直接實現(xiàn)從原始輸入到最終輸出；給模型更多可以根據(jù)數(shù)據(jù)自動調(diào)節(jié)的空間，增加模型的整體契合度。
提出了EPro-PnP，這是一個用于端到端姿態(tài)估計的概率PnP層，輸入RGB圖像，輸出SE(3)流形上的姿態(tài)分布，本質(zhì)上將分類Softmax帶入連續(xù)域。2D-3D坐標和相應的權重被視為通過最小化預測姿態(tài)分布和目標姿態(tài)分布之間的KL偏差而學習的中間變量?；驹瓌t統(tǒng)一了現(xiàn)有的方法，類似于注意力機制。
效果：顯著優(yōu)于競爭性基線，縮小了基于PnP的方法與LineMOD 6DoF姿態(tài)估計和nuScenes 3D物體檢測基準上的特定任務領先者之間的差距。同時，EPro-PnP可以通過簡單地將其插入CDPN框架中，輕松地達到6DoF姿態(tài)估計的頂級性能。

實驗原理：

把PnP求解器變成一個可微分的一個Layer(層)，或者說是一個模塊，使得它在整個網(wǎng)絡中可以實現(xiàn)一個端到端的訓練。

以前的解決方法：lmmplicit differentiation（隱式微分），但是有一個問題argmin函數(shù)并不是真正完全可導的，在某些點是不連續(xù)的，所以會導致反向傳播不穩(wěn)定，就必須要依賴整個代理損失來做一個正則化，來保證整個PnP它優(yōu)化的目標函數(shù)如果它是一個凸優(yōu)化問題的話，然后用隱式微分就可以解決，但是如果沒有前面這些東西，光靠端到端的一個損失函數(shù)，沒有辦法穩(wěn)定的通過反向傳播來學習所有的這些2D、3D點。

論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》,6D位姿估計,計算機視覺,人工智能,3d

本文試圖把不可微分的一個最優(yōu)解deterministic pose固定的一個單獨位姿把它變成一個可微的東西。用了概率框架，把PnP視角轉換一下，輸出一個關于位姿的概率分布。輸入Correspondence X是一個可導的東西，通過經(jīng)典的貝葉斯公式推導得到一個概率密度。

Define the likelihood function：定義一個似然函數(shù)，通過重授影誤差的─個平方和，來取負號再取exp，可以得到關于位姿的一個likelihood似然。
Prior：先驗使用一個無信息的uninformative prior，其實是一個flat prior(扁平先驗)的求碼小模，可以直接粑整個likelihood做一個normalization歸—化，就得到了最終的后驗的─個概率密度，即圖右上角的分布。

實質(zhì)上是分類的Softmax在一個連續(xù)域上的推廣，因為實際Softmax它就是用類似的一種方法Sumation（求和）在離散的類別上的求和，但本文是一個積分的情況，一個不可導的arg min問題來變成一個可導的問題。

這是因為優(yōu)化層中的argmin函數(shù)不可導，因此最優(yōu)位姿不可導，但將位姿視為概率分布后，位姿的概率密度是可導的。從本質(zhì)上來說，這一做法等同于訓練分類網(wǎng)絡時，將argmax層替換為softargmax（即softmax）層，本文實際上是將離散softmax推廣到了連續(xù)分布上。

損失函數(shù)：

得到一個具體的分布后，損失函數(shù)的反向傳播是基于KL Divergence來計算和真值之間的誤差，和分類里面的cross entropy交叉嫡它本身是一回事，是一個連續(xù)的cross entropy。

實現(xiàn)具體分布的KL Divergence計算時用蒙特卡洛的方法對這個分布做一個近似。

網(wǎng)絡結構：

方案一：

6DoF Pose Estimation 的Benchmark上現(xiàn)有的網(wǎng)絡CDPN，—個Surrograte loss(代理損失)來直接監(jiān)督confidence map(置信圖)和3D坐標，把它原始的這個PnP換成EPro-PnP，去做一個端到端的反向傳播的訓練。
方案二：

更加激進一點的方案：驗證EPro-PnP不需要3D坐標的回歸損失，只用端到端的損失，把3D坐標2D坐標還有關聯(lián)權重一起學出來。

參考Deformable DETR，首先用defformable samplling的一個模塊去預測2D點，確定沒一個物體的中心參照點，然后去預測各個2D點對于參照點的偏移，就可以得到這些2D點的位置。然后從一個特征中通過interpolation（插值）來得到各個點的特征，經(jīng)過一些處理，用很小的Transformer做一些信息交互，然后就得到各個點對應的3D坐標和權重。整個框架是做3D物體檢測的，還需要各個點的特征聚集起來得到一個物體的特征，來預測整個物體的一些屬性。文章來源地址http://www.zghlxwxcb.cn/news/detail-773017.html

到了這里，關于論文解讀《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內(nèi)容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

DETR-《End-to-End Object Detection with Transformers》論文精讀筆記
End-to-End Object Detection with Transformers 參考：跟著李沐學AI-DETR 論文精讀【論文精讀】在摘要部分作者，主要說明了如下幾點： DETR是一個端到端（end-to-end）框架，釋放了傳統(tǒng)基于CNN框架的一階段（YOLO等）、二階段（FasterRCNN等）目標檢測器中需要大量的人工參與的步驟，例如：
2024年02月11日
瀏覽(29)
【論文筆記】End-to-End Diffusion Latent Optimization Improves Classifier Guidance
Classifier guidance為圖像生成帶來了控制，但是需要訓練新的噪聲感知模型(noise-aware models)來獲得準確的梯度，或使用最終生成的一步去噪近似，這會導致梯度錯位(misaligned gradients)和次優(yōu)控制(sub-optimal control)。梯度錯位(misaligned gradients)：通過噪聲感知模型指導生成模型時，兩個
2024年02月02日
瀏覽(22)
《Dense Distinct Query for End-to-End Object Detection》論文筆記（ing）
作者這里認為傳統(tǒng)個目標檢測的anchor/anchorpoint其實跟detr中的query作用一樣，可以看作query （1）dense query：傳統(tǒng)目標檢測生成一堆密集anchor，但是one to many需要NMS去除重復框，無法end to end。（2）spare query 在one2one：egDETR，100個qeury，數(shù)量太少造成稀疏監(jiān)督，收斂慢召回率低。（
2024年01月25日
瀏覽(23)
DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 論文精讀筆記
DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 參考：AI-雜貨鋪-Transformer跨界CV又一佳作！Deformable DETR：超強的小目標檢測算法！摘要摘要部分，作者主要說明了如下幾點：為了解決DETR中使用Transformer架構在處理圖像特征圖時的局限性而導致的收斂速度慢，特征空間
2024年02月10日
瀏覽(19)
Trajectory-guided Control Prediction for End-to-end Autonomous Driving論文學習
端到端自動駕駛方法直接將原始傳感器數(shù)據(jù)映射為規(guī)劃軌跡或控制信號，范式非常簡潔，從理論上避免了多模塊設計的錯誤疊加問題和繁瑣的人為規(guī)則設計。當前的端到端自動駕駛方法主要有兩條獨立的研究路線，要么基于規(guī)劃軌跡來運行控制器，要么直接預測控制信號。端
2024年02月05日
瀏覽(34)
[論文閱讀&代碼]DehazeNet: An End-to-End System for Single Image Haze Removal
現(xiàn)有的單圖像去霧方法使用很多約束和先驗來獲得去霧結果，去霧的關鍵是根據(jù)輸入的霧圖獲得得到介質(zhì)傳輸圖（medium transmission map) 這篇文章提出了一種端到端的可訓練的去霧系統(tǒng)—Dehaze Net，用于估計介質(zhì)傳輸圖 Dehaze Net中，輸入為霧圖，輸出為介質(zhì)傳輸圖，隨后通過大氣散
2024年02月08日
瀏覽(18)
【論文閱讀】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks
相較于傳統(tǒng)的視覺里程計，端到端的方法可以認為是把特征提取、匹配、位姿估計等模塊用深度學習模型進行了替代。不同于那種用深度學習模型取代里程計框架一部分的算法，端到端的視覺里程計是直接將整個任務替換為深度學習，輸入依然是圖像流，結果也依然是位姿，
2024年03月18日
瀏覽(30)
An End-to-End Learning-Based Metadata Management Approach for Distributed File Systems——論文閱讀
TC 2022 Paper，元數(shù)據(jù)論文閱讀匯總 “multiple metadata server (MDS)” 多個元數(shù)據(jù)服務器 “l(fā)ocality preserving hashing (LPH)” 局部保持哈希 “Multiple Subset Sum Problem (MSSP).” 多子集和問題 “polynomial-time approximation scheme (PTAS)” 多項式時間近似方法目前的分布式文件系統(tǒng)被設計用于支持 PB 規(guī)
2024年02月02日
瀏覽(24)
【論文筆記】An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images
原文鏈接：https://arxiv.org/abs/2308.05026 目前的軌跡預測方法多基于道路使用者的真實信息，但在實際自動駕駛系統(tǒng)中這些信息是通過檢測和跟蹤模塊得到的，不可避免的存在噪聲。本文將感知模塊與軌跡預測整合，進行端到端的檢測、跟蹤和軌跡預測。本文感知模塊使用單目圖
2024年04月28日
瀏覽(23)
【論文筆記3】RFN-Nest: An end-to-end residual fusion network for infrared and visible images
RFN-Nest：紅外與可見光圖像的端對端殘差融合網(wǎng)絡寶子們，今天學習了RFN-Nest這篇文獻，和上一篇的DenseFuse同一個作者。下面是我的學習記錄，希望對各位寶子們有所幫助~ 設計可學習的融合策略是圖像融合領域的一個極具挑戰(zhàn)性的問題。前面我們學習的DenseNet就是手工融合策
2024年03月27日
瀏覽(26)