国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記(二十九):BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects

這篇具有很好參考價(jià)值的文章主要介紹了論文筆記(二十九):BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

文章概括

作者:Bowen Wen, Jonathan Tremblay, Valts Blukis, Stephen Tyree, Thomas Muller, Alex Evans, Dieter Fox, Jan Kautz, Stan Birchfield
來(lái)源:arXiv:2303.14158v1 [cs.CV] 24 Mar 2023
原文:https://arxiv.org/pdf/2303.14158.pdf
代碼、數(shù)據(jù)和視頻:
https://bundlesdf.github.io/
系列文章目錄:
上一篇:
https://blog.csdn.net/xzs1210652636?spm=1000.2115.3001.5343
下一篇:



摘要

我們提出了一種近乎實(shí)時(shí) (10Hz) 的方法,用于從單目 RGBD 視頻序列中對(duì)未知物體進(jìn)行 6-DoF 跟蹤,同時(shí)對(duì)物體進(jìn)行神經(jīng) 3D 重建。 我們的方法適用于任意剛性物體,即使在視覺(jué)紋理基本不存在的情況下也是如此。 假定對(duì)象僅在第一幀中被分割。 不需要其他信息,并且不對(duì)交互代理做出任何假設(shè)。 我們方法的關(guān)鍵是神經(jīng)對(duì)象場(chǎng),它與姿勢(shì)圖優(yōu)化過(guò)程同時(shí)學(xué)習(xí),以便將信息穩(wěn)健地積累到一致的 3D 表示中,同時(shí)捕獲幾何和外觀。 自動(dòng)維護(hù)一個(gè)動(dòng)態(tài)的 posed 內(nèi)存幀池,以促進(jìn)這些線(xiàn)程之間的通信。 我們的方法可以處理具有較大姿勢(shì)變化、部分和完全遮擋、無(wú)紋理表面和鏡面高光的具有挑戰(zhàn)性的序列。 我們?cè)?HO3D、YCBInEOAT 和 BEHAVE 數(shù)據(jù)集上展示了結(jié)果,表明我們的方法明顯優(yōu)于現(xiàn)有方法。 項(xiàng)目頁(yè)面:https://bundlesdf.github.io/


1. 介紹

計(jì)算機(jī)視覺(jué)中的兩個(gè)基本(且密切相關(guān))問(wèn)題是 6-DoF(“自由度”)姿態(tài)跟蹤和從單目 RGBD 視頻中對(duì)未知對(duì)象進(jìn)行 3D 重建。 解決這些問(wèn)題將在增強(qiáng)現(xiàn)實(shí) [34]、機(jī)器人操作 [22、70]、從演示中學(xué)習(xí) [71] 和從模擬到真實(shí)的傳輸 [1、15] 等領(lǐng)域開(kāi)啟廣泛的應(yīng)用。

先前的努力通常分別考慮這兩個(gè)問(wèn)題。 例如,神經(jīng)場(chǎng)景表示在從真實(shí)數(shù)據(jù)創(chuàng)建高質(zhì)量 3D 對(duì)象模型方面取得了巨大成功 [3、40、44、59、68、81]。 然而,這些方法假設(shè)已知的相機(jī)姿勢(shì)和/或地面實(shí)況對(duì)象掩碼。 此外,通過(guò)動(dòng)態(tài)移動(dòng)的相機(jī)捕捉靜態(tài)物體會(huì)阻止完整的 3D 重建(例如,如果放在桌子上,則永遠(yuǎn)看不到物體的底部)。 另一方面,實(shí)例級(jí) 6-DoF 對(duì)象姿態(tài)估計(jì)和跟蹤方法通常需要預(yù)先對(duì)測(cè)試對(duì)象進(jìn)行紋理化 3D 模型 [24、28、66、72、73] 進(jìn)行預(yù)訓(xùn)練和/或在線(xiàn)模板匹配。 雖然類(lèi)別級(jí)方法可以泛化到同一類(lèi)別中的新對(duì)象實(shí)例 [7,27,62,67,74],但它們很難處理分布外的對(duì)象實(shí)例和看不見(jiàn)的對(duì)象類(lèi)別。

為了克服這些限制,在本文中,我們建議共同解決這兩個(gè)問(wèn)題。 我們的方法假設(shè)對(duì)象是剛性的,并且它需要在視頻的第一幀中使用 2D 對(duì)象掩碼。 除了這兩個(gè)要求外,對(duì)象可以在整個(gè)視頻中自由移動(dòng),甚至可以進(jìn)行嚴(yán)重的遮擋。 我們的方法在精神上類(lèi)似于對(duì)象級(jí) SLAM [35、36、50–52、64、85] 中的先前工作,但我們放寬了許多常見(jiàn)的假設(shè),使我們能夠處理遮擋、鏡面反射、缺乏視覺(jué)紋理和幾何線(xiàn)索 , 和突然的物體運(yùn)動(dòng)。 我們方法的關(guān)鍵是一個(gè)在線(xiàn)姿勢(shì)圖優(yōu)化過(guò)程,一個(gè)用于重建 3D 形狀和外觀的并發(fā)神經(jīng)對(duì)象場(chǎng),以及一個(gè)促進(jìn)兩個(gè)過(guò)程之間通信的內(nèi)存池。 我們的方法的穩(wěn)健性在圖 1 中突出顯示。

bundlesdf,文章,論文閱讀

圖 1. 給定單目 RGBD 序列和 2D 對(duì)象掩碼(僅在第一幀中),我們的方法對(duì)未知對(duì)象執(zhí)行因果 6-DoF 跟蹤和 3D 重建。 在沒(méi)有任何關(guān)于對(duì)象或交互代理的先驗(yàn)知識(shí)的情況下,我們的方法可以很好地概括,處理平坦和無(wú)紋理的表面、鏡面高光、薄結(jié)構(gòu)、嚴(yán)重遮擋和各種交互代理(人手/身體/機(jī)械臂)。 該方法直接輸出可視化的網(wǎng)格。

我們的貢獻(xiàn)可以總結(jié)如下:

? 一種用于因果 6-DoF 姿態(tài)跟蹤和新型未知?jiǎng)討B(tài)對(duì)象 3D 重建的新型方法。 這種方法利用了一種新穎的并發(fā)跟蹤和神經(jīng)重建過(guò)程的協(xié)同設(shè)計(jì),這些過(guò)程近乎實(shí)時(shí)地在線(xiàn)運(yùn)行,同時(shí)大大減少了跟蹤漂移。
? 我們引入混合SDF 表示來(lái)處理由動(dòng)態(tài)以對(duì)象為中心的設(shè)置中的獨(dú)特挑戰(zhàn)引起的不確定自由空間,例如嘈雜的分割和來(lái)自交互的外部遮擋。
? 對(duì)三個(gè)公共基準(zhǔn)的實(shí)驗(yàn)展示了針對(duì)領(lǐng)先方法的最先進(jìn)性能。

2. 相關(guān)工作

6-DoF目標(biāo)姿態(tài)估計(jì)和跟蹤。 6-DoF 對(duì)象姿態(tài)估計(jì)推斷相機(jī)框架中目標(biāo)對(duì)象的 3D 平移和 3D 旋轉(zhuǎn)。 最先進(jìn)的方法通常需要實(shí)例級(jí)或類(lèi)別級(jí)對(duì)象 CAD 模型進(jìn)行離線(xiàn)訓(xùn)練或在線(xiàn)模板匹配 [24,25,60,67],這會(huì)阻止它們應(yīng)用于新的未知對(duì)象。 盡管最近的幾項(xiàng)工作 [32,45,58] 放寬了假設(shè)并旨在快速推廣到新的看不見(jiàn)的物體,但它們?nèi)匀恍枰A(yù)先捕獲測(cè)試物體的姿勢(shì)參考視圖,這在我們的設(shè)置中沒(méi)有假設(shè)。 除了單幀姿態(tài)估計(jì),6-DoF 對(duì)象姿態(tài)跟蹤利用時(shí)間信息來(lái)估計(jì)整個(gè)視頻中的每幀對(duì)象姿態(tài)。 類(lèi)似于它們的單幀對(duì)應(yīng)方法,這些方法做出不同級(jí)別的假設(shè),例如對(duì)相同對(duì)象的訓(xùn)練和測(cè)試 [28、38、54、63、69、72] 或?qū)ο嗤?lèi)別的對(duì)象進(jìn)行預(yù)訓(xùn)練 [30、38 , 65]。 BundleTrack [69] 與我們的設(shè)置最接近,將姿勢(shì)跟蹤立即推廣到新的未知物體。 然而,不同的是,我們使用新穎的神經(jīng)表示進(jìn)行跟蹤和重建的共同設(shè)計(jì)不僅會(huì)導(dǎo)致更強(qiáng)大的跟蹤,如實(shí)驗(yàn)中所驗(yàn)證的那樣(第 4 節(jié)),而且還可以實(shí)現(xiàn)額外的形狀輸出,這在 [69] 中是不可能的。

同時(shí)定位和映射。 SLAM 解決了與這項(xiàng)工作中解決的問(wèn)題類(lèi)似的問(wèn)題,但重點(diǎn)是參照大的靜態(tài)環(huán)境跟蹤攝像機(jī)的姿勢(shì)[41, 56, 61, 85]。動(dòng)態(tài) SLAM 方法通常通過(guò)幀模型迭代最近點(diǎn) (ICP) 結(jié)合顏色 [33,49,50,77]、概率數(shù)據(jù)關(guān)聯(lián) [55] 或 3D 水平集似然最大化 [48] 來(lái)跟蹤動(dòng)態(tài)對(duì)象。 通過(guò)將觀察到的 RGBD 數(shù)據(jù)與新跟蹤的姿勢(shì)進(jìn)行聚合,同時(shí)即時(shí)重建模型。 相比之下,我們的方法利用了一種新穎的神經(jīng)對(duì)象場(chǎng)表示,允許自動(dòng)即時(shí)融合 [10],同時(shí)動(dòng)態(tài)糾正歷史跟蹤的姿勢(shì)以保持多視圖一致性。 我們專(zhuān)注于以對(duì)象為中心的設(shè)置,包括動(dòng)態(tài)場(chǎng)景,其中通常缺乏紋理或幾何線(xiàn)索,并且交互代理經(jīng)常引入嚴(yán)重的遮擋——傳統(tǒng) SLAM 中很少發(fā)生的困難。 與對(duì)象級(jí) SLAM [35、36、51、52、64] 中研究的靜態(tài)場(chǎng)景相比,動(dòng)態(tài)交互還允許觀察對(duì)象的不同面以進(jìn)行更完整的 3D 重建。

對(duì)象重建。 使用基于學(xué)習(xí)的方法 [26、40、80] 廣泛研究了從圖像中檢索 3D 網(wǎng)格。 隨著神經(jīng)場(chǎng)景表示的最新進(jìn)展,可以重建高質(zhì)量的 3D 模型 [3,40,44,59,68,81],盡管這些方法中的大多數(shù)都假設(shè)已知的相機(jī)姿勢(shì)或地面實(shí)況分割并且通常專(zhuān)注于靜態(tài)場(chǎng)景 具有豐富的紋理或幾何線(xiàn)索。 特別是,[47] 提出了一種具有類(lèi)似目標(biāo)的半自動(dòng)方法,但使用手動(dòng)對(duì)象姿勢(shì)注釋來(lái)檢索對(duì)象的紋理模型。 相比之下,我們的方法是全自動(dòng)的,并且對(duì)視頻流進(jìn)行因果操作。 另一項(xiàng)研究利用人手或身體先驗(yàn)來(lái)解決對(duì)象尺度模糊或通過(guò)接觸/碰撞約束改進(jìn)對(duì)象姿勢(shì)估計(jì)[4,6,16,18,21,23,31,76,79,84]。 相比之下,我們不假設(shè)交互代理的具體知識(shí),這使我們能夠概括出截然不同的交互形式和場(chǎng)景,從人手、人體到機(jī)器人手臂,如實(shí)驗(yàn)所示。 這也消除了不完美的人手/身體姿勢(shì)估計(jì)的另一個(gè)可能的錯(cuò)誤來(lái)源。


3. 方法

我們的方法的概述如圖 2 所示。給定一個(gè)單眼 RGBD 輸入視頻,以及僅在第一幀中感興趣的對(duì)象的分割掩碼,我們的方法通過(guò)后續(xù)幀跟蹤對(duì)象的 6-DoF 姿態(tài),并重建對(duì)象的帶紋理的 3D 模型。 所有處理都是因果關(guān)系(無(wú)法訪問(wèn)未來(lái)的幀)假設(shè)對(duì)象是剛性的,但不需要特定數(shù)量的紋理——我們的方法適用于無(wú)紋理對(duì)象。 此外,不需要對(duì)象的實(shí)例級(jí) CAD 模型,也不需要類(lèi)別級(jí)先驗(yàn)(例如,預(yù)先對(duì)同一對(duì)象類(lèi)別進(jìn)行訓(xùn)練)。


bundlesdf,文章,論文閱讀

圖 2. 框架概述。 首先,特征在連續(xù)的分割圖像之間進(jìn)行匹配,以獲得粗略的姿勢(shì)估計(jì)(第 3.1 節(jié))。 其中一些姿勢(shì)幀存儲(chǔ)在內(nèi)存池中,供以后使用和完善(第 3.2 節(jié))。 姿勢(shì)圖是從內(nèi)存池的子集動(dòng)態(tài)創(chuàng)建的(第 3.3 節(jié)); 在線(xiàn)優(yōu)化結(jié)合當(dāng)前姿勢(shì)對(duì)圖中的所有姿勢(shì)進(jìn)行細(xì)化。 然后將這些更新的姿勢(shì)存儲(chǔ)回內(nèi)存池中。 最后,內(nèi)存池中的所有姿勢(shì)幀都用于學(xué)習(xí)神經(jīng)對(duì)象場(chǎng)(在單獨(dú)的線(xiàn)程中),該對(duì)象場(chǎng)對(duì)對(duì)象的幾何形狀和視覺(jué)紋理(第 3.4 節(jié))進(jìn)行建模,同時(shí)調(diào)整它們先前估計(jì)的姿勢(shì)。

3.1 粗略姿態(tài)初始化

為了為后續(xù)的在線(xiàn)姿態(tài)圖優(yōu)化提供一個(gè)好的初始猜測(cè),我們計(jì)算了當(dāng)前幀bundlesdf,文章,論文閱讀 和前一幀bundlesdf,文章,論文閱讀 之間的粗略目標(biāo)姿態(tài)估計(jì) bundlesdf,文章,論文閱讀。首先,通過(guò)利用與對(duì)象無(wú)關(guān)的視頻分割網(wǎng)絡(luò) [8],在 bundlesdf,文章,論文閱讀中分割對(duì)象區(qū)域。 選擇這種分割方法是因?yàn)樗恍枰魏侮P(guān)于對(duì)象或交互代理(例如人手)的知識(shí),因此允許我們的框架應(yīng)用于廣泛的場(chǎng)景和對(duì)象。

bundlesdf,文章,論文閱讀bundlesdf,文章,論文閱讀之間的 RGB 特征對(duì)應(yīng)是通過(guò)基于變換器的特征匹配網(wǎng)絡(luò) [57] 建立的,該網(wǎng)絡(luò)是在大量互聯(lián)網(wǎng)照片 [29] 上進(jìn)行預(yù)訓(xùn)練的。 與深度一起,識(shí)別的對(duì)應(yīng)關(guān)系由基于 RANSAC 的姿態(tài)估計(jì)器 [11] 使用最小二乘法 [2] 過(guò)濾。 然后選擇最大化內(nèi)點(diǎn)數(shù)量的姿勢(shì)假設(shè)作為當(dāng)前幀的粗略姿勢(shì)估計(jì)bundlesdf,文章,論文閱讀。

3.2. 內(nèi)存池

為了減輕可能導(dǎo)致長(zhǎng)期跟蹤漂移的災(zāi)難性遺忘,保留有關(guān)過(guò)去幀的信息非常重要。 先前工作采用的一種常見(jiàn)方法是將每個(gè)提出的觀察結(jié)果融合到一個(gè)明確的全局模型中 [43、50、53]。 然后使用融合的全局模型與后續(xù)新幀進(jìn)行比較以進(jìn)行姿勢(shì)估計(jì)(幀到模型匹配)。 然而,至少出于兩個(gè)原因,這種方法對(duì)于這項(xiàng)工作中考慮的具有挑戰(zhàn)性的場(chǎng)景來(lái)說(shuō)太脆弱了。 首先,在融合到全局模型中時(shí),姿勢(shì)估計(jì)中的任何缺陷都會(huì)累積,從而在估計(jì)后續(xù)幀的姿勢(shì)時(shí)造成額外的錯(cuò)誤。 當(dāng)對(duì)象上的紋理或幾何線(xiàn)索不足,或者此信息在框架中不可見(jiàn)時(shí),經(jīng)常會(huì)出現(xiàn)此類(lèi)錯(cuò)誤。 此類(lèi)錯(cuò)誤會(huì)隨著時(shí)間的推移而累積,并且是不可逆轉(zhuǎn)的。 其次,在長(zhǎng)期完全遮擋的情況下,大的運(yùn)動(dòng)變化使得全局模型和再現(xiàn)幀觀察之間的配準(zhǔn)變得困難和次優(yōu)。

相反,我們引入了一個(gè)關(guān)鍵幀內(nèi)存池 bundlesdf,文章,論文閱讀,用于存儲(chǔ)信息量最大的歷史觀察結(jié)果。 為了構(gòu)建內(nèi)存池,自動(dòng)添加第一幀 bundlesdf,文章,論文閱讀,從而為新的未知對(duì)象設(shè)置規(guī)范坐標(biāo)系。 對(duì)于每個(gè)新幀,其粗略姿態(tài) bundlesdf,文章,論文閱讀通過(guò)與內(nèi)存池中的現(xiàn)有幀進(jìn)行比較來(lái)更新,如第 3.3 節(jié)所述,以產(chǎn)生更新后的姿態(tài) bundlesdf,文章,論文閱讀。 只有當(dāng)其視點(diǎn)(由 bundlesdf,文章,論文閱讀描述)被認(rèn)為足以豐富池中的多視圖多樣性同時(shí)保持池緊湊時(shí),才將框架添加到 bundlesdf,文章,論文閱讀。

更具體地說(shuō),將 bundlesdf,文章,論文閱讀與池中所有現(xiàn)有記憶幀的姿勢(shì)進(jìn)行比較。 由于平面內(nèi)物體旋轉(zhuǎn)不提供額外信息,因此這種比較考慮了旋轉(zhuǎn)測(cè)地線(xiàn)距離,同時(shí)忽略了圍繞相機(jī)光軸的旋轉(zhuǎn)。 忽略這種差異允許系統(tǒng)在空間中更稀疏地分配內(nèi)存幀,同時(shí)保持相似數(shù)量的多視圖一致性信息。與以前的工作(如[69])相比,當(dāng)選擇相同數(shù)量的內(nèi)存幀參與在線(xiàn)姿勢(shì)圖優(yōu)化時(shí),這種技巧能夠聯(lián)合優(yōu)化更廣泛的姿勢(shì)范圍。

3.3. 在線(xiàn)姿勢(shì)圖優(yōu)化

給定一個(gè)新幀 bundlesdf,文章,論文閱讀及其粗略姿態(tài)估計(jì) bundlesdf,文章,論文閱讀(第 3.1 節(jié)),我們從內(nèi)存池中選擇(不超過(guò))bundlesdf,文章,論文閱讀個(gè)記憶幀的子集來(lái)參與在線(xiàn)姿態(tài)圖優(yōu)化。 對(duì)應(yīng)于新幀的優(yōu)化位姿成為輸出估計(jì)位姿 bundlesdf,文章,論文閱讀。此步驟在 CUDA 中實(shí)現(xiàn),用于近乎實(shí)時(shí)的處理,使其足夠快以應(yīng)用于每個(gè)新幀,從而在整個(gè)視頻中跟蹤對(duì)象時(shí)產(chǎn)生更準(zhǔn)確的姿勢(shì)估計(jì)。

如下所述(第 3.4 節(jié)),神經(jīng)對(duì)象場(chǎng)也用于協(xié)助此優(yōu)化過(guò)程。 內(nèi)存池中的每一幀都與一個(gè)二進(jìn)制標(biāo)志 bundlesdf,文章,論文閱讀相關(guān)聯(lián),指示該特定幀的姿勢(shì)是否受益于由神經(jīng)對(duì)象字段更新。 當(dāng)一個(gè)幀第一次被添加到內(nèi)存池時(shí),bundlesdf,文章,論文閱讀。 該標(biāo)志在隨后的在線(xiàn)更新中保持不變,直到幀的姿勢(shì)已被神經(jīng)對(duì)象場(chǎng)更新,此時(shí)它永遠(yuǎn)設(shè)置為 bundlesdf,文章,論文閱讀

在更新新幀 bundlesdf,文章,論文閱讀的姿勢(shì)的同時(shí),為在線(xiàn)姿勢(shì)圖優(yōu)化選擇的幀子集的所有姿勢(shì)也被更新到內(nèi)存池中,只要它們的標(biāo)志設(shè)置為 bundlesdf,文章,論文閱讀。 那些標(biāo)志設(shè)置為 bundlesdf,文章,論文閱讀的幀將繼續(xù)由更可靠的神經(jīng)對(duì)象場(chǎng)過(guò)程(Neural Object Field process)更新,但它們不再被在線(xiàn)姿勢(shì)圖優(yōu)化修改。

選擇內(nèi)存幀的子集。 為了提高效率,我們限制參與位姿圖優(yōu)化的記憶幀數(shù)不超過(guò) bundlesdf,文章,論文閱讀。 在視頻的早期,當(dāng) bundlesdf,文章,論文閱讀,不需要選擇,使用內(nèi)存池中的所有幀。 當(dāng)內(nèi)存池的大小增長(zhǎng)到大于 bundlesdf,文章,論文閱讀時(shí),應(yīng)用選擇過(guò)程以最大化多視圖一致性信息。 之前的努力是通過(guò)窮舉搜索成對(duì)特征對(duì)應(yīng)關(guān)系和求解生成樹(shù) [41] 來(lái)選擇關(guān)鍵幀,這對(duì)于實(shí)時(shí)處理來(lái)說(shuō)過(guò)于耗時(shí),或者僅基于固定時(shí)間間隔 [53],在我們以對(duì)象為中心的環(huán)境中效率較低。 因此,我們建議通過(guò)利用當(dāng)前幀的粗略姿態(tài)估計(jì) bundlesdf,文章,論文閱讀(在第 3.1 節(jié)中獲得)來(lái)有效地選擇記憶幀的子集 bundlesdf,文章,論文閱讀。 具體來(lái)說(shuō),對(duì)于內(nèi)存池中的每一幀 bundlesdf,文章,論文閱讀,我們首先計(jì)算點(diǎn)法線(xiàn)貼圖并計(jì)算這些法線(xiàn)與新幀相機(jī)視圖中的光線(xiàn)方向之間的點(diǎn)積,以測(cè)試它們的可見(jiàn)性。 如果新幀 bundlesdf,文章,論文閱讀中的點(diǎn)云可見(jiàn)性比率高于閾值(所有實(shí)驗(yàn)均為 0.1),我們通過(guò)計(jì)算 bundlesdf,文章,論文閱讀bundlesdf,文章,論文閱讀之間的旋轉(zhuǎn)測(cè)地線(xiàn)距離來(lái)進(jìn)一步測(cè)量與 bundlesdf,文章,論文閱讀的觀看重疊,同時(shí)忽略面內(nèi)旋轉(zhuǎn)(如上所述)。 最后,我們選擇具有最大觀看重疊(最小距離)的bundlesdf,文章,論文閱讀個(gè)記憶幀與 bundlesdf,文章,論文閱讀一起參與位姿圖優(yōu)化。 因此,bundlesdf,文章,論文閱讀。

優(yōu)化。 在姿勢(shì)圖 bundlesdf,文章,論文閱讀中,節(jié)點(diǎn)由 bundlesdf,文章,論文閱讀和上面選擇的記憶幀子集組成:bundlesdf,文章,論文閱讀,因此 bundlesdf,文章,論文閱讀。目標(biāo)是找到最小化位姿圖總損失的最佳位姿:

bundlesdf,文章,論文閱讀
其中 bundlesdf,文章,論文閱讀bundlesdf,文章,論文閱讀是成對(duì)邊緣損失 [69],bundlesdf,文章,論文閱讀是額外的一元損失。標(biāo)量因子bundlesdf,文章,論文閱讀都是根據(jù)經(jīng)驗(yàn)設(shè)定為1。損失
bundlesdf,文章,論文閱讀
測(cè)量RGBD特征對(duì)應(yīng)bundlesdf,文章,論文閱讀的歐氏距離,其中bundlesdf,文章,論文閱讀表示幀bundlesdf,文章,論文閱讀中的物體姿勢(shì),bundlesdf,文章,論文閱讀是Huber損失[19],用于穩(wěn)健性。幀bundlesdf,文章,論文閱讀bundlesdf,文章,論文閱讀之間的對(duì)應(yīng)關(guān)系集bundlesdf,文章,論文閱讀是由第3.1節(jié)中介紹的同一網(wǎng)絡(luò)檢測(cè)的,為了提高效率,我們?cè)谶@里并行地運(yùn)行批量推理。損失

bundlesdf,文章,論文閱讀
通過(guò)重投影關(guān)聯(lián)測(cè)量像素級(jí)的點(diǎn)到面距離,其中bundlesdf,文章,論文閱讀bundlesdf,文章,論文閱讀轉(zhuǎn)換到bundlesdf,文章,論文閱讀,bundlesdf,文章,論文閱讀表示與bundlesdf,文章,論文閱讀相關(guān)的對(duì)圖像bundlesdf,文章,論文閱讀的視角投影映射、 bundlesdf,文章,論文閱讀表示通過(guò)查找像素位置的深度圖像bundlesdf,文章,論文閱讀的反投影映射,bundlesdf,文章,論文閱讀表示通過(guò)查找bundlesdf,文章,論文閱讀在像素位置bundlesdf,文章,論文閱讀關(guān)聯(lián)的法線(xiàn)圖。最后,單項(xiàng)損失

L s ( t ) = ∑ p ∈ I t ρ ( ∣ Ω ( ξ t ? 1 ( π D ? 1 ( p ) ) ) ∣ ) ( 4 ) \mathcal {L}_s(t)=\sum \limits _{p\in I_t}\rho \big ( \left | \Omega (\xi _t^{-1}(\pi _{D}^{-1}(p))) \right | \big ) (4) Ls?(t)=pIt??ρ( ?Ω(ξt?1?(πD?1?(p))) ?)(4)

衡量當(dāng)前幀與神經(jīng)隱含形狀的點(diǎn)到點(diǎn)的距離 形狀的點(diǎn)對(duì)點(diǎn)距離,其中bundlesdf,文章,論文閱讀表示神經(jīng)對(duì)象的有符號(hào)距離函數(shù)。符號(hào)的距離函數(shù)。將在第3.4節(jié)討論。神經(jīng)對(duì)象場(chǎng) 在這個(gè)步驟中,權(quán)重被凍結(jié)。在這個(gè)步驟中,神經(jīng)對(duì)象場(chǎng)的權(quán)重被凍結(jié)。只有在神經(jīng)對(duì)象場(chǎng)的初始訓(xùn)練收斂之后,才會(huì)考慮到這種單項(xiàng)損失。

姿態(tài)被表示為相機(jī)姿態(tài)對(duì)物體的反轉(zhuǎn),使用李代數(shù)進(jìn)行參數(shù)化,將初始幀的坐標(biāo)框架固定為錨點(diǎn)。我們通過(guò)高斯-牛頓算法解決整個(gè)姿勢(shì)圖的優(yōu)化問(wèn)題,并進(jìn)行迭代再加權(quán)。對(duì)應(yīng)于bundlesdf,文章,論文閱讀的優(yōu)化姿勢(shì)成為其更新的姿勢(shì)bundlesdf,文章,論文閱讀。對(duì)于其余被選中的存儲(chǔ)幀,它們?cè)诖鎯?chǔ)池中的優(yōu)化姿勢(shì)也會(huì)被更新,以糾正視頻中早期計(jì)算的可能錯(cuò)誤,除非如前所述,bundlesdf,文章,論文閱讀。



3.4. 神經(jīng)對(duì)象領(lǐng)域

我們的方法的一個(gè)關(guān)鍵是學(xué)習(xí)以物體為中心的神經(jīng)簽名距離場(chǎng),在調(diào)整記憶幀的姿勢(shì)的同時(shí),學(xué)習(xí)物體的多視圖一致的三維形狀和外觀。它是按視頻學(xué)習(xí)的,不需要預(yù)先訓(xùn)練,就能普及到新的未知物體。這個(gè)神經(jīng)物體場(chǎng)在一個(gè)獨(dú)立的線(xiàn)程中與在線(xiàn)姿勢(shì)跟蹤并行訓(xùn)練。在每個(gè)訓(xùn)練期開(kāi)始時(shí),神經(jīng)對(duì)象場(chǎng)從池中消耗所有的記憶幀(連同它們的姿勢(shì))并開(kāi)始學(xué)習(xí)。當(dāng)訓(xùn)練收斂時(shí),優(yōu)化后的姿勢(shì)被更新到內(nèi)存池中,以幫助隨后的在線(xiàn)姿勢(shì)圖優(yōu)化,每次都會(huì)獲取這些更新的內(nèi)存幀姿勢(shì),以減輕跟蹤漂移。學(xué)到的SDF也被更新到隨后的在線(xiàn)姿勢(shì)圖中,以計(jì)算第3.3節(jié)所述的單項(xiàng)損失bundlesdf,文章,論文閱讀。然后,通過(guò)從存儲(chǔ)池中抓取新的存儲(chǔ)幀,重復(fù)神經(jīng)物場(chǎng)的訓(xùn)練過(guò)程。

物質(zhì)領(lǐng)域的代表。 受[82]的啟發(fā),我們用兩個(gè)函數(shù)表示物體。首先,幾何函數(shù)bundlesdf,文章,論文閱讀將一個(gè)三維點(diǎn)bundlesdf,文章,論文閱讀作為輸入,并輸出一個(gè)有符號(hào)的距離值bundlesdf,文章,論文閱讀。第二,外觀函數(shù)bundlesdf,文章,論文閱讀從幾何網(wǎng)絡(luò)中獲取中間特征向量bundlesdf,文章,論文閱讀,一個(gè)點(diǎn)法線(xiàn)bundlesdf,文章,論文閱讀,和一個(gè)視圖方向bundlesdf,文章,論文閱讀,并輸出顏色bundlesdf,文章,論文閱讀。在實(shí)踐中,我們?cè)谵D(zhuǎn)發(fā)到網(wǎng)絡(luò)之前對(duì) x x x應(yīng)用多分辨率哈希編碼[39]。物場(chǎng)中一個(gè)點(diǎn)的法線(xiàn)可以通過(guò)在有符號(hào)的距離場(chǎng)上取一階導(dǎo)數(shù)得出bundlesdf,文章,論文閱讀,我們通過(guò)利用PyTorch[46]中的自動(dòng)微分來(lái)實(shí)現(xiàn)。對(duì)于這兩個(gè)方向的 n n n d d d,我們通過(guò)一組固定的低階球面諧波系數(shù)(在我們的例子中為2階)來(lái)嵌入它們,以防止過(guò)度擬合,這可能會(huì)阻礙物體姿勢(shì)的更新(如上所述,表示為相機(jī)姿勢(shì)相對(duì)于物體的反演),特別是旋轉(zhuǎn)。

隱含的物體表面是通過(guò)取有符號(hào)距離場(chǎng)的零級(jí)集得到的: S = x ∈ R 3 ∣ Ω ( x ) = 0 S= x∈\mathbb{R}^3| Ω(x) = 0 S=xR3∣Ω(x)=0 。與[37]相比,在我們的設(shè)置中,SDF對(duì)象表示 Ω Ω Ω有兩個(gè)主要的好處。首先,當(dāng)與我們的高效射線(xiàn)采樣與深度引導(dǎo)的截?cái)嘞嘟Y(jié)合時(shí)(如下所述),它能使訓(xùn)練在幾秒鐘內(nèi)迅速收斂,以便進(jìn)行在線(xiàn)跟蹤。其次,由法線(xiàn)引導(dǎo)的隱式正則化鼓勵(lì)平滑和準(zhǔn)確的表面提取。這不僅提供了一個(gè)令人滿(mǎn)意的物體形狀重建,作為我們的最終目標(biāo)之一,而且還為在線(xiàn)姿勢(shì)圖的優(yōu)化提供了更準(zhǔn)確的幀-模型損失bundlesdf,文章,論文閱讀。

渲染。 給定一個(gè)內(nèi)存幀的物體姿態(tài) ξ ξ ξ,通過(guò)發(fā)射穿過(guò)像素的射線(xiàn)來(lái)渲染圖像。沿著射線(xiàn)的不同位置對(duì)三維點(diǎn)進(jìn)行采樣:

x i ( r ) = o ( r ) + t i d ( r ) , ( 5 ) x_i(r) = o(r)+t_i d(r), (5) xi?(r)=o(r)+ti?d(r),(5)

其中 o ( r ) o(r) o(r) d ( r ) d(r) d(r)分別是射線(xiàn)原點(diǎn)(相機(jī)焦點(diǎn))和射線(xiàn)方向,兩者都取決于 ξ ξ ξ; t i ∈ R + t_i∈\mathbb{R}_+ ti?R+?制約著沿射線(xiàn)的位置。

一條射線(xiàn) r r r的顏色 c c c被近表面區(qū)域整合:

c ( r ) = ∫ z ( r ) ? λ z ( r ) + 0.5 λ w ( x i ) Φ ( f Ω ( x i ) , n ( x i ) , d ( x i ) ) ? d t , ( 6 ) c(r)=\int _{z(r)-\lambda }^{z(r)+0.5\lambda } w(x_i)\Phi (f_{\Omega (x_i)},n(x_i),d(x_i))\,dt, (6) c(r)=z(r)?λz(r)+0.5λ?w(xi?)Φ(fΩ(xi?)?,n(xi?),d(xi?))dt,(6)
w ( x i ) = 1 1 + e ? α Ω ( x i ) 1 1 + e α Ω ( x i ) , ( 7 ) w(x_i)= \frac {1}{1+e^{-\alpha \Omega (x_i)}}\frac {1}{1+e^{\alpha \Omega (x_i)}}, (7) w(xi?)=1+e?αΩ(xi?)1?1+eαΩ(xi?)1?,(7)

其中 w ( x i ) w(x_i) w(xi?)是鐘形概率密度函數(shù)[68],它取決于點(diǎn)到隱含物體表面的距離,即簽名距離 Ω ( x i ) Ω(x_i) Ω(xi?)。 α α α(設(shè)置為常數(shù))調(diào)整了概率密度分布的軟度。概率在表面交匯處達(dá)到局部最大值。 z ( r ) z(r) z(r)是深度圖像中射線(xiàn)的深度值。 λ λ λ是截?cái)嗑嚯x。在公式(6)中,我們忽略了距離表面超過(guò) λ λ λ的空曠空間的貢獻(xiàn),以減少神經(jīng)場(chǎng)中空空間的過(guò)度擬合,從而改善姿勢(shì)更新。然后,我們只整合到 0.5 λ 0.5λ 0.5λ的穿透距離,以建立自我排斥的模型[68]。直接使用深度讀數(shù) z ( r ) z(r) z(r)來(lái)指導(dǎo)積分的另一種方法是,從 Ω ( x i ) Ω(x_i) Ω(xi?)推斷出零交叉面。然而,我們發(fā)現(xiàn)與使用深度相比,這需要更密集的點(diǎn)采樣和更慢的訓(xùn)練收斂。

高效的分層射線(xiàn)取樣。 為了有效地進(jìn)行渲染,我們?cè)谟?xùn)練前通過(guò)天真地合并擺放的記憶幀的點(diǎn)云來(lái)構(gòu)建一個(gè)Octree表示[12]。然后,我們沿射線(xiàn)進(jìn)行分層采樣。具體來(lái)說(shuō),我們首先對(duì)占用體素(圖3中的灰色方框)為界的 N N N個(gè)點(diǎn)進(jìn)行均勻采樣,終點(diǎn)為 z ( r ) + 0.5 λ z(r)+0.5λ z(r)+0.5λ。一個(gè)定制的CUDA內(nèi)核被實(shí)現(xiàn),以跳過(guò)對(duì)中間未占用體素的采樣。額外的樣本被分配到表面周?chē)垣@得更高的重建質(zhì)量: 我們從以深度讀數(shù)bundlesdf,文章,論文閱讀為中心的正態(tài)分布中抽取bundlesdf,文章,論文閱讀個(gè)點(diǎn)樣本,而不是基于SDF預(yù)測(cè)的重要性采樣,這需要通過(guò)網(wǎng)絡(luò)進(jìn)行多次前向傳遞[37,68]。這導(dǎo)致了bundlesdf,文章,論文閱讀的總樣本,而不需要查詢(xún)更昂貴的多分辨率哈希編碼或網(wǎng)絡(luò)。


bundlesdf,文章,論文閱讀

圖3. 左圖:圖 3. 左:用于高效光線(xiàn)追蹤的八叉樹(shù)體素表示,使用來(lái)自視頻分割網(wǎng)絡(luò)(第 3.1 節(jié))的預(yù)測(cè)二進(jìn)制掩碼,其中包含錯(cuò)誤。射線(xiàn)可以落在遮罩內(nèi)(紅色顯示),也可以落在遮罩外(黃色)。右圖:神經(jīng)體積的二維自上而下的圖示,以及沿射線(xiàn)的混合SDF建模的點(diǎn)采樣。藍(lán)色樣本在表面附近。

混合SDF建模。 由于不完善的分割和外部遮擋,我們提出了一個(gè)混合簽名距離模型。具體來(lái)說(shuō),我們將空間劃分為三個(gè)區(qū)域來(lái)學(xué)習(xí)SDF(見(jiàn)圖3):

  • 不確定的自由空間: \textit{不確定的自由空間:} 不確定的自由空間:這些點(diǎn)(圖中為黃色)對(duì)應(yīng)于分割遮罩中的背景或深度值缺失的像素,對(duì)這些像素的觀察是不可靠的。例如,在射線(xiàn) r 1 r_1 r1?在二元遮罩中的像素位置,手指的遮擋導(dǎo)致了背景的預(yù)測(cè),盡管它實(shí)際上對(duì)應(yīng)于投手的手柄。天真地忽略了發(fā)射射線(xiàn)的背景會(huì)失去輪廓信息,造成偏差。因此,我們不完全信任或忽略不確定的自由空間,而是給物體表面分配一個(gè)小的正值 ? ? ?,使其在以后有更可靠的觀察結(jié)果時(shí)能迅速適應(yīng):

L u = 1 ∣ X u ∣ ∑ x ∈ X u ( Ω ( x ) ? ? ) 2 . ( 8 ) \mathcal {L}_{\textit {u}}=\frac {1}{|\mathcal {X}_{\textit {u}}|}\sum _{x\in \mathcal {X}_{\textit {u}}} (\Omega (x)-\epsilon )^2. (8) Lu?=Xu?1?xXu??(Ω(x)??)2.(8)

  • 空曠的空間: \textit{空曠的空間:} 空曠的空間:這些點(diǎn)(圖中的紅色)在深度讀數(shù)的前面,直到截?cái)嗑嚯x,使它們幾乎肯定是物體表面的外部。我們對(duì)截?cái)嗟挠蟹?hào)距離應(yīng)用 L 1 L_1 L1?損失,以鼓勵(lì)稀疏性:

L e = 1 ∣ X e ∣ ∑ x ∈ X e ∣ Ω ( x ) ? λ ∣ . ( 9 ) \mathcal {L}_{\textit {e}}=\frac {1}{|\mathcal {X}_{\textit {e}}|}\sum _{x\in \mathcal {X}_{\textit {e}}} | \Omega (x)-\lambda |. (9) Le?=Xe?1?xXe??∣Ω(x)?λ∣.(9)

  • 近表面空間: \textit{近表面空間:} 近表面空間:這些點(diǎn)(圖中的藍(lán)色)靠近表面,不超過(guò) z ( r ) + 0.5 λ z(r)+0.5λ z(r)+0.5λ的距離,在深度讀數(shù)后面,以模擬自閉。這個(gè)空間對(duì)于學(xué)習(xí)SDF中的符號(hào)翻轉(zhuǎn)和零級(jí)集至關(guān)重要。為了提高效率,我們通過(guò)投影近似法對(duì)近表面SDF進(jìn)行近似:

L surf = 1 ∣ X surf ∣ ∑ x ∈ X surf ( Ω ( x ) + d x ? d D ) 2 , ( 10 ) \mathcal {L}_{\textit {surf}}=\frac {1}{|\mathcal {X}_{\textit {surf}}|}\sum _{x\in \mathcal {X}_{\textit {surf}}}\left (\Omega (x) +d_x - d_D \right )^2, (10) Lsurf?=Xsurf?1?xXsurf??(Ω(x)+dx??dD?)2,(10)

其中bundlesdf,文章,論文閱讀bundlesdf,文章,論文閱讀分別是射線(xiàn)原點(diǎn)到樣本點(diǎn)和觀測(cè)深度點(diǎn)的距離。

訓(xùn)練。 可訓(xùn)練的參數(shù)包括多分辨率哈希編碼器, Ω Ω Ω, Φ Φ Φ,以及物體在切線(xiàn)空間的姿勢(shì)更新,其參數(shù)為L(zhǎng)ie Algebrabundlesdf,文章,論文閱讀,其中我們將第一個(gè)記憶幀的姿勢(shì)凍結(jié)為錨點(diǎn)。訓(xùn)練損失是:

L = w u L u ?? + ?? w e L e ?? + ?? w surf L surf ?? + ?? w c L c ?? + ?? w eik L eik , ( 11 ) \begin {aligned} \mathcal {L}=&w_{\textit {u}}\mathcal {L}_{\textit {u}}\!+\!w_{\textit {e}}\mathcal {L}_{\textit {e}}\!+\!w_{\textit {surf}}\mathcal {L}_{\textit {surf}}\!+\!w_{c}\mathcal {L}_{c}\!+\!w_{\textit {eik}}\mathcal {L}_{\textit {eik}}, \end {aligned} (11) L=?wu?Lu?+we?Le?+wsurf?Lsurf?+wc?Lc?+weik?Leik?,?(11)
其中 L c \mathcal {L}_{c} Lc? 近表面空間 \textit{近表面空間} 近表面空間的SDF的Eikonal正則化[13]:

L eik = 1 ∣ X surface ∣ ∑ x ∈ X surface ( ∥ ? Ω ( x ) ∥ 2 ? 1 ) 2 . ( 13 ) \mathcal {L}_{\textit {eik}}=\frac {1}{|\mathcal {X}_{\textit {surface}}|}\sum _{x\in \mathcal {X}_{\textit {surface}}} ( \left \|\nabla \Omega (x)\right \|_2-1 )^2. (13) Leik?=Xsurface?1?xXsurface??((x)2??1)2.(13)

與[68]不同的是,我們不進(jìn)行掩碼監(jiān)督,因?yàn)轭A(yù)測(cè)的掩碼往往是來(lái)自網(wǎng)絡(luò)的噪聲,這需要地面真理掩碼作為輸入。


4. 實(shí)驗(yàn)

4.1. 數(shù)據(jù)集

為了評(píng)估我們的方法,我們考慮了三個(gè)真實(shí)世界的數(shù)據(jù)集,它們具有截然不同的互動(dòng)形式和動(dòng)態(tài)場(chǎng)景。關(guān)于野外應(yīng)用和靜態(tài)場(chǎng)景的結(jié)果,見(jiàn)項(xiàng)目頁(yè)面。

HO3D [14]: 該數(shù)據(jù)集包含人手與 YCB 物體交互的 RGBD 視頻[5],由英特爾 RealSense 攝像頭近距離拍攝。地面實(shí)況由多視角注冊(cè)自動(dòng)生成。我們采用了最新版本的 HO-3D_v3,并在官方評(píng)估集上進(jìn)行了測(cè)試。測(cè)試結(jié)果包括 4 個(gè)不同的物體、13 個(gè)視頻序列和共計(jì) 20428 個(gè)幀。

YCBInEOAT [72]: 該數(shù)據(jù)集包含一個(gè)雙臂機(jī)器人操縱 YCB 物體[5]的以自我為中心的 RGBD 視頻,視頻由 Azure Kinect 攝像機(jī)在中距離拍攝。操縱有三種類(lèi)型:(1) 單臂拾放,(2) 手內(nèi)操縱,(3) 雙臂交替拾放。雖然該數(shù)據(jù)集最初是為了評(píng)估依賴(lài) CAD 模型的姿勢(shì)估計(jì)方法而開(kāi)發(fā)的,但我們并沒(méi)有為評(píng)估方法提供任何物體先驗(yàn)知識(shí)。該數(shù)據(jù)集共有 5 個(gè)不同的對(duì)象、9 個(gè)視頻和 7449 個(gè)幀。

BEHAVE [4]: 該數(shù)據(jù)集包含人體與物體互動(dòng)的 RGBD 視頻,由 Azure Kinect 攝像頭的預(yù)校準(zhǔn)多視角系統(tǒng)遠(yuǎn)距離捕捉。不過(guò),我們的評(píng)估僅限于單視角設(shè)置,因?yàn)樵趩我暯窃O(shè)置中經(jīng)常會(huì)出現(xiàn)嚴(yán)重遮擋。我們?cè)诠俜綔y(cè)試分割上進(jìn)行評(píng)估,但不包括可變形物體。這將產(chǎn)生 16 個(gè)不同的對(duì)象、70 個(gè)視頻/場(chǎng)景和 107982 個(gè)幀。

4.2. 指標(biāo)

我們分別對(duì)姿態(tài)估計(jì)和形狀重建進(jìn)行評(píng)估。對(duì)于 6-DoF 物體姿態(tài),我們使用地面實(shí)況物體幾何圖形計(jì)算 ADD 和 ADD-S 指標(biāo)[17,69,75]的曲線(xiàn)下面積(AUC)百分比。對(duì)于三維形狀重建,我們計(jì)算最終重建的網(wǎng)格與地面實(shí)況網(wǎng)格在每個(gè)視頻的第一幅圖像所定義的標(biāo)準(zhǔn)坐標(biāo)幀中的倒角距離。更多詳情請(qǐng)參見(jiàn)附錄。

4.3 基線(xiàn)

我們將 DROID-SLAM (RGBD) [61]、NICE-SLAM [85]、KinectFusion [43]、BundleTrack [69] 和 SDF-2-SDF [53]與它們的開(kāi)源實(shí)現(xiàn)和最佳調(diào)整參數(shù)進(jìn)行了比較。此外,我們還包括了他們排行榜上的基線(xiàn)結(jié)果。請(qǐng)注意,[20, 42]等方法側(cè)重于可變形物體,根 6-DoF 跟蹤和融合通?;赱43],而我們側(cè)重于動(dòng)態(tài)移動(dòng)的剛性物體。因此,我們省略了對(duì)它們的比較。每種評(píng)估方法的輸入都是 RGBD 視頻和第一幀表示感興趣物體的遮罩。為了進(jìn)行公平比較,我們?cè)诒容^方法中增加了與我們的框架相同的視頻分割掩碼,重點(diǎn)關(guān)注 6-DoF 物體姿態(tài)跟蹤和三維重建性能。在跟蹤失敗的情況下,不會(huì)重新初始化,以測(cè)試長(zhǎng)期跟蹤的魯棒性。

DROID-SLAM [61]、NICE-SLAM [85] 和 KinectFusion [43] 最初是為相機(jī)姿態(tài)跟蹤和場(chǎng)景重建而提出的。在給定分割圖像時(shí),它們以對(duì)象為中心運(yùn)行。由于 DROIDSLAM [61] 和 BundleTrack [69] 無(wú)法重建物體網(wǎng)格,因此我們使用 TSDF Fusion [9, 83] 來(lái)增強(qiáng)這些方法,以進(jìn)行形狀重建評(píng)估。對(duì)于 NICESLAM [85] 和我們的方法,我們只使用第一幀的點(diǎn)云來(lái)初始化神經(jīng)體的邊界(為了保持因果處理,我們不能訪問(wèn)未來(lái)幀)。

4.4. HO3D 的比較結(jié)果

HO3D 的定量結(jié)果見(jiàn)表 1 和圖 5。1 和圖 5。我們的方法在 6-DoF 姿態(tài)跟蹤和三維重建方面都遠(yuǎn)遠(yuǎn)優(yōu)于比較方法。對(duì)于 DROID-SLAM[61]、NICE-SLAM[85]和 KinectFusion[43],在以物體為中心的環(huán)境中工作時(shí),可用于跟蹤的紋理或幾何(純平面或圓柱形物體表面)線(xiàn)索明顯較少,導(dǎo)致性能較差。圖 5 顯示了跟蹤誤差與時(shí)間的關(guān)系,以研究長(zhǎng)期跟蹤漂移。雖然 BundleTrack [69] 與我們的方法實(shí)現(xiàn)了類(lèi)似的低平移誤差,但在旋轉(zhuǎn)估計(jì)方面卻很吃力。相比之下,我們的方法在整個(gè)視頻中都能保持較低的跟蹤誤差。我們?cè)诟戒浿刑峁┝嗣總€(gè)視頻的量化結(jié)果。


bundlesdf,文章,論文閱讀

圖 5. HO3D 數(shù)據(jù)集的姿態(tài)跟蹤誤差與時(shí)間的關(guān)系。每個(gè)時(shí)間戳的結(jié)果是所有視頻的平均值。左圖:以大地距離測(cè)量的旋轉(zhuǎn)誤差。右圖 平移誤差。


bundlesdf,文章,論文閱讀

表 1. HO3D 數(shù)據(jù)集比較。ADD 和 ADD-S 為 AUC 百分比(0 至 0.1 米)。重建是通過(guò)倒角距離測(cè)量的。

圖 4 顯示了三種最具競(jìng)爭(zhēng)力方法的定性結(jié)果示例。盡管存在多種挑戰(zhàn),如嚴(yán)重的手部遮擋、自遮擋、中間觀測(cè)的紋理線(xiàn)索很少以及強(qiáng)烈的光照反射,我們的方法仍能沿著視頻進(jìn)行精確跟蹤,并獲得質(zhì)量更高的三維物體重建。值得注意的是,我們預(yù)測(cè)的姿勢(shì)有時(shí)比地面實(shí)況更準(zhǔn)確,而地面實(shí)況是通過(guò)多攝像機(jī)多視角注冊(cè)并利用手部先驗(yàn)進(jìn)行標(biāo)注的。


bundlesdf,文章,論文閱讀

4.5. YCBInEOAT 的比較結(jié)果

YCBInEOAT 的定量結(jié)果見(jiàn)表 2。2. 該數(shù)據(jù)集從以自我為中心的視角捕捉機(jī)械臂與物體之間的交互,由于相機(jī)視角受限和機(jī)械臂的嚴(yán)重遮擋,該數(shù)據(jù)集面臨著挑戰(zhàn)。為完整起見(jiàn),本表還包括 [69] 中的其他基線(xiàn)方法1。星號(hào)(?)表示的這些方法的結(jié)果是從 [69] 中復(fù)制的。請(qǐng)注意,對(duì)于(非星號(hào))BundleTrack,為了公平比較,我們使用與我們相同的分割掩碼重新運(yùn)行了算法,并使用 TSDF Fusion 進(jìn)行了增強(qiáng),以評(píng)估重構(gòu)效果(與表 1 相同)。由于 MaskFusion* [50] 和 TEASER++* [78] 的性能相對(duì)較差,我們省略了它們的重新運(yùn)行。


bundlesdf,文章,論文閱讀

表 2. YCBInEOAT 數(shù)據(jù)集比較。ADD 和 ADD-S 為 AUC 百分比(0 至 0.1 米)。重建是通過(guò)倒角距離測(cè)量的。

我們的方法在三維重建中的 ADD-S 指標(biāo)和倒角距離方面創(chuàng)下了新的基準(zhǔn)記錄,同時(shí)在 ADD 指標(biāo)方面取得了與之前最先進(jìn)方法相當(dāng)?shù)男阅?。特別是,雖然 BundleTrack [69] 實(shí)現(xiàn)了有競(jìng)爭(zhēng)力的物體姿態(tài)跟蹤,但卻沒(méi)有獲得令人滿(mǎn)意的三維重建結(jié)果。這證明了我們?cè)诟櫤椭亟ǚ矫婀餐O(shè)計(jì)的優(yōu)勢(shì)。

4.6 BEHAVE 的比較結(jié)果

BEHAVE 的定量結(jié)果見(jiàn)表 3。3. 更詳細(xì)的結(jié)果請(qǐng)參閱補(bǔ)充材料。在我們不利用人體先驗(yàn)的單視角和零鏡頭傳輸設(shè)置中,該數(shù)據(jù)集表現(xiàn)出極大的挑戰(zhàn)性。例如,(i) 當(dāng)人體攜帶物體并遠(yuǎn)離攝像機(jī)時(shí),存在長(zhǎng)期的完全遮擋;(ii) 由于人隨意擺動(dòng)物體,經(jīng)常出現(xiàn)嚴(yán)重的運(yùn)動(dòng)模糊和突然位移;(iii) 物體性質(zhì)各異,大小不一;(iv) 視頻拍攝距離攝像機(jī)較遠(yuǎn),難以進(jìn)行深度感應(yīng)。因此,對(duì)這一基準(zhǔn)的評(píng)估將邊界推向了更困難的設(shè)置。盡管存在這些挑戰(zhàn),我們的方法仍然能夠在大多數(shù)情況下進(jìn)行長(zhǎng)期穩(wěn)健跟蹤,而且性能明顯優(yōu)于以前的方法。


bundlesdf,文章,論文閱讀

表 3. BEHAVE 數(shù)據(jù)集比較。ADD 和 ADD-S 為 AUC 百分比(0 至 0.5 米)。重建是通過(guò)倒角距離測(cè)量的。

4.7. 消融研究

鑒于 HO3D 數(shù)據(jù)集的姿勢(shì)注釋更為精確,我們?cè)谠摂?shù)據(jù)集上研究了我們的設(shè)計(jì)方案的有效性。結(jié)果如表 4 所示。4. 由于沒(méi)有緩解跟蹤漂移的機(jī)制,我們的無(wú)內(nèi)存設(shè)計(jì)性能大幅下降。對(duì)于 Ours-GPG,即使計(jì)算量相近,但由于手工制作的損失,它在紋理或幾何線(xiàn)索較少的物體或觀測(cè)數(shù)據(jù)上也很吃力。除了物體姿態(tài)跟蹤外,Ours w/o memory、Ours w/o NOF 和 Ours-GPG 都缺少三維物體重建模塊。我們的不含混合 SDF 算法忽略了輪廓信息,而且在糾正記憶幀的姿態(tài)時(shí),可能會(huì)受到假陽(yáng)性分割的影響。這些都會(huì)導(dǎo)致姿態(tài)跟蹤不夠穩(wěn)定,最終的三維重建噪聲更大。在計(jì)算預(yù)算相同的情況下,未使用緊湊內(nèi)存池的方案會(huì)導(dǎo)致姿態(tài)圖優(yōu)化和神經(jīng)對(duì)象場(chǎng)學(xué)習(xí)過(guò)程中姿態(tài)覆蓋范圍不足,這在第 3.2 節(jié)中已經(jīng)提到。


bundlesdf,文章,論文閱讀

表 4. 對(duì)設(shè)計(jì)方案的消減研究。不含內(nèi)存的設(shè)計(jì)刪除了與內(nèi)存相關(guān)的模塊,僅執(zhí)行幀到幀的粗姿態(tài)估計(jì)。不含 NOF 的設(shè)計(jì)刪除了神經(jīng)對(duì)象場(chǎng)模塊和公式(1)中的 Ls。Ours-GPG 通過(guò)使用所有內(nèi)存幀進(jìn)行全局姿態(tài)圖優(yōu)化,取代了神經(jīng)對(duì)象場(chǎng)。它與神經(jīng)對(duì)象場(chǎng)一樣在單獨(dú)的線(xiàn)程中并發(fā)運(yùn)行。我們的無(wú)混合 SDF 模型只考慮遮罩中的前景射線(xiàn),而不是混合 SDF 模型。我們的 w/o compact 內(nèi)存池采用與 [69] 類(lèi)似的策略,即選擇幀添加到內(nèi)存池,以及選擇子集內(nèi)存幀進(jìn)行姿態(tài)圖優(yōu)化。

5. 結(jié)論

我們提出了一種從單目 RGBD 視頻中進(jìn)行 6-DoF 物體跟蹤和 3D 重建的新方法。我們的方法只需要對(duì)初始幀中的物體進(jìn)行分割。我們的方法利用兩個(gè)并行線(xiàn)程,分別執(zhí)行在線(xiàn)圖形姿態(tài)優(yōu)化和神經(jīng)對(duì)象場(chǎng)表示,能夠處理快速運(yùn)動(dòng)、部分遮擋和競(jìng)爭(zhēng)遮擋、缺乏紋理和鏡面高光等具有挑戰(zhàn)性的情況。在幾個(gè)數(shù)據(jù)集上,我們展示了與現(xiàn)有方法相比最先進(jìn)的結(jié)果。未來(lái)的工作將致力于利用形狀先驗(yàn)來(lái)重建未見(jiàn)的部分。


附錄

A. 實(shí)施細(xì)節(jié)

在粗姿態(tài)初始化過(guò)程中,如果沒(méi)有直接的前一幀可與之比較(如分割檢測(cè)缺失,或物體完全遮擋后再次出現(xiàn)),當(dāng)前幀將與記憶幀進(jìn)行比較。選擇與當(dāng)前幀有 10 個(gè)以上特征對(duì)應(yīng)關(guān)系的記憶幀作為新的參考幀,進(jìn)行粗姿態(tài)初始化。以下步驟保持不變。

對(duì)于在線(xiàn)姿勢(shì)圖優(yōu)化,為了提高效率,我們限制了最大參與內(nèi)存幀數(shù) K = 10。計(jì)算 Lp 時(shí),我們會(huì)剔除距離大于 1 厘米或法線(xiàn)角度大于 20? 的相應(yīng)點(diǎn)。高斯-牛頓優(yōu)化法迭代 7 步。

在神經(jīng)對(duì)象場(chǎng)學(xué)習(xí)中,我們將對(duì)象歸一化為[-1, 1]的神經(jīng)體積邊界,其中比例計(jì)算為初始幀點(diǎn)云維度的 1.5 倍。神經(jīng)體的坐標(biāo)系基于第一幀居中的點(diǎn)云。幾何網(wǎng)絡(luò) Ω 由兩層 MLP 組成,隱維度為 64,除最后一層外均采用 ReLU 激活。中間幾何特征 f Ω ( ? ) f_{Ω(-)} fΩ(?)? 的維數(shù)為 16。最后一層的偏置初始化為 0.1,以便在訓(xùn)練開(kāi)始時(shí)預(yù)測(cè)出較小的正 SDF。外觀網(wǎng)絡(luò) Φ 由三層 MLP 組成,隱藏維度為 64,采用 ReLU 激活,但最后一層除外,我們采用 sigmoid 激活將顏色預(yù)測(cè)映射到 [0, 1]。對(duì)于 Octree 光線(xiàn)追蹤,最小體素尺寸設(shè)置為 2 厘米。為了提高效率,我們將多分辨率哈希編碼器 [39] 簡(jiǎn)化為 4 級(jí),特征向量從 16 到 128 不等。每個(gè)級(jí)別的特征維度設(shè)為 2。哈希表大小設(shè)為 2 22 2^{22} 222。在每次迭代中,射線(xiàn)批量大小為 2048。對(duì)于分層點(diǎn)采樣,N 和 N′ 分別設(shè)置為 128 和 64。截?cái)嗑嚯x λ 設(shè)為 1 厘米。對(duì)于不確定的自由空間,? 設(shè)為 0.001。在訓(xùn)練損耗中, w u w_u wu? = 100, w e w_e we? = 1, w s u r f w_{surf} wsurf? = 1000, w c w_c wc? = 100, w e i k w_{eik} weik? = 0.1. 我們用 PyTorch [46] 和 Adam 優(yōu)化器來(lái)實(shí)現(xiàn)。初始學(xué)習(xí)率為 0.01,線(xiàn)性衰減率為 0.1。神經(jīng)對(duì)象場(chǎng)訓(xùn)練在一個(gè)單獨(dú)的線(xiàn)程中并發(fā)運(yùn)行,每次訓(xùn)練收斂(300 步)后定期與內(nèi)存池交換數(shù)據(jù),從而進(jìn)行充分的姿態(tài)細(xì)化。第一個(gè)訓(xùn)練期從內(nèi)存池中有 10 個(gè)內(nèi)存幀時(shí)開(kāi)始。訓(xùn)練收斂后,它會(huì)將數(shù)據(jù)返回內(nèi)存池,并抓取上一次訓(xùn)練期間新添加到內(nèi)存池中的內(nèi)存幀,重復(fù)訓(xùn)練過(guò)程。下一次訓(xùn)練將重復(fù)使用最新更新幀的姿勢(shì)。但對(duì)于其他可訓(xùn)練參數(shù),如果在上一次訓(xùn)練中存在任何次最佳值,特別是由于姿態(tài)噪聲,重復(fù)使用它們的權(quán)重往往會(huì)陷入局部最小值。因此,我們要為新的訓(xùn)練期重新初始化網(wǎng)絡(luò)權(quán)重。與重新使用之前的網(wǎng)絡(luò)權(quán)重相比,這需要類(lèi)似的步驟來(lái)完善新添加的記憶幀的姿勢(shì)。

B. 計(jì)算時(shí)間

所有實(shí)驗(yàn)均在配備英特爾 i9-10980XE CPU 和一個(gè)英偉達(dá) RTX 3090 GPU 的標(biāo)準(zhǔn)臺(tái)式機(jī)上進(jìn)行。我們的方法由兩個(gè)同時(shí)運(yùn)行的線(xiàn)程組成。在線(xiàn)跟蹤線(xiàn)程以約 10.2 Hz 的速度處理幀,其中視頻分割平均耗時(shí) 18 毫秒,粗匹配耗時(shí) 24 毫秒,姿勢(shì)圖平均耗時(shí) 56 毫秒。同時(shí),神經(jīng)對(duì)象場(chǎng)線(xiàn)程在后臺(tái)運(yùn)行,每輪訓(xùn)練平均耗時(shí) 6.7 秒,訓(xùn)練結(jié)束后與主線(xiàn)程交換數(shù)據(jù)。在相同硬件上,競(jìng)爭(zhēng)方法 DROID-SLAM [61] 和 BundleTrack [69] 的運(yùn)行速度分別為 6.1 Hz 和 11.2 Hz。

C. 衡量標(biāo)準(zhǔn)

為了進(jìn)行評(píng)估,我們將姿態(tài)估計(jì)和形狀重建分離開(kāi)來(lái),以便分別處理。對(duì)于 6-DoF 物體姿態(tài)評(píng)估,我們計(jì)算 ADD 和 ADD-S 指標(biāo)的曲線(xiàn)下面積(AUC)百分比:
bundlesdf,文章,論文閱讀
其中 bundlesdf,文章,論文閱讀是物體模型。由于定義坐標(biāo)系的方法無(wú)法獲取新的未知物體的 CAD 模型,因此我們使用第一幅圖像中的地面真實(shí)姿態(tài)來(lái)定義每段視頻的標(biāo)準(zhǔn)坐標(biāo)幀,以評(píng)估姿態(tài)。

在三維形狀重建評(píng)估方面,我們使用以下對(duì)稱(chēng)公式報(bào)告了最終重建網(wǎng)格與地面實(shí)況網(wǎng)格之間的倒角距離結(jié)果:

bundlesdf,文章,論文閱讀
在我們的方法中,網(wǎng)格可以通過(guò)在神經(jīng)對(duì)象場(chǎng)的零級(jí)集上應(yīng)用行進(jìn)立方來(lái)提取。對(duì)于所有方法,我們都使用相同的分辨率(5 毫米)對(duì)點(diǎn)進(jìn)行取樣評(píng)估。由于大多數(shù)視頻都無(wú)法覆蓋物體周?chē)耐暾晥D,因此我們通過(guò)渲染測(cè)試(由地面實(shí)況網(wǎng)格和姿態(tài)給出)來(lái)剔除在視頻中不可見(jiàn)的地面實(shí)況網(wǎng)格面。

D. 詳細(xì)結(jié)果

圖 6(HO3D)、圖 7(YCBInEOAT)和圖 8(BEHAVE)顯示了所有三個(gè)數(shù)據(jù)集的 ADD-S 和 ADD 的恢復(fù)曲線(xiàn)。每幅圖都顯示了相應(yīng)數(shù)據(jù)集所有視頻的結(jié)果。可以看出,在幾乎所有數(shù)據(jù)集上,我們的方法的曲線(xiàn)下面積(AUC)都超過(guò)了其他方法。


bundlesdf,文章,論文閱讀

圖 6. 包括 HO3D 數(shù)據(jù)集所有視頻在內(nèi)的 ADD-S(左)和 ADD(右)指標(biāo)的召回率曲線(xiàn)。


bundlesdf,文章,論文閱讀

圖 7. 包括 YCBInEOAT 數(shù)據(jù)集所有視頻在內(nèi)的 ADD-S(左)和 ADD(右)指標(biāo)的召回率曲線(xiàn)。


bundlesdf,文章,論文閱讀

圖 8 包括 BEHAVE 數(shù)據(jù)集上所有視頻在內(nèi)的 ADD-S(左)和 ADD(右)指標(biāo)的召回率曲線(xiàn)。

所有三個(gè)數(shù)據(jù)集的每段視頻定量結(jié)果列于表5(HO3D)、表6(YCBInEOAT)和表 7-10(BEHAVE)。7-10(BEHAVE)??梢钥闯?,我們的方法在 HO3D 的幾乎所有視頻、YCBInEOAT 的半數(shù)以上視頻和 BEHAVE 的絕大多數(shù)視頻上都表現(xiàn)最佳。請(qǐng)注意,每個(gè)表格的最后一行(“平均值”)已包含在主論文中。


bundlesdf,文章,論文閱讀

表 5. HO3D 數(shù)據(jù)集的每個(gè)視頻比較。ADD 和 ADD-S 是姿態(tài)評(píng)估的 AUC(0 至 0.1 米)百分比。CD 是倒角距離,用于 形狀重建評(píng)估的倒角距離。


bundlesdf,文章,論文閱讀

表 6. YCBInEOAT 數(shù)據(jù)集上的每個(gè)對(duì)象比較(采用與 [69] 相同的協(xié)議)。MaskFusion*[50]、TEASER++*[78]和 BundleTrack* [69]的結(jié)果抄自[69]中的排行榜。對(duì)于 BundleTrack,為了進(jìn)行公平比較,我們使用與我們相同的分割掩碼重新運(yùn)行了算法,并使用 TSDF Fusion [9, 83] 進(jìn)行了增強(qiáng),以進(jìn)行重建評(píng)估。ADD 和 ADD-S 是用于姿勢(shì)評(píng)估的 AUC(0 至 0.1 米)百分比。CD 是用于形狀重建評(píng)估的倒角距離。


bundlesdf,文章,論文閱讀

表 7. BEHAVE 數(shù)據(jù)集的每個(gè)視頻比較。ADD 和 ADD-S 是用于姿勢(shì)評(píng)估的 AUC(0 至 0.5 米)百分比。CD 是用于形狀重建評(píng)估的倒角距離。下一頁(yè)繼續(xù)列表。(這是 4 部分中的第 1 部分)。


bundlesdf,文章,論文閱讀

表 8. BEHAVE 數(shù)據(jù)集的每個(gè)視頻比較,接上頁(yè)。(這是 4 部分中的第 2 部分)。


bundlesdf,文章,論文閱讀

表 9. BEHAVE 數(shù)據(jù)集的每個(gè)視頻比較,接上頁(yè)。(這是 4 部分中的第 3 部分)。


bundlesdf,文章,論文閱讀

表 10. BEHAVE 數(shù)據(jù)集的每個(gè)視頻比較,接上頁(yè)。(這是 4 部分中的第 4 部分)。

圖 9 和圖 10(HO3D)、圖 11(YCBInEOAT)以及圖 12 和圖 13(BEHAVE)展示了定性結(jié)果。我們鼓勵(lì)讀者觀看補(bǔ)充視頻。


bundlesdf,文章,論文閱讀

圖 9. HO3D 視頻 "AP13 "的定性比較。我們的方法對(duì)于紋理或幾何線(xiàn)索較少的觀測(cè)結(jié)果(大面積的圓柱形表面)非常穩(wěn)健,而對(duì)比方法卻很難做到這一點(diǎn)。


bundlesdf,文章,論文閱讀

圖 10. HO3D 視頻 "MPM13 "的定性比較。請(qǐng)注意,如最右邊一欄所示,我們的姿勢(shì)跟蹤有時(shí)似乎比地面實(shí)況更準(zhǔn)確。


bundlesdf,文章,論文閱讀

圖 11. YCBInEOAT 視頻 "sugar_box1 "的定性比較。


bundlesdf,文章,論文閱讀

圖 12. BEHAVE 視頻 "Date03_Sub03_chairblack_hand.3 "的定性比較。我們的方法對(duì)嚴(yán)重遮擋甚至完全遮擋(第三列和最后一列)都很穩(wěn)健。


bundlesdf,文章,論文閱讀

圖 13. 對(duì) BEHAVE 視頻 "Date03_Sub04_tablesquare_lift.3 "的定性比較。我們的方法有時(shí)甚至比地面實(shí)況更準(zhǔn)確(第 3 列和最后一列)。我們的方法對(duì)嚴(yán)重遮擋也有很好的魯棒性(第 4 列)。

有關(guān) BEHAVE 單視角設(shè)置的詳細(xì)信息。 正如論文中提到的,BEHAVE 數(shù)據(jù)集是由一個(gè)預(yù)先校準(zhǔn)過(guò)的多攝像頭系統(tǒng)拍攝的,該系統(tǒng)有四個(gè)攝像頭。由于我們的方法只需要單目輸入,為了公平評(píng)估,我們?cè)趩文枯斎肷线\(yùn)行所有方法。也就是說(shuō),對(duì)于每個(gè)場(chǎng)景,我們只將其中一臺(tái)攝像機(jī)捕捉到的視頻輸入到這些方法中。

雖然從理論上講,我們可以將每種方法運(yùn)行四次,即每個(gè)攝像機(jī)運(yùn)行一次,但這將耗費(fèi)過(guò)多的時(shí)間,而可能帶來(lái)的啟示卻微乎其微。此外,由于場(chǎng)景的每個(gè)角落都只有四個(gè)攝像頭,因此在幾個(gè)攝像頭的視角中(包括視頻開(kāi)始時(shí)),物體往往會(huì)被人類(lèi)嚴(yán)重遮擋。由于初始化時(shí)物體的可見(jiàn)度非常有限,使用這樣的攝像機(jī)無(wú)法獲得有意義的跟蹤評(píng)估結(jié)果。

相反,我們決定從每個(gè)場(chǎng)景的四臺(tái)攝像機(jī)中自動(dòng)選擇一臺(tái)進(jìn)行評(píng)估。更具體地說(shuō),我們?cè)诿總€(gè)場(chǎng)景的整個(gè)序列中選擇遮擋最少的視頻。為此,我們使用地面實(shí)況信息將地面實(shí)況物體遮擋與渲染物體遮擋進(jìn)行比較,從而計(jì)算出每個(gè)攝像機(jī)視頻中物體的平均可見(jiàn)度比。這項(xiàng)工作在評(píng)估前對(duì)所有視頻進(jìn)行離線(xiàn)處理。如圖 12 和圖 13 所示,盡管?chē)?yán)重遮擋仍會(huì)經(jīng)常出現(xiàn),這給評(píng)估帶來(lái)了挑戰(zhàn),但所有方法都會(huì)使用選定的單視角視頻進(jìn)行評(píng)估。

E. 穩(wěn)健性分析

下面我們將討論我們的方法在各種挑戰(zhàn)下的穩(wěn)健性。我們鼓勵(lì)讀者觀看我們的補(bǔ)充視頻,以便更全面地了解該系統(tǒng)。

缺乏紋理或幾何線(xiàn)索。 在以物體為中心的動(dòng)態(tài)設(shè)置中,物體本身經(jīng)常會(huì)提供紋理或幾何線(xiàn)索。例如,在圖 9 中,藍(lán)色投影儀上的大片區(qū)域缺乏紋理,這對(duì)那些嚴(yán)重依賴(lài)光學(xué)流(DROID-SLAM [61])、關(guān)鍵點(diǎn)匹配(BundleTrack [69])或光度損失(NICE-SLAM [85])的方法提出了挑戰(zhàn)。此外,大面積的圓柱表面也幾乎沒(méi)有幾何線(xiàn)索可利用,會(huì)給那些依賴(lài)于點(diǎn)到面匹配的方法(SDF2SDF [53]、BundleTrack [69]、KinectFusion [43])造成旋轉(zhuǎn)模糊。相比之下,由于姿勢(shì)圖優(yōu)化和神經(jīng)對(duì)象場(chǎng)的協(xié)同作用,我們的方法對(duì)這些挑戰(zhàn)具有很強(qiáng)的魯棒性。更多此類(lèi)挑戰(zhàn)的例子可參見(jiàn)圖 10、圖 12 和圖 13。

遮擋物。 在動(dòng)態(tài)物體設(shè)置中,遮擋包括自遮擋和交互代理(如人手、人體、機(jī)械臂)引入的外部遮擋。例如,在圖 10 中,"肉罐 "在極度旋轉(zhuǎn)后,有時(shí)只顯示出一個(gè)平面(第 2 列),造成嚴(yán)重的自閉塞。在其他觀察結(jié)果中,人手引入的外部遮擋(第 4 列)也對(duì)比較方法提出了挑戰(zhàn)。圖 9、圖 12、圖 13 和圖 11 提供了更多此類(lèi)挑戰(zhàn)的例子??梢钥闯觯覀兊姆椒▽?duì)這兩種情況都很穩(wěn)健,并能在整個(gè)視頻中憑借記憶機(jī)制保持精確跟蹤,而對(duì)比方法卻很難做到這一點(diǎn)。

鏡面反射。 由于物體表面的光滑度、材質(zhì)和復(fù)雜的環(huán)境光,可能會(huì)出現(xiàn)鏡面反射,這給那些主要依靠光流(DROID-SLAM [61])、關(guān)鍵點(diǎn)匹配(BundleTrack [69])或光度損失(NICESLAM [85])的方法帶來(lái)了挑戰(zhàn)。如圖 9、圖 10、圖 12 和圖 11 所示,盡管在金屬或高度光滑的表面上存在鏡面反射,我們的方法仍能在整個(gè)視頻中保持精確跟蹤,而對(duì)比方法則變得脆弱。

突然運(yùn)動(dòng)和運(yùn)動(dòng)模糊。 圖 14 展示了一個(gè)由于人類(lèi)自由擺動(dòng)盒子而導(dǎo)致物體突然運(yùn)動(dòng)的例子。除了大位移下的 6-DoF 姿勢(shì)跟蹤面臨挑戰(zhàn)外,它還會(huì)導(dǎo)致 RGB 運(yùn)動(dòng)模糊,從而給關(guān)鍵點(diǎn)匹配和神經(jīng)對(duì)象場(chǎng)學(xué)習(xí)帶來(lái)額外的挑戰(zhàn)。然而,我們的方法在這些不利條件下表現(xiàn)出了魯棒性,甚至比地面實(shí)況得出的姿勢(shì)更準(zhǔn)確。


bundlesdf,文章,論文閱讀

圖 14 盡管物體姿態(tài)變化快、運(yùn)動(dòng)模糊,我們的方法仍能生成比地面實(shí)況更準(zhǔn)確的姿態(tài)。放大圖像可獲得最佳效果。

噪聲分割。 圖 15 和圖 16 展示了視頻分割網(wǎng)絡(luò)的噪聲掩碼(紫色)示例,包括假陽(yáng)性和假陰性預(yù)測(cè)。假陰性分割導(dǎo)致忽略紋理豐富的區(qū)域,加劇了紋理缺乏的問(wèn)題。假陽(yáng)性分割會(huì)引入交互代理的可變形部分或不想要的場(chǎng)景背景,從而導(dǎo)致多視圖中的不一致性。然而,我們的下游模塊對(duì)分割噪聲具有魯棒性,并能保持精確的跟蹤。


bundlesdf,文章,論文閱讀

圖 15 來(lái)自視頻分割網(wǎng)絡(luò)的噪聲掩碼(紫色)示例,顯示了假陽(yáng)性和假陰性預(yù)測(cè)。第一列顯示的是初始化跟蹤的第一幀掩碼。我們的方法對(duì)有噪聲的分割具有很強(qiáng)的魯棒性,即使有噪聲也能保持準(zhǔn)確的跟蹤。圖見(jiàn)下頁(yè)。(第 1 部分,共 2 頁(yè))


bundlesdf,文章,論文閱讀

圖 16 視頻分割網(wǎng)絡(luò)中的噪聲掩碼(紫色)示例。接上圖。(第 2 部分,共 2 頁(yè))。

噪聲深度。 如圖 17 所示,在我們的設(shè)置中,噪聲深度來(lái)自?xún)蓚€(gè)方面。首先,消費(fèi)級(jí) RGBD 相機(jī)具有可觀察到的傳感噪聲。尤其是在 BEHAVE [4] 和 YCBInEOAT [72] 數(shù)據(jù)集中,圖像是在距離攝像頭較遠(yuǎn)的地方捕獲的,這對(duì)深度感應(yīng)提出了挑戰(zhàn)。其次,由于分割存在噪聲,假陽(yáng)性預(yù)測(cè)包括深度點(diǎn)云中不需要的背景區(qū)域。在圖 17(左)中,當(dāng)使用地面實(shí)況姿態(tài)對(duì)每幀深度點(diǎn)云進(jìn)行天真融合時(shí),結(jié)果非常雜亂,這意味著深度感應(yīng)和分割存在噪聲。然而,盡管存在這些噪聲,我們同時(shí)進(jìn)行的姿態(tài)跟蹤和重建仍能生成高質(zhì)量的網(wǎng)格,如右圖所示。


bundlesdf,文章,論文閱讀

圖 17. 來(lái)自 BEHAVE 視頻 "Date03_Sub04_tablesquare_lift.3 "的噪聲深度示例。左圖:使用地面實(shí)況姿態(tài)和視頻分割網(wǎng)絡(luò)遮罩的融合點(diǎn)云。右圖 未經(jīng)任何修剪的最終重建結(jié)果。

F. 限制和故障模式

雖然我們的方法對(duì)各種挑戰(zhàn)條件都很穩(wěn)健,但當(dāng)多種挑戰(zhàn)同時(shí)出現(xiàn)時(shí),它就會(huì)失敗。例如,在圖 18 中,嚴(yán)重遮擋、分割錯(cuò)誤、紋理和幾何線(xiàn)索的缺乏共同導(dǎo)致跟蹤失敗。當(dāng)物體再次出現(xiàn)時(shí),恢復(fù)的姿勢(shì)會(huì)受到對(duì)稱(chēng)幾何的影響。此外,我們的方法需要深度模式,這就限制了它在深度感應(yīng)失效的某些類(lèi)型物體(如透明物體)上的應(yīng)用。最后,我們的方法假設(shè)物體是剛性的。在未來(lái)的工作中,我們有興趣同時(shí)對(duì)剛性和非剛性物體進(jìn)行推廣。


bundlesdf,文章,論文閱讀文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-764132.html

圖 18. 失敗案例。嚴(yán)重遮擋、分割錯(cuò)誤、缺乏紋理或幾何線(xiàn)索等因素共同導(dǎo)致跟蹤失敗。當(dāng)物體再次出現(xiàn)時(shí),恢復(fù)的姿勢(shì)會(huì)受到對(duì)稱(chēng)幾何形狀的影響

到了這里,關(guān)于論文筆記(二十九):BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • [論文閱讀筆記20]MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking

    [論文閱讀筆記20]MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking

    論文地址: https://arxiv.org/pdf/2303.10404.pdf 代碼: 未開(kāi)源 目前是MOT20的第二名 這篇文章著力于解決 長(zhǎng)時(shí) 跟蹤的問(wèn)題. 當(dāng)前大多數(shù)方法只能依靠Re-ID特征來(lái)進(jìn)行長(zhǎng)時(shí)跟蹤, 也就是軌跡長(zhǎng)期丟失后的再識(shí)別. 然而, Re-ID特征并不總是有效的. 尤其是在擁擠和極度遮擋的情況下. 為此, 這篇

    2024年02月16日
    瀏覽(28)
  • 【博士每天一篇論文-理論分析】Dynamical systems, attractors, and neural circuits

    【博士每天一篇論文-理論分析】Dynamical systems, attractors, and neural circuits

    閱讀時(shí)間:2023-11-19 年份:2016 作者:Paul Miller 馬薩諸塞州沃爾瑟姆市布蘭代斯大學(xué)Volen國(guó)家復(fù)雜系統(tǒng)中心 期刊: F1000Research 引用量:63 這篇論文主要關(guān)注神經(jīng)回路中的動(dòng)力系統(tǒng)和吸引子。作者指出神經(jīng)回路的復(fù)雜性和所涉及的非線(xiàn)性,加上數(shù)據(jù)受限和在動(dòng)力系統(tǒng)領(lǐng)域的有限條

    2024年01月21日
    瀏覽(22)
  • web學(xué)習(xí)筆記(二十九)jQuery

    目錄 1. jQuery 1.1 什么是jQuery ?1.2 原生js的缺點(diǎn) ?1.3 原生jQuery的優(yōu)勢(shì) 1.4 jQuery中的入口函數(shù) 1.5 jQuery入口函數(shù)和window.onload入口函數(shù)的區(qū)別 1.6 $(參數(shù))中參數(shù)的含義? 1.7DOM和jQuery相互轉(zhuǎn)換?、 1.7.1 jQuery轉(zhuǎn)DOM 1.7.2?DOM轉(zhuǎn) jQuery 1.8設(shè)置、獲取文本內(nèi)容? 1.8.1設(shè)置文本內(nèi)容 1.8.2獲取文本內(nèi)

    2024年03月17日
    瀏覽(17)
  • 【博士每天一篇論文-算法】Optimal modularity and memory capacity of neural reservoirs

    【博士每天一篇論文-算法】Optimal modularity and memory capacity of neural reservoirs

    閱讀時(shí)間:2023-11-15 年份:2019 作者:Nathaniel Rodriguez 印第安納大學(xué)信息學(xué)、計(jì)算和工程學(xué)院,美國(guó)印第安納州布盧明頓 期刊: Network Neuroscience 引用量:39 這篇論文主要研究了神經(jīng)網(wǎng)絡(luò)的模塊化與記憶性能之間的關(guān)系,提出記憶性能存在一個(gè)最佳模塊化程度,即在局部凝聚性

    2024年01月21日
    瀏覽(23)
  • 【讀點(diǎn)論文】A review of convolutional neural network architectures and their optimizations

    【讀點(diǎn)論文】A review of convolutional neural network architectures and their optimizations

    本文詳細(xì)分析和闡述了卷積神經(jīng)網(wǎng)絡(luò)(CNN)的典型架構(gòu)及其優(yōu)化的研究進(jìn)展。本文提出了一種基于模塊對(duì) CNN 架構(gòu)進(jìn)行分類(lèi)的典型方法,以適應(yīng)更多具有多種特征的新網(wǎng)絡(luò)架構(gòu),這些架構(gòu)很難依賴(lài)于原始的分類(lèi)方法。通過(guò)對(duì)各種網(wǎng)絡(luò)架構(gòu)的優(yōu)缺點(diǎn)分析及其性能比較, 對(duì)六種典

    2024年02月03日
    瀏覽(23)
  • 【論文閱讀】多目標(biāo)跟蹤—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box

    【論文閱讀】多目標(biāo)跟蹤—ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box

    寫(xiě)在前面: ByteTrack作者今年3月的新作品,升級(jí)了的V2版本并不是僅僅將ByteTrack擴(kuò)展到三維場(chǎng)景,而是在二階段匹配的框架下,結(jié)合了JDT和TBD常用的兩種基于運(yùn)動(dòng)模型進(jìn)行匹配的方法,提出了一種新的運(yùn)動(dòng)匹配模式,思路新穎,在三維MOT數(shù)據(jù)集nuScence上也達(dá)到了state-of-the-art。注

    2024年02月04日
    瀏覽(23)
  • Django筆記二十九之中間件介紹

    Django筆記二十九之中間件介紹

    本文首發(fā)于公眾號(hào):Hunter后端 原文鏈接:Django筆記二十九之中間件介紹 這一節(jié)介紹一下 Django 的中間件。 關(guān)于中間件,官方文檔的解釋為:中間件是一個(gè)嵌入 Django 系統(tǒng)的 request 和 response 的鉤子框架,是一個(gè)能夠全局改變 Django 輸入/輸出的系統(tǒng)。 我們可以這樣理解,一個(gè)

    2023年04月23日
    瀏覽(24)
  • 論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing

    論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing

    H. Liao et al., “Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing : Industry Track Paper,” 2021 IEEE International Symposium on High-Performance Computer Architecture (HPCA), Seoul, Korea (South), 2021, pp. 789-801, doi: 10.1109/HPCA51647.2021.00071. 計(jì)算核內(nèi)cube、vector、scaler部件的指令同步 昇騰910包

    2024年03月11日
    瀏覽(51)
  • 【論文復(fù)現(xiàn)】AB3DMOT: A Baseline for 3D Multi-Object Tracking and New Evaluation Metrics

    【論文復(fù)現(xiàn)】AB3DMOT: A Baseline for 3D Multi-Object Tracking and New Evaluation Metrics

    AB3MOT是經(jīng)典的3D多目標(biāo)跟蹤框架,將2D卡爾曼推廣到了3D,并將2D IOU匹配推廣到了3D。由于論文的原理基本上與2D相同所以作者在文中沒(méi)有敘述很多細(xì)節(jié),要理解具體實(shí)現(xiàn)細(xì)節(jié),只能看代碼。 項(xiàng)目代碼 論文地址 anaconda 官網(wǎng)下載 KITTI數(shù)據(jù)集 KITTI這是會(huì)發(fā)現(xiàn)很大如果簡(jiǎn)單測(cè)試可以先

    2024年02月03日
    瀏覽(52)
  • 【論文導(dǎo)讀】- Federated Graph Neural Networks: Overview, Techniques and Challenges(聯(lián)邦圖神經(jīng)網(wǎng)絡(luò):概述、技術(shù)和挑戰(zhàn))

    【論文導(dǎo)讀】- Federated Graph Neural Networks: Overview, Techniques and Challenges(聯(lián)邦圖神經(jīng)網(wǎng)絡(luò):概述、技術(shù)和挑戰(zhàn))

    論文地址:https://arxiv.org/abs/2202.07256 With its powerful capability to deal with graph data widely found in practical applications, graph neural networks (GNNs) have received significant research attention. However, as societies become in-creasingly concerned with data privacy, GNNs face the need to adapt to this new normal. This has led to the rapi

    2023年04月16日
    瀏覽(20)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包