On the Monocular 3D Pose Estimation for Arbitrary Shaped Needle in Dynamic Scenes: An Efficient Visual Learning and Geometry Modeling Approach
Authors:?Bin Li,? , Student Member, IEEE, Bo Lu,? , Member, IEEE, Hongbin Lin, Yaxiang Wang, Fangxun Zhong, Member, IEEE, Qi Dou, Member, IEEE and Yun-Hui Liu, Fellow, IEEE
Source:?IEEE TRANSACTIONS ON MEDICAL ROBOTICS AND BIONICS
Keywords:?Surgical Robotics, Pose Estimation, Geometry Modeling, Vision-based Manipulation
Abstract:
導向圖像的針具姿態(tài)估計對于機器人自主縫合至關重要,但它面臨著重大挑戰(zhàn),因為針具的視覺投影細長,且手術環(huán)境動態(tài)多變。當前最先進的方法依賴額外的先驗信息(如手握姿態(tài)、精確的運動學等)來實現(xiàn)亞毫米級別的精度,這限制了它們在不同手術場景中的應用。這篇論文提出了一種新的通用框架,用于單目針具姿態(tài)估計:視覺學習網(wǎng)絡用于高效的幾何特征提取,以及新穎的幾何模型用于精確的姿態(tài)恢復。
為了精確捕獲針具的特征,引入了一種基于形態(tài)學的多尺度掩碼輪廓融合機制。然后,為針具姿態(tài)建立了一個新的狀態(tài)表示,并開發(fā)了一個物理投影模型來推導其與特征之間的關系。還制定了一個抗遮擋目標,以聯(lián)合優(yōu)化姿態(tài)和推斷特征的偏置,從而在遮擋場景下實現(xiàn)亞毫米級別的精度。方法既不需要CAD模型,也不依賴于圓形形狀的假設,可以廣泛估計其他小型平面軸對稱物體的姿態(tài)。
在內外活體實驗場景中驗證了估計的中間特征和針具最終姿態(tài)的準確性。進一步將框架部署到dVRK平臺上,實現(xiàn)針具的自動精確操作,證明了其在機器人手術中的應用可行性。
圖 1. 實時精確的針位姿估計示意圖:動態(tài)且具有挑戰(zhàn)性的手術場景,可以促進真實操作平臺中各種針相關操作的機器人輔助自動化,例如 dVRK 系統(tǒng)中的針通過。
自動機器人手術有潛力顯著提高手術精度,確保不受外科醫(yī)生個體因素影響的一致性,并增強相比手動手術的安全性。自主縫合是自動化手術的關鍵組成部分,包括針具操作,如抓取、插入和交接等。
為了提高機器人縫合的效率和可靠性,過去幾十年來,研究人員一直關注針具操作的自動化。在臨床共識中,自主縫合的核心部分是實時針具姿態(tài)估計,因為它為針穿透組織進行傷口閉合時的后續(xù)軌跡規(guī)劃和動作控制提供指導信息。然而,針具姿態(tài)估計通常面臨的重大挑戰(zhàn)是如何在具有挑戰(zhàn)性的手術環(huán)境中實現(xiàn)高精度,這直接影響到自主縫合的安全性。例如,手術場景中可能包含鏡頭污染、反射或其他干擾因素。另外,針具的窄長形狀,加上可能被組織或器械遮擋,也會阻礙高精度的估計。
為了高效且準確地提取必要的感知信息,視覺感知模型應該針對針具形狀進行定制,防止在未針對針具形狀設計的自然視覺方法中(如[8]和[9]中較大的或正常形狀的物體)提取不準確的視覺特征。基于視覺特征,姿態(tài)求解器需要在縫合過程中準確且可用,因此它應該達到與當前最先進的方法相當?shù)木?,但不需要它們所需的一些先驗假設,如手握姿態(tài)配置或者準確的運動學信息。這是關鍵,因為在不被夾持器夾住時,針可以在空間或組織中的任何位置。此外,算法應該對噪聲不敏感,以在出現(xiàn)意外噪聲時保持姿態(tài)估計的魯棒性??紤]到不同手術中針具的多樣性(例如,婦科和整形手術中針的圓形/通用形狀),算法應該具有通用性,以適應不同形狀的針具,并且易于應用于各種手術程序。因此,開發(fā)一種新的針具姿態(tài)估計模型,系統(tǒng)地解決上述問題,對于實現(xiàn)機器人輔助自主縫合至關重要。
在本文中,提出了一種系統(tǒng)框架,實現(xiàn)在具有挑戰(zhàn)性的手術場景中實時的針具姿態(tài)估計,達到當前最先進的性能,而無需依賴先驗假設(如手握設置或圓形形狀)。為了應對與針具形狀相關的視覺感知挑戰(zhàn),提出了一種定制的針具網(wǎng)絡(Needle-Net),用于從單目圖像中提取針具的幾何特征,包括掩碼、關鍵點和檢測結果,這些可以端到端地進行訓練。為了獲得有助于后續(xù)精確姿態(tài)估計的針具細長細節(jié),首先在多尺度上分別學習粗掩碼和精細輪廓,然后利用一種新穎的基于形態(tài)學的掩碼輪廓融合機制將它們合并成精確的針具掩碼。然后,開發(fā)了一種基于稀疏點描述符和基于幾何的圖像平面上的6自由度(DoF)物理模型的新型幾何模型,并在幾何流形上優(yōu)化姿態(tài)。接著,提出了一個新穎的抗遮擋目標函數(shù),涉及重新投影的點和掩碼,隨后使用粗到細的非線性優(yōu)化器求解,實現(xiàn)高效且準確的姿態(tài)估計,能夠補償復雜手術場景中細長針具的不準確視覺感知。最后,在自收集的活體臨床數(shù)據(jù)集和脫活體模型數(shù)據(jù)集上驗證了框架,結果表明方法可以實現(xiàn)對中間特征和最終估計針具姿態(tài)的精確估計。此外,通過在達芬奇研究套件(dVRK)上進行視覺引導的針具操作評估了框架,證明了它在自動化機器人輔助手術中的可行性。
這是前期工作的全面改進版本,該工作在AccelNet手術機器人挑戰(zhàn)賽中排名第一。這是第一個可以在動態(tài)遮擋環(huán)境中從單目圖像中實時準確估計任意形狀針具姿態(tài)的工作,精度達到亞毫米級別,為機器人手術中的自動針具操作奠定了堅實的基礎。主要貢獻如下:
1. 提出視覺學習與幾何建模的無縫結合,實現(xiàn)高精度的姿態(tài)估計。
2. 一個高效的針具網(wǎng)絡,用于提取長而窄形針具對象的精確幾何特征。
3. 一種新的針具姿態(tài)表示狀態(tài)空間,以及在這個空間上的基于幾何的的姿態(tài)優(yōu)化模型。
4. 在活體/脫活體圖像和真實機器人部署的廣泛實驗,展示了姿態(tài)精度及其在自動手術中的適用性。
如表I所示,與現(xiàn)有方法進行了比較,并強調了在通用可操作性方面的獨特優(yōu)勢:
1. 它可以在動態(tài)遮擋的手術場景中運行,提供與當前最先進的方法相當?shù)木?,同時避免了額外的先驗假設(如手握姿態(tài)或準確的運動學)。
2. 其高效流程(約60fps)和準確性能(@0.85mm/2.75°的誤差)使得它適合在手術機器人中部署。
圖 2. 所提出的框架由一個多任務 Needle-Net 組成,該網(wǎng)絡共享一個特征編碼器和用于提取幾何基元的不同頭,即用于針存在的檢測頭、用于對象分割的掩模頭以及用于關鍵點定位的關鍵點頭和 能見度。 如果檢測到針,則將使用代數(shù)幾何模型根據(jù)先前提取的幾何基元以及附加解耦參數(shù)(稀疏點先驗和相機固有參數(shù))來有效估計新穎的 6-DoF 位姿空間中的 3D 位姿。 否則,如果沒有檢測到針,則不需要進一步估計。
圖3 基于透視投影的3D幾何姿態(tài)模型。 針是一個具有固定中心軸的彎曲物體,用沿軸的對應點對其進行編碼。
A. 框架概述:
該框架由多任務 Needle-Net 和幾何 3D 位姿估計組件組成。
Needle-Net 首先確定針是否存在,如果存在,則提取幾何基元,如分割掩模、關鍵點等。
然后,幾何姿態(tài)估計組件使用這些基元來有效地估計針的 3D 姿態(tài)。
B. 檢測、分割和幾何基元提取子網(wǎng)絡:
Needle-Net 使用共享特征編碼器和單獨的頭進行檢測、分割和關鍵點提取。
對于分割,它使用基于形態(tài)學的掩模輪廓融合(MCF)機制來精確分割細彎針。
對于關鍵點,它提取針的起點和終點并對它們的可見性/遮擋進行分類。
它使用結合交叉熵和 Jaccard 損失的混合損失函數(shù)來訓練分割,并使用關鍵點的幾何原始損失。
為了使框架輕量級以進行實時部署,它使用深度可分離卷積。
總體而言,關鍵創(chuàng)新在于多任務 Needle-Net 架構、用于精確分割的 MCF 模塊以及基于提取的圖元構建的幾何姿態(tài)估計組件。
圖 4. 幾何示意圖對應于基于恒定深度假設的 (a) θinit1 和 (b) θinit2 的初始粗略計算。
圖5.存在遮擋時的姿態(tài)估計示意圖。 優(yōu)化函數(shù)考慮可見區(qū)域像素到投影軸點集的最小距離,遮擋部分不影響最小JA對應的位姿極值。
C. 針狀物體的 3D 位姿估計
?1. 幾何投影模型及表示法: - 針狀物體使用沿其曲線中心軸的離散點來表示。 - 使用投影的起點/終點和描述針方向的兩個角度(θ1、θ2)定義新穎的 6-DoF 位姿空間。 - 導出方程來計算針在相機框架中的平移和旋轉分量。
2. 3D Pose初始化: - 當檢測到針時,使用恒定深度假設和提取的關鍵點來估計初始粗略姿勢。 - 初始角度θ_init1和θ_init2根據(jù)幾何關系計算。
3. 3D姿勢的細化: - 制定了抗遮擋目標函數(shù) (JA),以最小化可見掩模區(qū)域中的像素與投影的 3D 點之間的距離。 - LM算法用于有效優(yōu)化6-DoF位姿參數(shù)x以最小化JA。
- 對于具有一個閉塞關鍵點的圓形針,執(zhí)行附加的局部旋轉細化步驟。 - EKF 用于平滑機器人部署過程中的穩(wěn)定性估計姿勢。
關鍵的創(chuàng)新是新穎的 6-DoF 姿態(tài)表示、抗遮擋目標函數(shù)以及利用提取的幾何基元的從粗到細的姿態(tài)估計方法。
實驗部分:
A.數(shù)據(jù)集:
- 作者根據(jù)體內子宮切除視頻和體外模型模擬操作創(chuàng)建了一個包含 1428 張圖像(769 張陽性圖像,659 張陰性圖像)的新數(shù)據(jù)集。
- 陽性樣本用掩模、開始/結束關鍵點及其可見性/遮擋進行注釋。
- 使用帶有 apriltags 的透明亞克力板創(chuàng)建了額外的 20 個案例評估數(shù)據(jù)集,以獲得地面真實 3D 姿勢。
B. 實施細節(jié):
- Needle-Net 使用 NVIDIA RTX 3090 GPU 和 Adam 優(yōu)化器進行訓練。
- 對于 3D 位姿估計,根據(jù)已知的物理參數(shù)或樣條擬合對針軸進行均勻采樣(200 個點)。
- Levenberg-Marquardt 算法用于姿勢優(yōu)化,并使用 EKF 過濾最終姿勢輸出。
- 該框架部署在達芬奇研究套件 (dVRK) 平臺上,用于自動針操作。
C. 檢測、分割和幾何特征檢測的評估:
- Needle-Net 在測試集上實現(xiàn)了 100% 的檢測準確率,優(yōu)于 VGG16、ResNet18 和 MobileNet18。
- 對于關鍵點檢測,Needle-Net 的平均準確率達到 95%,優(yōu)于 Keypoint-RCNN 和 DeepLabCut。
- 對于分割,具有所提出的損失和 MCF 模塊的 Needle-Net 實現(xiàn)了最佳性能,平均 DSC 為 85.77%,平均 IoU 為 80.72%,優(yōu)于 U-Net、PSPNet 和 ViT-Adapter。
D. 3D位姿估計評估:
- 定性結果表明該方法可以處理手術場景中的各種遮擋場景、反射和其他具有挑戰(zhàn)性的條件。
- 對 20 個案例數(shù)據(jù)集的定量評估顯示,中位位置誤差為 1.42 毫米,中位方向誤差為 2.16 度。
- 該框架已成功部署在 dVRK 平臺上,用于自動針操作任務。
總的來說,實驗證明了所提出的多任務 Needle-Net 和 3D 姿態(tài)估計框架在具有挑戰(zhàn)性的手術場景中的有效性。
圖 6. 來自內部子宮切除術和幾個體模的帶注釋的自我收集圖像示例。 從上到下逐行依次是原始圖像、掩模、起始關鍵點熱圖和結束關鍵點熱圖。 熱圖周圍的綠色框表示關聯(lián)的關鍵點可見,而紅色框表示關聯(lián)的關鍵點被遮擋
圖 7.(a) 根據(jù)真實圖像數(shù)據(jù)進行 3D 姿態(tài)評估的一般圖像。 手動提取不包含 apriltag 的子圖像(如左側未變暗的部分所示)并用作 Needle-Net 輸入圖像。 apriltag 用于計算 3D 位姿 GT。 (b) 重新投影到原始圖像上的估計 3D 姿態(tài)。
Reference:文章來源:http://www.zghlxwxcb.cn/news/detail-854198.html
[1]?Li, B., Lu, B., Lin, H., Wang, Y., Zhong, F., Dou, Q., & Liu, Y. H. (2024). On the Monocular 3D Pose Estimation for Arbitrary Shaped Needle in Dynamic Scenes: An Efficient Visual Learning and Geometry Modeling Approach.?IEEE Transactions on Medical Robotics and Bionics.文章來源地址http://www.zghlxwxcb.cn/news/detail-854198.html
到了這里,關于文獻學習-37-動態(tài)場景中任意形狀針的單目 3D 位姿估計:一種高效的視覺學習和幾何建模方法的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!