DaFoEs: Mixing Datasets Towards the Generalization of Vision-State Deep-Learning Force Estimation in Minimally Invasive Robotic Surgery
Authors:?Mikel De Iturrate Reyzabal, Graduate Student Member, IEEE, Mingcong Chen, Wei Huang, Sebastien Ourselin, and Hongbin Liu
Key words:?Deep learning in grasping and manipulation, surgical robotics: Laparoscopy, computer vision for medical robotics.
Source:?IEEE ROBOTICS AND AUTOMATION LETTERS, VOL. 9, NO. 3, MARCH 2024
Abstract
在微創(chuàng)機器人手術 (MIRS) 中精確確定安全相互作用期間的接觸力仍然是一個開放的研究挑戰(zhàn)。受手術視頻術后定性分析的啟發(fā),使用跨模態(tài)數據驅動的深度神經網絡模型一直是預測無傳感器力趨勢的最新方法之一。但是,這些方法需要用于當前不可用的大型和可變數據集。在本文中,提出了一種新的視覺觸覺數據集(DaFoE),該數據集具有可變的軟環(huán)境,用于訓練深度神經模型。為了減少單個數據集的偏差,提出了一個管道,使用具有不同設置的先前驗證的數據集,將不同的視覺和狀態(tài)數據輸入推廣到混合數據集訓練中。最后,提出了一種可變編碼器-解碼器架構,以使用單個輸入或輸入序列來預測腹腔鏡工具所受的力。對于輸入序列,使用一個以前綴 R 命名的遞歸解碼器和一個新的時間采樣來表示工具的加速度。在訓練過程中,證明了單個數據集訓練往往會過擬合訓練數據域,但在跨新域轉換結果時存在困難。然而,數據集混合呈現(xiàn)出良好的平移,循環(huán)和非循環(huán)模型的平均相對估計力誤差分別為 5% 和 12%。方法還略微提高了變壓器的力估算效率,最高可達 15%,因為可用數據量增加了 150%??傊?,本研究證明了視覺狀態(tài)的混合實驗設置MIRS中的力估計是解決問題的一種可能方法。
在這項研究中,提出了一個新的基于視覺的無傳感器力估計 (DaFoE) 數據集,該數據集使用安裝在由定制商用觸覺主設備控制的機械臂上的遠程手術腹腔鏡鑷子,包括鑷子抓握的驅動。這篇手稿的主要貢獻是:
1)創(chuàng)建一個管道來推廣深度神經網絡訓練的視覺狀態(tài)輸入,用于從不同數據流進行無傳感器力估計;
2)通過將基于ViT的圖像編碼器和具有特定時間窗口的遞歸解碼器相結合,提出了一種新的神經網絡架構,以及
3)將該模型與該領域的先前工作進行了比較。
圖 1.用于收集 DaFoEs(力估計數據集)數據集的完整實驗設置。該裝置分為 3 個主要組件,顏色編碼:遙控機械臂(藍色)、主控制器(綠色)和鑷子控制器(紅色)。在圖像的左側,展示了軟組織環(huán)境的不同可能性。
表一 所用數據集的主要特點
圖 2.運動學感知增強管道的水平鏡像變換示例。在圖像平面中,有視覺轉換。在下半部分,有更新機器人運動矢量的所有步驟。K 代表運動學,IK 代表逆運動學。
圖 3.視覺狀態(tài)模型訓練管道的圖形表示。在右上角,展示了用于本研究的不同視覺編碼器(ResNet50 和 Vision Transformer)。在與狀態(tài)向量連接后,有兩種不同類型的解碼器:非遞歸 (MLP) 或遞歸 (LSTM)。
圖 4.用于比較數據集混合方法有效性的指標。條形表示測試剪輯的原點數據集。(a) 和 (b) 分別表示將訓練隔離到單個數據集 dVRK 和 DaFoEs 中,以及將實驗轉換為相反的數據集。(c) 顯示混合數據集訓練的力差。
圖 5.特征隔離實驗的結果為條形圖。X 軸顯示了論文中介紹的不同模型。
圖 6.參數遮擋實驗結果為條形圖。結果按照與圖 5 相同的結構呈現(xiàn)。
圖 7.包含力的演變(頂部)和誤差隨時間演變的圖表(底部)。頂部的圖表顯示了 X 軸上力的時間演變。下圖顯示了本文介紹的 5 種不同模型的 RMSE 的時間變化:卷積神經網絡 (CNN)、視覺轉換器 (ViT) 和多層感知器 (FC),適用于非復發(fā)和復發(fā)情況 (R-)。
表II:力的孤立局部最大值和最小值的誤差值
在這項研究中,證明了數據集混合的可行性,用于訓練不同的深度神經網絡,用于無傳感器視覺狀態(tài)力估計,作為 MIRS 中可能的通用方法。表明,使用正確的時間采樣可以大大提高時間解碼器的性能。一般來說,本文分析的所有模型都可以學習力的趨勢,但只有循環(huán)模型才能預測整個剪輯中的全部力范圍。此外,對于混合數據集管道,觀察到 Transformer 架構確實受益于創(chuàng)建大量數據,即使硬件系統(tǒng)在狀態(tài)和視覺記錄方面都有所不同。然而,目前仍處于這一研究領域的初始階段,應該開發(fā)更多的數據集、架構和學習技術,以達成共識并擴展對這一主題的了解。
出于這個原因,新的研究應該集中在收集新的更多可變數據集上,以探索來自多個和更多樣化來源的泛化管道。數據來源的一些例子是:從用于大數據量的模擬環(huán)境,到對管腔、離體動物或人體組織進行更好的建模的復雜模型幾何形狀,以及用于更逼真的視覺輸入的體內環(huán)境。然而,由于這些環(huán)境的工作空間有限,因此在使用可靠的力傳感硬件方面確實存在更多問題,因此很難使用有監(jiān)督的訓練方案。因此,有必要創(chuàng)建額外的理論公式,以建立新的訓練管道,以避免GT真實可靠力讀數的必要性。
Reference:文章來源:http://www.zghlxwxcb.cn/news/detail-842115.html
[1]?Reyzabal, M. D. I., Chen, M., Huang, W., Ourselin, S., & Liu, H. (2024). DaFoEs: Mixing Datasets towards the generalization of vision-state deep-learning Force Estimation in Minimally Invasive Robotic Surgery.?IEEE Robotics and Automation Letters.文章來源地址http://www.zghlxwxcb.cn/news/detail-842115.html
到了這里,關于文獻學習-21-DaFoEs:混合數據集以推廣微創(chuàng)機器人手術中的視覺狀態(tài)深度學習力估計的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!