論文標題:
Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots
論文作者:
Cheng Chi , Zhenjia Xu , Chuer Pan, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake, Shuran Song
項目地址:
https://umi-gripper.github.io/
導讀: 斯坦福團隊提出通用操縱接口(UMI)通用框架,可以直接從人類演示中學習有能力且可泛化的操縱策略。UMI 夾具是一個手持式演示接口,可捕獲足夠的信息來學習一些具有挑戰(zhàn)性的操作任務,包括洗臟盤子、雙手折疊毛衣以及動態(tài)物體投擲和分類。該項工作解決了機器人訓練中“先有雞還是先有蛋”的難題。??【深藍AI】編譯
1. 摘要
研究人員提出通用操作接口(UMI)——一種數(shù)據(jù)收集和策略學習框架,允許將技能從人類演示直接轉(zhuǎn)移到可部署的機器人上的策略(以下所指策略都指機器人的觀察和行為表示)。UMI 采用手持式夾具,結(jié)合精心的接口設計,可實現(xiàn)便攜的、低成本和信息豐富的數(shù)據(jù)采集,以進行具有挑戰(zhàn)性的雙手動態(tài)操作演示。為了促進可部署的策略學習,UMI 結(jié)合了精心設計的策略接口、推理時間延遲匹配和相對軌跡動作表示。由此產(chǎn)生的學習策略與硬件無關,并且可跨多個機器人平臺部署。配備這些功能,UMI 框架解鎖了新的機器人操縱功能,只需更改每個任務的訓練數(shù)據(jù),即可實現(xiàn)零樣本泛化的動態(tài)、可雙手操作的、精確的和長視野的行為。研究員通過全面的現(xiàn)實世界的實驗展示了 UMI 的多功能性和有效性,其中通過 UMI 零樣本學習的策略在對不同的人類演示進行訓練時可以推廣到新的環(huán)境和對象。
▲圖1|UMI接口??【深藍AI】編譯
2. 工作概述
如何讓機器人學習復雜的操作技能?
研究者們一般從2個方向解決該問題:通過遠程操作收集有針對性的實驗室機器人數(shù)據(jù),或者利用非結(jié)構(gòu)化的人類視頻。但是遠程操作往往需要高昂的設置成本,人類視頻與機器人之間依然存在很大的差距。近期,使用傳感手持式夾具作為數(shù)據(jù)收集接口已經(jīng)成為一種中間替代方案,但仍然存在缺乏動作多樣性的問題,是什么阻礙了大部分數(shù)據(jù)無法傳輸?shù)接行У臋C器人策略中?研究人員發(fā)現(xiàn)了以下關鍵所在:
● 視覺環(huán)境不足:腕式相機限制了視覺覆蓋范圍,相機靠近被操縱的物體時會產(chǎn)生嚴重的遮擋;
● 動作不精確:大多數(shù)手持設備依靠單目運動結(jié)構(gòu)來恢復機器人動作,但是這類方法由于尺度模糊或紋理不足,通常難以恢復精確的全局動作;
● 延遲差異:在推理過程中,系統(tǒng)內(nèi)會出現(xiàn)各種延遲;
● 策略表示不足:之前的工作經(jīng)常使用帶有動作回歸損失的簡單策略表示,限制了捕獲人類數(shù)據(jù)中固有的復雜多模態(tài)動作分布能力。
▲圖2|UMI演示接口設計??【深藍AI】編譯
基于以上問題,研究者們通過精細設計演示和策略接口來解決這些問題:
● 首先,目標是確定用于人類演示的正確直觀的物理接口,同時能夠捕獲規(guī)則學習所需的所有信息。具體來說,研究員使用魚眼鏡頭來增加視野和視覺環(huán)境,并在夾具上添加側(cè)鏡以提供隱式觀察。當與GoPro內(nèi)置IMU傳感器結(jié)合使用時,可以在快速運動下實現(xiàn)穩(wěn)健跟蹤。
● 其次,研究者探索正確的策略接口(即觀察和行動表示),該界面可以使策略與硬件無關,從而實現(xiàn)有效的技能轉(zhuǎn)移。具體來說,研究者采用推理時間延遲匹配來處理不同的傳感器觀察和執(zhí)行延遲,使用相對軌跡作為動作表示,最后應用擴散規(guī)則對多模態(tài)動作分布進行建模。
最終的UMI系統(tǒng),提供一個易于使用和訪問的框架來解鎖新的機器人操作技能,使我們能夠演示任何環(huán)境中的任何動作,同時保持從人類演示到機器人策略的可靠的高轉(zhuǎn)移性。只需要在手持式夾具上安裝一個腕式攝像頭(圖2),就可以證明UMI能夠通過僅改變訓練方式來實現(xiàn)各種涉及動態(tài)的,雙手操作的,精確的和長視距的操作任務的數(shù)據(jù)(圖1)。
3. 關鍵技術
UMI是手持式數(shù)據(jù)收集和策略學習框架,允許從人類演示直接轉(zhuǎn)移到可部署的機器人策略。它的設計具備便攜性,可靠性,充足性,可重復性等特質(zhì)。
■3.1 演示接口設計
UMI的數(shù)據(jù)收集硬件是觸發(fā)器激活的手持式3D打印平行夾爪形式,配有柔軟的手指,安裝GoPro相機(HD1)作為唯一的傳感器和記錄設備。對于雙手操作的問題,UMI可以通過另一個夾具輕松擴展解決,這里需要解決的關鍵研究問題是:
怎樣使用單相機采集到足夠的泛化信息?
具體而言,在觀察方面,設備需要捕獲足夠的視覺上下文來推斷動作(HD2)和關鍵深度信息(HD3)。在動作方面,需要捕獲人類快速運動下精確的機器人動作(HD4),抓握寬度的細微調(diào)整(HD5),并根據(jù)機器人硬件運動學自動檢查每個演示是否有效(HD6)。
● HD1 腕式相機作為輸入觀察:
將GoPro相機放置在與手持式夾具上3D打印手指的相同位置。該設計可以最大限度地減少觀察與實施之間的差距,且具有機械堅固性,便攜性,同時可以根據(jù)多樣化的相機運動獲得多樣化的數(shù)據(jù)。
● HD2 用于視覺的魚眼鏡頭:
在腕式相機上使用155度魚眼鏡頭,為各種任務提供足夠的視覺內(nèi)容,如圖2所示。機器人動作的輸入直接使用未失真的原始魚眼圖像
● HD3 后視鏡實現(xiàn)隱式雙目效果:
為了緩解單目相機視圖缺乏直接深度感知的問題,研究者在相機的外圍視圖中放置了一對物理鏡子,從而在同一圖像中創(chuàng)建隱式立體視圖,如圖3所示。
▲圖3|UMI后視鏡??【深藍AI】編譯
● HD4 IMU感知跟蹤:
UMI利用GoPro的內(nèi)置功能將IMU數(shù)據(jù)記錄到MP4視頻文件中。通過聯(lián)合優(yōu)化視覺跟蹤和慣性位姿約束,研究者基于ORB-SLAM3實現(xiàn)跟蹤,如圖4所示。這使得UMI能夠捕獲和部署高動態(tài)的動作。
▲圖4|策略接口設計??【深藍AI】編譯
● HD5 連續(xù)的夾具控制:
UMI夾具標記連續(xù)跟蹤的手指寬度,利用串聯(lián)彈性末端執(zhí)行器原理,UMI可以通過連續(xù)的夾具寬度控制來調(diào)節(jié)軟手指的變形,隱式記錄和控制抓取力。
● HD6 基于運動學的數(shù)據(jù)過濾:
雖然數(shù)據(jù)采集過程與機器人無關,但研究者應用簡單的基于運動學的數(shù)據(jù)過濾為不同的機 器人選擇有效的軌跡。
UMI機械手重780g,外部尺寸為L310mm×W 175mm×H210mm,手指最大范圍為80mm。3D打印夾具的物料成本為73美元,GoPro相機和配件的總成本為298美元。
■3.2 策略接口設計
UMI策略接口設計的一個重要目標是確保該接口與底層機器人硬件平臺無關,以便在一個數(shù)據(jù)源上訓練的最終策略可以部署到不同的機器人平臺上。所以需要解決以下兩個問題:
● 硬件的延遲:研究者通過觀察延遲時間,簡單地丟棄過時的操作,并僅在之后執(zhí)行具體的操作解決。
● 具體體現(xiàn)的本體感知:研究者觀察相對的位姿軌跡。對于每個新場景,抓手間的本體感知都通過“先映射后定位”的數(shù)據(jù)收集方案來實現(xiàn)。
4. 實驗結(jié)果
■4.1 接口魯棒性
通過腕部攝像頭的設置和以攝像頭為中心的動作表示,UMU 100%免校準(移動底座依然可以正常工作)并且能夠抵抗干擾物和照明的變化:
▲視頻|底座移動的魯棒性??【深藍AI】編譯
▲視頻|不同照明條件下的魯棒性??【深藍AI】編譯
▲視頻|其他醬料干擾下的魯棒性??【深藍AI】編譯
■4.2 動態(tài)拋擲實驗
實驗規(guī)定機器人的任務為:將6個物體扔到相應的箱體中進行分類,3個球形物體應該扔進圓形箱體中,3個樂高積木應該扔進矩形箱體中。
▲視頻|動態(tài)拋擲??【深藍AI】編譯
▲視頻|無延遲匹配的拋擲??【深藍AI】編譯
■4.3 杯子放置
使用不同的機械臂,拿起一個濃縮咖啡杯并將其放置在杯碟上,使其手柄朝向機器人左側(cè)。
▲視頻|UR5放置杯子??【深藍AI】編譯
▲視頻|Franka放置杯子??【深藍AI】編譯
■4.4 雙手折疊毛衣
兩個機械臂協(xié)調(diào)將毛衣的袖子向內(nèi)折疊,然后將下擺折起,旋轉(zhuǎn)90度,最后再次將毛衣對折。
▲視頻|折疊毛衣??【深藍AI】編譯
■4.5 洗碗
機械臂需要執(zhí)行洗碗的7個動作,包括打開水龍頭,抓住盤子,拿起海綿,清洗并擦拭盤子,放置盤子,放置海綿和關閉水龍頭。
▲視頻|CLIP預訓練,VIT作為視覺編碼器??【深藍AI】編譯
▲視頻|ResNet作為視覺編碼器??【深藍AI】編譯
5. 總結(jié)與未來展望
作者提出通用操縱接口(UMI)通用框架,可以直接從人類演示中學習有能力且可泛化的操縱策略。UMI 憑借其便攜性、成本效益和操作簡單性,在數(shù)據(jù)收集方面保持高度可擴展性。
雖然 UMI 在很多任務場景中展現(xiàn)了有效性,但仍然存在一些局限性。首先,由于機器人的運動學限制在數(shù)據(jù)收集時是未知的,因此研究者依靠數(shù)據(jù)過濾來確保運動學的可行性。未來的工作可以開發(fā)一個具有實施意識的接口學習框架。
其次,基于SLAM的動作恢復系統(tǒng)繼承了視覺SLAM對環(huán)境中需要有足夠紋理的要求。未來的工作可以利用靜態(tài)的第三人稱視角攝像機,再加上 UMI 夾具上的附加基準標記,即使在紋理缺乏的環(huán)境(例如純白墻壁的房間)中也能恢復動作。
最后,使用 UMI 夾具收集數(shù)據(jù)的效率仍然低于人手演示,這是由于夾具的重量和體積,導致與人手相比自由度降低。未來的工作可以探索更輕的材料并進一步改進 UMI 夾具的機械設計和人體工程學,或者構(gòu)建足夠強大的靈巧機器人手可以變成直接從人類動作學習轉(zhuǎn)移。
編譯|xlh
審核|Los文章來源:http://www.zghlxwxcb.cn/news/detail-848370.html
移步公眾號【深藍AI】,第一時間獲取自動駕駛、人工智能與機器人行業(yè)最新最前沿論文和科技動態(tài)。文章來源地址http://www.zghlxwxcb.cn/news/detail-848370.html
到了這里,關于通用操作接口UMI:如何快速簡單地給機器人提供更多學習數(shù)據(jù)?的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!