前言
23年7月,我在朋友圈評估Google的RT2說道:
- “大模型正在革新一切領(lǐng)域啊,超帥,通過大模型不僅能理解“人話”,還能對“人話”進行推理,并轉(zhuǎn)變?yōu)闄C器人能理解的指令,從而分階段完成任務(wù)。回頭仔細(xì)看下論文”
- 當(dāng)時便對大模型機器人印象深刻,一直想仔細(xì)研究下來著,但因為后來一直和團隊忙于論文審稿GPT、企業(yè)知識庫問答等項目,所以一直沒抽出時間去深入研究
沒成想,前幾天,斯坦福的炒菜機器人火爆全網(wǎng),再次讓包括我在內(nèi)的所有人目瞪口呆,再次在朋友圈評論道:
- 多模態(tài) + 大模型 + AI agent可以全方位賦能機器人
一年前我決心徹底寫清楚ChatGPT原理
一年前,因為對ChatGPT背后技術(shù)原理巨大的「好奇心」,加之極高的「分享熱情」、以及想寫一篇關(guān)于其原理最全面 最深入 最細(xì)致文章的「決心」,徹底改變了過去一年的軌跡
?最后,博客證明了技術(shù)研究能力,課程證明了教學(xué)教研能力,項目證明了帶隊開發(fā)能力
一年后的今天,我下定決心準(zhǔn)備徹底研究下機器人 - 剛好今年q1本身要做一個AI agent小項目,希望q2起,有機會做這個機器人agent大項目,如能和某高校實驗室或資本合作更好
說干就干
- 一方面,我組建了一個斯坦福機器人復(fù)現(xiàn)小組(里面有CMU機器人方向博士畢業(yè)的),準(zhǔn)備復(fù)現(xiàn)斯坦福這個炒菜或家務(wù)機器人
- 二方面,我準(zhǔn)備把大模型機器人的發(fā)展史以及其中涉及到的所有關(guān)鍵技術(shù)細(xì)節(jié),全部都梳理一下(畢竟新聞稿只能看個大概,但想精準(zhǔn)理解,必須結(jié)合一系列論文理解)
總之,不要看一篇新聞稿覺得很行,再看一篇 又覺得不行了,不要人云亦云 被新聞稿帶節(jié)奏(比如,雖然其有些動作是被遠程操控完成的,但還是有很多動作是其自主完成,比如對于一些簡單的任務(wù),Mobile ALOHA可以在50次學(xué)習(xí)之后達到90%的行動成功率),行與不行,得花幾個月嘗試下才可知,我們今年Q1之內(nèi)的三個步驟:
- 先做技術(shù)準(zhǔn)備
- 復(fù)現(xiàn)團隊復(fù)現(xiàn)Mobile ALOHA
- 建后續(xù)迭代優(yōu)化的機器人開發(fā)團隊,作為我司的第4項目組
第一部分 李飛飛團隊:具身智能
1.1?機器人對從沒見過的任務(wù)也能一次執(zhí)行且不需要示范
大模型接入機器人,把復(fù)雜指令轉(zhuǎn)化成具體行動規(guī)劃,無需額外數(shù)據(jù)和訓(xùn)練,說白了,人類可以很隨意地用自然語言給機器人下達指令,如:打開上面的抽屜,小心花瓶!
大語言模型+視覺語言模型就能從3D空間中分析出目標(biāo)和需要繞過的障礙,幫助機器人做行動規(guī)劃
然后重點來了,?真實世界中的機器人在未經(jīng)“培訓(xùn)”的情況下,就能直接執(zhí)行這個任務(wù)。
新方法實現(xiàn)了零樣本的日常操作任務(wù)軌跡合成,也就是機器人從沒見過的任務(wù)也能一次執(zhí)行,連給他做個示范都不需要。
可操作的物體也是開放的,不用事先劃定范圍,開瓶子、按開關(guān)、拔充電線都能完成
1.2 VoxPoser:大模型指導(dǎo)機器人如何與環(huán)境進行交互
1.2.1?3D Value Map:既標(biāo)記了“在哪里行動”,也標(biāo)記了“如何行動”
機器人如何直接聽懂人話?李飛飛團隊將該系統(tǒng)命名為VoxPoser,如下圖所示,它的原理非常簡單(項目地址、論文地址、代碼地址)
- 首先,給定環(huán)境信息(用相機采集RGB-D圖像)和我們要執(zhí)行的自然語言指令
- 接著,LLM(大語言模型)根據(jù)這些內(nèi)容編寫代碼,所生成代碼與VLM(視覺語言模型)進行交互,指導(dǎo)系統(tǒng)生成相應(yīng)的操作指示地圖,即3D Value Map
所謂3D Value Map,它是Affordance Map和Constraint Map的總稱,既標(biāo)記了“在哪里行動”,也標(biāo)記了“如何行動” - 如此一來,再搬出動作規(guī)劃器,將生成的3D地圖作為其目標(biāo)函數(shù),便能夠合成最終要執(zhí)行的操作軌跡了
而從這個過程我們可以看到,相比傳統(tǒng)方法需要進行額外的預(yù)訓(xùn)練,這個方法用大模型指導(dǎo)機器人如何與環(huán)境進行交互,所以直接解決了機器人訓(xùn)練數(shù)據(jù)稀缺的問題
更進一步,正是由于這個特點,它也實現(xiàn)了零樣本能力,只要掌握了以上基本流程,就能hold任何給定任務(wù)
1.2.2?將指令拆解成很多子任務(wù) + 規(guī)劃路徑
在具體實現(xiàn)中,作者將VoxPoser的思路轉(zhuǎn)化為一個優(yōu)化問題,即下面這樣一個復(fù)雜的公式:
它考慮到了人類下達的指令可能范圍很大,并且需要上下文理解,于是將指令拆解成很多子任務(wù),比如開頭第一個示例就由“抓住抽屜把手”和“拉開抽屜”組成
VoxPoser要實現(xiàn)的就是優(yōu)化每一個子任務(wù),獲得一系列機器人軌跡,最終最小化總的工作量和工作時間
而在用LLM和VLM將語言指令映射為3D地圖的過程中,系統(tǒng)考慮到語言可以傳達豐富的語義空間,便利用“感興趣的實體(entity of interest)”來引導(dǎo)機器人進行操作,也就是通過3D Value Map中標(biāo)記的值來反應(yīng)哪個物體是對它具有“吸引力”的,那些物體是具有“排斥性”。
還是以開頭的例子舉例,抽屜就是“吸引”的,花瓶是“排斥”的。
當(dāng)然,這些值如何生成,就靠大語言模型的理解能力了。
而在最后的軌跡合成過程中,由于語言模型的輸出在整個任務(wù)中保持不變,所以我們可以通過緩存其輸出,并使用閉環(huán)視覺反饋重新評估生成的代碼,從而在遇到干擾時快速進行重新規(guī)劃
因此,VoxPoser有著很強的抗干擾能力,比如下圖將廢紙放進藍色托盤
最后,作者還驚喜地發(fā)現(xiàn),VoxPoser產(chǎn)生了4個“涌現(xiàn)能力”:
- 評估物理特性,比如給定兩個質(zhì)量未知的方塊,讓機器人使用工具進行物理實驗,確定哪個塊更重;
- 行為常識推理,比如在擺餐具的任務(wù)中,告訴機器人“我是左撇子”,它就能通過上下文理解其含義;
- 細(xì)粒度校正,比如執(zhí)行“給茶壺蓋上蓋子”這種精度要求較高的任務(wù)時,我們可以向機器人發(fā)出“你偏離了1厘米”等精確指令來校正它的操作;
- 基于視覺的多步操作,比如叫機器人將抽屜精準(zhǔn)地打開成一半,由于沒有對象模型導(dǎo)致的信息不足可能讓機器人無法執(zhí)行這樣的任務(wù),但VoxPoser可以根據(jù)視覺反饋提出多步操作策略,即首先完全打開抽屜同時記錄手柄位移,然后將其推回至中點就可以滿足要求了
// 待更文章來源地址http://www.zghlxwxcb.cn/news/detail-785234.html
第二部分?Google的RT-2
// 待更
第三部分?
// 待更
第四部分??斯坦福機器人Mobile ALOHA:炒菜、家務(wù)全活了
4.1?Mobile ALOHA與其前身ALOHA
4.1.1?Mobile ALOHA:通過示范數(shù)據(jù)做行為克隆,更結(jié)合前身ALOHA的靜態(tài)數(shù)據(jù)做協(xié)同訓(xùn)練
在機器人技術(shù)領(lǐng)域,通過對人類示范進行模仿學(xué)習(xí)已經(jīng)取得了令人矚目的成績。然而,目前大多數(shù)研究結(jié)果都集中在桌面操作上,缺乏完成一般任務(wù)的移動性和靈活性
近日,斯坦福一研究團隊(Zipeng Fu、Tony Z. Zhao、Chelsea Finn)開發(fā)了一個系統(tǒng):Mobile ALOHA
- 項目地址(可總覽所有重要信息):https://mobile-aloha.github.io/
- 論文地址:Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
- 硬件代碼:hardware code之mobile-aloha
- 軟件代碼:learning code之a(chǎn)ct-plus-plus,本質(zhì)就是ACT(關(guān)于什么是ACT,詳見下節(jié))
- 數(shù)據(jù)地址:public_mobile_aloha_datasets
- 硬件安裝指南:Mobile ALOHA ?? Tutorial,該文檔中涵蓋了安裝前身ALOHA的指南鏈接(簡單粗暴理解的話,mobile aloha相當(dāng)于在其前身aloha的基礎(chǔ)上增加了移動底盤,即mobile aloha = aloha + mobile,至于前身ALOHA的更多信息詳見下節(jié))
由于其可以做各種家務(wù),比如炒菜、刷碗等等,使得其一經(jīng)發(fā)布便火爆全網(wǎng)
斯坦福家務(wù)機器人mobile-aloha
該系統(tǒng)用于模仿需要全身控制的雙臂移動操作任務(wù)(In this work, we develop a systemfor imitating mobile manipulation tasks that are bi-manual and require whole-body control)
- 首先提出了Mobile ALOHA系統(tǒng),作為低成本全身遠程操作系統(tǒng)來收集數(shù)據(jù)(通過一個移動底座和一個全身遠程操作界面增強了其前身ALOHA 系統(tǒng))
We first present Mobile ALOHA, a low-cost and whole-body teleoperation system for data collection. It augmentsthe ALOHA system [104] with a mobile base, and a whole-body teleoperation interface. -
之后利用Mobile ALOHA 收集的示范數(shù)據(jù)(說白了,人類先做示范,然后機器人向人類學(xué)習(xí)),進行有監(jiān)督的行為克隆(behavioral cloning),且和其前身ALOHA收集到的靜態(tài)(示范)數(shù)據(jù)進行協(xié)同訓(xùn)練co-training
Using data col-lected with Mobile ALOHA, we then perform super-vised behavior cloning and find that co-training with existing static ALOHA datasets boosts performance on mobile manipulation tasks. - 對于每個任務(wù),只要用新平臺采集的包含50條示范數(shù)據(jù),然后結(jié)合前身ALOHA的靜態(tài)示范數(shù)據(jù),經(jīng)過協(xié)同訓(xùn)練后成功率可達到90%,使得Mobile ALOHA能夠自主完成復(fù)雜的移動操作任務(wù),如炒蝦、打開雙門壁柜存放沉重的烹飪鍋、呼叫并進入電梯以及使用廚房水龍頭輕輕沖洗用過的平底鍋。
With 50 demonstra-tions for each task, co-training can increase successrates by up to 90%, allowing Mobile ALOHA to au-tonomously complete complex mobile manipulation tasks such as sauteing and serving a piece of shrimp,opening a two-door wall cabinet to store heavy cook-ing pots, calling and entering an elevator, and lightlyrinsing a used pan using a kitchen faucet.
4.1.2?Mobile ALOHA的前置工作:ALOHA與ACT
Mobile?ALOHA其實是在23年ALOHA的工作基礎(chǔ)上迭代優(yōu)化出來的,不是一蹴而就,以下是關(guān)于ALOHA的一系列重要信息
- ALOHA項目地址:https://tonyzhaozh.github.io/aloha/
- 論文地址:Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
這是其解讀,論文中首次系統(tǒng)闡述了作為“無論是最新系統(tǒng)Mobile ALOHA還是其前身系統(tǒng)ALOHA中的關(guān)鍵技術(shù)”:即動作分塊算法ACT - 代碼地址:https://github.com/tonyzhaozh/aloha
該代碼倉庫友情提醒:
To build ALOHA, follow the Hardware Assembly Tutorial and the quick start guide below.
To train imitation learning algorithms, you would also need to install ACT. - 硬件安裝指南:ALOHA ??? Tutorial?(文檔標(biāo)題為:ALOHA ???: A Low-cost Open-source Hardware for Bimanual Teleoperation)
- 基于動作分塊算法ACT的訓(xùn)練代碼:https://github.com/tonyzhaozh/act
- 關(guān)于ALOHA的更多信息,以及到底什么是ACT,請詳見此文:《斯坦福機器人Mobile ALOHA的關(guān)鍵技術(shù):動作分塊ACT的算法原理與代碼剖析》
4.2?Mobile ALOHA 硬件
4.2.1?Mobile ALOHA 硬件的總體情況
在此之前
- 能夠即插即用的全身遙控硬件是比較昂貴的,比如像PR2、TIAGo這樣的機器人價格一般超過20萬美刀
- 且之前的機器人也沒法完成復(fù)雜的需要雙手互相配合的各種靈活操作,畢竟人類的十指多么靈活
雖然最近的許多研究表明,在細(xì)粒度的多模態(tài)操作任務(wù)中,高表達能力的策略類方法(如擴散模型和Transformer)可以取得良好效果(While many recent works demon-strate that highly expressive policy classes such asdiffusion models and transformers can perform wellon fine-grained),但目前尚不清楚這些方法是否適用于移動操作:隨著附加自由度增加,手臂與基礎(chǔ)動作之間的相互作用可能變得復(fù)雜,微小偏差可能導(dǎo)致手臂末端執(zhí)行器姿態(tài)大幅漂移
而Mobile ALOHA 是一種低成本的移動機械手,可以執(zhí)行各種家庭任務(wù),其繼承了原始 ALOHA 系統(tǒng)的優(yōu)點,即低成本、靈巧、可維修的雙臂遠程操作裝置,同時將其功能擴展到桌面操作之外,且重點做到了以下4點
- 移動能力:移動速度與人類行走速度相當(dāng),約為1.42m/s
- 穩(wěn)定性:在操作重型家用物品(比如鍋和櫥柜)時它能保持穩(wěn)定
- 全身遙控操作:手臂和底盤可以同時運動
- 無線:具有機載電源和計算設(shè)備(數(shù)據(jù)收集和推斷期間的所有計算都是在配備了Nvidia 3070 Ti GPU (8GB VRAM)和Intel i7-12800H的消費級筆記本電腦上進行)
如上圖所示
- 上圖左側(cè)部分(Mobile ALOHA has two wrist cameras and one top camera, with onboard power and compute)
展示了研究者發(fā)現(xiàn)將操作員的腰部與移動底座系在一起的設(shè)計是最簡單直接的解決方案 - 上圖中間部分(Middle: The teleoperation setup can be removed and only two ViperX 300 [3] are used during autonomous execution. Both arms can reach a min/max height of 65cm/200cm, and extends 100cm from the base)中的數(shù)據(jù)表明
機械手相對于地面的垂直高度為 65 厘米至 200 厘米,可伸出底座 100 厘米,可舉起 1.5 千克重的物體,并可在 1.5 米高處施加 100 牛的拉力
這樣的設(shè)計讓 Mobile ALOHA 可以完成很多任務(wù),包括實物烹飪、家務(wù)管理、人機互動等 - 上圖右側(cè)部分中列出了 Mobile ALOHA 的更多技術(shù)規(guī)格
除了現(xiàn)成的機器人外,研究者還開源了所有的軟件和硬件部件,并提供了詳細(xì)的教程,包括三維打印、組裝和軟件安裝
4.2.2 硬件材料清單與硬件制作步驟
首先,準(zhǔn)備一系列硬件材料,比如
- 三個羅技C922x RGB的網(wǎng)絡(luò)攝像頭,分辨率為480 × 640,頻率為50Hz(兩個攝像頭安裝在跟隨者機器人的手腕上,第三個攝像頭面向前方)
- 筆記本電腦還通過USB串行端口接收來自所有4個手臂的本體感覺流,通過CAN總線接收來自移動的輪式底盤Tracer的本體感覺流
4.2.2.1 硬件材料清單Bill of Materials
Part |
Quantity |
Link |
Price? (per unit) |
Robots | |||
從動臂ViperX 300 Robot Arm 6DOF |
2 |
ViperX 300 Robot Arm 6DOF |
$5,695.95 |
主動臂WidowX 250 Robot Arm 6DOF |
2 |
WidowX 250 Robot Arm 6DOF - X-Series Robotic Arm |
$3,295.95 |
移動的輪式底盤Tracer AGV |
1 |
AgileX Tracer AGV |
$8,999.95 |
Onboard Compute | |||
Lambda Labs Tensorbook? |
1 |
Deep Learning Laptop - RTX 3080 Max-Q | Razer x Lambda Tensorbook |
$2,399.00 |
Robot Frame | |||
4040 800mm x 8 |
4 |
Amazon.com (2 pcs) |
$42.29 |
4040 500mm x 6 |
2 |
Amazon.com (4 pcs) |
$58.99 |
4040 400mm x 2 |
2 |
Amazon.com (1 pcs) |
$22.99 |
4040 300mm x 7 |
2 |
Amazon.com (4 pcs) |
$59.99 |
4040 L-shape connectors x 28 |
5 |
Amazon.com (6 pcs) |
$32.99 |
4040 T-shape connectors x 4 |
1 |
Amazon.com (6 pcs) |
$30.99 |
4040 45-degree corner connectors |
1 |
Amazon.com? |
$21.99 |
4040 Corner Bracket and T-Slot Sliding Nuts |
2 |
Amazon.com? |
$24.99 |
4040 caps |
2 |
Amazon.com? |
$9.81 |
M6 20mm (for mounting robot) |
1 |
Amazon.com? |
$9.99 |
M6 T nuts for 4040 (for mounting robot) |
2 |
Amazon.com? |
$14.16 |
Camera setup | |||
相機Logitech C922x Pro Stream Webcam |
4 |
Amazon.com |
$98.35 |
USB Hub |
2 |
Amazon.com |
$19.99 |
Power | |||
Battery Pack |
1 |
Amazon.com? |
$699.00 |
600W DC Supply |
1 |
Amazon.com? |
$59.00 |
12V DC Cable |
5 |
Amazon.com? |
$15.99 |
Fork Spade Connectors |
1 |
Amazon.com? |
$13.69 |
USB-A to Micro USB Cable |
4 |
Amazon.com? |
$17.87 |
Wheel Odometry | |||
DYNAMIXEL XL430-W250-T |
2 |
DYNAMIXEL XL430-W250-T - ROBOTIS? |
$49.90 |
U2D2 |
1 |
U2D2 - ROBOTIS? |
$32.10 |
U2D2 Power Hub Board Set |
1 |
U2D2 Power Hub Board Set - ROBOTIS? |
$19.00 |
Jumper Wire |
1 |
Amazon.com? |
$9.99 |
Weights |
1 |
Amazon.com: ACCRETION 1 Oz Grey Adhesive Backed Wheel Weights (24 Oz Pack) : Automotive? |
$14.65 |
Misc | |||
Rubber Band |
1 |
Amazon.com |
$9.99 |
Gripping Tape |
1 |
Amazon.com? |
$54.14 |
Common equipments | |||
Allen keys |
|||
Hot glue gun |
|||
Total |
$31,757.8 |
4.2.2.2?3D Printed Parts
對于人遙控端和機器操作端方面的執(zhí)行器,請按照ALOHA的教程進行操作:ALOHA ??? Tutorial。關(guān)于wheel odometry,以下是所需零件的清單(共6件):
4.2.2.3 硬件安裝指南Hardware Guide
硬件材料準(zhǔn)備齊全后,按以下步驟一步步執(zhí)行
- Install ALOHA end-effectors
通過6個步驟打造ALOHA:ALOHA ??? Tutorial,單純打造這個還不具備移動功能的ALOHA便得花費3萬刀中的1.9萬刀 - Build the robot frame
- Mount the robots and the cameras
- Cable connections
4.3 增加靜態(tài)ALOHA 數(shù)據(jù)進行Co-training
4.3.1?靜態(tài)ALOHA 數(shù)據(jù)的組成情況
對于機器人的訓(xùn)練,數(shù)據(jù)是一個很大的問題
- 使用模仿學(xué)習(xí)(imitation learning)來解決現(xiàn)實世界機器人任務(wù)的典型方法依賴于在特定機器人硬件平臺上收集的目標(biāo)任務(wù)數(shù)據(jù)集。然而,這種方法雖夠但數(shù)據(jù)本身收集的過程過于冗長,因為在特定機器人硬件平臺上,人類操作員需要從頭開始為每個任務(wù)收集演示數(shù)據(jù)
The typical approach for using imitation learning to solve real-world robotics tasks relies on using thedatasets that are collected on a specific robot hard-ware platform for a targeted task. This straightfor-ward approach, however, suffers from lengthy datacollection processes where human operators collect demonstration data from scratch for every task onthe a specific robot hardware platform.
且由于這些專門數(shù)據(jù)集中視覺差異有限,在這些數(shù)據(jù)集上訓(xùn)練得到的策略通常對感知干擾(如干擾和照明變化)不夠魯棒
The policie strained on these specialized datasets are often not ro-bust to the perceptual perturbations (e.g. distractorsand lighting changes) due to the limited visual diver-sity in these datasets [95] - 好在最近,在從不同但類似類型的機器人收集的各種真實數(shù)據(jù)集上進行co-training,在單臂操作和導(dǎo)航方面已經(jīng)顯示出了有希望的結(jié)果
Recently, co-training ondiverse real-world datasets collected from different but similar types of robots have shown promising results on single-arm manipulation [11, 20, 31, 61],and on navigation [79].
斯坦福的研究者在這項工作中便使用的Co-training,且利用現(xiàn)有的靜態(tài)ALOHA 數(shù)據(jù)集來提高移動操作的模仿學(xué)習(xí)性能,尤其是雙臂動作
- 不含移動底盤的前身ALOHA收集到的靜態(tài)數(shù)據(jù)集總共有 825 個示范動作,任務(wù)包括密封密封袋、拿起叉子、包裝糖果、撕紙巾、打開帶蓋塑料瓶、玩乒乓球、分發(fā)膠帶、使用咖啡機、交接鉛筆和操作螺絲刀等
需要注意的是,靜態(tài)ALOHA 數(shù)據(jù)都是在黑色桌面上收集的,主動臂和從動臂都是固定在桌面上朝著對方(更多詳見此文《斯坦福Mobile ALOHA背后的關(guān)鍵技術(shù):動作分塊算法ACT的原理解析》)
這種設(shè)置與移動 ALOHA 不同,移動 ALOHA 的背景會隨著移動底盤的變化而變化,主動臂和從動臂的兩臂均平行朝著前方 - 在Co-training中,研究者沒有對靜態(tài)ALOHA 數(shù)據(jù)中的 RGB 觀察結(jié)果或雙臂動作使用任何特殊的數(shù)據(jù)處理技術(shù)
4.3.2 基于兩套數(shù)據(jù)(靜態(tài)ALOHA示范數(shù)據(jù)和移動ALOHA示范數(shù)據(jù))訓(xùn)練損失函數(shù)
任務(wù)的移動操作策略的訓(xùn)練目標(biāo)是最小化模擬損失函數(shù)
其中表示觀察結(jié)果,包括兩個手腕攝像頭RGB(two wrist camera RGB observations)的、一個安裝在手臂和手臂關(guān)節(jié)之間、以自我為中心的頂部攝像頭RGB觀察(top camera RGB observation mounted,其固定不動),和14維的從臂關(guān)節(jié)位置,如下圖左上角所示
我們以相同概率從靜態(tài)ALOHA數(shù)據(jù)和移動ALOHA數(shù)據(jù)中進行抽樣(兩者占比其實影響不大,比如如果占比30%或50%,則成功率都最終能達到95%,當(dāng)然 如果占比70%,則成功率最終能達到90%),并將批量大小設(shè)置為16
- 由于靜態(tài)ALOHA數(shù)據(jù)沒有移動基本動作,我們對動作標(biāo)簽進行零填充處理(zero-padding),使得來自兩個數(shù)據(jù)集的動作具有相同維度,我們還忽略了靜態(tài)ALOHA數(shù)據(jù)中的前置攝像頭(front camera),因此兩個數(shù)據(jù)集都有3個攝像頭:2個wrist camera、1個top camera
Since static ALOHA datapoints have no mobile base actions, we zero-pad the action labels so actions from both datasets have the same dimension.We also ignore the front camera in the static ALOHA data so that both datasets have 3 cameras.
怎么定位這個前置攝像頭(front camera)呢,好在ALOHA的論文原文中標(biāo)記了具體哪個是前置攝像頭,詳見此文《斯坦福Mobile ALOHA背后的關(guān)鍵技術(shù):動作分塊算法ACT的原理解析》的1.2節(jié)) - 同時,我們僅根據(jù)移動ALOHA數(shù)據(jù)集的統(tǒng)計信息對每個動作進行標(biāo)準(zhǔn)化處理
We normalize every action based on the statistics of the Mobile ALOHA dataset Dm mobile alone - 在實驗中,我們將這種協(xié)同訓(xùn)練方法與多種基本模仿學(xué)習(xí)方法(如ACT [Learning fine-grained bimanual manipulation with low-cost hardware]、擴散策略[Diffusion policy: Visuomotor policy learning via action diffusion]和VINN [The surprising effectiveness of representation learning for visual imitation])結(jié)合使用
In our experiments, we combine this co-training recipe with multiple base imitation learning approaches, including ACT [104], Diffusion Policy [18], and VINN [63]
再次提醒,關(guān)于ACT的技術(shù)細(xì)節(jié)包括其代碼實現(xiàn),詳見此文《斯坦福Mobile ALOHA背后的關(guān)鍵技術(shù):動作分塊算法ACT的原理解析》,講得非常細(xì)致
最終該團隊選擇了 7 個任務(wù),它們涵蓋了現(xiàn)實應(yīng)用中可能出現(xiàn)的各種功能、對象和交互,分別是擦拭葡萄酒、煮蝦、沖洗鍋、使用櫥柜、呼叫電梯、推椅子和擊掌
下圖則是機器人在執(zhí)行任務(wù)時的導(dǎo)航移動軌跡
4.4 實驗:協(xié)同訓(xùn)練是否有效提升ACT性能,且適合兼容多種模仿學(xué)習(xí)方法
在實驗中回答兩個核心問題:
- 移動ALOHA是否能夠通過協(xié)同訓(xùn)練co-training和少量移動操作數(shù)據(jù)來獲得復(fù)雜的移動操作技能?
Can Mobile ALOHA acquire complex mobile manipulation skills with co-training and a small amount of mobile manipulation data? - 移動ALOHA是否能夠與不同類型的模仿學(xué)習(xí)方法一起工作,包括ACT、擴散策略和基于檢索的VINN?
Can Mobile ALOHA work with different types of imita-tion learning methods, including ACT [104], Diffu-sion Policy [18], and retrieval-based VINN [63]?
作為初步研究,我們將使用“動作分塊”[action chunking]這種方法,在該方法中一個策略預(yù)測未來一系列動作,而不是每個時間步只預(yù)測一個動作。這種方法已經(jīng)被應(yīng)用于ACT和擴散策略,并且可以簡單地添加到VINN中(As a preliminary, all methods we will examine em-ploy “action chunking” [104], where a policy predictsa sequence of future actions instead of one action ateach time step)
- 采用動作分塊對于操作至關(guān)重要,它提高了生成軌跡的一致性,并減少了逐步策略推斷所帶來的延遲
We found action chunking to be crucial formanipulation, improving the coherence of generated trajectory and reducing the latency from per-steppolicy inference. - 我們觀察到移動基座目標(biāo)速度與實際速度之間存在延遲,而位置控制手臂則具有更小的延遲。為了解釋移動基座d步驟上出現(xiàn)的延遲情況,我們使機器人執(zhí)行長度為k-d 的第一個k-d 手臂行為以及最后一個k-d 基座行為
We observe a delay between target and actual veloc-ities of our mobile base, while the delay for position-controlled arms is much smaller. To account for adelay of d steps of the mobile base, our robot exe-cutes the first k ?d arm actions and last k ?d baseactions of an action chunk of length k.
4.4.1?協(xié)同訓(xùn)練提高了性能且比預(yù)訓(xùn)練效果更好
研究發(fā)現(xiàn),Co-training可以提高ACT性能。在7項具有挑戰(zhàn)性的移動操作任務(wù)中,與靜態(tài)ALOHA數(shù)據(jù)集進行Co-training可持續(xù)提高ACT的成功率
- 比如協(xié)同訓(xùn)練在擦拭酒的任務(wù)中的表現(xiàn),成功率95%,大大優(yōu)于預(yù)訓(xùn)練的成功率40%
在預(yù)訓(xùn)練過程中,作者首先用static ALOHA的數(shù)據(jù)訓(xùn)練了10k步,然后用mobile ALOHA的數(shù)據(jù)繼續(xù)訓(xùn)練
作者發(fā)現(xiàn)預(yù)訓(xùn)練的方式并沒有提高模型的表現(xiàn),猜測模型可能在使用mobile ALOHA數(shù)據(jù)進行微調(diào)的階段已經(jīng)忘記了在static ALOHA上學(xué)到的知識 - 那為何協(xié)同訓(xùn)練可以提高效果呢?作者認(rèn)為,static ALOHA數(shù)據(jù)中關(guān)于抓取和接近物體的運動先驗知識對訓(xùn)練mobile ALOHA的模型有很大幫助,尤其是其中腕部視角是具有不變性的,對場景的變換有較強的抗干擾能力
4.4.2?兼容ACT、擴散策略和VINN
除了ACT,還使用Mobile ALOHA訓(xùn)練了兩種最新的模仿學(xué)習(xí)方法,即擴散策略[18]和VINN[63](We train two recent imitation learning methods,Diffusion Policy [18] and VINN [63], with Mobile ALOHA in addition to ACT.)
- 擴散策略通過逐步細(xì)化動作預(yù)測來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。為提高推理速度,采用DDIM調(diào)度器并對圖像觀測應(yīng)用數(shù)據(jù)增強以防止過擬合。co-training數(shù)據(jù)管道與ACT相同,在附錄A中有更多的訓(xùn)練細(xì)節(jié)可供參考
Diffusion policy trains aneural network to gradually refine the action predic-tion. We use the DDIM scheduler [85] to improve in-ference speed, and apply data augmentation to image observations to prevent overfitting. The co-training data pipeline is the same as ACT, and we includemore training details in the Appendix A.3. - VINN利用BYOL[Bootstrap your own latenta new approach to self-supervised learning]訓(xùn)練一個視覺表示模型(簡單地用移動和靜態(tài)數(shù)據(jù)的組合對BYOL編碼器進行co-training),并使用該模型從具有最近鄰演示數(shù)據(jù)集中檢索動作。且采用本體感知特征增強VINN檢索,并調(diào)整相對權(quán)重以平衡視覺和本體感知特征的重要性
VINN trains a visual representation model, BYOL [37] anduses it to retrieve actions from the demonstrationdataset with nearest neighbors. We augment VINNretrieval with proprioception features and tune therelative weight to balance visual and proprioceptionfeature importance
此外,進行了動作塊的檢索而非單個動作,并發(fā)現(xiàn)類似于Zhao等人的顯著性能改進
We also retrieve an action chunkinstead of a single action and find significant per-formance improvement similar to Zhao et al.. For
總之,帶分塊的VINN、擴散策略和ACT在Mobile ALOHA上都取得了良好的性能,并且受益于與靜態(tài)ALOHA的協(xié)同訓(xùn)練Co-training
當(dāng)然,在協(xié)同訓(xùn)練Co-training的過程中
- ACT的表現(xiàn)最好
- diffusion policy略差
雖然它的模型表達能力比較強,但作者認(rèn)為,50條的示教數(shù)據(jù)量可能不夠 - VINN最差
比如對于VINN+擦紅酒任務(wù),Co-training的表現(xiàn)比起單獨訓(xùn)練反而變差了,作者認(rèn)為,這是由于VINN算法本身沒有辦法利用測試(應(yīng)用)場景分布之外的數(shù)據(jù)(一種在測試時尋找訓(xùn)練集中nearest neighbour的方法),static ALOHA的數(shù)據(jù)對于VINN來講就可能沒那么有效
最終,僅用32000美元的預(yù)算,通過靜態(tài)ALOHA數(shù)據(jù)Co-training的模仿學(xué)習(xí),Mobile ALOHA只需要20-50個演示就能學(xué)會各種復(fù)雜的任務(wù)
斯坦福Mobile ALOHA向所有人展示了機器人在各種應(yīng)用場景的潛力,甚至機器人開源實現(xiàn)了人人可復(fù)刻文章來源:http://www.zghlxwxcb.cn/news/detail-785234.html
第五部分 Google家務(wù)機器人
// 待更
參考文獻與推薦閱讀
-
李飛飛「具身智能」新成果!機器人接入大模型直接聽懂人話,0預(yù)訓(xùn)練就能完成復(fù)雜指令
VoxPoser論文一作在Twitter上發(fā)的關(guān)于VoxPoser的視頻:https://twitter.com/wenlong_huang/status/1677375515811016704 - 谷歌AGI機器人大招!54人天團憋7個月,強泛化強推理,DeepMind和谷歌大腦合并后新成果
- ??????斯坦福炒蝦機器人爆火全網(wǎng)!華人團隊成本22萬元,能做滿漢全席還會洗碗,新智元發(fā)的新聞稿
- 斯坦福開源的機器人廚子,今天又接手了所有家務(wù),機器之心發(fā)的新聞稿
- 關(guān)于Google家務(wù)機器人的報道
谷歌DeepMind機器人成果三連發(fā)!兩大能力全提升,數(shù)據(jù)收集系統(tǒng)可同時管理20個機器人,量子位
谷歌家務(wù)機器人單挑斯坦福炒蝦機器人!端茶倒水逗貓,連甩三連彈開打,新智元
大模型正在重構(gòu)機器人,谷歌Deepmind這樣定義具身智能的未來,機器之心 - ALOHA續(xù)作:Mobile ALOHA閱讀筆記
- ..
到了這里,關(guān)于大模型機器人發(fā)展史:從VoxPoser、RT2到斯坦福Mobile ALOHA、Google機器人的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!