嚴(yán)格地說(shuō),是“拾取與放置任務(wù)”版本的ChatGPT來(lái)了。除了自然語(yǔ)言交流,還能像Sora一樣生成視頻。
有了機(jī)器人基礎(chǔ)模型RFM-1,使用簡(jiǎn)單英語(yǔ)就能指導(dǎo)機(jī)器人完成揀選工作。
機(jī)器人 AI 公司 Covariant CEO Peter Chen ?坐在一個(gè)聊天機(jī)器人面前,界面和 ChatGPT 的很像。
“給我看看你面前的運(yùn)送箱,” 他輸入一段文本。然后出現(xiàn)了一段視頻,一個(gè)機(jī)械臂懸在一個(gè)裝有各種物品的運(yùn)輸箱上——里面有一雙襪子、一管薯?xiàng)l和一個(gè)蘋果。
聊天機(jī)器人可以和你討論它看到的物品,也可以操縱它們。接著,Chen 要求它去抓一個(gè)水果,只見(jiàn)機(jī)械臂伸向蘋果,輕輕抓住蘋果后將它移到附近的另一個(gè)箱子里。
這個(gè)聊天機(jī)器人是該公司邁向“機(jī)器人 ChatGPT ”的重要一步。人們希望 AI 最終能夠解決長(zhǎng)期以來(lái)的編程難,并讓它們做更多的事情?!霸谶@一點(diǎn)上,說(shuō)基礎(chǔ)模型是機(jī)器人技術(shù)的未來(lái)是沒(méi)有爭(zhēng)議的?!?Chen 說(shuō)。
今天,Covariant 正式宣布推出機(jī)器人領(lǐng)域的通用基礎(chǔ)模型 RFM-1。因?yàn)檎狭苏Z(yǔ)言數(shù)據(jù),Chen 用簡(jiǎn)單英語(yǔ)就能指導(dǎo)機(jī)器人完成揀選工作。
更為重要的,“基礎(chǔ)模型”意味著 RFM-1 可以接受更多數(shù)據(jù)的訓(xùn)練來(lái)完成更多的事情——目前都是關(guān)于倉(cāng)庫(kù)操作的任務(wù),因?yàn)檫@就是它所接受的訓(xùn)練,但它的功能可以通過(guò)向其提供更多數(shù)據(jù)加以擴(kuò)展。
“對(duì)于完成各種拾取和放置任務(wù)來(lái)說(shuō),現(xiàn)有的系統(tǒng)已經(jīng)足夠快速和靈活。” Covariant 聯(lián)合創(chuàng)始人、機(jī)器人學(xué)習(xí)先驅(qū) ?Pieter Abbeel 說(shuō),像 RFM-1 這樣的模型可以讓機(jī)器人更流暢轉(zhuǎn)向新任務(wù),走得更遠(yuǎn)。所謂遠(yuǎn),既包括完成任何任務(wù),也包括接入任何具身(不排除人形機(jī)器人),為全球數(shù)十億機(jī)器人提供動(dòng)力。
野心不小的 Covariant 成立于 2017 年,由加州大學(xué)伯克利分校電氣工程和計(jì)算機(jī)科學(xué)教授 Pieter Abbeel 和他的三位華人博士生 Peter Chen、Rocky Duan 以及 Tianhao Zhang 創(chuàng)立。
Abbeel 在 2016 年成為 OpenAI 早期員工,就在 Chen 加入該公司一個(gè)月后。Rocky Duan 也曾擔(dān)任 OpenAI 的研究科學(xué)家。后來(lái)他們離開(kāi) OpenAI,希望將 AI 從比特世界落地到真實(shí)世界,打造像人類一樣通過(guò)推理來(lái)適應(yīng)現(xiàn)實(shí)場(chǎng)景的機(jī)器人產(chǎn)品。
兩位聯(lián)合創(chuàng)始人,總裁兼首席科學(xué)家Pieter Abbeel(左)和 CEO Peter Chen(右)
四位創(chuàng)始人,從右到左:Pieter Abbeel (總裁兼首席科學(xué)家)、 Peter Chen(CEO)、Rocky Duan (CTO)以及 Tianhao Zhang
Covariant 核心技術(shù)是被稱為“ Covariant Brain ”的機(jī)器人大腦(軟件),主要部署在工業(yè)機(jī)械臂上。最初他們專注于揀選用例是因?yàn)榭梢詣?chuàng)造真實(shí)價(jià)值——客戶愿意掏腰包支付軟件費(fèi)用。不過(guò),對(duì)于 Covariant 來(lái)說(shuō),最令人興奮的部分是過(guò)去四年積累的大量現(xiàn)實(shí)世界的數(shù)據(jù)。
“完成我們正在做的事情的唯一方法是讓機(jī)器人部署到世界各地真實(shí)客戶現(xiàn)場(chǎng),收集大量數(shù)據(jù),”Abbeel 說(shuō)。“這使我們能夠訓(xùn)練一個(gè)具有獨(dú)特能力的機(jī)器人基礎(chǔ)模型?!?/p>
與 ChatGPT、谷歌 Gemini 和其他聊天機(jī)器人一樣,機(jī)器人大軍收集的來(lái)自真實(shí)世界的數(shù)千萬(wàn)條高質(zhì)量多模態(tài)機(jī)器人數(shù)據(jù)(包括靜態(tài)數(shù)據(jù)、動(dòng)態(tài)視頻、關(guān)節(jié)角度、力讀數(shù)、吸盤強(qiáng)度等機(jī)器人操作中涉及關(guān)鍵數(shù)據(jù)),訓(xùn)練出 80 億參數(shù)規(guī)模的 RFM-1 ,可以幫助機(jī)器人更像人類一樣思考。
在真實(shí)世界中接觸到各種拾取和放置物體對(duì)象,比如易變形、被高度遮擋、材質(zhì)各異、不規(guī)則外形等,建立對(duì)真實(shí)物理世界的理解。
在不斷變化的倉(cāng)庫(kù)環(huán)境中 24/7 全天候運(yùn)行,系統(tǒng)也可以發(fā)現(xiàn)實(shí)驗(yàn)室的環(huán)境中難以遇到的長(zhǎng)尾邊緣案例。
我們可以將 RFM-1 視為一個(gè)視頻生成器(就像 Sora )。輸入拾取某些物體的命令,系統(tǒng)會(huì)使用其訓(xùn)練數(shù)據(jù)(形狀、顏色、大小等)來(lái)識(shí)別面前與該描述最匹配的物體。然后生成視頻,預(yù)測(cè)自己試圖拿起這個(gè)物體時(shí)可能發(fā)生什么,并確定最佳行動(dòng)方案。
下面是一個(gè)類似圖生視頻功能。輸入初始圖像(類似圖片提示),RFM-1 即可生成相應(yīng)的動(dòng)態(tài)視頻。本質(zhì)上是一種模擬,以過(guò)去所有訓(xùn)練數(shù)據(jù)為基礎(chǔ)。
上面兩張圖都是作為輸入的初始圖片,對(duì)應(yīng)的下方動(dòng)態(tài)內(nèi)容是模型的輸出,預(yù)測(cè)自己執(zhí)行這一任務(wù)會(huì)是什么樣子。
再比如,如果你想知道把一個(gè)圓柱體的物品放到傳送帶上會(huì)發(fā)生什么?也可以讓 RFM-1 生成視頻,它能準(zhǔn)確顯示圓柱體翻轉(zhuǎn)和滾動(dòng)的樣子(比 Sora 還精準(zhǔn)),因?yàn)樵诖酥八呀?jīng)看過(guò)很多東西被放置在不同傳送帶上后的狀態(tài)。這些視頻在倉(cāng)庫(kù)業(yè)務(wù)中可能沒(méi)有實(shí)際用途,但它生動(dòng)顯示出機(jī)器人對(duì)周圍世界的理解。
無(wú)論是輸入的是文本、語(yǔ)音、圖片還是視頻等,RFM-1 都會(huì)生成相應(yīng)的文本、圖片、視頻甚至操作命令。
除了生成視頻的能力,現(xiàn)在任何人都可以在幾分鐘內(nèi)通過(guò)自然語(yǔ)言指導(dǎo)機(jī)器人執(zhí)行特定操作。操作員用簡(jiǎn)單的英語(yǔ)指示機(jī)器人拾取某些物體。
在遇到問(wèn)題時(shí),RFM-1 甚至賦予機(jī)器人求助的本領(lǐng)。它們會(huì)將遭遇的困難直接告訴操作人員,并根據(jù)新建議嘗試完成任務(wù)。
值得注意的是,雖然 RFM-1 最大亮點(diǎn)就是泛化能力,但泛化能力有限——“......它目前不能泛化到完全新的對(duì)象或情況?!??Abbeel 表示。換句話說(shuō),如果你希望機(jī)器人拿起一顆螺絲并把它擰進(jìn)去,或者剝一塊生姜,這并不是一個(gè)真正有關(guān)拾取和放置問(wèn)題,RFM-1 暫時(shí)無(wú)能為力。
目前, RFM-1 也主要銷售給只做某些倉(cāng)庫(kù)任務(wù)的公司。另外,就像 ChatGPT 也會(huì)有幻覺(jué)并出錯(cuò),RFM-1 也有不理解要求并掉落東西的時(shí)候。錯(cuò)誤的風(fēng)險(xiǎn)與成本取決于場(chǎng)景,制造等領(lǐng)域的容錯(cuò)率非常低。
不過(guò),Abbeel 相信,只要有足夠的數(shù)據(jù),有用的世界模擬將是可能的?!皬默F(xiàn)在起的 5 年里,我們建造的將是唯一一種任何人都會(huì)使用的模擬器。”這是一個(gè)更強(qiáng)大的模擬器,一個(gè)從建造之初就帶有碰撞檢測(cè)等元素的模擬器。
所有這些東西都很難以任何方式構(gòu)建到你的物理引擎中,更不用說(shuō)讓事物看起來(lái)像真實(shí)世界中的渲染器——“在某種意義上,我們正在走捷徑。” 為了擴(kuò)展 RFM-1 的能力,以實(shí)現(xiàn)為“全球數(shù)十億機(jī)器人”提供動(dòng)力的基礎(chǔ)模型的長(zhǎng)期愿景,下一步是向它提供更多數(shù)據(jù)。
“我們基本上已經(jīng)構(gòu)建了一個(gè)數(shù)據(jù)收集引擎,”Abbeel 說(shuō)?!叭绻阍敢庀蛭覀兲峁┎煌愋偷臄?shù)據(jù),我們也會(huì)收集這些數(shù)據(jù)。” 但是,這也會(huì)導(dǎo)致另一個(gè)局限性 —— 商業(yè)可行性。1X AI 副總裁 Eric Jang 提到過(guò)目前三種擴(kuò)張機(jī)器人部署規(guī)模的路子。
除了耳熟能詳?shù)膫鹘y(tǒng)編程方法,一種是以特斯拉、1X、Figure.ai 這些人形機(jī)器人為代表的全棧路線(既做本體硬件也研發(fā)通用系統(tǒng)軟件),另一種就是 Covariant 這種純軟的方式——建立一個(gè)“全能的大腦”控制機(jī)器人,每臺(tái)機(jī)器人的硬件供應(yīng)商都會(huì)來(lái)找你,要求接入“全能大腦”的 API 。
如果你能建立一個(gè)別人無(wú)法建立的模型,就能獲得豐厚的軟件利潤(rùn),每個(gè)人都給你他們的數(shù)據(jù)。GPT-4 可能是最好的例子。但是,這種方法的缺點(diǎn)是涉及大量數(shù)據(jù),你的硬件合作伙伴可能不想給你數(shù)據(jù),他們的客戶也不想給你數(shù)據(jù)。
RFM-1 目前尚未部署在人形機(jī)器人上,雖然它可以學(xué)習(xí)控制訓(xùn)練數(shù)據(jù)中沒(méi)有的類似硬件(甚至人形機(jī)器人?),但一家人形機(jī)器人公司又會(huì)基于什么樣的動(dòng)機(jī)愿意將數(shù)據(jù)共享給你呢?
對(duì)此,Chen 表示,“我們的宗旨是幫助他們走進(jìn)現(xiàn)實(shí)世界?!薄拔艺J(rèn)為,真的沒(méi)有多少公司擁有 AI,可以讓他們的機(jī)器人在生產(chǎn)環(huán)境中真正自主。如果他們想要強(qiáng)大、能夠幫助他們進(jìn)入現(xiàn)實(shí)世界的 AI,我們確實(shí)是他們的最佳選擇。”文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-844427.html
也就是說(shuō),雖然每個(gè)機(jī)器人公司都可以單獨(dú)訓(xùn)練自己的模型,但對(duì)于任何試圖實(shí)現(xiàn)與現(xiàn)實(shí)交互操作的模型來(lái)說(shuō),其性能可能遠(yuǎn)不如使用 RFM-1 。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-844427.html
到了這里,關(guān)于機(jī)器人ChatGPT來(lái)了,80億參數(shù)、前OpenAI人員經(jīng)數(shù)年打造的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!