2023年12月19日,深圳市美團(tuán)機(jī)器人研究院學(xué)術(shù)年會(huì)在清華大學(xué)深圳國際研究生院成功舉辦。會(huì)議回顧了研究院成立一年來的進(jìn)展和成果,并邀請了各界專家共同討論機(jī)器人技術(shù)的未來發(fā)展趨勢。
從左至右依次為:張鵬、王田苗、張宏、張建偉、汪玉、許華哲
在圓桌論壇環(huán)節(jié),極客公園創(chuàng)始人兼總裁張鵬擔(dān)任主持,他與北航機(jī)器人研究所名譽(yù)所長、中關(guān)村智友研究院院長王田苗,加拿大工程院院士、南方科技大學(xué)講席教授張宏,中國工程院外籍院士、德國國家工程院院士張建偉,清華大學(xué)電子工程系教授、系主任汪玉,清華大學(xué)交叉信息研究院助理教授、清華大學(xué)具身智能實(shí)驗(yàn)室負(fù)責(zé)人許華哲5位行業(yè)專家學(xué)者,圍繞機(jī)器人的技術(shù)發(fā)展、應(yīng)用場景、產(chǎn)業(yè)前景3個(gè)方向展開了深度的討論。
核心觀點(diǎn)集錦
王田苗
|「具身智能」可以比喻為一個(gè)孩子,只是它的成長速度超乎想象。通過人機(jī)交互,我們可以幫助它將宏觀的任務(wù)分解為一系列思維鏈路和子任務(wù),并利用自動(dòng)編程并且通過實(shí)時(shí)在線感知,局部自主地來完成任務(wù)。在這個(gè)過程中,「具身智能」將逐漸學(xué)習(xí)和成長,變得越來越聰明。
|?在一些復(fù)雜的實(shí)踐環(huán)境中,「具身智能」可以通過利用感知、視覺、觸覺等功能來校準(zhǔn)原有行為動(dòng)作或控制模型的誤差,從而適應(yīng)環(huán)境的變化。
|?每個(gè)人來到這個(gè)世界都有TA自己的使命,有些人沒有找到,只是環(huán)境還沒有喚醒TA。
|?同學(xué)們在學(xué)完基本的方法和理論知識后,面臨一個(gè)更重要的課題:你是否真正想要改變世界。如果懷揣這樣的愿望,自驅(qū)力、冒險(xiǎn)精神、與人交流的智慧都會(huì)隨之增強(qiáng),這些品質(zhì)對個(gè)人成長具有不可估量的價(jià)值。
張宏
|?我做了一輩子機(jī)器人,深知其困難。從一定意義上講,四十年前的機(jī)器人和前幾年的機(jī)器人并無質(zhì)的區(qū)別,說明這件事情真的很難。
|?大模型或者說大數(shù)據(jù)都是一個(gè)很好的切入點(diǎn),在我們擁有了大模型之后,實(shí)際上等同于把機(jī)器人推到一個(gè)很高的位置,可以讓它在一個(gè)更高的基礎(chǔ)上進(jìn)行發(fā)展。
|?商業(yè)成功很大程度上取決于市場,如果能夠在一個(gè)成熟的市場上引入新技術(shù),那么就容易占據(jù)一定的優(yōu)勢地位。
|?研究人員的任務(wù)是「頂天」,做產(chǎn)業(yè)的任務(wù)是「立地」,這就是「頂天立地」??蒲泄ぷ?,更多的是追求突破、創(chuàng)新,而做產(chǎn)業(yè)則是追求穩(wěn)定、可靠,能夠產(chǎn)生商業(yè)價(jià)值。如果讓產(chǎn)學(xué)研同時(shí)成功的話,我們就需要進(jìn)行科研合作,讓產(chǎn)業(yè)界有效地能利用高校產(chǎn)出的這些研究結(jié)果去落地到他們的產(chǎn)品當(dāng)中。
張建偉
|?人工智能指數(shù)式增長,為機(jī)器人發(fā)展提供了強(qiáng)大的動(dòng)力,也使「具身智能」成為未來發(fā)展的一個(gè)主題。
|?從長期來講,如果我們能夠把全模態(tài)的數(shù)據(jù)收集起來,不僅僅是視覺、聽覺,還包括觸覺等等,當(dāng)機(jī)器人能夠像人一樣收集全部的信息,然后我們將運(yùn)動(dòng)skill也做出對應(yīng)的模型,未來的想象空間還會(huì)更大。
|?美團(tuán)、谷歌等大公司的優(yōu)勢在于豐富的數(shù)據(jù)應(yīng)用場景;而大學(xué)的優(yōu)勢在于不斷推出新的理論、結(jié)構(gòu)、算法,同時(shí)了解全世界技術(shù)進(jìn)展。所以大學(xué)應(yīng)該多與大公司密切合作,不斷發(fā)現(xiàn)新機(jī)會(huì)。
|?在應(yīng)用層面,協(xié)作機(jī)器人和物流配送機(jī)器人都有非常大的推進(jìn),使我們在機(jī)器人系統(tǒng)的應(yīng)用、迭代方面,取得了非常大的進(jìn)展,進(jìn)一步給機(jī)器人系統(tǒng)應(yīng)用、數(shù)據(jù)收集提供了非常好的機(jī)會(huì)。在機(jī)器人的元器件發(fā)展方面,國內(nèi)進(jìn)展也非??臁1热缑缊F(tuán)投資的3D點(diǎn)云相機(jī)已經(jīng)越做越小,相信未來可在無人機(jī)上應(yīng)用。還有激光雷達(dá)、電機(jī)減速器等,這一年進(jìn)步都非常大。
汪玉
|??在人口老齡化的背景下,智能機(jī)器人的應(yīng)用是社會(huì)進(jìn)一步發(fā)展的重要途徑。
|??不論機(jī)器人使用什么操作系統(tǒng),底層也是硬件,而硬件傳感器有無數(shù)種,所以需要有一個(gè)類似大腦的東西,來統(tǒng)一控制這些傳感器。這個(gè)「大腦」最終的形態(tài)尚未確定;當(dāng)「大腦」形態(tài)沒有統(tǒng)一,成本是降不下去的。
|?人工智能提供了一種可能性,使機(jī)器人平臺(tái)底層算法中絕大多數(shù)的計(jì)算方式變得更統(tǒng)一,或者說「更矩陣」。過去用到矩陣求逆這種復(fù)雜的操作,但現(xiàn)在可能都是矩陣乘向量、矩陣乘矩陣。在感知大模型、決策大模型中都是如此;在控制過程中,也可以使用強(qiáng)化學(xué)習(xí)等模型。
許華哲
|?「具身智能」更多是「智能體」基于它對世界的理解,將自身的技能進(jìn)行泛化,形態(tài)只是它的一個(gè)載體。
|?「具身智能」之所以跟傳統(tǒng)的機(jī)器人不一樣,是因?yàn)樗姆夯芰Γ@個(gè)泛化是通過學(xué)習(xí)算法在仿真系統(tǒng)中去習(xí)得的,然后可以用在各種各樣的地方。
|??早期的「具身智能」不一定好用,它怎么能夠用到未來的數(shù)據(jù)讓自己能持續(xù)變強(qiáng),是用強(qiáng)化學(xué)習(xí),還是用Transformer?就像大模型一樣,如何讓它變得強(qiáng),是值得研究的點(diǎn)。
以下為圓桌對話的內(nèi)容整理:
張鵬:大家好,我是極客公園的張鵬,今天非常榮幸,能夠跟這么多在科研領(lǐng)域不斷探索的老師們一起聊機(jī)器人領(lǐng)域的發(fā)展。這一年我相信很多人都關(guān)注到了大模型技術(shù)帶來的AGI領(lǐng)域的新變化,同時(shí)它也對很多行業(yè)產(chǎn)生了比較重大的影響,比如在機(jī)器人領(lǐng)域,「AI+機(jī)器人」給我們帶來了很多新的想象。不管是在去年我們看到的特斯拉機(jī)器人原型機(jī),還是在今年谷歌發(fā)布的大模型新論文,都讓我們對未來有了更多的期待。
今天也是希望借助這樣一個(gè)機(jī)會(huì),跟多位業(yè)界專家一起探討下機(jī)器人領(lǐng)域未來的發(fā)展趨勢,以及未來在科研合作層面,學(xué)術(shù)界和產(chǎn)業(yè)界各自面臨著哪些挑戰(zhàn)。首先,我想先請各位幫我們?nèi)c(diǎn)一下,在剛剛過去的這一年里,機(jī)器人領(lǐng)域有哪些讓各位印象深刻的、值得圈點(diǎn)的事件?
王田苗:我個(gè)人覺得有三件比較重要的事件,讓「具身智能」走到了這個(gè)時(shí)代的窗口。第一件事情還是特斯拉的人形機(jī)器人,因?yàn)轳R斯克讓我們看到了,未來有可能兩萬美元的設(shè)備就可以走進(jìn)工廠替代現(xiàn)有的工人。雖然這個(gè)機(jī)器人仍然存在著很多質(zhì)疑,但是我們很期待看到它的進(jìn)展。
第二個(gè)我認(rèn)為是腦機(jī)接口,我們知道如果在操作層面能夠?qū)崿F(xiàn),可將大模型植入到人類的大腦之中,這將是一個(gè)巨大的突破,最新Nature也公布了最新的人機(jī)交互成果,現(xiàn)在基本上可以將腦意識和四肢的功能區(qū)定位結(jié)合起來,讓人能夠說話,對那些長期癱瘓或者中風(fēng)的病人來說,已經(jīng)是一件非常好的事情了。而且在實(shí)現(xiàn)層面,軟體手的落地進(jìn)展也非???,這點(diǎn)很重要,因?yàn)槿绻麤]有操作的話,機(jī)器人進(jìn)入工業(yè)或者家庭,僅僅只能實(shí)現(xiàn)對話的功能,其意義并不是很大。
第三個(gè)就是AI大模型了,大模型重新定義了機(jī)器人,目前已經(jīng)可以跟用戶進(jìn)行非常深度的交互,已經(jīng)能實(shí)現(xiàn)編程這樣的子任務(wù)。
張宏:過去這一年,我認(rèn)為最重要的事件之一就是我們美團(tuán)機(jī)器人研究院的成立。在這里,非常感謝美團(tuán)給我這個(gè)機(jī)會(huì),我們一起完成了高校與實(shí)驗(yàn)室的深度合作,我個(gè)人也非常鼓勵(lì)企業(yè)多進(jìn)行這種合作。
請?jiān)试S我先介紹一下自己的從業(yè)經(jīng)歷,我20歲的時(shí)候就出國了,2020年回國,在國外從事機(jī)器人研究三十多年,可以說機(jī)器人這件事我做了一輩子。我之所以回國,非常重要的一個(gè)原因就是,國內(nèi)有很多像美團(tuán)這樣高科技公司,他們愿意跟學(xué)術(shù)界展開科研合作,而且更為重要的是,深圳是一個(gè)充滿活力的城市,這里有很多世界級的高科技企業(yè),而且企業(yè)跟學(xué)術(shù)界的科研合作氛圍也非常好。很高興看到美團(tuán)搭建了機(jī)器人研究院這樣一個(gè)平臺(tái),我相信在座的很多同學(xué)也是這種合作機(jī)會(huì)的獲益者。
提到機(jī)器人發(fā)展,剛才王教授講得非常好,我這里稍微補(bǔ)充一下。過去一年,大家都知道ChatGPT已經(jīng)發(fā)展的如火如荼,實(shí)際上它對機(jī)器人的發(fā)展也是一個(gè)很好的推動(dòng)作用,包括我、還有我自己的學(xué)生都開始了這方面的研究工作。我剛剛講過,機(jī)器人這個(gè)事情我做了一輩子,我深知這是一件很難的事情,甚至從一定意義上講,四十年前的機(jī)器人和前幾年的機(jī)器人并不存在質(zhì)的區(qū)別,說明這件事情很難。
而如果想要解決這個(gè)難題,關(guān)鍵就是如何利用現(xiàn)有的知識,將一個(gè)機(jī)器人從零開始做起來,如何將這些先進(jìn)的知識灌注到機(jī)器人的解決方案之中,以及這些知識通過什么形式教給機(jī)器人。我目前的判斷,大模型或者說大數(shù)據(jù)都是一個(gè)很好的切入點(diǎn),在我們擁有了大模型之后,實(shí)際上等同于把機(jī)器人推到一個(gè)很高的位置,可以讓它在一個(gè)更高的基礎(chǔ)上進(jìn)行發(fā)展。
張鵬:總結(jié)一下,張教授的觀點(diǎn)是大模型對機(jī)器人的發(fā)展來說很重要。請問,建偉院士有什么看法?
張建偉:今天非常開心,能夠跟幾位三十多年的朋友相聚在這里,而且聊機(jī)器人這個(gè)話題也非常有意義。今年我跟張宏老師一樣,也參加了幾個(gè)世界級的機(jī)器人領(lǐng)域的重要大會(huì),我們對機(jī)器人領(lǐng)域的發(fā)展,包括學(xué)術(shù)層面已經(jīng)取得的成績是有著普遍的了解的。另外,我目前也在負(fù)責(zé)審批一些相關(guān)的會(huì)議,每年我能夠看到一百多個(gè)Conference的主題,包括他們對未來的發(fā)展趨勢的判斷,我這里都能夠看到。
總的來說,在應(yīng)用層面,寫作機(jī)器人和物流配送機(jī)器人都有著非常大的推進(jìn),這使得我們在機(jī)器人系統(tǒng)的應(yīng)用、迭代方面,取得了非常大的進(jìn)展,而這些進(jìn)展又給我們的機(jī)器人系統(tǒng)應(yīng)用、數(shù)據(jù)收集提供了非常好的機(jī)會(huì)。另外,在機(jī)器人的元器件發(fā)展方面,國內(nèi)現(xiàn)在進(jìn)展也非???,我所知道的,比如美團(tuán)投資的3D點(diǎn)云相機(jī)現(xiàn)在已經(jīng)做得越來越小,我相信未來在無人機(jī)上的應(yīng)用也能夠很快得到實(shí)現(xiàn)。還有我們現(xiàn)在的激光雷達(dá)、電機(jī)減速器等等,這一年進(jìn)步都非常大。
除了上面這些高速增長的領(lǐng)域之外,我覺得人工智能已經(jīng)開始為各行各業(yè)進(jìn)行賦能,不僅僅只是機(jī)器人這一個(gè)領(lǐng)域。我理解的機(jī)器人賦能,實(shí)際上是通過人工智能的四個(gè)方面快速進(jìn)行發(fā)展,包括算法、數(shù)據(jù)、算力以及機(jī)器人學(xué)會(huì)如何學(xué)習(xí),通過大量的仿真,我們能快速地加快機(jī)器人在真實(shí)世界的調(diào)試。在這方面,「具身智能」今年給我們帶來了幾個(gè)方向的新突破,特別是在視覺領(lǐng)域的突破,還有對環(huán)境的語義的理解等等多個(gè)層面,我相信未來也會(huì)給我們帶來了更多的驚喜。我相信張宏老師跟美團(tuán)的合作項(xiàng)目,將會(huì)是一個(gè)非常好的范例。
在機(jī)器人的Sequence Planning方面,我們通過機(jī)器人大量的序列收集和機(jī)器人序列的具身模型,我們已經(jīng)能夠得到更多的解決方案,未來我們對機(jī)器人的使用方式和人交互方式會(huì)有一個(gè)革命性的改變。
另外,ChatGPT對我們機(jī)器人領(lǐng)域的研發(fā)者起到了非??斓募铀僮饔?。相信很多使用過的同學(xué)都知道,ChatGPT已經(jīng)能夠具備了Low Level Coding Skill,能夠快速將我們的idea、知識很快變成一個(gè)真實(shí)的產(chǎn)品。從一定意義上講,人工智能這種指數(shù)式的增長,為機(jī)器人發(fā)展提供了非常強(qiáng)大的動(dòng)力,這也使得「具身智能」成為未來發(fā)展的一個(gè)主體。
張鵬:我剛剛發(fā)現(xiàn),幾位專家都會(huì)非常自然地通過談到大模型的進(jìn)展,延伸出「具身智能」這個(gè)很關(guān)鍵的話題,好像「具身智能」這兩年突然就成為了業(yè)界的主旋律,不管是政府部門、業(yè)界,還有投資圈都特別關(guān)注這個(gè)新概念。我先問問看起來比較年輕的華哲老師,你怎么去定義「具身智能」?好像最早就是因?yàn)橛辛颂厮估臋C(jī)器人,「具身智能」的概念就流行起來了,所以具身智能是雙足機(jī)器人嗎?我們應(yīng)該怎么理解具身智能?
許華哲:在我看來,「具身智能」其實(shí)最簡單的定義就是一個(gè)有身體的智能,它是一個(gè)很大的概念,可能所有非具身的東西都在具身智能的范疇內(nèi)。
從一定意義上講,「具身智能」其實(shí)是機(jī)器人學(xué)和人工智能雙方結(jié)合的產(chǎn)物,所以我認(rèn)為「具身智能」不僅僅是在于雙足,就類似于我們說交通工具不僅僅只有無人機(jī)一樣,無人機(jī)只是交通工具的一種形態(tài)。我覺得「具身智能」更多是「智能體」基于對它世界的理解,將自身的技能進(jìn)行泛化,形態(tài)只是它的一個(gè)載體。
張鵬:我想問問汪玉老師,前面幾位學(xué)者談到大模型,談到「具身智能」對我們未來的影響,這讓大家都感到很興奮,而之所以感到興奮,一定是對未來有著很好的預(yù)期,您覺得未來幾年有什么事情值得期待?
汪玉:這個(gè)問題挺難回答的,各位都是機(jī)器人行業(yè)的前輩,我從2018年才開始關(guān)注機(jī)器人領(lǐng)域。我此前主要研究的方向是芯片,芯片的突破跟底層的工藝以及上層應(yīng)用都存在著很強(qiáng)的關(guān)系。大家都知道,在底層工藝上,我們國家現(xiàn)在發(fā)展也受到了供應(yīng)鏈層面的一些影響。但上層的應(yīng)用,我覺得未來的重點(diǎn)會(huì)是機(jī)器人,所以從2018年開始,我下定決心開始看機(jī)器人相關(guān)的領(lǐng)域,目前還沒有正式研究「具身智能」,現(xiàn)階段只是聚焦于無人車、自動(dòng)駕駛這些領(lǐng)域。
在人口老齡化的背景下,智能機(jī)器人的應(yīng)用是社會(huì)進(jìn)一步發(fā)展的重要途徑。目前,我們的人口下行壓力比較大,國家開始鼓勵(lì)三胎了。在這種背景下,如果想要增加勞動(dòng)力資源應(yīng)該只能靠機(jī)器了,所以這個(gè)邏輯是比較順暢的。相信今天在座的各位也都在為這個(gè)夢想而努力。
此外,未來兩三年內(nèi)我覺得在交通工具層面,應(yīng)該會(huì)有比較大的進(jìn)展,在運(yùn)力層面美團(tuán)已經(jīng)做得足夠好了,像深圳已經(jīng)開始用無人機(jī)送貨了,我們了解到,還有其他的城市也想在這方面開始布局。除了無人機(jī)、自動(dòng)駕駛之外,我們也看到了特斯拉的機(jī)器人已經(jīng)開始進(jìn)入了工廠,慢慢地做一些普通人無法做到的事情,我們相信未來機(jī)器人在很多細(xì)分的方向都會(huì)比人類做得更好。我個(gè)人對未來機(jī)器人行業(yè)的發(fā)展,還是非常有信心的。
張鵬:也就是說,不管咱們從技術(shù)上怎么看,我們對應(yīng)用層面的期待還是有著非常明確的方向。因?yàn)椤妇呱碇悄堋惯@件事情,如果要去看它的發(fā)展,也是要從應(yīng)用場景出發(fā),它不只是單一的技術(shù)。我想請建偉老師來幫忙預(yù)測下,「具身智能」未來最可能會(huì)在哪個(gè)領(lǐng)域?qū)崿F(xiàn)批量的應(yīng)用?是會(huì)在生產(chǎn)制造領(lǐng)域,還是會(huì)進(jìn)入家庭,例如:提供養(yǎng)老服務(wù)?它大概會(huì)是一個(gè)什么樣的發(fā)展路徑?
張建偉:我想「具身智能」的應(yīng)用可能會(huì)發(fā)生在我們生活中的方方面面,包括我們現(xiàn)在的物流,未來的養(yǎng)老和工廠。這個(gè)問題就是對機(jī)器人的幾個(gè)垂直領(lǐng)域在近一兩年內(nèi)誰可以實(shí)現(xiàn)批量突破的一個(gè)預(yù)測。
我認(rèn)為物流現(xiàn)在是一個(gè)非??斓脑鲩L點(diǎn),這個(gè)方向也包括工廠的運(yùn)輸,我們目前應(yīng)該處在2B到2C中間的過渡階段。未來物流應(yīng)該還會(huì)在現(xiàn)有的基礎(chǔ)上進(jìn)一步深化,將機(jī)器人部署到更多的實(shí)際場景中,然后在物流領(lǐng)域做出更加精密的模型,在更多的業(yè)務(wù)場景中真正實(shí)現(xiàn)自動(dòng)化。比如我們現(xiàn)在的物流行業(yè),還是需要有人幫忙打包,然后貼上物流單,以及最后的配送過程,都還需要人力來實(shí)現(xiàn)。未來我們將逐步通過科研合作,讓機(jī)器人參與到更多的物流流程之中,我們通過大量收集數(shù)據(jù),包括緊急場景的處理數(shù)據(jù),在垂直模型中就能夠精確地、自動(dòng)化地預(yù)測出來下一步應(yīng)該做什么動(dòng)作,我想未來應(yīng)該很快就可以看到這方面的應(yīng)用。
另外,從長期來講,如果我們能夠把全模態(tài)的數(shù)據(jù)收集起來,不僅僅是視覺、聽覺,還包括觸覺等等,當(dāng)機(jī)器人能夠像人一樣收集全部的信息,然后我們將運(yùn)動(dòng)skill也做出對應(yīng)的模型,未來的想象空間還將會(huì)更大。
張鵬:也就是說,我們與其去預(yù)測哪個(gè)場景先出來,不如先看一下哪些產(chǎn)業(yè)存在著共同成長的機(jī)會(huì)。當(dāng)然,具體到某個(gè)特定的領(lǐng)域,可能還是要靠一些真正的推動(dòng)者,他們把產(chǎn)品做到位了,可能這個(gè)場景就率先(被突破)出來了。這里我還有一個(gè)問題,要想實(shí)現(xiàn)「具身智能」是需要像 AI 和機(jī)器人這樣復(fù)合技術(shù)能力的共同發(fā)展,請問張宏教授,您怎么看「具身智能」的概念對這兩個(gè)技術(shù)領(lǐng)域發(fā)展的影響?
張宏:我想先補(bǔ)充一下對「具身智能」的知識,「具身智能」這個(gè)概念實(shí)際上是由做人工智能的人提出來的?!妇呱碇悄堋购唵蝸碚f就是要「落地」,機(jī)器人不能只生活在電腦里。
我從事機(jī)器人研究做了很多年,有比較深的體會(huì),最早的時(shí)候,我們開各種國際會(huì)議、學(xué)術(shù)會(huì)議,機(jī)器人行業(yè)有自己的大會(huì),人工智能行業(yè)也有自己的大會(huì),其實(shí)對老百姓來講的話,兩個(gè)會(huì)應(yīng)該在一起開??墒窃谀莻€(gè)年代,機(jī)器人行業(yè)的終極目標(biāo)可能只是人工智能的起點(diǎn),我們關(guān)心如何把一個(gè)瓶子可靠地抓起來,而做人工智能研究的同學(xué)想的是,假設(shè)我已經(jīng)可以抓起這個(gè)瓶子了,還可以做什么事情,當(dāng)時(shí)是非常不健康的。
經(jīng)過大家多年的努力,實(shí)際上已經(jīng)讓這兩者距離慢慢在縮短,特別是「具身智能」這個(gè)概念提出以后,進(jìn)一步推動(dòng)了這兩個(gè)領(lǐng)域健康共同發(fā)展。大家都知道,技術(shù)的發(fā)展一般有兩個(gè)不同維度的發(fā)展,一個(gè)是走商業(yè)模式,實(shí)現(xiàn)商業(yè)上的成功,一個(gè)是科技發(fā)展。這兩件事情的評估標(biāo)準(zhǔn)是不一樣的,要求是不一樣的,當(dāng)然挑戰(zhàn)也是不一樣的。
我們做學(xué)術(shù)研究的總是希望做一些創(chuàng)新的東西出來,但是如何在商業(yè)層面取得成功,實(shí)際上我們是不太懂的,是外行。而且很多機(jī)會(huì)其實(shí)是我們預(yù)想不到的,甚至是偶然的?;叵胍幌逻@些年我觀察到的一些非常成功的商業(yè)案例,比如很多年前我們做掃地機(jī)器人,當(dāng)初產(chǎn)品剛出來的時(shí)候,我們在美國賣這個(gè)掃地機(jī)器人,沒想到市場反應(yīng)還是比較好的。但是我們早期看待這個(gè)產(chǎn)品的時(shí)候,就覺得它是一個(gè)玩具,因?yàn)樗鼟叩仄鋵?shí)并不是很干凈。不過,我們對比了現(xiàn)在能夠看到的商業(yè)機(jī)器人,我們發(fā)現(xiàn)掃地機(jī)器人是最成功的例子之一。
所以說,商業(yè)成功很大程度上取決于市場,比如像美團(tuán),已經(jīng)擁有了比較成熟的市場,就很容易通過客戶端推廣自家的技術(shù)(比如無人機(jī)配送)。如果能夠在一個(gè)成熟的市場上引入新技術(shù),那么就容易占據(jù)一定的優(yōu)勢地位。
張鵬:我能理解張宏老師的意思,他是在說我們不能只盯著技術(shù),因?yàn)榧夹g(shù)的發(fā)展速率往往跟市場的需求,還有具體的應(yīng)用場景存在著非常大的關(guān)系,只要市場和場景解決了,技術(shù)就會(huì)加速,否則只會(huì)在「象牙塔」中緩慢地成長。我知道,王老師已經(jīng)孵化了很多的創(chuàng)業(yè)項(xiàng)目,而且多數(shù)是機(jī)器人相關(guān)的,您這邊有什么補(bǔ)充嗎?
王田苗:前面幾位專家說的都特別有道理,我主要在思考「具身智能」是怎么從人工智能和機(jī)器人延伸出來的。其實(shí)「具身智能」很早的概念,在50年代就被提到了,只是后來,人工智能走「人工智能」的路線,機(jī)器人走「機(jī)器人」的路線,然后走到了今天,當(dāng)我們打通了底層的算力,大家覺得「具身智能」這件事情已經(jīng)變成可行了。
我查找了一些資料,發(fā)現(xiàn)「具身智能」跟我們傳統(tǒng)的機(jī)器人不一樣的地方在于它強(qiáng)化了兩個(gè)概念。傳統(tǒng)的機(jī)器人是基于感知能夠決策,并且能夠執(zhí)行行動(dòng)來替代人類去完成各種動(dòng)作(包括人類做不到的動(dòng)作),這是機(jī)器人常規(guī)的一個(gè)定義。
而大模型出現(xiàn)以后,「具身智能」可以比喻為一個(gè)孩子,只是它的成長速度超乎想象。通過人機(jī)交互,我們可以幫助它將宏觀的任務(wù)分解為一系列思維鏈路和子任務(wù),并利用自動(dòng)編程,局部自主來完成任務(wù)。在這個(gè)過程中,「具身智能」將逐漸學(xué)習(xí)和成長,變得越來越聰明,這是第一方面的概念;第二個(gè)方面,「具身智能」在復(fù)雜環(huán)境下可以利用感知、視覺和觸覺等功能來校準(zhǔn)行為動(dòng)作或控制模型的誤差,以適應(yīng)環(huán)境變化。基于這兩個(gè)方面,現(xiàn)在又延伸出了垂直大模型和文本大模型。
如果這個(gè)定義是正確的,那么「具身智能」第一條發(fā)展主線就是服務(wù)性的。我這里舉一個(gè)例子,比如在一個(gè)人為創(chuàng)造的環(huán)境下,現(xiàn)在的機(jī)械手臂,可以拿起物品并完成裝箱。如果換一個(gè)環(huán)境,機(jī)器人是夠能夠理解我們的意圖,繼續(xù)復(fù)制之前的操作。
我認(rèn)為服務(wù)型「具身智能」應(yīng)該會(huì)率先進(jìn)入到社會(huì),特別是公共服務(wù)領(lǐng)域,比如我們剛剛提到的物流、陪伴、聊天服務(wù)等等,它需要具備感知大模型。還有一種我們可以稱之為勞動(dòng)型「具身智能」機(jī)器人,這種類型機(jī)器人最大的特點(diǎn)就是需要?jiǎng)趧?dòng),需要具備一定的操作技能,可能就不需要具備情感能力了。
在工業(yè)層面,目前小批量多品種已經(jīng)變成了一個(gè)趨勢,比如打磨、更換一個(gè)器件等等,這個(gè)成本可能需要幾千元,這需要工程師進(jìn)入機(jī)器中進(jìn)行標(biāo)定,然后再完成編程等工作。如果「具身智能」發(fā)展到一定的階段,它就可以通過不同的方式或者工藝,用更短的時(shí)間就可以完成換件工作,包括打磨、拋光、剔除毛刺等等。因?yàn)楣I(yè)目前比較依賴工程師,所以落地速度應(yīng)該會(huì)晚于服務(wù)型機(jī)器人。
最近,還有一個(gè)應(yīng)用場景是科學(xué)發(fā)現(xiàn),包括材料的科學(xué)發(fā)現(xiàn)、藥品的科學(xué)發(fā)現(xiàn),我們都知道醫(yī)藥的配方非常復(fù)雜,人類研發(fā)一種新藥,可能需要十幾年的時(shí)間才能應(yīng)用于臨床。如果利用「大模型」工具,當(dāng)設(shè)定好實(shí)驗(yàn)?zāi)P停覀兙涂梢宰寵C(jī)器去拿這個(gè)瓶子各種搗鼓,實(shí)現(xiàn)晝夜24小時(shí)工作,還可以連續(xù)工作7天,這樣我們就可以用極短的時(shí)間,完成一個(gè)博士生10年的工作量。
張鵬:王老師說的是AI for Science,所以,未來科研方面工作的效率就會(huì)明顯提高了。
王田苗:這是我個(gè)人的理解。另外,我再講一下,剛剛我們講到了項(xiàng)目孵化,在我看來「具身智能」屬于產(chǎn)業(yè)鏈的中游,而身處中游的「具身智能」就是一個(gè)非常大的賽道,可能只要真正的互聯(lián)網(wǎng)大廠才能做,只有大廠才有實(shí)力打造一個(gè)「具身智能」的通用平臺(tái),一般的創(chuàng)業(yè)公司是做不了的,這個(gè)門檻非常高,而且需要極強(qiáng)的組織能力。而「具身智能」的上游就涉及到了高性能電機(jī)、3D觸覺以及感知器件了,下游就需要依靠大模型了。
張鵬:我想繼續(xù)問問華哲,就之前提到的問題,可以說「具身智能」是因?yàn)椤鸽p足」機(jī)器人的出現(xiàn)才引發(fā)了業(yè)界的關(guān)注。在你看來,「雙足」未來會(huì)成為「標(biāo)地」嗎?你會(huì)比較期待什么,或者說,你從事的這些研究,想要推進(jìn)什么?
許華哲:就像我剛剛說的,「雙足」本身只是形態(tài)之一,且「雙足」一定會(huì)有。但是,我們可以想象「具身智能」不是想要?jiǎng)?chuàng)造一種機(jī)器人,而是創(chuàng)作一個(gè)大的物種,這個(gè)物種里面包括人、狗、飛機(jī)、車等等,它們都是「具身智能」大類別中的一個(gè)形態(tài)。
我個(gè)人比較期待的第一個(gè)研究方向是「生成式仿真」,在我看來,「具身智能」之所以跟傳統(tǒng)的機(jī)器人不一樣,是因?yàn)樗姆夯芰?,這個(gè)泛化是通過學(xué)習(xí)算法在仿真系統(tǒng)中去習(xí)得的,然后可以用在各種各樣的地方。相信做過機(jī)器人的都知道,「仿真」需要大量的人力、物力,而且跟現(xiàn)實(shí)并不是很像。而對「生成式仿真」系統(tǒng)來說,能夠自動(dòng)長出一個(gè)「仿真」,就像這個(gè)屋子一樣,「具身智能」可以直接在這個(gè)屋子里利用「強(qiáng)化學(xué)習(xí)」算法去學(xué)習(xí),去模仿,自然就可以學(xué)到很多有用的技能。
第二個(gè)比較感興趣的方向,我覺得是在線學(xué)習(xí)的能力。當(dāng)機(jī)器人已經(jīng)完成了部署,比如說像我們的無人機(jī)每天都在飛,那我們采集到更多新的數(shù)據(jù),能不能一直讓它迭代變強(qiáng)。因?yàn)?strong>早期的「具身智能」不一定好用,它怎么能夠用到未來的數(shù)據(jù)讓自己能持續(xù)變強(qiáng),是用強(qiáng)化學(xué)習(xí),還是用Transform?就像大模型一樣,如何讓它變得強(qiáng),這也是我比較感興趣的點(diǎn)。
第三個(gè)比較感興趣的方向,應(yīng)該是硬件層面,比如像觸覺,這是以前大家沒有重視或者使用比較小眾的模態(tài),如果解決了這個(gè)問題,我們就可以跟世界更好的進(jìn)行交互。
張鵬:感謝華哲老師的分享,我們繼續(xù)聊「具身智能」的話題,現(xiàn)在投資人也非常關(guān)注這個(gè)賽道。我想問問汪玉老師,技術(shù)的發(fā)展往往需要一些東西來進(jìn)行推動(dòng),我們目前看到技術(shù)和場景也是在「雙螺旋」發(fā)展,我們需要更多優(yōu)秀的公司和優(yōu)秀的應(yīng)用場景,如何讓這種雙螺旋發(fā)展得更快?您覺得從產(chǎn)業(yè)層面,我們應(yīng)該怎么去推動(dòng)技術(shù)的發(fā)展?
汪玉:這也是一個(gè)比較大的問題,我先談一談個(gè)人的看法。剛剛講到我是偏硬件方向,應(yīng)該處于機(jī)器人和人工智能的邊界,既要看機(jī)器人的論文也要看人工智能的發(fā)展,當(dāng)然如果想讓機(jī)器飛起來,還要看一下底層的平臺(tái)。
剛剛各位專家談的都是能力,是感知、決策、控制一體的能力,其實(shí)平臺(tái)也需要具備這樣的能力。而人工智能提供了一種可能性,使機(jī)器人平臺(tái)底層算法中絕大多數(shù)的計(jì)算方式變得更統(tǒng)一,或者說「更矩陣」。過去用到矩陣求逆這種復(fù)雜的操作,但現(xiàn)在可能都是矩陣乘向量、矩陣乘矩陣。在感知大模型、決策大模型中都是如此;在控制過程中,也可以使用強(qiáng)化學(xué)習(xí)等模型。
在這個(gè)過程中我們發(fā)現(xiàn),控制算法還是需要做,去把邊界定義清楚的理論還要繼續(xù)研究,感覺、控制需要一體化,我們需要把人工智能和傳統(tǒng)硬件集成到一起,做成一個(gè)平臺(tái)。為什么要做這個(gè)事情?剛才我們也提到機(jī)器人統(tǒng)一的操作系統(tǒng),但不管是什么操作系統(tǒng),底層也得是硬件,而這類硬件傳感器有無數(shù)種,所以我們還是需要有一個(gè)類似大腦的東西,來統(tǒng)一控制這些傳感器。那這個(gè)「大腦」最終的形態(tài)是什么?如果這個(gè)沒有統(tǒng)一,我覺得成本是降不下去的。
我們再從量的層面來看,這里應(yīng)該談到產(chǎn)業(yè)界,我們在其中看到上千萬的掃地機(jī)器人和自動(dòng)駕駛汽車,當(dāng)然還有很多規(guī)模沒有突破千萬的機(jī)器人。這些機(jī)器人有點(diǎn)像昆蟲綱,每個(gè)品類都非常優(yōu)秀,但是規(guī)模都比較有限。但是,有可能背后的平臺(tái)未來會(huì)是統(tǒng)一的。所以,從我們角度來看,學(xué)術(shù)界希望能把這樣的平臺(tái)慢慢推廣下去,讓每個(gè)垂類能夠用更低成本地去做迭代,才有希望真正能夠成功。
張鵬:我想再聽聽建偉院士的看法,我覺得這個(gè)問題本質(zhì)還是說產(chǎn)學(xué)研要一起往前走,接下來我們應(yīng)該加強(qiáng)什么?我們身處具身智能這樣一個(gè)節(jié)點(diǎn),AI和機(jī)器人終要手拉手一起向前,這個(gè)時(shí)候我們怎么看產(chǎn)學(xué)研的結(jié)合?
張建偉:這是一個(gè)Million Dollars Question,這里可以補(bǔ)充一下,不僅僅是我們國家,包括歐盟等國家也在思考著如何把產(chǎn)學(xué)研有機(jī)融在一起。我們曾經(jīng)做了很多種計(jì)劃,都是圍繞怎么填補(bǔ)技術(shù)和產(chǎn)業(yè)界之間存在的鴻溝。其實(shí),通過ChatGPT取代現(xiàn)有白領(lǐng)們的工作,這不是我們想要的。我們面臨真正的問題是,現(xiàn)在父母年齡大了沒有人照顧,富士康工廠組裝iPhone的工人已經(jīng)招不到了,負(fù)責(zé)打掃衛(wèi)生、收拾家務(wù)的保姆也沒有人做了,所以我們這兩年應(yīng)該如何從技術(shù)層面進(jìn)行突破,不斷解決勞動(dòng)力短缺的問題,才是目前最為重要的事情。
近期,我們看到了國內(nèi)相關(guān)的一些報(bào)道,一方面,是我們軟硬件成本整體的下降;另一方面,我們發(fā)現(xiàn)了一些新的需求。這里舉兩個(gè)例子,一個(gè)例子是利用大模型、智能視覺來識別除草,明年歐盟就要禁止使用除草劑了,對從事農(nóng)業(yè)機(jī)器人的公司來說,未來的農(nóng)業(yè)除草只能靠物理方法來實(shí)現(xiàn),這里就需要思考如何把草的類型做成大模型,然后來利用視覺進(jìn)行高速、準(zhǔn)確的識別,不管是人工處理還是激光鏟除,都是一個(gè)非常大的產(chǎn)業(yè),如果科研機(jī)構(gòu)跟企業(yè)能夠組合在一起,就是一個(gè)很好的突破。
另一個(gè)例子是在制造業(yè)方面,我們現(xiàn)在可以看到中國百分之七八十的工廠仍然需要大量的人力,我老家的組裝iPhone的富士康工廠,最高的時(shí)候雇傭了30萬人,現(xiàn)在也是十幾萬人的規(guī)模,這些需要用手靈巧操作的任務(wù)的工廠,未來會(huì)因?yàn)橐曈X技術(shù)以及「具身智能」的發(fā)展,就有望在靈巧操作機(jī)器人方面實(shí)現(xiàn)突破。
張鵬:感謝各位專家學(xué)者的精彩分享,這里總結(jié)一下,機(jī)器人技術(shù)如果想在商業(yè)層面持續(xù)地走下去,核心還是需要看一些具體的應(yīng)用場景,同時(shí)也需要更多的科研人員和企業(yè)加入進(jìn)來。就像美團(tuán)正在低空經(jīng)濟(jì)領(lǐng)域做的很多工作以及創(chuàng)新成果,我們也很欣慰地看到有這么多的高校和人才都在為建設(shè)該領(lǐng)域「增磚添瓦」。
之前,機(jī)器人領(lǐng)域?qū)儆谝粋€(gè)專精的領(lǐng)域,絕大多數(shù)人都不敢碰,而現(xiàn)在我們觀察到,即便不是機(jī)器人領(lǐng)域的人才,他們也可以把交互設(shè)計(jì)做得很好,能將外觀設(shè)計(jì)的很好。當(dāng)越來越多的人參與其中,機(jī)器人產(chǎn)業(yè)就跟市場走得越來越近了。這也是時(shí)代賦予我們這代人的機(jī)遇,也是因?yàn)橛羞@么多優(yōu)秀的新鮮血液進(jìn)來,有更多好的應(yīng)用場景,機(jī)器人行業(yè)才會(huì)如此蓬勃發(fā)展。
今天也有很多年輕的同學(xué)們在現(xiàn)場,這里給大家留一個(gè)提問的時(shí)間。
現(xiàn)場同學(xué)提問:各位老師好,我之前也參與過一些校企合作的項(xiàng)目,在合作的過程當(dāng)中,我也發(fā)現(xiàn)企業(yè)和學(xué)校有各自的優(yōu)勢,并且雙方關(guān)注的角度也不一樣。我想問的是,在推進(jìn)產(chǎn)學(xué)研合作過程中,企業(yè)和高校各自的角色定位應(yīng)該是什么?在合作的過程中存在了哪些挑戰(zhàn)?
張宏:我這里可以簡單回答這個(gè)問題,可以說研究人員的任務(wù)是「頂天」,做產(chǎn)業(yè)的任務(wù)是「立地」,這就是「頂天立地」??蒲泄ぷ?,更多的是追求突破、創(chuàng)新,而做產(chǎn)業(yè)則是追求穩(wěn)定、可靠,能夠產(chǎn)生商業(yè)價(jià)值。如果讓產(chǎn)學(xué)研同時(shí)成功的話,我們就需要進(jìn)行科研合作,讓產(chǎn)業(yè)界有效地能利用高校產(chǎn)出的這些研究結(jié)果去落地到他們的產(chǎn)品當(dāng)中。
張鵬:我想問一下王老師,從您的視角來看,在今天這樣一個(gè)技術(shù)時(shí)代,是鼓勵(lì)大家多寫論文出成果,還是鼓勵(lì)大家孵化項(xiàng)目呢?特別是對于年輕同學(xué)來說,您覺得哪個(gè)更適合?
王田苗:我個(gè)人覺得應(yīng)該「因材施教」,每個(gè)人來到這個(gè)世界都有TA自己的使命,有些人沒有找到,只是環(huán)境還沒有喚醒TA。如果你想成為一個(gè)科學(xué)家,就應(yīng)該將自己的研究成果寫到書本上;如果你的使命是想做一款與眾不同的產(chǎn)品,那你可能更適合做工程,將自己的產(chǎn)品放到貨架上去售賣。這是在「產(chǎn)學(xué)研」這個(gè)方面,我自己的一些思考。
我覺得美團(tuán)這方面做得很好,這里先從產(chǎn)業(yè)方面來說,其實(shí)美團(tuán)今天也創(chuàng)造了兩個(gè)場景,一個(gè)場景是,你真的有本事,就來美團(tuán)舉辦的大賽,讓大家看看你的工程動(dòng)手能力、想象力;另一個(gè)場景,大家是可以通過參與美團(tuán)的科研項(xiàng)目,如果你有重大的原理性突破,比如在某些算法領(lǐng)域?qū)崿F(xiàn)了效率的提升,也可以更好地成就自己。
對于大學(xué)生來說,我認(rèn)為同學(xué)們在學(xué)完基本的方法和理論知識后,面臨一個(gè)更重要的課題:你是否真正認(rèn)識或找到自己追求或是想要改變世界。如果懷揣這樣的愿望,自驅(qū)力、冒險(xiǎn)精神、與人交流的智慧都會(huì)隨之增強(qiáng),這些品質(zhì)對個(gè)人成長具有不可估量的價(jià)值。
如果大學(xué)期間,能夠能將這些特質(zhì)訓(xùn)練好,無論做什么都會(huì)有所成就。就像清華電子系一樣「百花齊放」,我們培養(yǎng)出了很多的企業(yè)家、音樂家、教育家,甚至還有政治家。所以我說要「因材施教」,而大學(xué)自身也需要在這方面對自己重新進(jìn)行「定位」。
張建偉:我也稍微補(bǔ)充一下。在今天的這種商業(yè)環(huán)境下,公司應(yīng)該怎么定位?大學(xué)怎么定位?對各自來說都是一個(gè)非常重要的問題。像美團(tuán)、谷歌等這些公司,他們的優(yōu)勢在于有著豐富的數(shù)據(jù)應(yīng)用場景,而對大學(xué)來說,我們的優(yōu)勢在于不斷推出新的理論、新的結(jié)構(gòu)、新的算法,大學(xué)也能夠了解全世界技術(shù)方面的進(jìn)展,所以大學(xué)應(yīng)該多跟大公司進(jìn)行密切合作,從而不斷發(fā)現(xiàn)新機(jī)會(huì)。另外,大學(xué)在人才培養(yǎng)和交叉學(xué)科方面有著豐富的資源,我們通過跨學(xué)科的人才培養(yǎng),可以長期為企業(yè)提供一些比較優(yōu)秀、全面的技術(shù)人才。
張鵬:好的,因?yàn)闀r(shí)間關(guān)系,我們不得不結(jié)束這一場訪談了,非常不舍,因?yàn)樘貏e難得能跟幾位優(yōu)秀的專家學(xué)者一起聊機(jī)器人、具身智能這些熱門的話題。
我們今天剛好是在美團(tuán)機(jī)器人研究院的年會(huì)上,幾位老師在各自領(lǐng)域都是比較資深的科研帶頭人,如果說科研是站在人類已知和未知的邊界上不斷地向前突破,那像美團(tuán)這樣優(yōu)秀企業(yè)就是將我們已知的知識變成產(chǎn)品,然后去創(chuàng)造更幸福的生活方式來服務(wù)更多的人。從這個(gè)意義上講,大家本質(zhì)上都是在一個(gè)更宏大的目標(biāo)下各有分工,我們屬于同一個(gè)更大的團(tuán)隊(duì),我覺得這也是產(chǎn)學(xué)研一起往前推進(jìn)的最重要使命。我們也特別期待美團(tuán)機(jī)器人研究院未來能不斷取得新的突破和進(jìn)展,在更多技術(shù)領(lǐng)域成為產(chǎn)學(xué)研一體化的「標(biāo)桿」。
感謝各位專家學(xué)者們的參與,也感謝現(xiàn)場各位同學(xué)的聆聽,感謝大家!
----------? END? ----------
深圳市美團(tuán)機(jī)器人研究院
深圳市美團(tuán)機(jī)器人研究院(Meituan Academy of Robotics Shenzhen,MARS)于2022年7月正式掛牌,于2022年11月正式對外宣布成立。研究院將依托美團(tuán)生活服務(wù)豐富的業(yè)務(wù)場景與數(shù)據(jù)積累,結(jié)合國內(nèi)外學(xué)術(shù)界與產(chǎn)業(yè)界的科研優(yōu)勢,開展面向機(jī)器人領(lǐng)域的關(guān)鍵技術(shù)的研發(fā),引領(lǐng)機(jī)器人學(xué)科前沿和技術(shù)創(chuàng)新方向,加快科研成果的落地轉(zhuǎn)化,推動(dòng)機(jī)器人相關(guān)技術(shù)的示范應(yīng)用,在大灣區(qū)打造機(jī)器人技術(shù)「產(chǎn)學(xué)研用」全方位結(jié)合的開放協(xié)同創(chuàng)新平臺(tái)。文章來源:http://www.zghlxwxcb.cn/news/detail-786970.html
機(jī)器人技術(shù)的發(fā)展、落地和應(yīng)用需要長期投入、持續(xù)探索,我們誠摯邀請各界人士在美團(tuán)機(jī)器人研究院這一平臺(tái)上展開深入的交流和合作,一起推動(dòng)機(jī)器人技術(shù)的進(jìn)步與發(fā)展,幫助大家生活更好!歡迎老師和同學(xué)們發(fā)送郵件至:mars.oi@meituan.com。文章來源地址http://www.zghlxwxcb.cn/news/detail-786970.html
到了這里,關(guān)于“做了一輩子機(jī)器人,深知其困難” | 一場關(guān)于機(jī)器人的深度對話的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!