什么是具身智能?
目前人工智能的進(jìn)展,在諸多數(shù)據(jù)源和數(shù)據(jù)集(Youtube、Flickr、Facebook)、機(jī)器計(jì)算能力(CPU、GPU、TPU)的加持下,已經(jīng)在CV、NLP上取得了許多任務(wù)(如目標(biāo)檢測、語義分割等)的重大進(jìn)展。
但目前大部分深度學(xué)習(xí)模型訓(xùn)練時(shí)使用的數(shù)據(jù)來自于互聯(lián)網(wǎng)(Internet AI),而并非來自現(xiàn)實(shí)世界的第一人稱人類視角,這樣訓(xùn)練得到的模型是旁觀型的,它只能學(xué)習(xí)到數(shù)據(jù)中的固定模式并將其映射到標(biāo)簽層,并不能在真實(shí)世界中直接進(jìn)行學(xué)習(xí),也不能對真實(shí)世界作出直接影響。
而在自然界中,動(dòng)物為了適應(yīng)環(huán)境會(huì)不斷地進(jìn)化以更好的生存和生活。對于人類來說,從嬰兒開始就扎根于真實(shí)世界,通過觀察、移動(dòng)、互動(dòng)和與他人交談來學(xué)習(xí),因此人腦中的很多認(rèn)知都依賴于主體物理身體特征與世界的連續(xù)型交互,而不是從混亂和隨機(jī)的經(jīng)驗(yàn)中學(xué)習(xí),這才是人類感知世界的方式!智能體是在主體與環(huán)境的相互作用中出現(xiàn)的,并且是感覺活動(dòng)的結(jié)果。
因此為了滿足AI機(jī)器人能夠像人類一樣在真實(shí)世界中實(shí)踐型學(xué)習(xí),具身智能(Embodied AI)逐漸成為一個(gè)熱門的討論點(diǎn),或許它就是通往通用人工智能的關(guān)鍵鑰匙。具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能,這意味著機(jī)器人應(yīng)該像人類一樣通過觀察、移動(dòng)、說話和與世界互動(dòng)來學(xué)習(xí)。
Internet AI和Embodied AI的區(qū)別?
旁觀型標(biāo)簽學(xué)習(xí)方式 v.s. 實(shí)踐性概念學(xué)習(xí)方法
- Internet AI從互聯(lián)網(wǎng)收集到的圖像、視頻或文本數(shù)據(jù)集中學(xué)習(xí),這些數(shù)據(jù)集往往制作精良,其與真實(shí)世界脫節(jié)、難以泛化和遷移。1)數(shù)據(jù)到標(biāo)簽的映射。2)無法在真實(shí)世界進(jìn)行體驗(yàn)學(xué)習(xí)。3)無法在真實(shí)世界做出影響。
- Embodied AI通過與環(huán)境的互動(dòng),雖然以第一視角得到的數(shù)據(jù)不夠穩(wěn)定,但這種類似于人類的自我中心感知中學(xué)習(xí),從而從視覺、語言和推理到一個(gè)人工具象( artificial embodiment),可以幫助解決更多真實(shí)問題。
Embodied AI的挑戰(zhàn)
一個(gè)Embodied AI中的經(jīng)典任務(wù)如上圖所示,智能體必須先理解問題“汽車的顏色是什么”,然后找到汽車,再回答問題是“橙色”。因此智能體必須根據(jù)其對世界的感知、潛在的物理約束以及對問題的理解,學(xué)習(xí)將其視覺輸入映射到正確的動(dòng)作。
- 主動(dòng)感知。智能體收集的數(shù)據(jù)是在環(huán)境中采取的行動(dòng)的結(jié)果,因此某種程度上它可以控制它想看到的像素。這與Internet AI中的靜態(tài)數(shù)據(jù)集不同。
- 稀疏獎(jiǎng)勵(lì)。與監(jiān)督學(xué)習(xí)不同,智能體會(huì)為每個(gè)動(dòng)作收集即時(shí)獎(jiǎng)勵(lì),但它們通常是稀疏的,大多數(shù)情況下,僅當(dāng)它完成目標(biāo)(例如“步行到汽車”)時(shí)才會(huì)提供正向獎(jiǎng)勵(lì),但這會(huì)導(dǎo)致獎(jiǎng)勵(lì)稀疏。
Embodied AI的所需能力
一般需要測量、定位、導(dǎo)航、理解、實(shí)施、回答。主要有以下子任務(wù):
- Visual Odometry。使用視覺來傳感器測量來智能體(比如無人機(jī))的特定自由度下的姿態(tài)、速度等物理量,一般作為 GPS、慣性導(dǎo)航系統(tǒng) (INS)、輪式里程計(jì)等的補(bǔ)充,它已被廣泛應(yīng)用于各種機(jī)器人。
- Global Localization。給定環(huán)境地圖和環(huán)境觀察的情況下進(jìn)行定位。
- Visual Navigation。在三維環(huán)境中導(dǎo)航是在物理世界中運(yùn)行的機(jī)器人的基本能力之一。
- Grounded Language Learning。人類語言是這種交流最引人注目的方式,因此機(jī)器人必須要能夠?qū)⒄Z言、世界和行動(dòng)聯(lián)系起來。
- Instruction Guided Visual Navigation。向機(jī)器人發(fā)出口頭指令,然后希望它會(huì)執(zhí)行和指令語義相關(guān)的任務(wù),這也是多模態(tài)領(lǐng)域一個(gè)很重要的方向,視覺和語言導(dǎo)航 (VLN)。
- Embodied Question Answering。即上圖所示的例子,為了回答汽車的顏色是“橙色!”,它必須首先智能導(dǎo)航以探索環(huán)境,通過第一人稱視覺收集信息,然后回答問題。因此它需要先主動(dòng)感知、語言理解、目標(biāo)驅(qū)動(dòng)的導(dǎo)航、常識(shí)推理(如汽車通常位于房子的什么位置?),以及將語言轉(zhuǎn)化為動(dòng)作的基礎(chǔ)(如將文本中的實(shí)體與相應(yīng)的圖像像素或動(dòng)作序列相關(guān)聯(lián))。
數(shù)據(jù)集和虛擬環(huán)境
虛擬環(huán)境模擬器將承擔(dān)以前由監(jiān)督數(shù)據(jù)集扮演的角色。數(shù)據(jù)集一般由房屋、實(shí)驗(yàn)室、房間或外部世界的 3D 場景組成,然后模擬器允許具身agent與環(huán)境進(jìn)行物理交互,如觀察、移動(dòng)并與環(huán)境交互等等,甚至可以與其他agent或人類交談。為了使虛擬環(huán)境更貼近現(xiàn)實(shí),其一般需要構(gòu)建以下特征,
- Environment。構(gòu)建具體化的人工智能模擬器環(huán)境的方法主要有兩種:基于游戲的場景構(gòu)建(G)和基于世界的場景構(gòu)建(W)。如下圖左側(cè)為游戲的畫面場景和世界的房間場景。
- Physics。模擬真實(shí)的物理屬性,分為基本物理特征(B,如碰撞、剛體動(dòng)力學(xué)和重力建模)和高級物理特征(A,如流體和軟體物理學(xué))。如下圖右側(cè)。
- Object Type。用于創(chuàng)建模擬器的對象有兩個(gè)主要源:數(shù)據(jù)集驅(qū)動(dòng)的環(huán)境和資產(chǎn)驅(qū)動(dòng)的環(huán)境。
- Object Property。具有基本交互性的對象如碰撞、狀態(tài)更改(如蘋果被切成蘋果片),因此可分為:可交互對象(I)和多個(gè)狀態(tài)對象(M)。
- Controller。用戶和模擬器之間存在不同類型的控制器接口。如下圖的python接口、機(jī)器人接口或VR接口。
- Action。通過虛擬現(xiàn)實(shí)界面進(jìn)行人機(jī)操作,分為機(jī)器人操作三層:導(dǎo)航(N)、原子動(dòng)作(A)和人機(jī)交互(H)。
- Multi-Agent。多代理擁有更廣泛的實(shí)用價(jià)值,但目前涉及多代理強(qiáng)化學(xué)習(xí)的研究很少。
Embodied AI主要任務(wù)
如上圖所示,具身智能研究任務(wù)主要類型分別是視覺探索、視覺導(dǎo)航和具身QA。
- Visual Exploration:收集關(guān)于3D環(huán)境的信息,通常通過運(yùn)動(dòng)和感知,以更新其內(nèi)部環(huán)境模型。
- Visual Navigation:在有無外部先驗(yàn)或自然語言指令的情況下,將三維環(huán)境導(dǎo)航到目標(biāo)??梢苑譃镻oint Navigation、Object Navigation、Navigation with Priors、Vision-and-Language Navigation。
- Embodied QA:最重要的任務(wù),需要擁有廣泛的人工智能能力,如視覺識(shí)別、語言理解、問題回答、常識(shí)推理、任務(wù)規(guī)劃和行動(dòng)驅(qū)動(dòng)導(dǎo)航。Multi-target embodied QA、Interactive Question Answering。
Reference
Embodied Intelligence via Learning and Evolution
A Survey of Embodied AI: From Simulators to Research Tasks
接下來補(bǔ)一些2篇和大模型結(jié)合的論文,不太全,歡迎留言補(bǔ)充。
Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
如題是Grounding Language任務(wù),即按照人類口頭指令執(zhí)行任務(wù)。和語言模型結(jié)合的motivation在于,大語言模型可以編碼關(guān)于世界的豐富語義知識(shí),這些知識(shí)對于機(jī)器人能夠執(zhí)行高水平的指令可能非常有用。然而,語言模型的一個(gè)顯著弱點(diǎn)是它們?nèi)狈ΜF(xiàn)實(shí)世界的經(jīng)驗(yàn),這使得很難利用它們來進(jìn)行具象決策。
如下圖所示,對于“我把飲料灑了出來,你能幫忙嗎?” ,缺乏現(xiàn)實(shí)經(jīng)驗(yàn)的語言模型可能會(huì)給出不現(xiàn)實(shí)的建議,如如果現(xiàn)場沒有吸塵器等物品,機(jī)器人是無法幫忙清除飲料的。因此,相結(jié)合之下,機(jī)器人可以作為語言模型的“手和眼睛”,而語言模型則提供關(guān)于任務(wù)的高級語義知識(shí),從而將低級別技能與大型語言模型結(jié)合起來。
本文主要提出了一種將語言模型轉(zhuǎn)化為機(jī)器指令的方法,如上圖右側(cè),大規(guī)模語言模型的能力可以幫助分解語義從而得到足夠的可能,然后通過強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)價(jià)值函數(shù)來判斷可能的價(jià)值,最終指導(dǎo)機(jī)器人去找到海綿、拿起海綿、找到你、放下海綿、結(jié)束。具體的模型結(jié)構(gòu)如下圖所示,
給定一個(gè)高級指令,SayCan結(jié)合了來自LLM的概率(一個(gè)技能對指令有用的概率)和來自一個(gè)值函數(shù)的概率(為的概率 成功地執(zhí)行上述技能)來選擇要執(zhí)行的技能。
- LLM。先把指令變成Prompt形式,再利用LLM把指令分解成多個(gè)動(dòng)作,如拿起或放下蘋果。
- VF。通過訓(xùn)練好的價(jià)值函數(shù),聯(lián)合LLM給出動(dòng)作的概率分布,并使機(jī)器人執(zhí)行概率最大的動(dòng)作,如找到蘋果。
- 重復(fù)。執(zhí)行完第一個(gè)動(dòng)作之后,再拼接成新的prompt以生成第二個(gè)動(dòng)作。
code:https://github.com/google-research/google-research/tree/master/saycan
paper:https://arxiv.org/pdf/2204.01691
demo:https://sites.research.google/palm-saycan
A Generalist Agent
同樣受大規(guī)模語言建模的啟發(fā),Deepmind提出的Gato模型的關(guān)鍵詞是通用智能體、多模態(tài)、多任務(wù)。如上圖所示,同一個(gè)網(wǎng)絡(luò)可以玩游戲、生成caption、控制機(jī)器人等等,參數(shù)量為12億。模型結(jié)構(gòu)如下,各個(gè)模態(tài)的數(shù)據(jù)被分別編碼,如圖像用ViT等,然后輸入Gato.
Gato的主框架是一個(gè)24層decoder-only transformer,基于自回歸生成(用前t時(shí)間步去預(yù)測t+1的表征)后再和環(huán)境進(jìn)行交互。
L
(
θ
,
B
)
=
?
∑
h
=
1
∣
B
∣
∑
l
=
1
L
m
(
b
,
t
)
l
o
g
p
θ
(
s
l
(
b
)
∣
s
1
(
b
)
,
…
,
s
l
?
1
(
b
)
)
L(\theta,B)=-\sum^{|B|}_{h=1}\sum^L_{l=1} m(b,t)log p_{\theta}(s^{(b)}_l|s^{(b)}_1,…,s^{(b)}_{l-1})
L(θ,B)=?h=1∑∣B∣?l=1∑L?m(b,t)logpθ?(sl(b)?∣s1(b)?,…,sl?1(b)?)文章來源:http://www.zghlxwxcb.cn/news/detail-780116.html
paper文章來源地址http://www.zghlxwxcb.cn/news/detail-780116.html
到了這里,關(guān)于具身智能綜述和應(yīng)用(Embodied AI)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!