国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

具身智能綜述和應(yīng)用(Embodied AI)

這篇具有很好參考價(jià)值的文章主要介紹了具身智能綜述和應(yīng)用(Embodied AI)。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

什么是具身智能?
目前人工智能的進(jìn)展,在諸多數(shù)據(jù)源和數(shù)據(jù)集(Youtube、Flickr、Facebook)、機(jī)器計(jì)算能力(CPU、GPU、TPU)的加持下,已經(jīng)在CV、NLP上取得了許多任務(wù)(如目標(biāo)檢測、語義分割等)的重大進(jìn)展。

但目前大部分深度學(xué)習(xí)模型訓(xùn)練時(shí)使用的數(shù)據(jù)來自于互聯(lián)網(wǎng)(Internet AI),而并非來自現(xiàn)實(shí)世界的第一人稱人類視角,這樣訓(xùn)練得到的模型是旁觀型的,它只能學(xué)習(xí)到數(shù)據(jù)中的固定模式并將其映射到標(biāo)簽層,并不能在真實(shí)世界中直接進(jìn)行學(xué)習(xí),也不能對真實(shí)世界作出直接影響。

而在自然界中,動(dòng)物為了適應(yīng)環(huán)境會(huì)不斷地進(jìn)化以更好的生存和生活。對于人類來說,從嬰兒開始就扎根于真實(shí)世界,通過觀察、移動(dòng)、互動(dòng)和與他人交談來學(xué)習(xí),因此人腦中的很多認(rèn)知都依賴于主體物理身體特征與世界的連續(xù)型交互,而不是從混亂和隨機(jī)的經(jīng)驗(yàn)中學(xué)習(xí),這才是人類感知世界的方式!智能體是在主體與環(huán)境的相互作用中出現(xiàn)的,并且是感覺活動(dòng)的結(jié)果。

因此為了滿足AI機(jī)器人能夠像人類一樣在真實(shí)世界中實(shí)踐型學(xué)習(xí),具身智能(Embodied AI)逐漸成為一個(gè)熱門的討論點(diǎn),或許它就是通往通用人工智能的關(guān)鍵鑰匙。具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能,這意味著機(jī)器人應(yīng)該像人類一樣通過觀察、移動(dòng)、說話和與世界互動(dòng)來學(xué)習(xí)。

具身智能,深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),深度學(xué)習(xí),具象智能,embodied,視覺定位,機(jī)器人導(dǎo)航

Internet AI和Embodied AI的區(qū)別?
旁觀型標(biāo)簽學(xué)習(xí)方式 v.s. 實(shí)踐性概念學(xué)習(xí)方法

  • Internet AI從互聯(lián)網(wǎng)收集到的圖像、視頻或文本數(shù)據(jù)集中學(xué)習(xí),這些數(shù)據(jù)集往往制作精良,其與真實(shí)世界脫節(jié)、難以泛化和遷移。1)數(shù)據(jù)到標(biāo)簽的映射。2)無法在真實(shí)世界進(jìn)行體驗(yàn)學(xué)習(xí)。3)無法在真實(shí)世界做出影響。
  • Embodied AI通過與環(huán)境的互動(dòng),雖然以第一視角得到的數(shù)據(jù)不夠穩(wěn)定,但這種類似于人類的自我中心感知中學(xué)習(xí),從而從視覺、語言和推理到一個(gè)人工具象( artificial embodiment),可以幫助解決更多真實(shí)問題。

Embodied AI的挑戰(zhàn)
一個(gè)Embodied AI中的經(jīng)典任務(wù)如上圖所示,智能體必須先理解問題“汽車的顏色是什么”,然后找到汽車,再回答問題是“橙色”。因此智能體必須根據(jù)其對世界的感知、潛在的物理約束以及對問題的理解,學(xué)習(xí)將其視覺輸入映射到正確的動(dòng)作。

  • 主動(dòng)感知。智能體收集的數(shù)據(jù)是在環(huán)境中采取的行動(dòng)的結(jié)果,因此某種程度上它可以控制它想看到的像素。這與Internet AI中的靜態(tài)數(shù)據(jù)集不同。
  • 稀疏獎(jiǎng)勵(lì)。與監(jiān)督學(xué)習(xí)不同,智能體會(huì)為每個(gè)動(dòng)作收集即時(shí)獎(jiǎng)勵(lì),但它們通常是稀疏的,大多數(shù)情況下,僅當(dāng)它完成目標(biāo)(例如“步行到汽車”)時(shí)才會(huì)提供正向獎(jiǎng)勵(lì),但這會(huì)導(dǎo)致獎(jiǎng)勵(lì)稀疏。

Embodied AI的所需能力
一般需要測量、定位、導(dǎo)航、理解、實(shí)施、回答。主要有以下子任務(wù):

  • Visual Odometry。使用視覺來傳感器測量來智能體(比如無人機(jī))的特定自由度下的姿態(tài)、速度等物理量,一般作為 GPS、慣性導(dǎo)航系統(tǒng) (INS)、輪式里程計(jì)等的補(bǔ)充,它已被廣泛應(yīng)用于各種機(jī)器人。
  • Global Localization。給定環(huán)境地圖和環(huán)境觀察的情況下進(jìn)行定位。
  • Visual Navigation。在三維環(huán)境中導(dǎo)航是在物理世界中運(yùn)行的機(jī)器人的基本能力之一。
  • Grounded Language Learning。人類語言是這種交流最引人注目的方式,因此機(jī)器人必須要能夠?qū)⒄Z言、世界和行動(dòng)聯(lián)系起來。
  • Instruction Guided Visual Navigation。向機(jī)器人發(fā)出口頭指令,然后希望它會(huì)執(zhí)行和指令語義相關(guān)的任務(wù),這也是多模態(tài)領(lǐng)域一個(gè)很重要的方向,視覺和語言導(dǎo)航 (VLN)。
  • Embodied Question Answering。即上圖所示的例子,為了回答汽車的顏色是“橙色!”,它必須首先智能導(dǎo)航以探索環(huán)境,通過第一人稱視覺收集信息,然后回答問題。因此它需要先主動(dòng)感知、語言理解、目標(biāo)驅(qū)動(dòng)的導(dǎo)航、常識(shí)推理(如汽車通常位于房子的什么位置?),以及將語言轉(zhuǎn)化為動(dòng)作的基礎(chǔ)(如將文本中的實(shí)體與相應(yīng)的圖像像素或動(dòng)作序列相關(guān)聯(lián))。

數(shù)據(jù)集和虛擬環(huán)境
虛擬環(huán)境模擬器將承擔(dān)以前由監(jiān)督數(shù)據(jù)集扮演的角色。數(shù)據(jù)集一般由房屋、實(shí)驗(yàn)室、房間或外部世界的 3D 場景組成,然后模擬器允許具身agent與環(huán)境進(jìn)行物理交互,如觀察、移動(dòng)并與環(huán)境交互等等,甚至可以與其他agent或人類交談。為了使虛擬環(huán)境更貼近現(xiàn)實(shí),其一般需要構(gòu)建以下特征,

  • Environment。構(gòu)建具體化的人工智能模擬器環(huán)境的方法主要有兩種:基于游戲的場景構(gòu)建(G)和基于世界的場景構(gòu)建(W)。如下圖左側(cè)為游戲的畫面場景和世界的房間場景。
  • Physics。模擬真實(shí)的物理屬性,分為基本物理特征(B,如碰撞、剛體動(dòng)力學(xué)和重力建模)和高級物理特征(A,如流體和軟體物理學(xué))。如下圖右側(cè)。

具身智能,深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),深度學(xué)習(xí),具象智能,embodied,視覺定位,機(jī)器人導(dǎo)航

  • Object Type。用于創(chuàng)建模擬器的對象有兩個(gè)主要源:數(shù)據(jù)集驅(qū)動(dòng)的環(huán)境和資產(chǎn)驅(qū)動(dòng)的環(huán)境。
  • Object Property。具有基本交互性的對象如碰撞、狀態(tài)更改(如蘋果被切成蘋果片),因此可分為:可交互對象(I)和多個(gè)狀態(tài)對象(M)。
  • Controller。用戶和模擬器之間存在不同類型的控制器接口。如下圖的python接口、機(jī)器人接口或VR接口。

具身智能,深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),深度學(xué)習(xí),具象智能,embodied,視覺定位,機(jī)器人導(dǎo)航

  • Action。通過虛擬現(xiàn)實(shí)界面進(jìn)行人機(jī)操作,分為機(jī)器人操作三層:導(dǎo)航(N)、原子動(dòng)作(A)和人機(jī)交互(H)。
  • Multi-Agent。多代理擁有更廣泛的實(shí)用價(jià)值,但目前涉及多代理強(qiáng)化學(xué)習(xí)的研究很少。

具身智能,深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),深度學(xué)習(xí),具象智能,embodied,視覺定位,機(jī)器人導(dǎo)航
Embodied AI主要任務(wù)
如上圖所示,具身智能研究任務(wù)主要類型分別是視覺探索、視覺導(dǎo)航和具身QA。

  • Visual Exploration:收集關(guān)于3D環(huán)境的信息,通常通過運(yùn)動(dòng)和感知,以更新其內(nèi)部環(huán)境模型。
  • Visual Navigation:在有無外部先驗(yàn)或自然語言指令的情況下,將三維環(huán)境導(dǎo)航到目標(biāo)??梢苑譃镻oint Navigation、Object Navigation、Navigation with Priors、Vision-and-Language Navigation。
  • Embodied QA:最重要的任務(wù),需要擁有廣泛的人工智能能力,如視覺識(shí)別、語言理解、問題回答、常識(shí)推理、任務(wù)規(guī)劃和行動(dòng)驅(qū)動(dòng)導(dǎo)航。Multi-target embodied QA、Interactive Question Answering。

Reference
Embodied Intelligence via Learning and Evolution
A Survey of Embodied AI: From Simulators to Research Tasks


接下來補(bǔ)一些2篇和大模型結(jié)合的論文,不太全,歡迎留言補(bǔ)充。


Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
如題是Grounding Language任務(wù),即按照人類口頭指令執(zhí)行任務(wù)。和語言模型結(jié)合的motivation在于,大語言模型可以編碼關(guān)于世界的豐富語義知識(shí),這些知識(shí)對于機(jī)器人能夠執(zhí)行高水平的指令可能非常有用。然而,語言模型的一個(gè)顯著弱點(diǎn)是它們?nèi)狈ΜF(xiàn)實(shí)世界的經(jīng)驗(yàn),這使得很難利用它們來進(jìn)行具象決策。

如下圖所示,對于“我把飲料灑了出來,你能幫忙嗎?” ,缺乏現(xiàn)實(shí)經(jīng)驗(yàn)的語言模型可能會(huì)給出不現(xiàn)實(shí)的建議,如如果現(xiàn)場沒有吸塵器等物品,機(jī)器人是無法幫忙清除飲料的。因此,相結(jié)合之下,機(jī)器人可以作為語言模型的“手和眼睛”,而語言模型則提供關(guān)于任務(wù)的高級語義知識(shí),從而將低級別技能與大型語言模型結(jié)合起來。
具身智能,深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),深度學(xué)習(xí),具象智能,embodied,視覺定位,機(jī)器人導(dǎo)航

本文主要提出了一種將語言模型轉(zhuǎn)化為機(jī)器指令的方法,如上圖右側(cè),大規(guī)模語言模型的能力可以幫助分解語義從而得到足夠的可能,然后通過強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)價(jià)值函數(shù)來判斷可能的價(jià)值,最終指導(dǎo)機(jī)器人去找到海綿、拿起海綿、找到你、放下海綿、結(jié)束。具體的模型結(jié)構(gòu)如下圖所示,

具身智能,深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),深度學(xué)習(xí),具象智能,embodied,視覺定位,機(jī)器人導(dǎo)航

給定一個(gè)高級指令,SayCan結(jié)合了來自LLM的概率(一個(gè)技能對指令有用的概率)和來自一個(gè)值函數(shù)的概率(為的概率 成功地執(zhí)行上述技能)來選擇要執(zhí)行的技能。

  • LLM。先把指令變成Prompt形式,再利用LLM把指令分解成多個(gè)動(dòng)作,如拿起或放下蘋果。
  • VF。通過訓(xùn)練好的價(jià)值函數(shù),聯(lián)合LLM給出動(dòng)作的概率分布,并使機(jī)器人執(zhí)行概率最大的動(dòng)作,如找到蘋果。
  • 重復(fù)。執(zhí)行完第一個(gè)動(dòng)作之后,再拼接成新的prompt以生成第二個(gè)動(dòng)作。

code:https://github.com/google-research/google-research/tree/master/saycan
paper:https://arxiv.org/pdf/2204.01691
demo:https://sites.research.google/palm-saycan

具身智能,深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),深度學(xué)習(xí),具象智能,embodied,視覺定位,機(jī)器人導(dǎo)航

A Generalist Agent
同樣受大規(guī)模語言建模的啟發(fā),Deepmind提出的Gato模型的關(guān)鍵詞是通用智能體、多模態(tài)、多任務(wù)。如上圖所示,同一個(gè)網(wǎng)絡(luò)可以玩游戲、生成caption、控制機(jī)器人等等,參數(shù)量為12億。模型結(jié)構(gòu)如下,各個(gè)模態(tài)的數(shù)據(jù)被分別編碼,如圖像用ViT等,然后輸入Gato.
具身智能,深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),深度學(xué)習(xí),具象智能,embodied,視覺定位,機(jī)器人導(dǎo)航
Gato的主框架是一個(gè)24層decoder-only transformer,基于自回歸生成(用前t時(shí)間步去預(yù)測t+1的表征)后再和環(huán)境進(jìn)行交互。 L ( θ , B ) = ? ∑ h = 1 ∣ B ∣ ∑ l = 1 L m ( b , t ) l o g p θ ( s l ( b ) ∣ s 1 ( b ) , … , s l ? 1 ( b ) ) L(\theta,B)=-\sum^{|B|}_{h=1}\sum^L_{l=1} m(b,t)log p_{\theta}(s^{(b)}_l|s^{(b)}_1,…,s^{(b)}_{l-1}) L(θ,B)=?h=1B?l=1L?m(b,t)logpθ?(sl(b)?s1(b)?,,sl?1(b)?)

paper文章來源地址http://www.zghlxwxcb.cn/news/detail-780116.html

到了這里,關(guān)于具身智能綜述和應(yīng)用(Embodied AI)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【具身智能模型1】PaLM-E: An Embodied Multimodal Language Model

    【具身智能模型1】PaLM-E: An Embodied Multimodal Language Model

    論文標(biāo)題:PaLM-E: An Embodied Multimodal Language Model 論文作者:Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus

    2024年02月07日
    瀏覽(16)
  • 人工智能課程筆記(7)強(qiáng)化學(xué)習(xí)(基本概念 Q學(xué)習(xí) 深度強(qiáng)化學(xué)習(xí) 附有大量例題)

    人工智能課程筆記(7)強(qiáng)化學(xué)習(xí)(基本概念 Q學(xué)習(xí) 深度強(qiáng)化學(xué)習(xí) 附有大量例題)

    強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)都是機(jī)器學(xué)習(xí)的分支,但是兩者在方法和應(yīng)用場景上有所不同。 強(qiáng)化學(xué)習(xí) : 強(qiáng)化學(xué)習(xí)概述 :強(qiáng)化學(xué)習(xí)是一種通過智能體與環(huán)境進(jìn)行交互來學(xué)習(xí)最優(yōu)行動(dòng)策略的算法。在強(qiáng)化學(xué)習(xí)中,智能體與環(huán)境不斷交互,觀察環(huán)境的狀態(tài)并采取不同的行動(dòng),從而獲得獎(jiǎng)

    2024年01月17日
    瀏覽(27)
  • 通用人工智能之路:什么是強(qiáng)化學(xué)習(xí)?如何結(jié)合深度學(xué)習(xí)?

    通用人工智能之路:什么是強(qiáng)化學(xué)習(xí)?如何結(jié)合深度學(xué)習(xí)?

    2015年, OpenAI 由馬斯克、美國創(chuàng)業(yè)孵化器Y Combinator總裁阿爾特曼、全球在線支付平臺(tái)PayPal聯(lián)合創(chuàng)始人彼得·蒂爾等硅谷科技大亨創(chuàng)立,公司核心宗旨在于 實(shí)現(xiàn)安全的通用人工智能(AGI) ,使其有益于人類。 ChatGPT 是 OpenAI 推出的一個(gè)基于對話的原型 AI 聊天機(jī)器人,2022年12 月 1

    2024年02月16日
    瀏覽(34)
  • 深度強(qiáng)化學(xué)習(xí)在虛擬現(xiàn)實(shí)領(lǐng)域的進(jìn)展:智能體驗(yàn)的發(fā)展

    虛擬現(xiàn)實(shí)(VR)技術(shù)的發(fā)展已經(jīng)進(jìn)入了一個(gè)新的高潮,它正在改變我們的生活方式和工作方式。虛擬現(xiàn)實(shí)技術(shù)可以讓我們在虛擬世界中與其他人互動(dòng),體驗(yàn)各種各樣的場景和情境。然而,為了讓虛擬現(xiàn)實(shí)更加智能化和自然化,我們需要開發(fā)更先進(jìn)的算法和技術(shù)來讓虛擬現(xiàn)實(shí)系統(tǒng)更

    2024年02月22日
    瀏覽(22)
  • 深度強(qiáng)化學(xué)習(xí)與人工智能:如何實(shí)現(xiàn)高效的資源分配

    深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)是一種人工智能技術(shù),它結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩個(gè)領(lǐng)域的優(yōu)點(diǎn),以解決復(fù)雜的決策問題。在過去的幾年里,DRL已經(jīng)取得了顯著的成果,例如在游戲、機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域的應(yīng)用。在資源分配方面,DRL可以幫助企業(yè)更有效地

    2024年02月21日
    瀏覽(26)
  • 走進(jìn)人工智能|強(qiáng)化學(xué)習(xí) AI發(fā)展的未來引擎

    走進(jìn)人工智能|強(qiáng)化學(xué)習(xí) AI發(fā)展的未來引擎

    前言: 強(qiáng)化學(xué)習(xí)是一種通過智能體與環(huán)境交互,通過嘗試最大化累計(jì)獎(jiǎng)勵(lì)來學(xué)習(xí)最優(yōu)行為策略的機(jī)器學(xué)習(xí)方法。 本篇帶你走進(jìn)強(qiáng)化學(xué)習(xí)!一起來學(xué)習(xí)了解吧!??! 強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,旨在通過試錯(cuò)來學(xué)習(xí)正確的行為。與其他機(jī)器學(xué)習(xí)方法不同,強(qiáng)化學(xué)習(xí)的主要目

    2024年02月10日
    瀏覽(98)
  • 【具身智能】AI仿真工具-Habitat安裝教程

    【具身智能】AI仿真工具-Habitat安裝教程

    Habitat 是一個(gè)具體人工智能研究平臺(tái),包括: Habitat-Sim :一種靈活的高性能 3D 模擬器,具有可配置代理、多個(gè)傳感器和通用 3D 數(shù)據(jù)集處理(內(nèi)置對 MatterPort3D、 Gibson和其他數(shù)據(jù)集的支持)。 Habitat-Sim 通常與 Habitat-Lab一起使用,Habitat-Lab 是一個(gè)模塊化高級庫,用于嵌入式 AI 中

    2024年03月24日
    瀏覽(30)
  • 使用yolov5和強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)AI智能歡樂斗地主(一)

    使用yolov5和強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)AI智能歡樂斗地主(一)

    你好! 歡迎閱讀我的文章,本章將介紹,如何使用yolov5和強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)AI斗地主,本項(xiàng)目將分為三個(gè)部分,其中包含(yolov5目標(biāo)檢測,pyqt5頁面搭建,強(qiáng)化學(xué)習(xí)訓(xùn)練出牌)。為什么會(huì)做這個(gè)項(xiàng)目呢,主要是出于作者本人感興趣,我也喜歡打牌,即使這個(gè)項(xiàng)目可能在多數(shù)項(xiàng)

    2024年02月11日
    瀏覽(31)
  • 人類反饋強(qiáng)化學(xué)習(xí)RLHF;微軟應(yīng)用商店推出AI摘要功能

    人類反饋強(qiáng)化學(xué)習(xí)RLHF;微軟應(yīng)用商店推出AI摘要功能

    ?? AI新聞 ?? 微軟應(yīng)用商店推出AI摘要功能,快速總結(jié)用戶對App的評價(jià) 摘要 :微軟應(yīng)用商店正式推出了AI摘要功能,該功能能夠?qū)?shù)千條在線評論總結(jié)成一段精練的文字,為用戶選擇和下載新應(yīng)用和游戲提供參考。該功能目前只適用于美國Windows 11用戶,并有望向更多國家和

    2024年02月12日
    瀏覽(19)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包