国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃

這篇具有很好參考價(jià)值的文章主要介紹了當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

來自清華大學(xué)交叉信息研究院的研究者提出了「ViLa」(全稱 Robotic Vision-Language Planning)算法,其能在非常復(fù)雜的環(huán)境中控制機(jī)器人,為機(jī)器人提供任務(wù)規(guī)劃。

GPT-4V 已經(jīng)能幫我們設(shè)計(jì)網(wǎng)站代碼,控制瀏覽器,這些應(yīng)用集中在虛擬數(shù)字世界中。假如我們把 GPT-4V 帶入現(xiàn)實(shí)世界,讓它作為控制機(jī)器人的大腦,會有什么有趣的結(jié)果呢?

最近,來自清華大學(xué)交叉信息研究院的研究者提出「ViLa」算法,實(shí)現(xiàn)了讓 GPT-4V 走進(jìn)物理世界中,為機(jī)器人操作日常生活物品提供任務(wù)規(guī)劃。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

ViLa 全稱是 Robotic Vision-Language Planning,它利用 GPT-4V 在視覺和語言兩個模態(tài)上做聯(lián)合推理的能力,把抽象的語言指令分解為一系列可執(zhí)行的步驟。ViLa 最讓人驚喜的是它展現(xiàn)出對物理世界中常識的理解,而這是很多之前基于大語言模型(LLM)的機(jī)器人任務(wù)規(guī)劃算法所欠缺的。

比如在下面這個視頻中,研究人員讓機(jī)器人拿出擱板上的漫威模型(鋼鐵俠)。ViLa 能理解這個場景中物體的復(fù)雜空間位置關(guān)系,即紙杯和可樂罐擋住了鋼鐵俠,要拿出鋼鐵俠,則必須先拿走紙杯和可樂罐。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

又比如在下面這個視頻中,研究人員讓機(jī)器人為上美術(shù)課的孩子們整理出一個桌面區(qū)域。ViLa 能根據(jù)這個場景中的剪紙,推斷出現(xiàn)在上課所需的工具是剪刀,把其它危險(xiǎn)物品,比如螺絲刀和水果刀放入收納盒中。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

可以看出,ViLa 具有像人類一樣的常識,能在非常復(fù)雜的環(huán)境中控制機(jī)器人,為機(jī)器人提供任務(wù)規(guī)劃。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

  • 論文地址:https://arxiv.org/pdf/2311.17842.pdf
  • 論文主頁:https://robot-vila.github.io/
  • 論文視頻:https://www.youtube.com/watch?v=t8pPZ46xtuc

接下來,該研究詳細(xì)介紹了 ViLa 這項(xiàng)研究成果。

方法介紹

ViLa 使用了視覺語言大模型 (VLM) 來做機(jī)器人的任務(wù)規(guī)劃。如今的 VLM 在圖像和語言兩個模態(tài)上都展現(xiàn)出前所未有的理解和推理能力。將 VLM 應(yīng)用到機(jī)器人任務(wù)中,它能基于當(dāng)前環(huán)境的視覺觀測,結(jié)合自己豐富的世界知識進(jìn)行推理。作者團(tuán)隊(duì)提出了 ViLa 算法,主張直接使用視覺語言大模型(如 GPT-4V),將高級抽象指令分解為一系列低級可執(zhí)行技能。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

給定一條語言指令和當(dāng)前的視覺觀測圖像,ViLa 利用 GPT-4V 通過鏈?zhǔn)剿季S推理來理解環(huán)境場景,隨后生成多步的計(jì)劃。接著,這個計(jì)劃的第一步由一個基本策略來執(zhí)行。最后,已經(jīng)執(zhí)行的步驟被添加到已完成的計(jì)劃中,使得在動態(tài)環(huán)境中實(shí)現(xiàn)閉環(huán)規(guī)劃方法。

GPT-4V 由于經(jīng)過大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)的訓(xùn)練,展現(xiàn)出了卓越的多樣性和極強(qiáng)的泛化能力。這些特性使得它特別擅長處理論文中提出的開放世界場景。此外,作者團(tuán)隊(duì)發(fā)現(xiàn),即使是在零樣本(Zero-Shot)學(xué)習(xí)模式下運(yùn)行,由 GPT-4V 驅(qū)動的 ViLa 也能夠解決多種具有挑戰(zhàn)性的規(guī)劃問題。這顯著減少了之前方法中所需的提示工程。

實(shí)驗(yàn)

ViLa 在現(xiàn)實(shí)世界和模擬環(huán)境中都展示了以零樣本方式解決各種日常操作任務(wù)的能力,有效處理各種開放集指令和物體對象。作者團(tuán)隊(duì)通過大量實(shí)驗(yàn)證明了 ViLa 的優(yōu)勢:1. ViLa 能深刻理解視覺世界中的常識,2. ViLa 支持靈活的多模態(tài)目標(biāo)指定方法,3. ViLa 自然地支持視覺反饋和閉環(huán)控制。

A. ViLa 能深刻理解視覺世界中的常識

語言和圖像作為不同的信號類型,各具獨(dú)特性質(zhì):語言由人類生成,富含語義,但在表達(dá)全面信息方面有限;相比之下,圖像作為自然信號,包含細(xì)致的低層次特征,一張圖像便能夠捕捉場景的全部信息。在難以用語言簡單概括的復(fù)雜場景下,這種差異尤為突出。通過將視覺圖片直接結(jié)合到推理過程中,ViLa 可以理解視覺世界的常識知識,擅長處理需要全面了解空間布局或物體屬性的復(fù)雜任務(wù)。

空間布局

用簡單的語言描述復(fù)雜的空間布局,尤其是物體定位、位置關(guān)系和環(huán)境限制,是非常困難的。通過直接將視覺融入推理過程,ViLa 可以精確地識別物體在場景中的位置,以及它們之間的關(guān)系。

在 “拿可樂罐” 任務(wù)中,ViLa 發(fā)現(xiàn)可樂罐不在視線中,于是聰明地打開了冰箱并找到了它。而基線方法則會在可樂罐不在視線中的情況下給出” 拿起可樂罐 “的錯誤指令。

在 “拿空盤子” 任務(wù)中,ViLa 知道在拿起藍(lán)色盤子之前,需要先把它上面的蘋果和香蕉移走。而基線方法則忽視了盤子上的物體,直接給出” 拿起藍(lán)色盤子 “的錯誤指令。

物體屬性

物體的定義涵蓋多個屬性,包括形狀、顏色、材質(zhì)、功能等。然而,自然語言的表達(dá)能力有限,因此在全面?zhèn)鬟_(dá)這些屬性方面顯得笨拙。此外,物體的屬性與特定任務(wù)密切相關(guān)。以上原因使得過去的算法難以處理需要深入理解復(fù)雜物體屬性的場景。然而,得益于對視覺和語言的聯(lián)合推理,ViLa 對于物體在特定場景中的屬性有深入的理解。

在 “準(zhǔn)備美術(shù)課” 任務(wù)中,ViLa 認(rèn)為螺絲刀和水果刀是危險(xiǎn)物品,于是移走了它們;考慮到桌上的剪紙,ViLa 認(rèn)為剪刀對美術(shù)課是必要的物品,于是留下了它。而基線方法則忽視了桌上的剪紙和美術(shù)課這一特定場景,認(rèn)為剪刀也是危險(xiǎn)物品,選擇將其移走。

在 “挑選新鮮水果” 任務(wù)中,ViLa 可以精確地挑選出新鮮且完整的水果。而基線方法認(rèn)為剝了一半的橘子和腐爛的香蕉都是完整且新鮮的水果。

作者團(tuán)隊(duì)在 8 個相關(guān)任務(wù)上進(jìn)行了充分的定量實(shí)驗(yàn)。如表一所示,ViLa 在理解空間布局和物體屬性任務(wù)上顯著超過了基線方法。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

B. 多模態(tài)目標(biāo)指定

ViLa 支持靈活的多模態(tài)目標(biāo)指定方法。ViLa 不僅能夠利用語言指令,還能夠利用多種形式的圖像作為目標(biāo),甚至利用語言和圖像的混合形式來定義目標(biāo)。

視頻中的四個任務(wù)分別表明:

  1. ViLa 可以將真實(shí)圖片作為目標(biāo)。
  2. ViLa 可以將抽象圖片(如小孩的畫,草稿等)作為目標(biāo)。
  3. ViLa 可以將語言和圖像的混合形式作為目標(biāo)。
  4. ViLa 可以發(fā)現(xiàn)圖片中手指指著的位置,并將其作為實(shí)際任務(wù)中的目標(biāo)位置。

作者團(tuán)隊(duì)在這四個任務(wù)上進(jìn)行了定量實(shí)驗(yàn)。如表二所示,ViLa 在所有任務(wù)中均表現(xiàn)出了強(qiáng)大的識別多模態(tài)目標(biāo)的能力。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

C. 視覺反饋

ViLa 以直觀、自然的方式有效利用視覺反饋,在動態(tài)環(huán)境中實(shí)現(xiàn)魯棒的閉環(huán)規(guī)劃。

  • 在 “堆木塊” 任務(wù)中,ViLa 檢測出了執(zhí)行基本技能時(shí)的失敗,于是重新執(zhí)行了一遍基本技能。
  • 在 “放薯片” 任務(wù)中,ViLa 意識到了執(zhí)行過程中人的干擾。
  • 在 “找貓糧” 任務(wù)中,ViLa 可以不斷地打開抽屜 / 柜子來尋找貓糧,直到找到。
  • 此外,ViLa 可以完成需要人機(jī)交互的任務(wù),等待人握住可樂罐之后才松開夾爪。

作者團(tuán)隊(duì)在這四個任務(wù)上進(jìn)行了定量實(shí)驗(yàn)。如表三中所示,通過自然地結(jié)合視覺反饋,閉環(huán)控制的 ViLa 的表現(xiàn)顯著強(qiáng)于開環(huán)控制。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

D. 模擬環(huán)境實(shí)驗(yàn)

在模擬環(huán)境中,ViLa 可以按照高級語言指令的指示,將桌子上的物體重新組織成特定的排列。

如表四中所示,ViLa 在模擬環(huán)境中的表現(xiàn)也顯著超過了基線方法。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

?文章來源地址http://www.zghlxwxcb.cn/news/detail-789564.html

到了這里,關(guān)于當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 解讀Amazon Q | 用AI聊天機(jī)器人連接你與未來的無限可能

    解讀Amazon Q | 用AI聊天機(jī)器人連接你與未來的無限可能

    授權(quán)聲明:本篇文章授權(quán)活動官方亞馬遜云科技文章轉(zhuǎn)發(fā)、改寫權(quán),包括不限于在 亞馬遜云科技開發(fā)者社區(qū), 知乎,自媒體平臺,第三方開發(fā)者媒體等亞馬遜云科技官方渠道 ????????在美國當(dāng)?shù)貢r(shí)間11月28日,亞馬遜云科技在拉斯維加斯舉辦了 re:Invent 大會,大會介紹了許

    2024年02月04日
    瀏覽(20)
  • GPT2訓(xùn)練自己的對話問答機(jī)器人

    GPT2訓(xùn)練自己的對話問答機(jī)器人

    這里我搭建了虛擬的3.6環(huán)境 基于GPT2的中文閑聊機(jī)器人,模型實(shí)現(xiàn)基于HuggingFace的transformers ,精讀GPT2-Chinese的論文和代碼,獲益匪淺。 data/train.txt:默認(rèn)的原始訓(xùn)練集文件,存放閑聊語料;data/train.pkl:對原始訓(xùn)練語料進(jìn)行tokenize之后的文件,存儲一個list對象,list的每條數(shù)據(jù)表示一個

    2024年02月12日
    瀏覽(23)
  • GPT護(hù)理機(jī)器人 - 讓護(hù)士的工作變簡單

    GPT護(hù)理機(jī)器人 - 讓護(hù)士的工作變簡單

    書接上文《GPT接入企微應(yīng)用 - 讓工作快樂起來》,我把GPT接入了企微應(yīng)用,不少同事都開始嘗試起來了。有的淺嘗輒止,有的刨根問底,五花八門,無所不有。這里摘抄幾份: “幫我寫一份表白信,我們是大學(xué)同學(xué),暗戀十年” ”順產(chǎn)后多久可以用收腹帶?生完寶寶用收腹

    2024年02月01日
    瀏覽(21)
  • 自然機(jī)器人最新發(fā)布:智能流程助手,與GPT深度融合

    自然機(jī)器人最新發(fā)布:智能流程助手,與GPT深度融合

    ????????ChatGPT自2022年11月上線后就受到現(xiàn)象級地廣泛關(guān)注,5天時(shí)間用戶就已經(jīng)突破百萬,僅2個月時(shí)間月活用戶就突破1億,成為史上增速最快的消費(fèi)級應(yīng)用,遠(yuǎn)超TikTok、Facebook、Google等全球應(yīng)用。它 展現(xiàn)了類似人類的語言理解和對話交互能力,充分彰顯了其引領(lǐng)當(dāng)前AI發(fā)展

    2023年04月13日
    瀏覽(28)
  • 群輝用戶接入vocechat的方法(附開通GPT機(jī)器人)

    昨天的找群輝文章的時(shí)候看到了vocechat,同時(shí)在礦神的第三方擴(kuò)展找到不了它,synology chat很好,但是很多時(shí)候安裝不上。所以介紹一下vocechat,這款工具 通過加入礦神第三方資源,搜索chat,進(jìn)行安裝。結(jié)束安裝點(diǎn)打開是空白頁面,手工的端口后加入 /install。開始初始化配置。

    2024年02月16日
    瀏覽(19)
  • 手搓GPT系列之 - chatgpt + langchain 實(shí)現(xiàn)一個書本解讀機(jī)器人

    ChatGPT已經(jīng)威名遠(yuǎn)播,關(guān)于如何使用大模型來構(gòu)建應(yīng)用還處于十分前期的探索階段。各種基于大模型的應(yīng)用技術(shù)也層出不窮。本文將給大家介紹一款基于大模型的應(yīng)用框架:langchain。langchain集成了做一個基于大模型應(yīng)用所需的一切。熟悉java web應(yīng)用的同學(xué)們應(yīng)該十分熟悉spring

    2024年02月05日
    瀏覽(18)
  • AgentGPT:基于GPT-4的開源AI自動化機(jī)器人工具

    AgentGPT:基于GPT-4的開源AI自動化機(jī)器人工具

    ? 【產(chǎn)品介紹】 ??AgentGPT是一個基于GPT-4的開源AI自動化機(jī)器人工具,可以讓你在瀏覽器中配置和部署自主的 AI機(jī)器人。你可以給機(jī)器人設(shè)置一個名字和一個目標(biāo),然后點(diǎn)擊部署按鈕,就可以看到機(jī)器人進(jìn)行的行為和輸出,完全不需要人為干涉的進(jìn)行自動任務(wù)。 ??AgentGPT是一

    2024年02月08日
    瀏覽(22)
  • 使用Langchain+GPT+向量數(shù)據(jù)庫chromadb 來創(chuàng)建文檔對話機(jī)器人

    使用Langchain+GPT+向量數(shù)據(jù)庫chromadb 來創(chuàng)建文檔對話機(jī)器人

    使用Langchain+GPT+向量數(shù)據(jù)庫chromadb 來創(chuàng)建文檔對話機(jī)器人 文件存放地址 參考: https://python.langchain.com/docs/use_cases/chatbots https://python.langchain.com/docs/integrations/vectorstores/chroma https://blog.csdn.net/v_JULY_v/article/details/131552592?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216945020581680022659096

    2024年02月03日
    瀏覽(94)
  • Chat-GPT 聚合平臺 Poe:集成多個 AI 聊天機(jī)器人

    Chat-GPT 聚合平臺 Poe:集成多個 AI 聊天機(jī)器人

    Poe 是知名問答社區(qū) Quora 推出的 AI 平臺——開放探索平臺 (Platform for Open Exploration, Poe)。Poe 集成了多個基于大型語言模型的聊天機(jī)器人,包括 ChatGPT,以及 Sage、Claude、Dragonfly 等。每個機(jī)器人都有獨(dú)特的個性,用戶可根據(jù)其特性和用途來切換使用。 Claude:更擅長創(chuàng)意寫作任務(wù)

    2024年02月11日
    瀏覽(24)
  • LangChain入門(五)-使用GPT3.5模型構(gòu)建油管頻道問答機(jī)器人

    目錄 一、安裝依賴 二、使用示例? 一、安裝依賴 二、使用示例? 結(jié)尾、掃一掃下方微信名片即可+博主徽信哦? ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓? ↓↓↓

    2024年02月11日
    瀏覽(297)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包