国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃

2年前作者：詩者才子酒中仙分類：Toy博客閱讀(20)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

來自清華大學(xué)交叉信息研究院的研究者提出了「ViLa」（全稱 Robotic Vision-Language Planning）算法，其能在非常復(fù)雜的環(huán)境中控制機(jī)器人，為機(jī)器人提供任務(wù)規(guī)劃。

GPT-4V 已經(jīng)能幫我們設(shè)計(jì)網(wǎng)站代碼，控制瀏覽器，這些應(yīng)用集中在虛擬數(shù)字世界中。假如我們把 GPT-4V 帶入現(xiàn)實(shí)世界，讓它作為控制機(jī)器人的大腦，會有什么有趣的結(jié)果呢？

最近，來自清華大學(xué)交叉信息研究院的研究者提出「ViLa」算法，實(shí)現(xiàn)了讓 GPT-4V 走進(jìn)物理世界中，為機(jī)器人操作日常生活物品提供任務(wù)規(guī)劃。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

ViLa 全稱是 Robotic Vision-Language Planning，它利用 GPT-4V 在視覺和語言兩個模態(tài)上做聯(lián)合推理的能力，把抽象的語言指令分解為一系列可執(zhí)行的步驟。ViLa 最讓人驚喜的是它展現(xiàn)出對物理世界中常識的理解，而這是很多之前基于大語言模型（LLM）的機(jī)器人任務(wù)規(guī)劃算法所欠缺的。

比如在下面這個視頻中，研究人員讓機(jī)器人拿出擱板上的漫威模型（鋼鐵俠）。ViLa 能理解這個場景中物體的復(fù)雜空間位置關(guān)系，即紙杯和可樂罐擋住了鋼鐵俠，要拿出鋼鐵俠，則必須先拿走紙杯和可樂罐。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

又比如在下面這個視頻中，研究人員讓機(jī)器人為上美術(shù)課的孩子們整理出一個桌面區(qū)域。ViLa 能根據(jù)這個場景中的剪紙，推斷出現(xiàn)在上課所需的工具是剪刀，把其它危險(xiǎn)物品，比如螺絲刀和水果刀放入收納盒中。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

可以看出，ViLa 具有像人類一樣的常識，能在非常復(fù)雜的環(huán)境中控制機(jī)器人，為機(jī)器人提供任務(wù)規(guī)劃。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

論文地址：https://arxiv.org/pdf/2311.17842.pdf
論文主頁：https://robot-vila.github.io/
論文視頻：https://www.youtube.com/watch?v=t8pPZ46xtuc

接下來，該研究詳細(xì)介紹了 ViLa 這項(xiàng)研究成果。

方法介紹

ViLa 使用了視覺語言大模型 (VLM) 來做機(jī)器人的任務(wù)規(guī)劃。如今的 VLM 在圖像和語言兩個模態(tài)上都展現(xiàn)出前所未有的理解和推理能力。將 VLM 應(yīng)用到機(jī)器人任務(wù)中，它能基于當(dāng)前環(huán)境的視覺觀測，結(jié)合自己豐富的世界知識進(jìn)行推理。作者團(tuán)隊(duì)提出了 ViLa 算法，主張直接使用視覺語言大模型（如 GPT-4V），將高級抽象指令分解為一系列低級可執(zhí)行技能。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

給定一條語言指令和當(dāng)前的視覺觀測圖像，ViLa 利用 GPT-4V 通過鏈?zhǔn)剿季S推理來理解環(huán)境場景，隨后生成多步的計(jì)劃。接著，這個計(jì)劃的第一步由一個基本策略來執(zhí)行。最后，已經(jīng)執(zhí)行的步驟被添加到已完成的計(jì)劃中，使得在動態(tài)環(huán)境中實(shí)現(xiàn)閉環(huán)規(guī)劃方法。

GPT-4V 由于經(jīng)過大規(guī)?；ヂ?lián)網(wǎng)數(shù)據(jù)的訓(xùn)練，展現(xiàn)出了卓越的多樣性和極強(qiáng)的泛化能力。這些特性使得它特別擅長處理論文中提出的開放世界場景。此外，作者團(tuán)隊(duì)發(fā)現(xiàn)，即使是在零樣本（Zero-Shot）學(xué)習(xí)模式下運(yùn)行，由 GPT-4V 驅(qū)動的 ViLa 也能夠解決多種具有挑戰(zhàn)性的規(guī)劃問題。這顯著減少了之前方法中所需的提示工程。

實(shí)驗(yàn)

ViLa 在現(xiàn)實(shí)世界和模擬環(huán)境中都展示了以零樣本方式解決各種日常操作任務(wù)的能力，有效處理各種開放集指令和物體對象。作者團(tuán)隊(duì)通過大量實(shí)驗(yàn)證明了 ViLa 的優(yōu)勢：1. ViLa 能深刻理解視覺世界中的常識，2. ViLa 支持靈活的多模態(tài)目標(biāo)指定方法，3. ViLa 自然地支持視覺反饋和閉環(huán)控制。

A. ViLa 能深刻理解視覺世界中的常識

語言和圖像作為不同的信號類型，各具獨(dú)特性質(zhì)：語言由人類生成，富含語義，但在表達(dá)全面信息方面有限；相比之下，圖像作為自然信號，包含細(xì)致的低層次特征，一張圖像便能夠捕捉場景的全部信息。在難以用語言簡單概括的復(fù)雜場景下，這種差異尤為突出。通過將視覺圖片直接結(jié)合到推理過程中，ViLa 可以理解視覺世界的常識知識，擅長處理需要全面了解空間布局或物體屬性的復(fù)雜任務(wù)。

空間布局

用簡單的語言描述復(fù)雜的空間布局，尤其是物體定位、位置關(guān)系和環(huán)境限制，是非常困難的。通過直接將視覺融入推理過程，ViLa 可以精確地識別物體在場景中的位置，以及它們之間的關(guān)系。

在 “拿可樂罐” 任務(wù)中，ViLa 發(fā)現(xiàn)可樂罐不在視線中，于是聰明地打開了冰箱并找到了它。而基線方法則會在可樂罐不在視線中的情況下給出” 拿起可樂罐 “的錯誤指令。

在 “拿空盤子” 任務(wù)中，ViLa 知道在拿起藍(lán)色盤子之前，需要先把它上面的蘋果和香蕉移走。而基線方法則忽視了盤子上的物體，直接給出” 拿起藍(lán)色盤子 “的錯誤指令。

物體屬性

物體的定義涵蓋多個屬性，包括形狀、顏色、材質(zhì)、功能等。然而，自然語言的表達(dá)能力有限，因此在全面?zhèn)鬟_(dá)這些屬性方面顯得笨拙。此外，物體的屬性與特定任務(wù)密切相關(guān)。以上原因使得過去的算法難以處理需要深入理解復(fù)雜物體屬性的場景。然而，得益于對視覺和語言的聯(lián)合推理，ViLa 對于物體在特定場景中的屬性有深入的理解。

在 “準(zhǔn)備美術(shù)課” 任務(wù)中，ViLa 認(rèn)為螺絲刀和水果刀是危險(xiǎn)物品，于是移走了它們；考慮到桌上的剪紙，ViLa 認(rèn)為剪刀對美術(shù)課是必要的物品，于是留下了它。而基線方法則忽視了桌上的剪紙和美術(shù)課這一特定場景，認(rèn)為剪刀也是危險(xiǎn)物品，選擇將其移走。

在 “挑選新鮮水果” 任務(wù)中，ViLa 可以精確地挑選出新鮮且完整的水果。而基線方法認(rèn)為剝了一半的橘子和腐爛的香蕉都是完整且新鮮的水果。

作者團(tuán)隊(duì)在 8 個相關(guān)任務(wù)上進(jìn)行了充分的定量實(shí)驗(yàn)。如表一所示，ViLa 在理解空間布局和物體屬性任務(wù)上顯著超過了基線方法。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

B. 多模態(tài)目標(biāo)指定

ViLa 支持靈活的多模態(tài)目標(biāo)指定方法。ViLa 不僅能夠利用語言指令，還能夠利用多種形式的圖像作為目標(biāo)，甚至利用語言和圖像的混合形式來定義目標(biāo)。

視頻中的四個任務(wù)分別表明：

ViLa 可以將真實(shí)圖片作為目標(biāo)。
ViLa 可以將抽象圖片（如小孩的畫，草稿等）作為目標(biāo)。
ViLa 可以將語言和圖像的混合形式作為目標(biāo)。
ViLa 可以發(fā)現(xiàn)圖片中手指指著的位置，并將其作為實(shí)際任務(wù)中的目標(biāo)位置。

作者團(tuán)隊(duì)在這四個任務(wù)上進(jìn)行了定量實(shí)驗(yàn)。如表二所示，ViLa 在所有任務(wù)中均表現(xiàn)出了強(qiáng)大的識別多模態(tài)目標(biāo)的能力。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

C. 視覺反饋

ViLa 以直觀、自然的方式有效利用視覺反饋，在動態(tài)環(huán)境中實(shí)現(xiàn)魯棒的閉環(huán)規(guī)劃。

在 “堆木塊” 任務(wù)中，ViLa 檢測出了執(zhí)行基本技能時(shí)的失敗，于是重新執(zhí)行了一遍基本技能。
在 “放薯片” 任務(wù)中，ViLa 意識到了執(zhí)行過程中人的干擾。
在 “找貓糧” 任務(wù)中，ViLa 可以不斷地打開抽屜 / 柜子來尋找貓糧，直到找到。
此外，ViLa 可以完成需要人機(jī)交互的任務(wù)，等待人握住可樂罐之后才松開夾爪。

作者團(tuán)隊(duì)在這四個任務(wù)上進(jìn)行了定量實(shí)驗(yàn)。如表三中所示，通過自然地結(jié)合視覺反饋，閉環(huán)控制的 ViLa 的表現(xiàn)顯著強(qiáng)于開環(huán)控制。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

D. 模擬環(huán)境實(shí)驗(yàn)

在模擬環(huán)境中，ViLa 可以按照高級語言指令的指示，將桌子上的物體重新組織成特定的排列。

如表四中所示，ViLa 在模擬環(huán)境中的表現(xiàn)也顯著超過了基線方法。

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃,云計(jì)算 / 大數(shù)據(jù) / 安全 / 數(shù)據(jù)庫,物聯(lián)網(wǎng) / 互聯(lián)網(wǎng) / 人工智能 / 其他,機(jī)器人,人工智能

?文章來源地址http://www.zghlxwxcb.cn/news/detail-789564.html

到了這里，關(guān)于當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

解讀Amazon Q | 用AI聊天機(jī)器人連接你與未來的無限可能
授權(quán)聲明：本篇文章授權(quán)活動官方亞馬遜云科技文章轉(zhuǎn)發(fā)、改寫權(quán)，包括不限于在亞馬遜云科技開發(fā)者社區(qū), 知乎，自媒體平臺，第三方開發(fā)者媒體等亞馬遜云科技官方渠道 ????????在美國當(dāng)?shù)貢r(shí)間11月28日，亞馬遜云科技在拉斯維加斯舉辦了 re:Invent 大會，大會介紹了許
2024年02月04日
瀏覽(20)
GPT2訓(xùn)練自己的對話問答機(jī)器人
這里我搭建了虛擬的3.6環(huán)境基于GPT2的中文閑聊機(jī)器人，模型實(shí)現(xiàn)基于HuggingFace的transformers ,精讀GPT2-Chinese的論文和代碼，獲益匪淺。 data/train.txt:默認(rèn)的原始訓(xùn)練集文件，存放閑聊語料;data/train.pkl:對原始訓(xùn)練語料進(jìn)行tokenize之后的文件,存儲一個list對象，list的每條數(shù)據(jù)表示一個
2024年02月12日
瀏覽(23)
GPT護(hù)理機(jī)器人 - 讓護(hù)士的工作變簡單
書接上文《GPT接入企微應(yīng)用 - 讓工作快樂起來》，我把GPT接入了企微應(yīng)用，不少同事都開始嘗試起來了。有的淺嘗輒止，有的刨根問底，五花八門，無所不有。這里摘抄幾份： “幫我寫一份表白信，我們是大學(xué)同學(xué)，暗戀十年” ”順產(chǎn)后多久可以用收腹帶？生完寶寶用收腹
2024年02月01日
瀏覽(21)
自然機(jī)器人最新發(fā)布：智能流程助手，與GPT深度融合
????????ChatGPT自2022年11月上線后就受到現(xiàn)象級地廣泛關(guān)注，5天時(shí)間用戶就已經(jīng)突破百萬，僅2個月時(shí)間月活用戶就突破1億，成為史上增速最快的消費(fèi)級應(yīng)用，遠(yuǎn)超TikTok、Facebook、Google等全球應(yīng)用。它展現(xiàn)了類似人類的語言理解和對話交互能力，充分彰顯了其引領(lǐng)當(dāng)前AI發(fā)展
2023年04月13日
瀏覽(28)
群輝用戶接入vocechat的方法（附開通GPT機(jī)器人）
昨天的找群輝文章的時(shí)候看到了vocechat，同時(shí)在礦神的第三方擴(kuò)展找到不了它，synology chat很好，但是很多時(shí)候安裝不上。所以介紹一下vocechat，這款工具通過加入礦神第三方資源，搜索chat，進(jìn)行安裝。結(jié)束安裝點(diǎn)打開是空白頁面，手工的端口后加入 /install。開始初始化配置。
2024年02月16日
瀏覽(19)
手搓GPT系列之 - chatgpt + langchain 實(shí)現(xiàn)一個書本解讀機(jī)器人
ChatGPT已經(jīng)威名遠(yuǎn)播，關(guān)于如何使用大模型來構(gòu)建應(yīng)用還處于十分前期的探索階段。各種基于大模型的應(yīng)用技術(shù)也層出不窮。本文將給大家介紹一款基于大模型的應(yīng)用框架：langchain。langchain集成了做一個基于大模型應(yīng)用所需的一切。熟悉java web應(yīng)用的同學(xué)們應(yīng)該十分熟悉spring
2024年02月05日
瀏覽(18)
AgentGPT：基于GPT-4的開源AI自動化機(jī)器人工具
? 【產(chǎn)品介紹】 ??AgentGPT是一個基于GPT-4的開源AI自動化機(jī)器人工具，可以讓你在瀏覽器中配置和部署自主的 AI機(jī)器人。你可以給機(jī)器人設(shè)置一個名字和一個目標(biāo)，然后點(diǎn)擊部署按鈕，就可以看到機(jī)器人進(jìn)行的行為和輸出，完全不需要人為干涉的進(jìn)行自動任務(wù)。 ??AgentGPT是一
2024年02月08日
瀏覽(22)
使用Langchain+GPT+向量數(shù)據(jù)庫chromadb 來創(chuàng)建文檔對話機(jī)器人
使用Langchain+GPT+向量數(shù)據(jù)庫chromadb 來創(chuàng)建文檔對話機(jī)器人文件存放地址參考： https://python.langchain.com/docs/use_cases/chatbots https://python.langchain.com/docs/integrations/vectorstores/chroma https://blog.csdn.net/v_JULY_v/article/details/131552592?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216945020581680022659096
2024年02月03日
瀏覽(94)
Chat-GPT 聚合平臺 Poe：集成多個 AI 聊天機(jī)器人
Poe 是知名問答社區(qū) Quora 推出的 AI 平臺——開放探索平臺 (Platform for Open Exploration, Poe)。Poe 集成了多個基于大型語言模型的聊天機(jī)器人，包括 ChatGPT，以及 Sage、Claude、Dragonfly 等。每個機(jī)器人都有獨(dú)特的個性，用戶可根據(jù)其特性和用途來切換使用。 Claude：更擅長創(chuàng)意寫作任務(wù)
2024年02月11日
瀏覽(24)
LangChain入門(五)-使用GPT3.5模型構(gòu)建油管頻道問答機(jī)器人
目錄一、安裝依賴二、使用示例? 一、安裝依賴二、使用示例? 結(jié)尾、掃一掃下方微信名片即可+博主徽信哦? ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓? ↓↓↓
2024年02月11日
瀏覽(297)

<progress id="rpxfp"><option id="rpxfp"></option></progress>