国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

SELF GENERATED WARGAME AI

這篇具有很好參考價值的文章主要介紹了SELF GENERATED WARGAME AI。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

SELF GENERATED WARGAME AI: DOUBLE LAYER AGENT TASK PLANNING BASED ON LARGE LANGUAGE MODEL

自生成兵棋AI:基于大語言模型的雙城代理任務(wù)規(guī)劃

  • 摘要

    • 大語言模型應(yīng)用于智能決策領(lǐng)域,構(gòu)建了以大語言模型為決策核心的Agent架構(gòu)

    • 進(jìn)一步提出兩層Agent任務(wù)規(guī)劃,通過自然語言交互下達(dá)和執(zhí)行決策命令,并通過兵棋模擬環(huán)境進(jìn)行模擬驗證

    • 實驗發(fā)現(xiàn)

      • LLM的智能決策能力在智能性、可理解性和泛化性方面,明顯強于常用的強化學(xué)習(xí)AI和規(guī)則AI,都更好

      • LLM的智能度與提示密切相關(guān)

    • 將LLM從人機交互擴展到智能決策領(lǐng)域,對于智能決策的發(fā)展具有重要的參考價值和意義。

Introduction

  • ChatGPT在代碼等領(lǐng)域的突破給利用ChatGPT自生成AI在兵棋中做出智能決策帶來啟示(現(xiàn)今論文很通用的說法)

  • 深度學(xué)習(xí)、強化學(xué)習(xí)與智能兵棋不斷深入結(jié)合,智能體的智能不斷提高。但規(guī)則AI因規(guī)則的限制難以突破規(guī)則的上限;強化學(xué)習(xí)、深度學(xué)習(xí)可解釋性差,難以實現(xiàn)場景和捕獲點變化下的模型遷移。

  • 引出 提高人工智能在智能兵棋領(lǐng)域的智能化和泛化性成為進(jìn)一步研究的重點。

  • 文中又提到,對抗博弈的決策是復(fù)雜且連續(xù)的。為了使決策更加智能和泛化,論文設(shè)計一種基于大語言模型的自生成AI兵棋架構(gòu)。創(chuàng)建一種決策機制,涉及多個生成代理交互、模仿人類行為并生成可解釋、可信且高度通用的游戲?qū)剐灾悄軟Q策。

  • 論文三點核心工作

    • 自生成兵棋架構(gòu):multi-agent,每個agent可以通過反射流和記憶流相互通信和協(xié)作,并共同做出決策。可以相互交談,達(dá)到共享信息,分析情況,并根據(jù)談話內(nèi)容做出推斷和決策的目的(每個代理都有LLM驅(qū)動,multi-agent幾乎都是這樣處理的)

    • 構(gòu)建兩層Agent任務(wù)規(guī)劃模型,分戰(zhàn)略Agent和戰(zhàn)術(shù)Agent來規(guī)劃游戲?qū)惯^程的任務(wù)。

      • 戰(zhàn)略Agent描述所有當(dāng)前代理觀察到的特定情況。規(guī)劃是指根據(jù)觀察到的情境信息來分配和執(zhí)行任務(wù)。

      • 戰(zhàn)術(shù)Agent只關(guān)注單個Agent棋子觀察到的情況,并根據(jù)戰(zhàn)略規(guī)劃Agent執(zhí)行相關(guān)任務(wù)。戰(zhàn)術(shù)Agent針對戰(zhàn)略Agent發(fā)出的提示,也有自己的判斷和反饋。

    • 以兵棋為實驗平臺,實驗表明大語言模型的智能決策能力明顯強于強化學(xué)習(xí)AI和規(guī)則AI,且智能性、可理解性、泛化性均更好。同時發(fā)現(xiàn),向大型語言模型提供該領(lǐng)域?qū)<业南闰炛R可以顯著提高智力

生成式兵棋AI架構(gòu)

圖一:自生成兵棋AI在環(huán)境中交互的一個案例展示

SELF GENERATED WARGAME AI,人工智能

圖2:戰(zhàn)略Agent和戰(zhàn)術(shù)Agent關(guān)系

SELF GENERATED WARGAME AI,人工智能

  • Agent架構(gòu)組件

    • 內(nèi)存流:存儲和分配緩沖區(qū)、生成批次

    • 反射流:使用批處理作為LLM提示的反射流,了解其在決策中的作用

    • 任務(wù)規(guī)劃流:使Agent整合信息、制定更好的規(guī)劃

生成式兵棋AI模型

Agent互動

  • LLM將自然語言轉(zhuǎn)換為簡潔的符號表示給出action建議

圖3:雙層Agent任務(wù)規(guī)劃決策框架

SELF GENERATED WARGAME AI,人工智能

  • 生成action步驟:

    • LLM與檢索信息結(jié)合,利用提示調(diào)整輸出

    • 架構(gòu)為LLM提供提示

    • LLM選擇action的數(shù)字

    • Agent根據(jù)數(shù)字采取行動

  • 挑戰(zhàn): 生成最相關(guān)的內(nèi)存片段,同時從內(nèi)存流中檢索和合成相關(guān)數(shù)據(jù)

    • 全用gpt-4成本高、效率低,所以在不影響效果的情況下,戰(zhàn)略Agent用gpt-4,戰(zhàn)術(shù)用gpt-3.5

  • 內(nèi)存流

    • 內(nèi)存對象列表

      • 每個對象包括自然語言描述、創(chuàng)建時間、最近訪問時間

      • 基本元素:觀察,Agent觀察到的所有情景信息

    • 檢索函數(shù):從Agent的觀察中提取信息。選擇性的、優(yōu)先提取最近觀察、重要節(jié)點、相關(guān)記憶

      • 重要性分?jǐn)?shù):從記憶流中檢索相應(yīng)的記憶形成提示,讓代理生成相應(yīng)的重要性分?jǐn)?shù)并將其存儲回記憶流中

      • 利用這個分?jǐn)?shù)提取信息。score_final = α_recency ? score_recency + α_importance ? score_importance + α_relevance ? score_relevance

  • 反射流:通過對信息的觀察和行動的規(guī)劃來推斷和生成高級推理語義

    • 檢索函數(shù)中的分?jǐn)?shù)超過一定閾值時,就會觸發(fā)反射

    • 步驟:根據(jù)兵棋Agent之前的經(jīng)驗流程提出問題并進(jìn)行反思過程

  • 任務(wù)規(guī)劃流

    • 戰(zhàn)略Agent將所有Agent觀察的結(jié)果描述為:<總結(jié)、觀察、規(guī)劃>

仿真實驗

規(guī)則:紅藍(lán)雙方爭奪中間控制點(紅旗),最先到達(dá)控制點的一方獲勝?;蛘呷绻环奖涣硪环綇氐紫麥?,則另一方獲勝

  • 表一:在殺死、達(dá)成目標(biāo)、生存三個任務(wù)上的得分

    • SELF GENERATED WARGAME AI,人工智能

      GWAE:本文模型+專家經(jīng)驗
    • GWA:本文模型

  • 所有算法的勝率線圖

  • SELF GENERATED WARGAME AI,人工智能

圖6:平均勝率圖

SELF GENERATED WARGAME AI,人工智能

  • 左圖平均勝率散點圖,右圖任務(wù)平均得分熱圖

SELF GENERATED WARGAME AI,人工智能

  • 實驗結(jié)論:輸入專家經(jīng)驗?zāi)軌蝻@著提高模型性能,GWA和GWAE性能顯著優(yōu)于強化學(xué)習(xí)算法

結(jié)論

  • 決策用大語言模型經(jīng)過充分的提前訓(xùn)練,在實際游戲?qū)怪芯哂泻軓姷倪m應(yīng)性。無需等待重新開始訓(xùn)練,對于不同任務(wù)具有很強的智能性和泛化性。

  • 大語言模型所表現(xiàn)出的智能明顯強于一般的強化學(xué)習(xí)算法

  • 大語言模型的智能程度與提示之間存在顯著的相關(guān)性

  • 創(chuàng)新點

    • 大語言模型從以往的人機交互擴展到了智能決策領(lǐng)域文章來源地址http://www.zghlxwxcb.cn/news/detail-816109.html

到了這里,關(guān)于SELF GENERATED WARGAME AI的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • AI人工智能開發(fā)的5種最佳人工智能編程語言

    今天的AI程序員應(yīng)該掌握多種語言,因為他們在跨學(xué)科的環(huán)境中工作,而不是在孤島中工作。 雖然當(dāng)前這一代人更喜歡Python,R,Java,Lisp,Prolog,Julia等 ,但前端開發(fā)人員必須了解JavaScript,Python和R的機器學(xué)習(xí)應(yīng)用程序。一家知名組織的流程自動化首席開發(fā)人員了解R,Java,

    2023年04月16日
    瀏覽(20)
  • 【人工智能】AI 人工智能技術(shù)近十年演變發(fā)展歷程

    【人工智能】AI 人工智能技術(shù)近十年演變發(fā)展歷程

    過去十年對于人工智能(AI)領(lǐng)域來說是一段激動人心的多事之秋。對深度學(xué)習(xí)潛力的適度探索變成了一個領(lǐng)域的爆炸性擴散,現(xiàn)在包括從電子商務(wù)中的推薦系統(tǒng)到自動駕駛汽車的對象檢測以及可以創(chuàng)建從逼真的圖像到連貫文本的所有內(nèi)容的生成模型。 在本文中,我們將沿著

    2024年02月09日
    瀏覽(97)
  • 【人工智能】Responsible AI 負(fù)責(zé)任的人工智能:人工智能安全和隱私的未來 The Future of AI Security and Privacy

    【人工智能】Responsible AI 負(fù)責(zé)任的人工智能:人工智能安全和隱私的未來 The Future of AI Security and Privacy

    ? While AI development was mostly in the realm of research, practices such as sharing open datasets, publishing models publicly, and using any compute resources available all helped drive forward the state of the art. AI is now increasingly deployed in production environments in the commercial, healthcare, government, and defense sectors and Intel provides

    2023年04月09日
    瀏覽(20)
  • 人工智能ai寫作系統(tǒng),ai智能寫作機器人

    人工智能ai寫作系統(tǒng),ai智能寫作機器人

    ?人工智能AI大數(shù)據(jù)深度:基于偽原創(chuàng)算法,采用神經(jīng)網(wǎng)絡(luò)算法,在超過1535000篇文章中進(jìn)行自動學(xué)習(xí)、聚合算法進(jìn)行人工智能的創(chuàng)建,內(nèi)容語義不變,媒體阿里、騰訊、百度均于日前在百家號內(nèi)容創(chuàng)作者盛典上推出人工智能創(chuàng)作支撐平臺創(chuàng)作大腦。 智能助手可以為人類創(chuàng)作者

    2024年02月10日
    瀏覽(36)
  • 【AI人工智能】從技術(shù)角度看,我們離超級人工智能還有多遠(yuǎn)?

    目錄 前言 超級人工智能是什么? 一、計算能力 二、算法支持 三

    2024年02月06日
    瀏覽(35)
  • 人工智能AI簡史

    人工智能AI簡史

    最近學(xué)習(xí)AI,順便整理了一份AI人工智能簡史,大家參考: 1951年 第一臺神經(jīng)網(wǎng)絡(luò)機,稱為SNARC; 1956年 達(dá)特茅斯學(xué)院會議,正式確立了人工智能的研究領(lǐng)域; 1966年 MIT發(fā)明ELIZA人機心理治療對話程序,通過和數(shù)據(jù)庫實現(xiàn)心理咨詢; 1980年 CMU為DEC設(shè)計的XCON專家系統(tǒng)獲得巨

    2023年04月18日
    瀏覽(33)
  • AI人工智能簡史

    AI人工智能簡史

    最近學(xué)習(xí)AI,順便整理了一份AI人工智能簡史,大家參考: 1951年 第一臺神經(jīng)網(wǎng)絡(luò)機,稱為SNARC; 1956年 達(dá)特茅斯學(xué)院會議,正式確立了人工智能的研究領(lǐng)域; 1966年 MIT發(fā)明ELIZA人機心理治療對話程序,通過和數(shù)據(jù)庫實現(xiàn)心理咨詢; 1980年 CMU為DEC設(shè)計的XCON專家系統(tǒng)獲得巨

    2023年04月17日
    瀏覽(24)
  • 【人工智能 AI】什么是人工智能? What is Artificial Intelligence

    【人工智能 AI】什么是人工智能? What is Artificial Intelligence

    ? 目錄 Introduction to Artificial Intelligence人工智能概論 What is?Artificial Intelligence??什么是人工智能?

    2024年02月10日
    瀏覽(24)
  • 【人工智能】AI 人工智能:會給人類未來的工作帶來怎樣的轉(zhuǎn)變?

    0. 前言 人工智能(AI)將對人類未來的工作產(chǎn)生深刻的影響,這些轉(zhuǎn)變具體可以分為以下幾點: 自動化與智能優(yōu)化 : 人工智能可以實現(xiàn)自動化,從而提高工作效率。許多腦力和體力密集型的任務(wù)將不再需要人工完成,勞動力可用于更高級別的任務(wù)。 生產(chǎn)力增長 : 隨著AI的廣泛

    2024年02月08日
    瀏覽(173)
  • 【大數(shù)據(jù)&AI人工智能】變革人類社會的第四次工業(yè)革命——AI人工智能革命已到來

    【大數(shù)據(jù)&AI人工智能】變革人類社會的第四次工業(yè)革命——AI人工智能革命已到來

    霍金曾留下幾句話: 在我的一生中,我見證了很多社會深刻的變化。其中最深刻,同時也是對人類影響與日俱增的變化就是人工智能的崛起。 人工智能的真正風(fēng)險不是它的惡意,而是它的能力。一個超智能的人工智能在完成目標(biāo)方面非常出色,如果這些目標(biāo)與我們的目標(biāo)不

    2023年04月22日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包