SELF GENERATED WARGAME AI: DOUBLE LAYER AGENT TASK PLANNING BASED ON LARGE LANGUAGE MODEL
自生成兵棋AI:基于大語言模型的雙城代理任務(wù)規(guī)劃
-
摘要
-
大語言模型應(yīng)用于智能決策領(lǐng)域,構(gòu)建了以大語言模型為決策核心的Agent架構(gòu)
-
進(jìn)一步提出兩層Agent任務(wù)規(guī)劃,通過自然語言交互下達(dá)和執(zhí)行決策命令,并通過兵棋模擬環(huán)境進(jìn)行模擬驗證
-
實驗發(fā)現(xiàn)
-
LLM的智能決策能力在智能性、可理解性和泛化性方面,明顯強于常用的強化學(xué)習(xí)AI和規(guī)則AI,都更好
-
LLM的智能度與提示密切相關(guān)
-
-
將LLM從人機交互擴展到智能決策領(lǐng)域,對于智能決策的發(fā)展具有重要的參考價值和意義。
-
Introduction
-
ChatGPT在代碼等領(lǐng)域的突破給利用ChatGPT自生成AI在兵棋中做出智能決策帶來啟示(現(xiàn)今論文很通用的說法)
-
深度學(xué)習(xí)、強化學(xué)習(xí)與智能兵棋不斷深入結(jié)合,智能體的智能不斷提高。但規(guī)則AI因規(guī)則的限制難以突破規(guī)則的上限;強化學(xué)習(xí)、深度學(xué)習(xí)可解釋性差,難以實現(xiàn)場景和捕獲點變化下的模型遷移。
-
引出 提高人工智能在智能兵棋領(lǐng)域的智能化和泛化性成為進(jìn)一步研究的重點。
-
文中又提到,對抗博弈的決策是復(fù)雜且連續(xù)的。為了使決策更加智能和泛化,論文設(shè)計一種基于大語言模型的自生成AI兵棋架構(gòu)。創(chuàng)建一種決策機制,涉及多個生成代理交互、模仿人類行為并生成可解釋、可信且高度通用的游戲?qū)剐灾悄軟Q策。
-
論文三點核心工作
-
自生成兵棋架構(gòu):multi-agent,每個agent可以通過反射流和記憶流相互通信和協(xié)作,并共同做出決策。可以相互交談,達(dá)到共享信息,分析情況,并根據(jù)談話內(nèi)容做出推斷和決策的目的(每個代理都有LLM驅(qū)動,multi-agent幾乎都是這樣處理的)
-
構(gòu)建兩層Agent任務(wù)規(guī)劃模型,分戰(zhàn)略Agent和戰(zhàn)術(shù)Agent來規(guī)劃游戲?qū)惯^程的任務(wù)。
-
戰(zhàn)略Agent描述所有當(dāng)前代理觀察到的特定情況。規(guī)劃是指根據(jù)觀察到的情境信息來分配和執(zhí)行任務(wù)。
-
戰(zhàn)術(shù)Agent只關(guān)注單個Agent棋子觀察到的情況,并根據(jù)戰(zhàn)略規(guī)劃Agent執(zhí)行相關(guān)任務(wù)。戰(zhàn)術(shù)Agent針對戰(zhàn)略Agent發(fā)出的提示,也有自己的判斷和反饋。
-
-
以兵棋為實驗平臺,實驗表明大語言模型的智能決策能力明顯強于強化學(xué)習(xí)AI和規(guī)則AI,且智能性、可理解性、泛化性均更好。同時發(fā)現(xiàn),向大型語言模型提供該領(lǐng)域?qū)<业南闰炛R可以顯著提高智力
-
生成式兵棋AI架構(gòu)
圖一:自生成兵棋AI在環(huán)境中交互的一個案例展示
圖2:戰(zhàn)略Agent和戰(zhàn)術(shù)Agent關(guān)系
-
Agent架構(gòu)組件
-
內(nèi)存流:存儲和分配緩沖區(qū)、生成批次
-
反射流:使用批處理作為LLM提示的反射流,了解其在決策中的作用
-
任務(wù)規(guī)劃流:使Agent整合信息、制定更好的規(guī)劃
-
生成式兵棋AI模型
Agent互動
-
LLM將自然語言轉(zhuǎn)換為簡潔的符號表示給出action建議
圖3:雙層Agent任務(wù)規(guī)劃決策框架
-
生成action步驟:
-
LLM與檢索信息結(jié)合,利用提示調(diào)整輸出
-
架構(gòu)為LLM提供提示
-
LLM選擇action的數(shù)字
-
Agent根據(jù)數(shù)字采取行動
-
-
挑戰(zhàn): 生成最相關(guān)的內(nèi)存片段,同時從內(nèi)存流中檢索和合成相關(guān)數(shù)據(jù)
-
全用gpt-4成本高、效率低,所以在不影響效果的情況下,戰(zhàn)略Agent用gpt-4,戰(zhàn)術(shù)用gpt-3.5
-
-
內(nèi)存流
-
內(nèi)存對象列表
-
每個對象包括自然語言描述、創(chuàng)建時間、最近訪問時間
-
基本元素:觀察,Agent觀察到的所有情景信息
-
-
檢索函數(shù):從Agent的觀察中提取信息。選擇性的、優(yōu)先提取最近觀察、重要節(jié)點、相關(guān)記憶
-
重要性分?jǐn)?shù):從記憶流中檢索相應(yīng)的記憶形成提示,讓代理生成相應(yīng)的重要性分?jǐn)?shù)并將其存儲回記憶流中
-
利用這個分?jǐn)?shù)提取信息。score_final = α_recency ? score_recency + α_importance ? score_importance + α_relevance ? score_relevance
-
-
-
反射流:通過對信息的觀察和行動的規(guī)劃來推斷和生成高級推理語義
-
檢索函數(shù)中的分?jǐn)?shù)超過一定閾值時,就會觸發(fā)反射
-
步驟:根據(jù)兵棋Agent之前的經(jīng)驗流程提出問題并進(jìn)行反思過程
-
-
任務(wù)規(guī)劃流
-
戰(zhàn)略Agent將所有Agent觀察的結(jié)果描述為:<總結(jié)、觀察、規(guī)劃>
-
仿真實驗
規(guī)則:紅藍(lán)雙方爭奪中間控制點(紅旗),最先到達(dá)控制點的一方獲勝?;蛘呷绻环奖涣硪环綇氐紫麥?,則另一方獲勝
-
表一:在殺死、達(dá)成目標(biāo)、生存三個任務(wù)上的得分
-
-
GWAE:本文模型+專家經(jīng)驗 -
GWA:本文模型
-
-
所有算法的勝率線圖
-
圖6:平均勝率圖
-
左圖平均勝率散點圖,右圖任務(wù)平均得分熱圖
-
實驗結(jié)論:輸入專家經(jīng)驗?zāi)軌蝻@著提高模型性能,GWA和GWAE性能顯著優(yōu)于強化學(xué)習(xí)算法
結(jié)論
-
決策用大語言模型經(jīng)過充分的提前訓(xùn)練,在實際游戲?qū)怪芯哂泻軓姷倪m應(yīng)性。無需等待重新開始訓(xùn)練,對于不同任務(wù)具有很強的智能性和泛化性。
-
大語言模型所表現(xiàn)出的智能明顯強于一般的強化學(xué)習(xí)算法
-
大語言模型的智能程度與提示之間存在顯著的相關(guān)性
-
創(chuàng)新點文章來源:http://www.zghlxwxcb.cn/news/detail-816109.html
-
大語言模型從以往的人機交互擴展到了智能決策領(lǐng)域文章來源地址http://www.zghlxwxcb.cn/news/detail-816109.html
-
到了這里,關(guān)于SELF GENERATED WARGAME AI的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!