国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

WINDOWS系統(tǒng)下PYMARL強(qiáng)化學(xué)習(xí)框架和SMAC環(huán)境安裝及測(cè)試問(wèn)題

這篇具有很好參考價(jià)值的文章主要介紹了WINDOWS系統(tǒng)下PYMARL強(qiáng)化學(xué)習(xí)框架和SMAC環(huán)境安裝及測(cè)試問(wèn)題。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。


本文章主要為了來(lái)記錄我在學(xué)習(xí)復(fù)現(xiàn)多智能體強(qiáng)化學(xué)習(xí)算法中遇到的問(wèn)題。首先我看的是基于值分解的強(qiáng)化學(xué)習(xí)算法,VDN,QMIX,QTRANS。為了更好理解和學(xué)習(xí)算法,我試著跑了基于PYMARL框架和SMAC環(huán)境中的一些算法,中間遇到不少問(wèn)題,同時(shí)代碼能力也不太好,所以記錄下來(lái),方便查看和學(xué)習(xí)。

SMAC環(huán)境安裝

SMAC是WhiRL基于暴雪星際爭(zhēng)霸II RTS游戲的協(xié)作多智能體強(qiáng)化學(xué)習(xí)(MARL)領(lǐng)域的研究環(huán)境。SMAC利用暴雪的StarCraft II機(jī)器學(xué)習(xí)API和DeepMind的PySC2為自主代理提供了一個(gè)方便的界面,以便與StarCraft II進(jìn)行交互,獲取觀察和執(zhí)行操作。與PySC2不同,SMAC專注于分散的微觀管理場(chǎng)景,其中游戲的每個(gè)單元都由單獨(dú)的RL代理控制。

1.SMAC安裝

SMAC官方地址

安裝前要保證有anaconda和pycharm等環(huán)境,smac環(huán)境運(yùn)行也需要各種包的支持,具體安裝要求看官方的文件

官方安裝SMAC的方式在readme文件中有詳細(xì)解釋,可以自行查閱。(嫌麻煩可以看我這個(gè),哈哈哈)首先我們需要下載git工具,記得把git加入環(huán)境變量,然后再進(jìn)行操作,(好像也可以把文件放到本地再安裝,但是我好像有問(wèn)題,沒(méi)成功)

  1. 運(yùn)用如下命令行直接安裝:

    pip install git+https://github.com/oxwhirl/smac.git

    這個(gè)好像安裝有點(diǎn)慢,我也沒(méi)弄成

  2. 用git將文件克隆到本地再安裝

    git clone https://github.com/oxwhirl/smac.git
    pip install -e smac/

除了安裝,smac環(huán)境還支持?jǐn)U展,具體的東西我也沒(méi)仔細(xì)看。

2.Installing StarCraft

在Windows系統(tǒng)下,直接去官網(wǎng)安裝星際爭(zhēng)霸2就可以了,記得把游戲加入環(huán)境變量中就可以。在Linux的系統(tǒng)下就需要查看文檔自行解決啦。

3.SMAC maps

SMAC由許多帶有預(yù)配置地圖的戰(zhàn)斗場(chǎng)景組成。在使用 SMAC 之前,需要將這些地圖下載到星際爭(zhēng)霸 II 的地圖目錄中。

下載 SMAC 地圖并將其解壓縮到您的 $SC 2PATH/地圖目錄。如果您通過(guò) git 安裝了 SMAC,只需將SMAC_Maps目錄從 smac/env/starcraft2/maps/ 復(fù)制到 $SC 2PATH/Maps 目錄中即可(如果沒(méi)有Maps目錄需要自己創(chuàng)建一個(gè))。地圖下載SMAC maps

下載成功后,可以通過(guò)如下命令查看地圖列表(在smac目錄下)

python -m smac.bin.map_list

查看的結(jié)果應(yīng)該是這樣:
WINDOWS系統(tǒng)下PYMARL強(qiáng)化學(xué)習(xí)框架和SMAC環(huán)境安裝及測(cè)試問(wèn)題
maplist中依次是地圖名字,智能體數(shù),敵方數(shù)量,以及對(duì)戰(zhàn)最長(zhǎng)的時(shí)間步

4.Testing SMAC

安裝完smac后,需要進(jìn)行測(cè)試確保安裝成功,測(cè)試命令如下:

python -m smac.examples.random_agents

結(jié)果應(yīng)該是能把星際爭(zhēng)霸客戶端起起來(lái),并生成如下的結(jié)果:

WINDOWS系統(tǒng)下PYMARL強(qiáng)化學(xué)習(xí)框架和SMAC環(huán)境安裝及測(cè)試問(wèn)題
做到了這里基本的星際爭(zhēng)霸強(qiáng)化學(xué)習(xí)環(huán)境就搭好了,后面就是搭進(jìn)行訓(xùn)練的框架

PYMARL框架實(shí)現(xiàn)和調(diào)試

GitHub鏈接PYMARL框架

PyMARL is WhiRL’s framework for deep multi-agent reinforcement learning and includes implementations of the following algorithms:
QMIX: QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
COMA: Counterfactual Multi-Agent Policy Gradients
VDN: Value-Decomposition Networks For Cooperative Multi-Agent Learning
IQL: Independent Q-Learning
QTRAN: QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning
PyMARL is written in PyTorch and uses SMAC as its environment.

1.創(chuàng)建PYMARL conda 環(huán)境

conda create _n pymarl python==3.7 -y
conda activate pymarl

安裝需要的包,pymarl的代碼中有一個(gè)requirements.txt的文件詳細(xì)說(shuō)明了各個(gè)包的版本,直接安裝就好了。(注意要進(jìn)入pymarl所在的路徑)自己下的話,就不能保證包的版本等問(wèn)題。

pip install -r requirements.txt

裝好需要的各種包之后就可以開(kāi)始調(diào)試并運(yùn)行代碼了。

2.調(diào)試PYMARL代碼

運(yùn)行pymarl上的實(shí)驗(yàn)可以在anaconda的cmd里用以下的默認(rèn)代碼(如果不是在pymarl的路徑下,main.py要加上文件所在路徑)

python3 src/main.py --config=qmix --env-config=sc2 with env_args.map_name=2s3z

不出意外的話,就會(huì)出意外了,基本是跑不起來(lái)。首先的一個(gè)問(wèn)題是yaml文件加載的問(wèn)題,可能由于這個(gè)環(huán)境寫(xiě)的時(shí)間比較久,yaml需要換其他的用法,具體要上網(wǎng)查找。在main文件中加載default.yaml文件需要用safe_load函數(shù),問(wèn)題就是f的輸入格式和加載格式不一致需要在字符串和字典轉(zhuǎn)換

config_dict = yaml.safe_load(f)

解決這個(gè)問(wèn)題之后應(yīng)該是能把config導(dǎo)入程序中,但是依然有錯(cuò)誤。在sacred包中,需要在環(huán)境中找到這個(gè)包,并進(jìn)入dependencies.py文件,在C:\Users.conda\envs\pymarl\Lib\site-packages\sacred\dependencies.py下。需要在第422行加上

os.environ[“GIT_PYTHON_REFRESH”] = “quiet”
這里引號(hào)格式會(huì)變,需要自己調(diào)整一下

原因好像是git但是也沒(méi)搞清楚具體問(wèn)題,反正git也不影響框架,所以沒(méi)有管它。
WINDOWS系統(tǒng)下PYMARL強(qiáng)化學(xué)習(xí)框架和SMAC環(huán)境安裝及測(cè)試問(wèn)題
弄完這兩步應(yīng)該是沒(méi)有太大的問(wèn)題了,應(yīng)該能起來(lái)客戶端,并把實(shí)驗(yàn)跑起來(lái)了。但是用命令行,我不是很習(xí)慣,在windows下是可以在pycharm里跑起來(lái)的,只需要把參數(shù)的輸入位置改一改就好

params = deepcopy([ ‘main.py’,
‘–config=qmix’,
‘–env-config=sc2’,
‘with’,
‘env_args.map_name=2s3z’
])

在命令中需要注意with是一個(gè)單獨(dú)的參數(shù),在with后可以調(diào)整你想要的各種參數(shù)

3. 運(yùn)行pymarl實(shí)驗(yàn)并保存和查看回放

在運(yùn)行實(shí)驗(yàn)時(shí),如果對(duì)參數(shù)沒(méi)有改變,實(shí)驗(yàn)運(yùn)行的就是默認(rèn)的實(shí)驗(yàn)參數(shù),對(duì)實(shí)驗(yàn)的算法和環(huán)境都沒(méi)有改變,具體的實(shí)驗(yàn)參數(shù)配置在src/config文件配置里。–config配置的文件在src/config/algs中是對(duì)算法的配置,–env_args相對(duì)應(yīng)的配置文件在src/config/envs中。在algs中可以選用不同的算法,并改變算法的參數(shù)配置,在envs中可以選擇不同的實(shí)驗(yàn)環(huán)境和不同的獎(jiǎng)勵(lì)配置。
重點(diǎn)的參數(shù)解釋:

  • t_max環(huán)境運(yùn)行的總步數(shù)
  • save_model是否保存模型,save_model_interval保存模型間隔
  • local_results_path模型結(jié)果存放位置,checkpoint_path模型加載位置
  • save_replay保存加載后的模型測(cè)試結(jié)果回放

保存模型

  • 可以通過(guò)設(shè)置 save_model = True(默認(rèn)情況下設(shè)置為 False)將學(xué)習(xí)的模型保存到磁盤(pán)。
  • 保存模型的頻率可以使用save_model_interval配置進(jìn)行調(diào)整。
  • 需要設(shè)置 local_results_path ,模型將保存在設(shè)置的結(jié)果目錄中名為 models 的文件夾下。
  • 整個(gè)實(shí)驗(yàn)保存的模型包含了每次運(yùn)行對(duì)應(yīng)的目錄,每個(gè)模型都位于一個(gè)文件夾中,對(duì)應(yīng)于自開(kāi)始學(xué)習(xí)過(guò)程以來(lái)經(jīng)過(guò)的時(shí)間步長(zhǎng)數(shù)。

加載模型

  • 通過(guò)checkpoint_path參數(shù)的配置,程序會(huì)加載path下的模型,會(huì)接著對(duì)應(yīng)的時(shí)間步繼續(xù)學(xué)習(xí)。

觀看StarCraft2的回放

save_replay選項(xiàng)允許保存使用checkpoint_path加載的模型的回放。成功加載模型后,將在測(cè)試模式下運(yùn)行test_nepisode集數(shù),并在 .SC2重播文件保存在星際爭(zhēng)霸II的重播目錄中。如果希望保存重播,請(qǐng)確保使用runner=episode。保存的重播文件的名稱以給定的 env_args.save_replay_prefix 開(kāi)頭(如果為空,則為 map_name),后跟當(dāng)前時(shí)間戳,如 3m_2022-11-10-08-57-39

總結(jié)

基本上完成上面的步驟能把pymarl的框架跑起來(lái)了,后面就是仔細(xì)了解pymarl框架的代碼了,在這個(gè)過(guò)程中也參考了不少博主和網(wǎng)上的資料就不一一列舉了,后面會(huì)繼續(xù)更新PYMARL的框架結(jié)構(gòu)和對(duì)算法的改進(jìn)實(shí)驗(yàn),以及連續(xù)的多智能體強(qiáng)化學(xué)習(xí)算法epymarl框架。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-420143.html

到了這里,關(guān)于WINDOWS系統(tǒng)下PYMARL強(qiáng)化學(xué)習(xí)框架和SMAC環(huán)境安裝及測(cè)試問(wèn)題的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • windows10系統(tǒng)PYthon深度學(xué)習(xí)環(huán)境安裝(Anaconda3、PYthon3.10、CUDA11.6、CUDDN10、pytorch、tensorflow,Pycharm)

    windows10系統(tǒng)PYthon深度學(xué)習(xí)環(huán)境安裝(Anaconda3、PYthon3.10、CUDA11.6、CUDDN10、pytorch、tensorflow,Pycharm)

    一、 總體說(shuō)明 1、說(shuō)明:總體採(cǎi)用https://blog.csdn.net/zhizhuxy999/article/details/90442600方法,部分步驟由於版本變化,進(jìn)行了調(diào)整。 2、基本概念 編程語(yǔ)言/編譯器:Python。Python的特點(diǎn)是“用最少的代碼干最多的事”。Python 2即在2020年停止更新,所以現(xiàn)在學(xué)習(xí)Python 3是最好的選擇。 P

    2023年04月18日
    瀏覽(99)
  • Anaconda配置強(qiáng)化學(xué)習(xí)環(huán)境

    Anaconda配置強(qiáng)化學(xué)習(xí)環(huán)境

    安裝git可以方便進(jìn)行項(xiàng)目管理或者克隆github上的源碼,下面介紹win10和ubuntu系統(tǒng)中g(shù)it的安裝步驟。 win10 1.在官網(wǎng)下載Git-2.38.1-64-bit.exe,打開(kāi)文件,按照操作進(jìn)行安裝配置 2.git安裝完成后,找到git安裝路徑中bin的位置,我的是D:softwareGitbin 3.再找到git安裝路徑中g(shù)it-core的位置,

    2024年02月05日
    瀏覽(19)
  • Windows安裝系統(tǒng)+配置開(kāi)發(fā)環(huán)境

    Windows安裝系統(tǒng)+配置開(kāi)發(fā)環(huán)境

    本篇適用于:筆記本電腦,組裝臺(tái)式機(jī)安裝WIN10(WIN11)系統(tǒng),并配置java、python、web開(kāi)發(fā)環(huán)境 準(zhǔn)備一個(gè)至少有5G空間的空白U盤(pán)(注意資料提前備份,寫(xiě)入系統(tǒng)后U盤(pán)會(huì)被清空) 去微軟官網(wǎng),下載WIN10的寫(xiě)入工具,下載完的文件叫Media Creation Tool+版本號(hào).exe 微軟官方網(wǎng)站 運(yùn)行WIN

    2024年01月23日
    瀏覽(22)
  • 16. 蒙特卡洛強(qiáng)化學(xué)習(xí)基本概念與算法框架

    蒙特卡洛強(qiáng)化學(xué)習(xí)(簡(jiǎn)稱MC強(qiáng)化學(xué)習(xí))是一種 無(wú)模型 強(qiáng)化學(xué)習(xí)算法,該算法無(wú)需知道馬爾科夫決策環(huán)境模型,即不需要提前獲得立即回報(bào)期望矩陣R(維度為(nS,nA))、狀態(tài)轉(zhuǎn)移概率數(shù)組P(維度為(nA,nS,nS)),而是通過(guò)與環(huán)境的反復(fù)交互,使用統(tǒng)計(jì)學(xué)方法,利用交互數(shù)據(jù)直接進(jìn)行

    2024年01月21日
    瀏覽(21)
  • HarmonyOS學(xué)習(xí)--初次下載安裝和配置環(huán)境(windows)

    HarmonyOS學(xué)習(xí)--初次下載安裝和配置環(huán)境(windows)

    運(yùn)行環(huán)境要求: 為保證DevEco Studio正常運(yùn)行,建議電腦配置滿足如下要求: 操作系統(tǒng):Windows10 64位、Windows11 64位 內(nèi)存:8GB及以上 硬盤(pán):100GB及以上 分辨率:1280*800像素及以上 下載和安裝DevEco Studio: 進(jìn)入HUAWEI DevEco Studio產(chǎn)品頁(yè),單擊下載列表右側(cè)的下載按鈕,下載DevEco Studi

    2024年01月24日
    瀏覽(27)
  • 「網(wǎng)頁(yè)開(kāi)發(fā)|環(huán)境安裝」Windows系統(tǒng)下安裝node.js

    「網(wǎng)頁(yè)開(kāi)發(fā)|環(huán)境安裝」Windows系統(tǒng)下安裝node.js

    本文主要介紹在windows系統(tǒng)下的node.js環(huán)境安裝。windows系統(tǒng)的Node.js安裝過(guò)程與其他普通軟件的安裝類(lèi)似,本文主要給剛?cè)腴T(mén)的伙伴一個(gè)參考。 node.js 是一個(gè) javascript 運(yùn)行環(huán)境,是編寫(xiě) javascript 代碼需要安裝的環(huán)境(為了運(yùn)行代碼) 所以如果開(kāi)發(fā)過(guò)程中需要運(yùn)行js代碼,就需要安

    2024年02月12日
    瀏覽(24)
  • 強(qiáng)化學(xué)習(xí)環(huán)境升級(jí) - 從gym到Gymnasium

    作為強(qiáng)化學(xué)習(xí)最常用的工具,gym一直在不停地升級(jí)和折騰,比如gym[atari]變成需要要安裝接受協(xié)議的包啦,atari環(huán)境不支持Windows環(huán)境啦之類(lèi)的,另外比較大的變化就是2021年接口從gym庫(kù)變成了gymnasium庫(kù)。讓大量的講強(qiáng)化學(xué)習(xí)的書(shū)中介紹環(huán)境的部分變得需要跟進(jìn)升級(jí)了。 不過(guò),不

    2024年02月08日
    瀏覽(21)
  • Gazebo仿真環(huán)境下的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)

    Gazebo仿真環(huán)境下的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)

    主體源碼參照《Goal-Driven Autonomous Exploration Through Deep Reinforcement Learning》 筆者采用其強(qiáng)化學(xué)習(xí)方法,但是對(duì)于仿真環(huán)境以及機(jī)器人模型仍然用自己的包,源碼中采用了與論文強(qiáng)相關(guān)的用法 2.1 環(huán)境 源碼: 強(qiáng)化學(xué)習(xí)中環(huán)境用于產(chǎn)生狀態(tài)輸入,并通過(guò)智能體的動(dòng)作產(chǎn)生新的狀態(tài),

    2024年02月10日
    瀏覽(15)
  • JDK21下載+安裝+環(huán)境配置教程(Windows系統(tǒng))

    JDK21下載+安裝+環(huán)境配置教程(Windows系統(tǒng))

    前言:甲骨文公司與2023.9發(fā)布JDK21,JDK21將是一個(gè)長(zhǎng)期支持(LTS)版本,JDK20目前可以從官網(wǎng)下載使用。 1,搜索Oracle官網(wǎng)找到JDK21 Java Downloads | Oracle 2,切換Windows系統(tǒng),然后點(diǎn)擊下載(初學(xué)者下載X64 Installer就可) 3,下載完成后點(diǎn)擊安裝向?qū)Вū举N選擇放在D盤(pán)目錄下) ?4,配置

    2024年02月08日
    瀏覽(27)
  • Vue框架學(xué)習(xí)記錄之環(huán)境安裝與第一個(gè)Vue項(xiàng)目

    Vue框架學(xué)習(xí)記錄之環(huán)境安裝與第一個(gè)Vue項(xiàng)目

    首先是Node.js的安裝,安裝十分簡(jiǎn)單,只需要去官網(wǎng)下載安裝包后,一路next即可。 Node.js是一個(gè)開(kāi)源的、跨平臺(tái)的 JavaScript 運(yùn)行時(shí)環(huán)境 下載地址,有兩個(gè)版本,一個(gè)是推薦的,一個(gè)是最新的,現(xiàn)在博主學(xué)習(xí)的話就直接安裝最新的即可。 驗(yàn)證是否安裝成功,只需要在cmd窗口中輸

    2024年02月09日
    瀏覽(22)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包