国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<center id="s86i0"><blockquote id="s86i0"></blockquote></center>

WINDOWS系統(tǒng)下PYMARL強(qiáng)化學(xué)習(xí)框架和SMAC環(huán)境安裝及測(cè)試問(wèn)題

2年前作者：其實(shí)沒(méi)什么感覺(jué)分類(lèi)：Toy博客閱讀(28)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了WINDOWS系統(tǒng)下PYMARL強(qiáng)化學(xué)習(xí)框架和SMAC環(huán)境安裝及測(cè)試問(wèn)題。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

本文章主要為了來(lái)記錄我在學(xué)習(xí)復(fù)現(xiàn)多智能體強(qiáng)化學(xué)習(xí)算法中遇到的問(wèn)題。首先我看的是基于值分解的強(qiáng)化學(xué)習(xí)算法，VDN,QMIX,QTRANS。為了更好理解和學(xué)習(xí)算法，我試著跑了基于PYMARL框架和SMAC環(huán)境中的一些算法，中間遇到不少問(wèn)題，同時(shí)代碼能力也不太好，所以記錄下來(lái)，方便查看和學(xué)習(xí)。

SMAC環(huán)境安裝

SMAC是WhiRL基于暴雪星際爭(zhēng)霸II RTS游戲的協(xié)作多智能體強(qiáng)化學(xué)習(xí)（MARL）領(lǐng)域的研究環(huán)境。SMAC利用暴雪的StarCraft II機(jī)器學(xué)習(xí)API和DeepMind的PySC2為自主代理提供了一個(gè)方便的界面，以便與StarCraft II進(jìn)行交互，獲取觀察和執(zhí)行操作。與PySC2不同，SMAC專注于分散的微觀管理場(chǎng)景，其中游戲的每個(gè)單元都由單獨(dú)的RL代理控制。

1.SMAC安裝

SMAC官方地址

安裝前要保證有anaconda和pycharm等環(huán)境，smac環(huán)境運(yùn)行也需要各種包的支持，具體安裝要求看官方的文件

官方安裝SMAC的方式在readme文件中有詳細(xì)解釋,可以自行查閱。（嫌麻煩可以看我這個(gè)，哈哈哈）首先我們需要下載git工具，記得把git加入環(huán)境變量，然后再進(jìn)行操作，（好像也可以把文件放到本地再安裝，但是我好像有問(wèn)題，沒(méi)成功）

運(yùn)用如下命令行直接安裝：

pip install git+https://github.com/oxwhirl/smac.git

這個(gè)好像安裝有點(diǎn)慢，我也沒(méi)弄成
用git將文件克隆到本地再安裝

git clone https://github.com/oxwhirl/smac.git
pip install -e smac/

除了安裝，smac環(huán)境還支持?jǐn)U展，具體的東西我也沒(méi)仔細(xì)看。

2.Installing StarCraft

在Windows系統(tǒng)下，直接去官網(wǎng)安裝星際爭(zhēng)霸2就可以了，記得把游戲加入環(huán)境變量中就可以。在Linux的系統(tǒng)下就需要查看文檔自行解決啦。

3.SMAC maps

SMAC由許多帶有預(yù)配置地圖的戰(zhàn)斗場(chǎng)景組成。在使用 SMAC 之前，需要將這些地圖下載到星際爭(zhēng)霸 II 的地圖目錄中。

下載 SMAC 地圖并將其解壓縮到您的 $SC 2PATH/地圖目錄。如果您通過(guò) git 安裝了 SMAC，只需將SMAC_Maps目錄從 smac/env/starcraft2/maps/ 復(fù)制到 $SC 2PATH/Maps 目錄中即可（如果沒(méi)有Maps目錄需要自己創(chuàng)建一個(gè)）。地圖下載SMAC maps

下載成功后，可以通過(guò)如下命令查看地圖列表（在smac目錄下）

python -m smac.bin.map_list

查看的結(jié)果應(yīng)該是這樣：
WINDOWS系統(tǒng)下PYMARL強(qiáng)化學(xué)習(xí)框架和SMAC環(huán)境安裝及測(cè)試問(wèn)題
maplist中依次是地圖名字，智能體數(shù)，敵方數(shù)量，以及對(duì)戰(zhàn)最長(zhǎng)的時(shí)間步

4.Testing SMAC

安裝完smac后，需要進(jìn)行測(cè)試確保安裝成功，測(cè)試命令如下：

python -m smac.examples.random_agents

結(jié)果應(yīng)該是能把星際爭(zhēng)霸客戶端起起來(lái)，并生成如下的結(jié)果：

WINDOWS系統(tǒng)下PYMARL強(qiáng)化學(xué)習(xí)框架和SMAC環(huán)境安裝及測(cè)試問(wèn)題
做到了這里基本的星際爭(zhēng)霸強(qiáng)化學(xué)習(xí)環(huán)境就搭好了，后面就是搭進(jìn)行訓(xùn)練的框架

PYMARL框架實(shí)現(xiàn)和調(diào)試

GitHub鏈接PYMARL框架

PyMARL is WhiRL’s framework for deep multi-agent reinforcement learning and includes implementations of the following algorithms:
QMIX: QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
COMA: Counterfactual Multi-Agent Policy Gradients
VDN: Value-Decomposition Networks For Cooperative Multi-Agent Learning
IQL: Independent Q-Learning
QTRAN: QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning
PyMARL is written in PyTorch and uses SMAC as its environment.

1.創(chuàng)建PYMARL conda 環(huán)境

conda create _n pymarl python==3.7 -y
conda activate pymarl

安裝需要的包，pymarl的代碼中有一個(gè)requirements.txt的文件詳細(xì)說(shuō)明了各個(gè)包的版本，直接安裝就好了。（注意要進(jìn)入pymarl所在的路徑）自己下的話，就不能保證包的版本等問(wèn)題。

pip install -r requirements.txt

裝好需要的各種包之后就可以開(kāi)始調(diào)試并運(yùn)行代碼了。

2.調(diào)試PYMARL代碼

運(yùn)行pymarl上的實(shí)驗(yàn)可以在anaconda的cmd里用以下的默認(rèn)代碼（如果不是在pymarl的路徑下，main.py要加上文件所在路徑）

python3 src/main.py --config=qmix --env-config=sc2 with env_args.map_name=2s3z

不出意外的話，就會(huì)出意外了，基本是跑不起來(lái)。首先的一個(gè)問(wèn)題是yaml文件加載的問(wèn)題，可能由于這個(gè)環(huán)境寫(xiě)的時(shí)間比較久，yaml需要換其他的用法，具體要上網(wǎng)查找。在main文件中加載default.yaml文件需要用safe_load函數(shù)，問(wèn)題就是f的輸入格式和加載格式不一致需要在字符串和字典轉(zhuǎn)換

config_dict = yaml.safe_load(f)

解決這個(gè)問(wèn)題之后應(yīng)該是能把config導(dǎo)入程序中，但是依然有錯(cuò)誤。在sacred包中，需要在環(huán)境中找到這個(gè)包，并進(jìn)入dependencies.py文件，在C:\Users.conda\envs\pymarl\Lib\site-packages\sacred\dependencies.py下。需要在第422行加上

os.environ[“GIT_PYTHON_REFRESH”] = “quiet”
這里引號(hào)格式會(huì)變，需要自己調(diào)整一下

原因好像是git但是也沒(méi)搞清楚具體問(wèn)題，反正git也不影響框架，所以沒(méi)有管它。
WINDOWS系統(tǒng)下PYMARL強(qiáng)化學(xué)習(xí)框架和SMAC環(huán)境安裝及測(cè)試問(wèn)題
弄完這兩步應(yīng)該是沒(méi)有太大的問(wèn)題了，應(yīng)該能起來(lái)客戶端，并把實(shí)驗(yàn)跑起來(lái)了。但是用命令行，我不是很習(xí)慣，在windows下是可以在pycharm里跑起來(lái)的，只需要把參數(shù)的輸入位置改一改就好

params = deepcopy([ ‘main.py’,
‘–config=qmix’,
‘–env-config=sc2’,
‘with’,
‘env_args.map_name=2s3z’
])

在命令中需要注意with是一個(gè)單獨(dú)的參數(shù)，在with后可以調(diào)整你想要的各種參數(shù)

3. 運(yùn)行pymarl實(shí)驗(yàn)并保存和查看回放

在運(yùn)行實(shí)驗(yàn)時(shí)，如果對(duì)參數(shù)沒(méi)有改變，實(shí)驗(yàn)運(yùn)行的就是默認(rèn)的實(shí)驗(yàn)參數(shù)，對(duì)實(shí)驗(yàn)的算法和環(huán)境都沒(méi)有改變，具體的實(shí)驗(yàn)參數(shù)配置在src/config文件配置里。–config配置的文件在src/config/algs中是對(duì)算法的配置，–env_args相對(duì)應(yīng)的配置文件在src/config/envs中。在algs中可以選用不同的算法，并改變算法的參數(shù)配置，在envs中可以選擇不同的實(shí)驗(yàn)環(huán)境和不同的獎(jiǎng)勵(lì)配置。
重點(diǎn)的參數(shù)解釋：

t_max環(huán)境運(yùn)行的總步數(shù)
save_model是否保存模型，save_model_interval保存模型間隔
local_results_path模型結(jié)果存放位置，checkpoint_path模型加載位置
save_replay保存加載后的模型測(cè)試結(jié)果回放

保存模型

可以通過(guò)設(shè)置 save_model = True（默認(rèn)情況下設(shè)置為 False）將學(xué)習(xí)的模型保存到磁盤(pán)。
保存模型的頻率可以使用save_model_interval配置進(jìn)行調(diào)整。
需要設(shè)置 local_results_path ，模型將保存在設(shè)置的結(jié)果目錄中名為 models 的文件夾下。
整個(gè)實(shí)驗(yàn)保存的模型包含了每次運(yùn)行對(duì)應(yīng)的目錄，每個(gè)模型都位于一個(gè)文件夾中，對(duì)應(yīng)于自開(kāi)始學(xué)習(xí)過(guò)程以來(lái)經(jīng)過(guò)的時(shí)間步長(zhǎng)數(shù)。

加載模型

通過(guò)checkpoint_path參數(shù)的配置，程序會(huì)加載path下的模型，會(huì)接著對(duì)應(yīng)的時(shí)間步繼續(xù)學(xué)習(xí)。

觀看StarCraft2的回放

save_replay選項(xiàng)允許保存使用checkpoint_path加載的模型的回放。成功加載模型后，將在測(cè)試模式下運(yùn)行test_nepisode集數(shù)，并在 .SC2重播文件保存在星際爭(zhēng)霸II的重播目錄中。如果希望保存重播，請(qǐng)確保使用runner=episode。保存的重播文件的名稱以給定的 env_args.save_replay_prefix 開(kāi)頭（如果為空，則為 map_name），后跟當(dāng)前時(shí)間戳，如 3m_2022-11-10-08-57-39

總結(jié)

基本上完成上面的步驟能把pymarl的框架跑起來(lái)了，后面就是仔細(xì)了解pymarl框架的代碼了，在這個(gè)過(guò)程中也參考了不少博主和網(wǎng)上的資料就不一一列舉了，后面會(huì)繼續(xù)更新PYMARL的框架結(jié)構(gòu)和對(duì)算法的改進(jìn)實(shí)驗(yàn)，以及連續(xù)的多智能體強(qiáng)化學(xué)習(xí)算法epymarl框架。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-420143.html

到了這里，關(guān)于WINDOWS系統(tǒng)下PYMARL強(qiáng)化學(xué)習(xí)框架和SMAC環(huán)境安裝及測(cè)試問(wèn)題的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

windows10系統(tǒng)PYthon深度學(xué)習(xí)環(huán)境安裝（Anaconda3、PYthon3.10、CUDA11.6、CUDDN10、pytorch、tensorflow，Pycharm）
一、總體說(shuō)明 1、說(shuō)明：總體採(cǎi)用https://blog.csdn.net/zhizhuxy999/article/details/90442600方法，部分步驟由於版本變化，進(jìn)行了調(diào)整。 2、基本概念編程語(yǔ)言/編譯器：Python。Python的特點(diǎn)是“用最少的代碼干最多的事”。Python 2即在2020年停止更新，所以現(xiàn)在學(xué)習(xí)Python 3是最好的選擇。 P
2023年04月18日
瀏覽(99)
Anaconda配置強(qiáng)化學(xué)習(xí)環(huán)境
安裝git可以方便進(jìn)行項(xiàng)目管理或者克隆github上的源碼，下面介紹win10和ubuntu系統(tǒng)中g(shù)it的安裝步驟。 win10 1.在官網(wǎng)下載Git-2.38.1-64-bit.exe，打開(kāi)文件，按照操作進(jìn)行安裝配置 2.git安裝完成后，找到git安裝路徑中bin的位置，我的是D:softwareGitbin 3.再找到git安裝路徑中g(shù)it-core的位置，
2024年02月05日
瀏覽(19)
Windows安裝系統(tǒng)+配置開(kāi)發(fā)環(huán)境
本篇適用于：筆記本電腦，組裝臺(tái)式機(jī)安裝WIN10（WIN11）系統(tǒng)，并配置java、python、web開(kāi)發(fā)環(huán)境準(zhǔn)備一個(gè)至少有5G空間的空白U盤(pán)（注意資料提前備份，寫(xiě)入系統(tǒng)后U盤(pán)會(huì)被清空）去微軟官網(wǎng)，下載WIN10的寫(xiě)入工具，下載完的文件叫Media Creation Tool+版本號(hào).exe 微軟官方網(wǎng)站運(yùn)行WIN
2024年01月23日
瀏覽(22)
16. 蒙特卡洛強(qiáng)化學(xué)習(xí)基本概念與算法框架
蒙特卡洛強(qiáng)化學(xué)習(xí)(簡(jiǎn)稱MC強(qiáng)化學(xué)習(xí)）是一種無(wú)模型強(qiáng)化學(xué)習(xí)算法，該算法無(wú)需知道馬爾科夫決策環(huán)境模型，即不需要提前獲得立即回報(bào)期望矩陣R（維度為(nS,nA)）、狀態(tài)轉(zhuǎn)移概率數(shù)組P（維度為(nA,nS,nS)），而是通過(guò)與環(huán)境的反復(fù)交互，使用統(tǒng)計(jì)學(xué)方法，利用交互數(shù)據(jù)直接進(jìn)行
2024年01月21日
瀏覽(21)
HarmonyOS學(xué)習(xí)--初次下載安裝和配置環(huán)境（windows）
運(yùn)行環(huán)境要求：為保證DevEco Studio正常運(yùn)行，建議電腦配置滿足如下要求：操作系統(tǒng)：Windows10 64位、Windows11 64位內(nèi)存：8GB及以上硬盤(pán)：100GB及以上分辨率：1280*800像素及以上下載和安裝DevEco Studio：進(jìn)入HUAWEI DevEco Studio產(chǎn)品頁(yè)，單擊下載列表右側(cè)的下載按鈕，下載DevEco Studi
2024年01月24日
瀏覽(27)
「網(wǎng)頁(yè)開(kāi)發(fā)｜環(huán)境安裝」Windows系統(tǒng)下安裝node.js
本文主要介紹在windows系統(tǒng)下的node.js環(huán)境安裝。windows系統(tǒng)的Node.js安裝過(guò)程與其他普通軟件的安裝類(lèi)似，本文主要給剛?cè)腴T(mén)的伙伴一個(gè)參考。 node.js 是一個(gè) javascript 運(yùn)行環(huán)境，是編寫(xiě) javascript 代碼需要安裝的環(huán)境（為了運(yùn)行代碼）所以如果開(kāi)發(fā)過(guò)程中需要運(yùn)行js代碼，就需要安
2024年02月12日
瀏覽(24)
強(qiáng)化學(xué)習(xí)環(huán)境升級(jí) - 從gym到Gymnasium
作為強(qiáng)化學(xué)習(xí)最常用的工具，gym一直在不停地升級(jí)和折騰，比如gym[atari]變成需要要安裝接受協(xié)議的包啦，atari環(huán)境不支持Windows環(huán)境啦之類(lèi)的，另外比較大的變化就是2021年接口從gym庫(kù)變成了gymnasium庫(kù)。讓大量的講強(qiáng)化學(xué)習(xí)的書(shū)中介紹環(huán)境的部分變得需要跟進(jìn)升級(jí)了。不過(guò)，不
2024年02月08日
瀏覽(21)
Gazebo仿真環(huán)境下的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)
主體源碼參照《Goal-Driven Autonomous Exploration Through Deep Reinforcement Learning》筆者采用其強(qiáng)化學(xué)習(xí)方法，但是對(duì)于仿真環(huán)境以及機(jī)器人模型仍然用自己的包，源碼中采用了與論文強(qiáng)相關(guān)的用法 2.1 環(huán)境源碼：強(qiáng)化學(xué)習(xí)中環(huán)境用于產(chǎn)生狀態(tài)輸入，并通過(guò)智能體的動(dòng)作產(chǎn)生新的狀態(tài)，
2024年02月10日
瀏覽(15)
JDK21下載+安裝+環(huán)境配置教程(Windows系統(tǒng))
前言：甲骨文公司與2023.9發(fā)布JDK21,JDK21將是一個(gè)長(zhǎng)期支持（LTS）版本，JDK20目前可以從官網(wǎng)下載使用。 1，搜索Oracle官網(wǎng)找到JDK21 Java Downloads | Oracle 2，切換Windows系統(tǒng)，然后點(diǎn)擊下載（初學(xué)者下載X64 Installer就可） 3，下載完成后點(diǎn)擊安裝向?qū)Вū举N選擇放在D盤(pán)目錄下） ?4，配置
2024年02月08日
瀏覽(27)
Vue框架學(xué)習(xí)記錄之環(huán)境安裝與第一個(gè)Vue項(xiàng)目
首先是Node.js的安裝，安裝十分簡(jiǎn)單，只需要去官網(wǎng)下載安裝包后，一路next即可。 Node.js是一個(gè)開(kāi)源的、跨平臺(tái)的 JavaScript 運(yùn)行時(shí)環(huán)境下載地址，有兩個(gè)版本，一個(gè)是推薦的，一個(gè)是最新的，現(xiàn)在博主學(xué)習(xí)的話就直接安裝最新的即可。驗(yàn)證是否安裝成功，只需要在cmd窗口中輸
2024年02月09日
瀏覽(22)