国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<source id="211cf"></source><p id="211cf"><samp id="211cf"></samp></p>

<rt id="211cf"><big id="211cf"><video id="211cf"></video></big></rt>

強(qiáng)化學(xué)習(xí)環(huán)境升級 - 從gym到Gymnasium

2年前作者：Jtag特工分類：Toy博客閱讀(21)違法舉報

這篇具有很好參考價值的文章主要介紹了強(qiáng)化學(xué)習(xí)環(huán)境升級 - 從gym到Gymnasium。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

強(qiáng)化學(xué)習(xí)環(huán)境升級 - 從gym到Gymnasium

作為強(qiáng)化學(xué)習(xí)最常用的工具，gym一直在不停地升級和折騰，比如gym[atari]變成需要要安裝接受協(xié)議的包啦，atari環(huán)境不支持Windows環(huán)境啦之類的，另外比較大的變化就是2021年接口從gym庫變成了gymnasium庫。讓大量的講強(qiáng)化學(xué)習(xí)的書中介紹環(huán)境的部分變得需要跟進(jìn)升級了。

不過，不管如何變，gym[nasium]作為強(qiáng)化學(xué)習(xí)的代理庫的總的設(shè)計思想沒有變化，變的都是接口的細(xì)節(jié)。

step和觀察結(jié)果

總體來說，對于gymnasium我們只需要做兩件事情：一個是初始化環(huán)境，另一個就是通過step函數(shù)不停地給環(huán)境做輸入，然后觀察對應(yīng)的結(jié)果。

初始化環(huán)境分為兩步。
第一步是創(chuàng)建gymnasium工廠中所支持的子環(huán)境，比如我們使用經(jīng)典的讓一個桿子不倒的CartPole環(huán)境：

import gymnasium as gym
env = gym.make("CartPole-v1")

第二步，我們就可以通過env的reset函數(shù)來進(jìn)行環(huán)境的初始化：

observation, info = env.reset(seed=42)

我們可以將observation打印出來，它一個4元組，4個數(shù)值分別表示：

小車位置
小車速度
棍的傾斜角度
棍的角速度

如果角度大于12度，或者小車位置超出了2.4，就意味著失敗了，直接結(jié)束。

小車的輸入就是一個力，要么是向左的力，要么是向右的力。0是向左推小車，1是向右推小車。

下面我們讓代碼跑起來。

首先我們通過pip來安裝gymnasium的包：

pip install gymnasium -U

安裝成功之后，

import gymnasium as gym
env = gym.make("CartPole-v1")

print(env.action_space)

observation, info = env.reset(seed=42)
steps = 0
for _ in range(1000):
    action = env.action_space.sample()
    observation, reward, terminated, truncated, info = env.step(action)
    print(observation)

    if terminated or truncated:
        print("Episode finished after {} steps".format(steps))
        observation, info = env.reset()
        steps = 0
    else:
        steps += 1
        
env.close()

env.action_space輸出是Discrete(2)。也就是兩個離散的值0和1。前面我們介紹了，這分別代表向左和向右推動小車。

observation輸出的4元組，我們前面也講過了，像這樣：
[ 0.0273956 -0.00611216 0.03585979 0.0197368 ]

下面就是關(guān)鍵的step一步：

    action = env.action_space.sample()
    observation, reward, terminated, truncated, info = env.step(action)

剛才我們介紹了，CartPole的輸入只有0和1兩個值。我們采用隨機(jī)讓其左右動的方式來試圖讓小車不倒。

如果你覺得還是不容易懂的話，我們可以來個更無腦的，管它是什么情況，我們都一直往左推：

observation, reward, terminated, truncated, info = env.step(0)

基本上幾步就完了：

[ 0.02699083 -0.16518621 -0.00058549  0.3023946 ] 1.0 False False {}
[ 0.0236871  -0.36029983  0.0054624   0.5948928 ] 1.0 False False {}
[ 0.01648111 -0.5554978   0.01736026  0.88929135] 1.0 False False {}
[ 0.00537115 -0.750851    0.03514608  1.1873806 ] 1.0 False False {}
[-0.00964587 -0.94641054  0.0588937   1.4908696 ] 1.0 False False {}
[-0.02857408 -1.1421978   0.08871109  1.8013463 ] 1.0 False False {}
[-0.05141804 -1.3381925   0.12473802  2.1202288 ] 1.0 False False {}
[-0.07818189 -1.534317    0.16714258  2.4487078 ] 1.0 False False {}
[-0.10886823 -1.7304213   0.21611674  2.7876763 ] 1.0 True False {}
Episode finished after 8 steps

下面我們解釋下返回的5元組，observation就是位置4元組，reward是用于強(qiáng)化學(xué)習(xí)的獎勵，在本例中只要是不死就是1. terminated就是是否游戲結(jié)束了。
Truncated在官方定義中用于處理比如超時等特殊結(jié)束的情況。
truncated, info對于CartPole來說沒有用到。

搭建好了gymnasium環(huán)境之后，我們就可以進(jìn)行策略的升級與迭代了。
比如我們寫死一個策略，如果位置小于0則向右推，反之則向左推：

def action_pos(status): 
    pos, v, ang, va = status
    #print(status)
    if pos <= 0: 
        return 1
    else: 
        return 0

或者我們根據(jù)角度來判斷，如果角度大于0則左推，反之則右推：

def action_angle(status): 
    pos, v, ang, va = status
    #print(status)
    if ang > 0: 
        return 1
    else: 
        return 0

角度策略的完整代碼如下：

import gymnasium as gym
env = gym.make("CartPole-v1")
#env = gym.make("CartPole-v1",render_mode="human")

print(env.action_space)
#print(env.get_action_meanings())

observation, info = env.reset(seed=42)
print(observation,info)

def action_pos(status): 
    pos, v, ang, va = status
    #print(status)
    if pos <= 0: 
        return 1
    else: 
        return 0 

def action_angle(status): 
    pos, v, ang, va = status
    #print(status)
    if ang > 0: 
        return 1
    else: 
        return 0

steps = 0
for _ in range(1000):
    action = env.action_space.sample()
    observation, reward, terminated, truncated, info = env.step(action_angle(observation))
    print(observation, reward, terminated, truncated, info)

    if terminated or truncated:
        print("Episode finished after {} steps".format(steps))
        observation, info = env.reset()
        steps = 0
    else:
        steps += 1
        
env.close()

與老gym的主要區(qū)別

目前版本與之前gym的最主要區(qū)別在于step返回值從原來的4元組變成了5元組。
原來是observation, reward, done, info，而現(xiàn)在done變成了 terminated增加了truncated。

老版本的：

 status, reward, done, info = env.step(0)

新版的：

observation, reward, terminated, truncated, info = env.step(0)

Atari游戲

我們通過gymnasium[atari]包來安裝atari游戲的gymnasium支持。

pip install gymnasium[atari]

通過get_action_meanings來獲取游戲支持的操作

之前的CartPole只知道是離散的兩個值。而Atari游戲則可支持獲取游戲支持的操作的含義：

['NOOP', 'FIRE', 'RIGHT', 'LEFT', 'RIGHTFIRE', 'LEFTFIRE']

rendor_mode

另外，針對于Atari游戲，render_mode現(xiàn)在是必選項了。要指定是顯示成人類可看的human模式，還是只輸出rgb_array的模式。

完整例子

我們以乒乓球游戲為例，組裝讓其運(yùn)行起來：

import gymnasium as gym
env = gym.make("ALE/Pong-v5", render_mode="human")
observation, info = env.reset()

print(env.get_action_meanings())

scores = 0

for _ in range(1000):
    action = env.action_space.sample()  # agent policy that uses the observation and info
    observation, reward, terminated, truncated, info = env.step(action)
    #print(observation, reward, terminated, truncated, info)

    if terminated or truncated:
        print("Episode finished after {} steps".format(scores))
        observation, info = env.reset()
        scores = 0
    else:
        scores +=1

env.close()

完整的游戲支持列表可以在https://gymnasium.farama.org/environments/atari/ 官方文檔中查到。文章來源地址http://www.zghlxwxcb.cn/news/detail-480177.html

到了這里，關(guān)于強(qiáng)化學(xué)習(xí)環(huán)境升級 - 從gym到Gymnasium的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

說點(diǎn)人話的強(qiáng)化學(xué)習(xí)：如何顯示當(dāng)前訓(xùn)練的環(huán)境，openai gym不顯示畫面，env.render()不顯示畫面，CartPole不顯示畫面
在早期版本gym中，調(diào)用env.render()會直接顯示當(dāng)前畫面，但是現(xiàn)在的新版本中這一方法無效?，F(xiàn)在有一下幾種方法顯示當(dāng)前環(huán)境和訓(xùn)練中的畫面： 1. render_model = \\\"human\\\" 顯示效果： ? 問題：該設(shè)置下，程序會輸出所有運(yùn)行畫面。但是這一步會帶來一個問題，因為畫面渲染需要時
2024年02月13日
瀏覽(18)
Python深度強(qiáng)化學(xué)習(xí)實戰(zhàn) ——OpenAI Gym-CarRacing自動駕駛項目
????? ?? 寫在前面：本篇是關(guān)于 OpenAI Gym-CarRacing?自動駕駛項目的博客，面向掌握 Python 并有一定的深度強(qiáng)化學(xué)習(xí)基礎(chǔ)的讀者。 GYM-Box2D CarRacing 是一種在 OpenAI Gym 平臺上開發(fā)和比較強(qiáng)化學(xué)習(xí)算法的模擬環(huán)境。它是流行的 Box2D 物理引擎的一個版本，經(jīng)過修改以支持模擬汽車在
2024年02月16日
瀏覽(28)
【動手學(xué)強(qiáng)化學(xué)習(xí)】安裝gym subprocess-exited-with-error
以下內(nèi)容均在ubuntu18.0.4環(huán)境使用最近在看《動手學(xué)強(qiáng)化學(xué)習(xí)》安裝運(yùn)行相關(guān)的gym環(huán)境時候遇到了一些問題。 1、文中使用gym為== 0.18.3 該版本支持 python3.8， python3.9 使用會有問題，env.seed()無法直接使用。（使用3.8.16 可成功運(yùn)行文中代碼） 2、在linux下本來已經(jīng)安裝了一個pyth
2024年02月11日
瀏覽(25)
【深度強(qiáng)化學(xué)習(xí)】Python：OpenAI Gym-CarRacing 自動駕駛 | 提供項目完整代碼 | 車道檢測功能 | 路徑訓(xùn)練功能 | 車輛控制功能
????? ?? 寫在前面：本篇是關(guān)于 OpenAI Gym-CarRacing?自動駕駛項目的博客，面向掌握 Python 并有一定的深度強(qiáng)化學(xué)習(xí)基礎(chǔ)的讀者。 GYM-Box2D CarRacing 是一種在 OpenAI Gym 平臺上開發(fā)和比較強(qiáng)化學(xué)習(xí)算法的模擬環(huán)境。它是流行的 Box2D 物理引擎的一個版本，經(jīng)過修改以支持模擬汽車在
2024年02月16日
瀏覽(23)
Humanoid-Gym 開源人形機(jī)器人端到端強(qiáng)化學(xué)習(xí)訓(xùn)練框架！星動紀(jì)元聯(lián)合清華大學(xué)、上海期智研究院發(fā)布!
? Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer GitHub Repository:?GitHub - roboterax/humanoid-gym: Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer ? Humanoid-Gym是一個基于Nvidia Isaac Gym的易于使用的強(qiáng)化學(xué)習(xí)（RL）框架，旨在訓(xùn)練仿人機(jī)器人的運(yùn)動
2024年04月12日
瀏覽(55)
Anaconda配置強(qiáng)化學(xué)習(xí)環(huán)境
安裝git可以方便進(jìn)行項目管理或者克隆github上的源碼，下面介紹win10和ubuntu系統(tǒng)中g(shù)it的安裝步驟。 win10 1.在官網(wǎng)下載Git-2.38.1-64-bit.exe，打開文件，按照操作進(jìn)行安裝配置 2.git安裝完成后，找到git安裝路徑中bin的位置，我的是D:softwareGitbin 3.再找到git安裝路徑中g(shù)it-core的位置，
2024年02月05日
瀏覽(19)
Gazebo仿真環(huán)境下的強(qiáng)化學(xué)習(xí)實現(xiàn)
主體源碼參照《Goal-Driven Autonomous Exploration Through Deep Reinforcement Learning》筆者采用其強(qiáng)化學(xué)習(xí)方法，但是對于仿真環(huán)境以及機(jī)器人模型仍然用自己的包，源碼中采用了與論文強(qiáng)相關(guān)的用法 2.1 環(huán)境源碼：強(qiáng)化學(xué)習(xí)中環(huán)境用于產(chǎn)生狀態(tài)輸入，并通過智能體的動作產(chǎn)生新的狀態(tài)，
2024年02月10日
瀏覽(15)
機(jī)器人強(qiáng)化學(xué)習(xí)環(huán)境mujoco官方文檔學(xué)習(xí)記錄（一）——XML
鑒于研究生課題需要，開始在mujoco中配置仿真環(huán)境。而官方文檔中各種對象參數(shù)紛繁復(fù)雜，且涉及mujoco底層計算，不便于初學(xué)者進(jìn)行開發(fā)設(shè)計。因此本文將MJCF模型的常用對象參數(shù)進(jìn)行總結(jié)。本文檔僅供學(xué)習(xí)參考，如有問題歡迎大家學(xué)習(xí)交流。本章是MuJoCo中使用的MJCF建模語言
2024年02月02日
瀏覽(81)
gym包更新升級到0.26.2版本后煉丹爐的測試代碼
前兩天電腦有問題，重裝了系統(tǒng)。就有了關(guān)于安裝了更新后的軟件包跑環(huán)境測試代碼遇到的問題。本文包版本分別為——gym version：0.26.2，pygame version：2.1.2 注意：很多同學(xué)說老測試代碼跑不出來的，是因為gym升級了！gym庫0.26.0及之后的版本和之前版本的代碼是不兼容的！建
2024年02月07日
瀏覽(16)
windows11+GPU1060安裝強(qiáng)化學(xué)習(xí)環(huán)境之pytorch
這里大家看一個視頻系列，講得非常詳細(xì)，鏈接在此：https://www.bilibili.com/video/BV1S5411X7FY?p=28vd_source=3be739b673e1151850f4b8060ac78e1a 這里主要是說我遇到的問題以及解決辦法。首先，我的筆記本是有顯卡的，只不過算力為6，較低，但是已經(jīng)差不多了，主要是想在windows上操作，嗯，還
2024年01月19日
瀏覽(22)

<rt id="zrvo4"><source id="zrvo4"><font id="zrvo4"></font></source></rt>

<rt id="zrvo4"><pre id="zrvo4"><noframes id="zrvo4">