国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

第八篇：強(qiáng)化學(xué)習(xí)值迭代及代碼實(shí)現(xiàn)

2年前作者：算法channel分類：Toy博客閱讀(18)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了第八篇：強(qiáng)化學(xué)習(xí)值迭代及代碼實(shí)現(xiàn)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

你好，我是郭震（zhenguo）

前幾天我們學(xué)習(xí)強(qiáng)化學(xué)習(xí)策略迭代，今天，強(qiáng)化學(xué)習(xí)第8篇：強(qiáng)化學(xué)習(xí)值迭代

值迭代是強(qiáng)化學(xué)習(xí)另一種求解方法，用于找到馬爾可夫決策過(guò)程（MDP）中的最優(yōu)值函數(shù)。

值迭代

值迭代可以總結(jié)為如下幾點(diǎn)：

值迭代通過(guò)不斷迭代更新值函數(shù)來(lái)逼近最優(yōu)值函數(shù)，從而確定最優(yōu)策略。
值迭代的關(guān)鍵是在每次迭代中更新值函數(shù)。
對(duì)于每個(gè)狀態(tài)，通過(guò)考慮所有可能的動(dòng)作和下一個(gè)狀態(tài)，選擇能夠使值最大化的動(dòng)作，并計(jì)算更新后的值函數(shù)。
迭代更新值函數(shù)，更新公式也是貝爾曼方程，和策略迭代值函數(shù)更新公式一樣。
值迭代需要進(jìn)行多次迭代，直到值函數(shù)收斂為止。收斂時(shí)，值函數(shù)不再發(fā)生顯著變化。

可以看到：值迭代是比策略迭代更為簡(jiǎn)單的一種迭代方法。

代碼實(shí)現(xiàn)

值迭代，求迷宮問(wèn)題，完整代碼。

只使用numpy包

import?numpy?as?np

定義迷宮地圖，在迷宮地圖中，不同的數(shù)字代表不同的含義：

0：表示可以通過(guò)的空格，即可行走的路徑。
-1：表示墻壁或障礙物，表示不能通過(guò)的障礙物區(qū)域。
1：表示目標(biāo)位置，即終點(diǎn)位置。

其中，0代表可行走的路徑，-1代表障礙物或墻壁，1代表迷宮的終點(diǎn)位置。這些數(shù)值用于描述迷宮的不同區(qū)域，以幫助算法進(jìn)行路徑搜索和價(jià)值計(jì)算。如下所示：

第八篇：強(qiáng)化學(xué)習(xí)值迭代及代碼實(shí)現(xiàn)

#?定義迷宮地圖
maze?=?np.array([
????[0,?0,?0,?0],
????[0,?-1,?0,?-1],
????[0,?0,?0,?0],
????[-1,?0,?-1,?1]
])

定義參數(shù)

#?定義參數(shù)
gamma?=?0.9??#?折扣因子
epsilon?=?1e-6??#?收斂閾值

初始值函數(shù)

#?初始化值函數(shù)
V?=?np.zeros(maze.shape)

進(jìn)行值迭代

#?進(jìn)行值迭代
while?True:
????delta?=?0
????for?i?in?range(maze.shape[0]):
????????for?j?in?range(maze.shape[1]):
????????????if?maze[i,?j]?==?-1?or?maze[i,?j]?==?1:
????????????????continue
????????????#?計(jì)算當(dāng)前狀態(tài)的最大價(jià)值
????????????max_value?=?float("-inf")
????????????for?action?in?[(0,?1),?(0,?-1),?(1,?0),?(-1,?0)]:
????????????????ni,?nj?=?i?+?action[0],?j?+?action[1]
????????????????if?ni?>=?0?and?ni?<?maze.shape[0]?and?nj?>=?0?and?nj?<?maze.shape[1]?and?maze[ni,?nj]?!=?-1:
????????????????????max_value?=?max(max_value,?gamma?*?V[ni,?nj])
????????????#?更新值函數(shù)
????????????new_value?=?maze[i,?j]?+?max_value
????????????delta?=?max(delta,?abs(new_value?-?V[i,?j]))
????????????V[i,?j]?=?new_value
????if?delta?<?epsilon:
????????break

#?打印最優(yōu)值函數(shù)
print("最優(yōu)值函數(shù)：")
print(V)

這里面的核心代碼就是求解貝爾曼方程：

第八篇：強(qiáng)化學(xué)習(xí)值迭代及代碼實(shí)現(xiàn)

其中，?表示狀態(tài)??的值函數(shù)，即按照某個(gè)策略獲得的預(yù)期回報(bào)。?表示選擇能夠使得值最大化的動(dòng)作?。?表示對(duì)所有可能的下一個(gè)狀態(tài)??和獎(jiǎng)勵(lì)??進(jìn)行求和。?表示在狀態(tài)??下執(zhí)行動(dòng)作??后轉(zhuǎn)移到狀態(tài)??且獲得獎(jiǎng)勵(lì)??的概率。?是折扣因子，用于平衡當(dāng)前和未來(lái)的獎(jiǎng)勵(lì)。

在上述代碼中，首先定義了迷宮地圖，并設(shè)置了折扣因子和收斂閾值。然后，通過(guò)值迭代算法逐步更新值函數(shù)，直到值函數(shù)的變化小于收斂閾值為止。最后，打印出最優(yōu)的值函數(shù)。

感謝你的點(diǎn)贊和轉(zhuǎn)發(fā)，讓我更新更有動(dòng)力文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-472958.html

到了這里，關(guān)于第八篇：強(qiáng)化學(xué)習(xí)值迭代及代碼實(shí)現(xiàn)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【從零開始學(xué)習(xí)Redis | 第八篇】認(rèn)識(shí)Redis底層數(shù)據(jù)結(jié)構(gòu)（下）
目錄前言： ? ZipList： Ziplist的特性: QucikList: QuicList特征： SkipList：跳表特征： RedisObijct： ?小心得：總結(jié)： ? ? ??? ? 在現(xiàn)代軟件開發(fā)中，數(shù)據(jù)存儲(chǔ)和處理是至關(guān)重要的一環(huán)。為了高效地管理數(shù)據(jù)，并實(shí)現(xiàn)快速的讀寫操作，各種數(shù)據(jù)庫(kù)技術(shù)應(yīng)運(yùn)而生。其中，Redis作為一種
2024年04月12日
瀏覽(29)
【FPGA入門】第八篇、FPGA驅(qū)動(dòng)VGA實(shí)現(xiàn)動(dòng)態(tài)圖像移動(dòng)
目錄第一部分、實(shí)現(xiàn)效果第二部分、動(dòng)態(tài)VGA顯示的原理 1、將動(dòng)態(tài)顯示的區(qū)域提前進(jìn)行賦值 2、圖像塊的移動(dòng)是每張圖片疊加后的效果 3、如何實(shí)現(xiàn)圖像塊位置的改變第三部分、系統(tǒng)結(jié)構(gòu)和驅(qū)動(dòng)波形 1、系統(tǒng)的Top-down結(jié)構(gòu) 2、圖像塊移動(dòng)的驅(qū)動(dòng)波形第四部分、代碼 1、同步信號(hào)
2024年02月04日
瀏覽(17)
類EMD的“信號(hào)分解方法”及MATLAB實(shí)現(xiàn)（第八篇）——離散小波變換DWT（小波分解）
在之前的系列文章里，我們介紹了EEMD、CEEMD、CEEMDAN、VMD、ICEEMDAN、LMD、EWT，我們繼續(xù)補(bǔ)完該系列。今天要講到的是小波分解，通常也就是指離散小波變換（Discrete Wavelet Transform, DWT）。在網(wǎng)上有一些介紹該方法的文章，但是總感覺不夠通俗或不夠透徹，希望讀完這篇能讓你有
2024年02月07日
瀏覽(17)
第八篇: K8S Prometheus Operator實(shí)現(xiàn)Ceph集群企業(yè)微信機(jī)器人告警
我們的k8s集群與ceph集群是部署在不同的服務(wù)器上，因此實(shí)現(xiàn)方案如下： (1) ceph集群開啟mgr內(nèi)置的exporter服務(wù)，用于獲取ceph集群的metrics (2) k8s集群通過(guò) Service + Endponit + ServiceMonitor建立ceph集群metrics與Prometheus之間的聯(lián)系建立一個(gè) ServiceMonitor 對(duì)象，用于 Prometheus 添加監(jiān)控項(xiàng)；為
2024年02月14日
瀏覽(21)
第八篇——Kafka Streams源碼解讀
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) Kafka Streams是一個(gè)開源分布式流處理平臺(tái)，它可以讓你輕松處理實(shí)時(shí)數(shù)據(jù)流。通過(guò)Kafka Streams API可以輕松創(chuàng)建、部署和運(yùn)行復(fù)雜的實(shí)時(shí)流處理應(yīng)用程序。雖然Kafka Stream提供了許多高級(jí)功能，但其底層原理卻十分簡(jiǎn)單易懂，在學(xué)習(xí)之余，我們還是需
2024年02月07日
瀏覽(24)
微服務(wù)開發(fā)系列第八篇：Elasticsearch
A、技術(shù)棧開發(fā)語(yǔ)言：Java 1.8 數(shù)據(jù)庫(kù)：MySQL、Redis、MongoDB、Elasticsearch 微服務(wù)框架：Spring Cloud Alibaba 微服務(wù)網(wǎng)關(guān)：Spring Cloud Gateway 服務(wù)注冊(cè)和配置中心：Nacos 分布式事務(wù)：Seata 鏈路追蹤框架：Sleuth 服務(wù)降級(jí)與熔斷：Sentinel ORM框架：MyBatis-Plus 分布式任務(wù)調(diào)度平臺(tái)：XXL-JOB 消息中間
2024年02月08日
瀏覽(19)
致遠(yuǎn)OA如何開發(fā) 第八篇新增接口
新增接口此欄目技術(shù)支持技術(shù)大佬對(duì)欄目文章的支持特別感謝新增接口 1 第一種方式 rest java文件 2 第二種方式 Ajax 新增文件java 依賴注入
2024年01月25日
瀏覽(20)
將強(qiáng)化學(xué)習(xí)引入NLP：原理、技術(shù)和代碼實(shí)現(xiàn)
本文深入探討了強(qiáng)化學(xué)習(xí)在自然語(yǔ)言處理（NLP）中的應(yīng)用，涵蓋了強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念、與NLP的結(jié)合方式、技術(shù)細(xì)節(jié)以及實(shí)際的應(yīng)用案例。通過(guò)詳細(xì)的解釋和Python、PyTorch的實(shí)現(xiàn)代碼，讀者將了解如何利用強(qiáng)化學(xué)習(xí)優(yōu)化NLP任務(wù)，如對(duì)話系統(tǒng)和機(jī)器翻譯。關(guān)注TechLead，分享AI全維
2024年02月05日
瀏覽(16)
第八篇：SQL語(yǔ)法-DQL-數(shù)據(jù)查詢語(yǔ)言
DQL英文全稱是Data QueryLanguage（數(shù)據(jù)查詢語(yǔ)言），用來(lái)查詢數(shù)據(jù)庫(kù)中表的記錄查詢： select DQL主要包含以下操作基本查詢條件查詢分組查詢在select之后指定字段名，如果有多個(gè)則用逗號(hào)分隔，用于查詢表中指定字段的數(shù)據(jù) 在select之后使用【通配符* 】，用于查詢同一
2024年02月20日
瀏覽(60)
第八篇:區(qū)塊鏈與實(shí)體經(jīng)濟(jì)的結(jié)合之道
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 2017年夏天，以太坊（Ethereum）在世界范圍內(nèi)誕生，這標(biāo)志著區(qū)塊鏈技術(shù)進(jìn)入了一個(gè)新的時(shí)代。隨著數(shù)字貨幣、智能合約等概念的流行，實(shí)體經(jīng)濟(jì)也在經(jīng)歷著蓬勃發(fā)展。然而，區(qū)塊鏈與實(shí)體經(jīng)濟(jì)之間的碰撞似乎還很遙遠(yuǎn)。在本文中，我們將嘗試從
2024年02月08日
瀏覽(21)