国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

第八篇:強(qiáng)化學(xué)習(xí)值迭代及代碼實(shí)現(xiàn)

這篇具有很好參考價(jià)值的文章主要介紹了第八篇:強(qiáng)化學(xué)習(xí)值迭代及代碼實(shí)現(xiàn)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

你好,我是郭震(zhenguo)

前幾天我們學(xué)習(xí)強(qiáng)化學(xué)習(xí)策略迭代,今天,強(qiáng)化學(xué)習(xí)第8篇:強(qiáng)化學(xué)習(xí)值迭代

值迭代是強(qiáng)化學(xué)習(xí)另一種求解方法,用于找到馬爾可夫決策過(guò)程(MDP)中的最優(yōu)值函數(shù)。

值迭代

值迭代可以總結(jié)為如下幾點(diǎn):

  • 值迭代通過(guò)不斷迭代更新值函數(shù)來(lái)逼近最優(yōu)值函數(shù),從而確定最優(yōu)策略。

  • 值迭代的關(guān)鍵是在每次迭代中更新值函數(shù)。

  • 對(duì)于每個(gè)狀態(tài),通過(guò)考慮所有可能的動(dòng)作和下一個(gè)狀態(tài),選擇能夠使值最大化的動(dòng)作,并計(jì)算更新后的值函數(shù)。

  • 迭代更新值函數(shù),更新公式也是貝爾曼方程,和策略迭代值函數(shù)更新公式一樣。

  • 值迭代需要進(jìn)行多次迭代,直到值函數(shù)收斂為止。收斂時(shí),值函數(shù)不再發(fā)生顯著變化。

可以看到:值迭代是比策略迭代更為簡(jiǎn)單的一種迭代方法。

代碼實(shí)現(xiàn)

值迭代,求迷宮問(wèn)題,完整代碼。

只使用numpy

import?numpy?as?np

定義迷宮地圖,在迷宮地圖中,不同的數(shù)字代表不同的含義:

  • 0:表示可以通過(guò)的空格,即可行走的路徑。

  • -1:表示墻壁或障礙物,表示不能通過(guò)的障礙物區(qū)域。

  • 1:表示目標(biāo)位置,即終點(diǎn)位置。

其中,0代表可行走的路徑,-1代表障礙物或墻壁,1代表迷宮的終點(diǎn)位置。這些數(shù)值用于描述迷宮的不同區(qū)域,以幫助算法進(jìn)行路徑搜索和價(jià)值計(jì)算。如下所示:

第八篇:強(qiáng)化學(xué)習(xí)值迭代及代碼實(shí)現(xiàn)
#?定義迷宮地圖
maze?=?np.array([
????[0,?0,?0,?0],
????[0,?-1,?0,?-1],
????[0,?0,?0,?0],
????[-1,?0,?-1,?1]
])

定義參數(shù)

#?定義參數(shù)
gamma?=?0.9??#?折扣因子
epsilon?=?1e-6??#?收斂閾值

初始值函數(shù)

#?初始化值函數(shù)
V?=?np.zeros(maze.shape)

進(jìn)行值迭代

#?進(jìn)行值迭代
while?True:
????delta?=?0
????for?i?in?range(maze.shape[0]):
????????for?j?in?range(maze.shape[1]):
????????????if?maze[i,?j]?==?-1?or?maze[i,?j]?==?1:
????????????????continue
????????????#?計(jì)算當(dāng)前狀態(tài)的最大價(jià)值
????????????max_value?=?float("-inf")
????????????for?action?in?[(0,?1),?(0,?-1),?(1,?0),?(-1,?0)]:
????????????????ni,?nj?=?i?+?action[0],?j?+?action[1]
????????????????if?ni?>=?0?and?ni?<?maze.shape[0]?and?nj?>=?0?and?nj?<?maze.shape[1]?and?maze[ni,?nj]?!=?-1:
????????????????????max_value?=?max(max_value,?gamma?*?V[ni,?nj])
????????????#?更新值函數(shù)
????????????new_value?=?maze[i,?j]?+?max_value
????????????delta?=?max(delta,?abs(new_value?-?V[i,?j]))
????????????V[i,?j]?=?new_value
????if?delta?<?epsilon:
????????break

#?打印最優(yōu)值函數(shù)
print("最優(yōu)值函數(shù):")
print(V)

這里面的核心代碼就是求解貝爾曼方程:

第八篇:強(qiáng)化學(xué)習(xí)值迭代及代碼實(shí)現(xiàn)

其中,?表示狀態(tài)??的值函數(shù),即按照某個(gè)策略獲得的預(yù)期回報(bào)。?表示選擇能夠使得值最大化的動(dòng)作?。?表示對(duì)所有可能的下一個(gè)狀態(tài)??和獎(jiǎng)勵(lì)??進(jìn)行求和。?表示在狀態(tài)??下執(zhí)行動(dòng)作??后轉(zhuǎn)移到狀態(tài)??且獲得獎(jiǎng)勵(lì)??的概率。?是折扣因子,用于平衡當(dāng)前和未來(lái)的獎(jiǎng)勵(lì)。

在上述代碼中,首先定義了迷宮地圖,并設(shè)置了折扣因子和收斂閾值。然后,通過(guò)值迭代算法逐步更新值函數(shù),直到值函數(shù)的變化小于收斂閾值為止。最后,打印出最優(yōu)的值函數(shù)。

感謝你的點(diǎn)贊和轉(zhuǎn)發(fā),讓我更新更有動(dòng)力文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-472958.html

到了這里,關(guān)于第八篇:強(qiáng)化學(xué)習(xí)值迭代及代碼實(shí)現(xiàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【從零開始學(xué)習(xí)Redis | 第八篇】認(rèn)識(shí)Redis底層數(shù)據(jù)結(jié)構(gòu)(下)

    【從零開始學(xué)習(xí)Redis | 第八篇】認(rèn)識(shí)Redis底層數(shù)據(jù)結(jié)構(gòu)(下)

    目錄 前言: ? ZipList: Ziplist的特性: QucikList: QuicList特征: SkipList: 跳表特征: RedisObijct: ?小心得: 總結(jié): ? ? ??? ? 在現(xiàn)代軟件開發(fā)中,數(shù)據(jù)存儲(chǔ)和處理是至關(guān)重要的一環(huán)。為了高效地管理數(shù)據(jù),并實(shí)現(xiàn)快速的讀寫操作,各種數(shù)據(jù)庫(kù)技術(shù)應(yīng)運(yùn)而生。其中,Redis作為一種

    2024年04月12日
    瀏覽(29)
  • 【FPGA入門】第八篇、FPGA驅(qū)動(dòng)VGA實(shí)現(xiàn)動(dòng)態(tài)圖像移動(dòng)

    【FPGA入門】第八篇、FPGA驅(qū)動(dòng)VGA實(shí)現(xiàn)動(dòng)態(tài)圖像移動(dòng)

    目錄 第一部分、實(shí)現(xiàn)效果 第二部分、動(dòng)態(tài)VGA顯示的原理 1、將動(dòng)態(tài)顯示的區(qū)域提前進(jìn)行賦值 2、圖像塊的移動(dòng)是每張圖片疊加后的效果 3、如何實(shí)現(xiàn)圖像塊位置的改變 第三部分、系統(tǒng)結(jié)構(gòu)和驅(qū)動(dòng)波形 1、系統(tǒng)的Top-down結(jié)構(gòu) 2、圖像塊移動(dòng)的驅(qū)動(dòng)波形 第四部分、代碼 1、同步信號(hào)

    2024年02月04日
    瀏覽(17)
  • 類EMD的“信號(hào)分解方法”及MATLAB實(shí)現(xiàn)(第八篇)——離散小波變換DWT(小波分解)

    類EMD的“信號(hào)分解方法”及MATLAB實(shí)現(xiàn)(第八篇)——離散小波變換DWT(小波分解)

    在之前的系列文章里,我們介紹了EEMD、CEEMD、CEEMDAN、VMD、ICEEMDAN、LMD、EWT,我們繼續(xù)補(bǔ)完該系列。 今天要講到的是小波分解,通常也就是指離散小波變換(Discrete Wavelet Transform, DWT)。在網(wǎng)上有一些介紹該方法的文章,但是總感覺不夠通俗或不夠透徹,希望讀完這篇能讓你有

    2024年02月07日
    瀏覽(17)
  • 第八篇: K8S Prometheus Operator實(shí)現(xiàn)Ceph集群企業(yè)微信機(jī)器人告警

    第八篇: K8S Prometheus Operator實(shí)現(xiàn)Ceph集群企業(yè)微信機(jī)器人告警

    我們的k8s集群與ceph集群是部署在不同的服務(wù)器上,因此實(shí)現(xiàn)方案如下: (1) ceph集群開啟mgr內(nèi)置的exporter服務(wù),用于獲取ceph集群的metrics (2) k8s集群通過(guò) Service + Endponit + ServiceMonitor建立ceph集群metrics與Prometheus之間的聯(lián)系 建立一個(gè) ServiceMonitor 對(duì)象,用于 Prometheus 添加監(jiān)控項(xiàng); 為

    2024年02月14日
    瀏覽(21)
  • 第八篇——Kafka Streams源碼解讀

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) Kafka Streams是一個(gè)開源分布式流處理平臺(tái),它可以讓你輕松處理實(shí)時(shí)數(shù)據(jù)流。通過(guò)Kafka Streams API可以輕松創(chuàng)建、部署和運(yùn)行復(fù)雜的實(shí)時(shí)流處理應(yīng)用程序。雖然Kafka Stream提供了許多高級(jí)功能,但其底層原理卻十分簡(jiǎn)單易懂,在學(xué)習(xí)之余,我們還是需

    2024年02月07日
    瀏覽(24)
  • 微服務(wù)開發(fā)系列 第八篇:Elasticsearch

    A、技術(shù)棧 開發(fā)語(yǔ)言:Java 1.8 數(shù)據(jù)庫(kù):MySQL、Redis、MongoDB、Elasticsearch 微服務(wù)框架:Spring Cloud Alibaba 微服務(wù)網(wǎng)關(guān):Spring Cloud Gateway 服務(wù)注冊(cè)和配置中心:Nacos 分布式事務(wù):Seata 鏈路追蹤框架:Sleuth 服務(wù)降級(jí)與熔斷:Sentinel ORM框架:MyBatis-Plus 分布式任務(wù)調(diào)度平臺(tái):XXL-JOB 消息中間

    2024年02月08日
    瀏覽(19)
  • 致遠(yuǎn)OA如何開發(fā) 第八篇 新增接口

    新增接口 此欄目技術(shù)支持 技術(shù)大佬對(duì)欄目文章的支持 特別感謝 新增接口 1 第一種方式 rest java文件 2 第二種方式 Ajax 新增文件java 依賴注入

    2024年01月25日
    瀏覽(20)
  • 將強(qiáng)化學(xué)習(xí)引入NLP:原理、技術(shù)和代碼實(shí)現(xiàn)

    將強(qiáng)化學(xué)習(xí)引入NLP:原理、技術(shù)和代碼實(shí)現(xiàn)

    本文深入探討了強(qiáng)化學(xué)習(xí)在自然語(yǔ)言處理(NLP)中的應(yīng)用,涵蓋了強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念、與NLP的結(jié)合方式、技術(shù)細(xì)節(jié)以及實(shí)際的應(yīng)用案例。通過(guò)詳細(xì)的解釋和Python、PyTorch的實(shí)現(xiàn)代碼,讀者將了解如何利用強(qiáng)化學(xué)習(xí)優(yōu)化NLP任務(wù),如對(duì)話系統(tǒng)和機(jī)器翻譯。 關(guān)注TechLead,分享AI全維

    2024年02月05日
    瀏覽(16)
  • 第八篇:SQL語(yǔ)法-DQL-數(shù)據(jù)查詢語(yǔ)言

    第八篇:SQL語(yǔ)法-DQL-數(shù)據(jù)查詢語(yǔ)言

    DQL英文全稱是Data QueryLanguage(數(shù)據(jù)查詢語(yǔ)言),用來(lái)查詢數(shù)據(jù)庫(kù)中表的記錄 查詢: select DQL主要包含以下操作 基本查詢 條件查詢 分組查詢 在select之后指定字段名,如果有多個(gè)則用逗號(hào)分隔,用于查詢表中指定字段的數(shù)據(jù) 在select之后使用【 通配符* 】,用于查詢 同一

    2024年02月20日
    瀏覽(60)
  • 第八篇:區(qū)塊鏈與實(shí)體經(jīng)濟(jì)的結(jié)合之道

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 2017年夏天,以太坊(Ethereum)在世界范圍內(nèi)誕生,這標(biāo)志著區(qū)塊鏈技術(shù)進(jìn)入了一個(gè)新的時(shí)代。隨著數(shù)字貨幣、智能合約等概念的流行,實(shí)體經(jīng)濟(jì)也在經(jīng)歷著蓬勃發(fā)展。然而,區(qū)塊鏈與實(shí)體經(jīng)濟(jì)之間的碰撞似乎還很遙遠(yuǎn)。在本文中,我們將嘗試從

    2024年02月08日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包