国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

強(qiáng)化學(xué)習(xí)——Q-Learning算法原理

這篇具有很好參考價(jià)值的文章主要介紹了強(qiáng)化學(xué)習(xí)——Q-Learning算法原理。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、Q-Learning :異策略時(shí)序差分控制

從決策方式來看,強(qiáng)化學(xué)習(xí)可以分為基于策略的方法(policy-based)和基于價(jià)值的方法(value-based)?;诓呗缘姆椒ㄖ苯訉Σ呗赃M(jìn)行優(yōu)化,使制定的的策略能夠獲得最大的獎(jiǎng)勵(lì)?;趦r(jià)值的強(qiáng)化學(xué)習(xí)方法中,智能體不需要制定顯式的策略,它維護(hù)一個(gè)價(jià)值表格或價(jià)值函數(shù),通過這個(gè)價(jià)值表格或價(jià)值函數(shù)來選取價(jià)值最大的動(dòng)作。
Q-Learning 算法就是一種value-based的強(qiáng)化學(xué)習(xí)算法。

二、算法思想:

Q(s,a)是狀態(tài)價(jià)值函數(shù),表示在某一具體初始狀態(tài)s和動(dòng)作a的情況下,對未來收益的期望值。
Q-Learning算法維護(hù)一個(gè)Q-table,Q-table記錄了不同狀態(tài)下s(s∈S),采取不同動(dòng)作a(a∈A)的所獲得的Q值。

Q-table a1 a2 a3
s1 Q(s1,a1) Q(s1,a2) Q(s1,a3)
s2 Q(s2,a1) Q(s2,a2) Q(s2,a3)
s3 Q(s3,a1) Q(s3,a2) Q(s3,a3)

探索環(huán)境之前,初始化Q-table,當(dāng)agent與環(huán)境交互的過程中,算法利用貝爾曼方程(ballman equation)來迭代更新Q(s,a),每一輪結(jié)束后就生成了一個(gè)新的Q-table。agent不斷與環(huán)境進(jìn)行交互,不斷更新這個(gè)表格,使其最終能收斂。最終,agent就能通過表格判斷在某個(gè)轉(zhuǎn)態(tài)s下采取什么動(dòng)作,才能獲得最大的Q值。

三、更新過程

更新方法:
Q ( s t , a t ) ← Q ( s t , a t ) + α [ r t + 1 + γ max ? a Q ( s t + 1 , a ) ? Q ( s t , a t ) ] Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t+1}+ \gamma \max_aQ(s_{t+1},a) - Q(s_t,a_t) ] Q(st?,at?)Q(st?,at?)+α[rt+1?+γamax?Q(st+1?,a)?Q(st?,at?)]

Q ( s t , a t ) {\color{Red} Q(s_t,a_t)} Q(st?,at?) 是在狀態(tài) s t s_t st?下采取動(dòng)作 a t a_t at?的長期回報(bào),是一個(gè)估計(jì)Q值

r t + 1 {\color{Red} r_{t+1}} rt+1? 是在狀態(tài) s t s_t st?下執(zhí)行動(dòng)作 a t a_t at?得到的回報(bào)reward

max ? a Q ( s t + 1 , a ) {\color{Red} \max_aQ(s_{t+1},a)} maxa?Q(st+1?,a) 指的是在狀態(tài) s t + 1 s_{t+1} st+1?下所獲得的最大Q值,直接看Q-table,取它的最大化的值。 γ \gamma γ折扣因子,含義是看重近期收益,弱化遠(yuǎn)期收益,同時(shí)也保證Q函數(shù)收斂。

( r t + 1 + γ max ? a Q ( s t + 1 , a ) {\color{Red} (r_{t+1}+ \gamma \max_aQ(s_{t+1},a)} (rt+1?+γmaxa?Q(st+1?,a) 即為目標(biāo)值,就是時(shí)序差分目標(biāo),是 Q ( s t , a t ) Q(s_t,a_t) Q(st?,at?) 想要逼近的目標(biāo)。 α \alpha α學(xué)習(xí)率,衡量更新的幅度。

當(dāng)目標(biāo)值和估計(jì)值的差值趨于0的時(shí)候,Q(s,a)就不再繼續(xù)變化,Q 表趨于穩(wěn)定,說明得到了一個(gè)收斂的結(jié)果。這就是算法想要達(dá)到的效果。

注意: max ? a Q ( s t + 1 , a ) {\color{Red} \max_aQ(s_{t+1},a)} maxa?Q(st+1?,a)所對應(yīng)的動(dòng)作不一定是下一步會(huì)執(zhí)行的實(shí)際動(dòng)作!
這里引出 ε ? g r e e d y {\color{Red} \varepsilon-greedy} ε?greedy,即 ε ? \varepsilon- ε?貪心算法。
在智能體探索過程中,執(zhí)行的動(dòng)作采用 ε ? g r e e d y {\color{Red} \varepsilon-greedy} ε?greedy策略,是權(quán)衡exploitation-exploration(利用和探索)的超參數(shù)。

  • exploration:探索環(huán)境,通過嘗試不同的動(dòng)作來得到最佳策略(帶來最大獎(jiǎng)勵(lì)的策略)
  • exploitation:不去嘗試新的動(dòng)作,利用已知的可以帶來很大獎(jiǎng)勵(lì)的動(dòng)作。Q-Learning算法中,就是根據(jù)Q-table選擇當(dāng)前狀態(tài)下能使Q值最大的動(dòng)作。

在剛開始的時(shí)候,智能體不知道采取某個(gè)動(dòng)作后會(huì)發(fā)生什么,所以只能通過試錯(cuò)去探索。利用是指直接采取已知的可以帶來很好獎(jiǎng)勵(lì)的動(dòng)作。這里面臨一個(gè)權(quán)衡問題,即怎么通過犧牲一些短期的獎(jiǎng)勵(lì)來理解動(dòng)作,從而學(xué)習(xí)到更好的策略。因此,提出 ε ? g r e e d y \varepsilon-greedy ε?greedy, ε \varepsilon ε就是權(quán)衡這兩方面的超參數(shù)。

這篇博客https://blog.csdn.net/zhm2229/article/details/99351831對這部分的理解講的很好,在此引用一下:

做exploitation和exploration的目的是獲得一種長期收益最高的策略,這個(gè)過程可能對short-term reward有損失。如果exploitation太多,那么模型比較容易陷入局部最優(yōu),但是exploration太多,模型收斂速度太慢。這就是exploitation-exploration權(quán)衡。

比如我們設(shè) ε \varepsilon ε=0.9,隨機(jī)化一個(gè)[0,1]的值,如果它小于 ε \varepsilon ε,則進(jìn)行exploration,隨機(jī)選擇動(dòng)作;如果它大于 ε \varepsilon ε,則進(jìn)行exploitation,選擇Q value最大的動(dòng)作。
在訓(xùn)練過程中, ε \varepsilon ε在剛開始的時(shí)候會(huì)被設(shè)得比較大,讓agent充分探索,然后 ε \varepsilon ε逐步減少,agent會(huì)開始慢慢選擇Q value最大的動(dòng)作

三、偽代碼

q-learning理論,筆記,AI,算法,人工智能
圖源于:百度飛槳AlStudio


參考:
[1] 王琦.強(qiáng)化學(xué)習(xí)教程[M]
[2] https://blog.csdn.net/zhm2229/article/details/99351831文章來源地址http://www.zghlxwxcb.cn/news/detail-817954.html

到了這里,關(guān)于強(qiáng)化學(xué)習(xí)——Q-Learning算法原理的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 強(qiáng)化學(xué)習(xí)基礎(chǔ)篇[2]:SARSA、Q-learning算法簡介、應(yīng)用舉例、優(yōu)缺點(diǎn)分析

    強(qiáng)化學(xué)習(xí)基礎(chǔ)篇[2]:SARSA、Q-learning算法簡介、應(yīng)用舉例、優(yōu)缺點(diǎn)分析

    【強(qiáng)化學(xué)習(xí)原理+項(xiàng)目專欄】必看系列:單智能體、多智能體算法原理+項(xiàng)目實(shí)戰(zhàn)、相關(guān)技巧(調(diào)參、畫圖等、趣味項(xiàng)目實(shí)現(xiàn)、學(xué)術(shù)應(yīng)用項(xiàng)目實(shí)現(xiàn) 專欄詳細(xì)介紹 :【強(qiáng)化學(xué)習(xí)原理+項(xiàng)目專欄】必看系列:單智能體、多智能體算法原理+項(xiàng)目實(shí)戰(zhàn)、相關(guān)技巧(調(diào)參、畫圖等、趣味項(xiàng)

    2024年02月07日
    瀏覽(20)
  • 強(qiáng)化學(xué)習(xí)Q-learning入門

    強(qiáng)化學(xué)習(xí)Q-learning入門

    本文為最近學(xué)習(xí)的強(qiáng)化學(xué)習(xí) Q-learning 的學(xué)習(xí)筆記,主要用于總結(jié)和日常記錄,本文主要講解相應(yīng)的必備入門知識。 閑話少說,我們直接開始吧! 我們小時(shí)候都經(jīng)歷過以下情形:我們做錯(cuò)了某年事,受到了懲罰,我們學(xué)習(xí)后,在遇到類似的狀況,我們將不會(huì)再犯錯(cuò)。同樣,許

    2024年02月08日
    瀏覽(17)
  • 強(qiáng)化學(xué)習(xí)Q-learning實(shí)踐

    強(qiáng)化學(xué)習(xí)Q-learning實(shí)踐

    前篇文章介紹了強(qiáng)化學(xué)習(xí)系統(tǒng)紅的基本概念和重要組成部分,并解釋了 Q-learning 算法相關(guān)的理論知識。本文的目標(biāo)是在 Python3 中實(shí)現(xiàn)該算法,并將其應(yīng)用于實(shí)際的實(shí)驗(yàn)中。 閑話少說,我們直接開始吧! 為了使本文具有實(shí)際具體的意義,特意選擇了一個(gè)簡單而基本的環(huán)境,可

    2024年02月08日
    瀏覽(18)
  • 強(qiáng)化學(xué)習(xí) - Q-learning(Q學(xué)習(xí))

    強(qiáng)化學(xué)習(xí)中的 Q-learning (Q學(xué)習(xí))是一種用于 學(xué)習(xí)在未知環(huán)境中做出決策的方法 。它是基于值函數(shù)的方法,通過學(xué)習(xí)一個(gè)值函數(shù) Q,該函數(shù)表示在給定狀態(tài)和動(dòng)作下,期望的累積獎(jiǎng)勵(lì)。 以下是一個(gè)簡單的 Q-learning 的實(shí)現(xiàn)教程,使用 Python 進(jìn)行演示。這里我們考慮一個(gè)簡單的駕

    2024年01月24日
    瀏覽(27)
  • 【強(qiáng)化學(xué)習(xí)】Q-learning訓(xùn)練AI走迷宮

    【強(qiáng)化學(xué)習(xí)】Q-learning訓(xùn)練AI走迷宮

    Q-learning? 最簡單 的強(qiáng)化學(xué)習(xí)算法! 不需要 深度學(xué)習(xí)網(wǎng)絡(luò)的算法! 帶有概率性的 窮舉 特性?。ㄉ踔吝€有一點(diǎn)點(diǎn)動(dòng)態(tài)規(guī)劃的感覺) Q-learning是一種基于強(qiáng)化學(xué)習(xí)的算法,用于解決 Markov決策過程 (MDP)中的問題。 這類問題我們理解為一種可以用 有限狀態(tài)機(jī) 表示的問題。它具

    2024年01月22日
    瀏覽(26)
  • Pytorch深度強(qiáng)化學(xué)習(xí)案例:基于Q-Learning的機(jī)器人走迷宮

    本專欄重點(diǎn)介紹強(qiáng)化學(xué)習(xí)技術(shù)的數(shù)學(xué)原理,并且 采用Pytorch框架對常見的強(qiáng)化學(xué)習(xí)算法、案例進(jìn)行實(shí)現(xiàn) ,幫助讀者理解并快速上手開發(fā)。同時(shí),輔以各種機(jī)器學(xué)習(xí)、數(shù)據(jù)處理技術(shù),擴(kuò)充人工智能的底層知識。 ??詳情:

    2024年02月04日
    瀏覽(24)
  • 【機(jī)器學(xué)習(xí)】強(qiáng)化學(xué)習(xí)(六)-DQN(Deep Q-Learning)訓(xùn)練月球著陸器示例

    【機(jī)器學(xué)習(xí)】強(qiáng)化學(xué)習(xí)(六)-DQN(Deep Q-Learning)訓(xùn)練月球著陸器示例

    概述 Deep Q-Learning(深度 Q 學(xué)習(xí))是一種強(qiáng)化學(xué)習(xí)算法,用于解決決策問題,其中代理(agent)通過學(xué)習(xí)在不同環(huán)境中采取行動(dòng)來最大化累積獎(jiǎng)勵(lì)。Lunar Lander 是一個(gè)經(jīng)典的強(qiáng)化學(xué)習(xí)問題,其中代理的任務(wù)是控制一個(gè)著陸艙在月球表面著陸,最小化著陸過程中的燃料消耗。 以下

    2024年01月25日
    瀏覽(28)
  • 強(qiáng)化學(xué)習(xí)應(yīng)用(二):基于Q-learning的物流配送路徑規(guī)劃研究(提供Python代碼)

    強(qiáng)化學(xué)習(xí)應(yīng)用(二):基于Q-learning的物流配送路徑規(guī)劃研究(提供Python代碼)

    Q-learning是一種強(qiáng)化學(xué)習(xí)算法,用于解決基于馬爾可夫決策過程(MDP)的問題。它通過學(xué)習(xí)一個(gè)值函數(shù)來指導(dǎo)智能體在環(huán)境中做出決策,以最大化累積獎(jiǎng)勵(lì)。 Q-learning算法的核心思想是使用一個(gè)Q值函數(shù)來估計(jì)每個(gè)狀態(tài)動(dòng)作對的價(jià)值。Q值表示在特定狀態(tài)下采取某個(gè)動(dòng)作所能獲得

    2024年01月21日
    瀏覽(33)
  • 強(qiáng)化學(xué)習(xí)應(yīng)用(四):基于Q-learning的無人機(jī)物流路徑規(guī)劃研究(提供Python代碼)

    強(qiáng)化學(xué)習(xí)應(yīng)用(四):基于Q-learning的無人機(jī)物流路徑規(guī)劃研究(提供Python代碼)

    Q-learning是一種強(qiáng)化學(xué)習(xí)算法,用于解決基于馬爾可夫決策過程(MDP)的問題。它通過學(xué)習(xí)一個(gè)價(jià)值函數(shù)來指導(dǎo)智能體在環(huán)境中做出決策,以最大化累積獎(jiǎng)勵(lì)。 Q-learning算法的核心思想是通過不斷更新一個(gè)稱為Q值的表格來學(xué)習(xí)最優(yōu)策略。Q值表示在給定狀態(tài)下采取某個(gè)動(dòng)作所能

    2024年01月17日
    瀏覽(30)
  • 強(qiáng)化學(xué)習(xí)應(yīng)用(八):基于Q-learning的無人機(jī)物流路徑規(guī)劃研究(提供Python代碼)

    強(qiáng)化學(xué)習(xí)應(yīng)用(八):基于Q-learning的無人機(jī)物流路徑規(guī)劃研究(提供Python代碼)

    Q-learning是一種強(qiáng)化學(xué)習(xí)算法,用于解決基于馬爾可夫決策過程(MDP)的問題。它通過學(xué)習(xí)一個(gè)價(jià)值函數(shù)來指導(dǎo)智能體在環(huán)境中做出決策,以最大化累積獎(jiǎng)勵(lì)。 Q-learning算法的核心思想是通過不斷更新一個(gè)稱為Q值的表格來學(xué)習(xí)最優(yōu)策略。Q值表示在給定狀態(tài)下采取某個(gè)動(dòng)作所能

    2024年01月17日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包