国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<form id="q0hk0"><nav id="q0hk0"></nav></form>

強(qiáng)化學(xué)習(xí)——Q-Learning算法原理

2年前作者：流螢點(diǎn)火分類：Toy博客閱讀(22)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了強(qiáng)化學(xué)習(xí)——Q-Learning算法原理。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、Q-Learning ：異策略時(shí)序差分控制

從決策方式來看，強(qiáng)化學(xué)習(xí)可以分為基于策略的方法(policy-based)和基于價(jià)值的方法(value-based)?；诓呗缘姆椒ㄖ苯訉Σ呗赃M(jìn)行優(yōu)化，使制定的的策略能夠獲得最大的獎(jiǎng)勵(lì)?；趦r(jià)值的強(qiáng)化學(xué)習(xí)方法中，智能體不需要制定顯式的策略，它維護(hù)一個(gè)價(jià)值表格或價(jià)值函數(shù)，通過這個(gè)價(jià)值表格或價(jià)值函數(shù)來選取價(jià)值最大的動(dòng)作。
Q-Learning 算法就是一種value-based的強(qiáng)化學(xué)習(xí)算法。

二、算法思想：

Q(s,a)是狀態(tài)價(jià)值函數(shù)，表示在某一具體初始狀態(tài)s和動(dòng)作a的情況下，對未來收益的期望值。
Q-Learning算法維護(hù)一個(gè)Q-table，Q-table記錄了不同狀態(tài)下s(s∈S)，采取不同動(dòng)作a(a∈A)的所獲得的Q值。

Q-table	a1	a2	a3	…
s1	Q(s1,a1)	Q(s1,a2)	Q(s1,a3)
s2	Q(s2,a1)	Q(s2,a2)	Q(s2,a3)
s3	Q(s3,a1)	Q(s3,a2)	Q(s3,a3)
…

探索環(huán)境之前，初始化Q-table，當(dāng)agent與環(huán)境交互的過程中，算法利用貝爾曼方程（ballman equation）來迭代更新Q(s,a)，每一輪結(jié)束后就生成了一個(gè)新的Q-table。agent不斷與環(huán)境進(jìn)行交互，不斷更新這個(gè)表格，使其最終能收斂。最終，agent就能通過表格判斷在某個(gè)轉(zhuǎn)態(tài)s下采取什么動(dòng)作，才能獲得最大的Q值。

三、更新過程

更新方法:
$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t+1}+ \gamma \max_aQ(s_{t+1},a) - Q(s_t,a_t) ]$

${\color{Red} Q(s_t,a_t)}$ 是在狀態(tài) $s_t$ 下采取動(dòng)作 $a_t$ 的長期回報(bào)，是一個(gè)估計(jì)Q值

${\color{Red} r_{t+1}}$ 是在狀態(tài) $s_t$ 下執(zhí)行動(dòng)作 $a_t$ 得到的回報(bào)reward

${\color{Red} \max_aQ(s_{t+1},a)}$ 指的是在狀態(tài) $s_{t+1}$ 下所獲得的最大Q值，直接看Q-table，取它的最大化的值。 $\gamma$ 是折扣因子，含義是看重近期收益，弱化遠(yuǎn)期收益，同時(shí)也保證Q函數(shù)收斂。

${\color{Red} (r_{t+1}+ \gamma \max_aQ(s_{t+1},a)}$ 即為目標(biāo)值，就是時(shí)序差分目標(biāo)，是 $Q(s_t,a_t)$ 想要逼近的目標(biāo)。 $\alpha$ 是學(xué)習(xí)率，衡量更新的幅度。

當(dāng)目標(biāo)值和估計(jì)值的差值趨于0的時(shí)候，Q(s,a)就不再繼續(xù)變化，Q 表趨于穩(wěn)定，說明得到了一個(gè)收斂的結(jié)果。這就是算法想要達(dá)到的效果。

注意： ${\color{Red} \max_aQ(s_{t+1},a)}$ 所對應(yīng)的動(dòng)作不一定是下一步會(huì)執(zhí)行的實(shí)際動(dòng)作！
這里引出 ${\color{Red} \varepsilon-greedy}$ ，即 $\varepsilon-$ 貪心算法。
在智能體探索過程中，執(zhí)行的動(dòng)作采用 ${\color{Red} \varepsilon-greedy}$ 策略，是權(quán)衡exploitation-exploration(利用和探索)的超參數(shù)。

exploration：探索環(huán)境，通過嘗試不同的動(dòng)作來得到最佳策略（帶來最大獎(jiǎng)勵(lì)的策略）
exploitation：不去嘗試新的動(dòng)作，利用已知的可以帶來很大獎(jiǎng)勵(lì)的動(dòng)作。Q-Learning算法中，就是根據(jù)Q-table選擇當(dāng)前狀態(tài)下能使Q值最大的動(dòng)作。

在剛開始的時(shí)候，智能體不知道采取某個(gè)動(dòng)作后會(huì)發(fā)生什么，所以只能通過試錯(cuò)去探索。利用是指直接采取已知的可以帶來很好獎(jiǎng)勵(lì)的動(dòng)作。這里面臨一個(gè)權(quán)衡問題，即怎么通過犧牲一些短期的獎(jiǎng)勵(lì)來理解動(dòng)作，從而學(xué)習(xí)到更好的策略。因此，提出 $\varepsilon-greedy$ ， $\varepsilon$ 就是權(quán)衡這兩方面的超參數(shù)。

這篇博客https://blog.csdn.net/zhm2229/article/details/99351831對這部分的理解講的很好，在此引用一下：

做exploitation和exploration的目的是獲得一種長期收益最高的策略，這個(gè)過程可能對short-term reward有損失。如果exploitation太多，那么模型比較容易陷入局部最優(yōu)，但是exploration太多，模型收斂速度太慢。這就是exploitation-exploration權(quán)衡。

比如我們設(shè) $\varepsilon$ =0.9，隨機(jī)化一個(gè)[0,1]的值，如果它小于 $\varepsilon$ ，則進(jìn)行exploration，隨機(jī)選擇動(dòng)作；如果它大于 $\varepsilon$ ，則進(jìn)行exploitation，選擇Q value最大的動(dòng)作。
在訓(xùn)練過程中， $\varepsilon$ 在剛開始的時(shí)候會(huì)被設(shè)得比較大，讓agent充分探索，然后 $\varepsilon$ 逐步減少，agent會(huì)開始慢慢選擇Q value最大的動(dòng)作

三、偽代碼

q-learning理論,筆記,AI,算法,人工智能
圖源于：百度飛槳AlStudio

參考：
[1] 王琦.強(qiáng)化學(xué)習(xí)教程[M]
[2] https://blog.csdn.net/zhm2229/article/details/99351831文章來源地址http://www.zghlxwxcb.cn/news/detail-817954.html

到了這里，關(guān)于強(qiáng)化學(xué)習(xí)——Q-Learning算法原理的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

強(qiáng)化學(xué)習(xí)基礎(chǔ)篇[2]：SARSA、Q-learning算法簡介、應(yīng)用舉例、優(yōu)缺點(diǎn)分析
【強(qiáng)化學(xué)習(xí)原理+項(xiàng)目專欄】必看系列：單智能體、多智能體算法原理+項(xiàng)目實(shí)戰(zhàn)、相關(guān)技巧（調(diào)參、畫圖等、趣味項(xiàng)目實(shí)現(xiàn)、學(xué)術(shù)應(yīng)用項(xiàng)目實(shí)現(xiàn) 專欄詳細(xì)介紹：【強(qiáng)化學(xué)習(xí)原理+項(xiàng)目專欄】必看系列：單智能體、多智能體算法原理+項(xiàng)目實(shí)戰(zhàn)、相關(guān)技巧（調(diào)參、畫圖等、趣味項(xiàng)
2024年02月07日
瀏覽(20)
強(qiáng)化學(xué)習(xí)Q-learning入門
本文為最近學(xué)習(xí)的強(qiáng)化學(xué)習(xí) Q-learning 的學(xué)習(xí)筆記，主要用于總結(jié)和日常記錄，本文主要講解相應(yīng)的必備入門知識。閑話少說，我們直接開始吧！我們小時(shí)候都經(jīng)歷過以下情形：我們做錯(cuò)了某年事，受到了懲罰，我們學(xué)習(xí)后，在遇到類似的狀況，我們將不會(huì)再犯錯(cuò)。同樣，許
2024年02月08日
瀏覽(17)
強(qiáng)化學(xué)習(xí)Q-learning實(shí)踐
前篇文章介紹了強(qiáng)化學(xué)習(xí)系統(tǒng)紅的基本概念和重要組成部分，并解釋了 Q-learning 算法相關(guān)的理論知識。本文的目標(biāo)是在 Python3 中實(shí)現(xiàn)該算法，并將其應(yīng)用于實(shí)際的實(shí)驗(yàn)中。閑話少說，我們直接開始吧！為了使本文具有實(shí)際具體的意義，特意選擇了一個(gè)簡單而基本的環(huán)境，可
2024年02月08日
瀏覽(18)
強(qiáng)化學(xué)習(xí) - Q-learning（Q學(xué)習(xí)）
強(qiáng)化學(xué)習(xí)中的 Q-learning （Q學(xué)習(xí)）是一種用于學(xué)習(xí)在未知環(huán)境中做出決策的方法。它是基于值函數(shù)的方法，通過學(xué)習(xí)一個(gè)值函數(shù) Q，該函數(shù)表示在給定狀態(tài)和動(dòng)作下，期望的累積獎(jiǎng)勵(lì)。以下是一個(gè)簡單的 Q-learning 的實(shí)現(xiàn)教程，使用 Python 進(jìn)行演示。這里我們考慮一個(gè)簡單的駕
2024年01月24日
瀏覽(27)
【強(qiáng)化學(xué)習(xí)】Q-learning訓(xùn)練AI走迷宮
Q-learning？最簡單的強(qiáng)化學(xué)習(xí)算法！不需要深度學(xué)習(xí)網(wǎng)絡(luò)的算法！帶有概率性的窮舉特性?。ㄉ踔吝€有一點(diǎn)點(diǎn)動(dòng)態(tài)規(guī)劃的感覺） Q-learning是一種基于強(qiáng)化學(xué)習(xí)的算法，用于解決 Markov決策過程（MDP）中的問題。這類問題我們理解為一種可以用有限狀態(tài)機(jī) 表示的問題。它具
2024年01月22日
瀏覽(26)
Pytorch深度強(qiáng)化學(xué)習(xí)案例：基于Q-Learning的機(jī)器人走迷宮
本專欄重點(diǎn)介紹強(qiáng)化學(xué)習(xí)技術(shù)的數(shù)學(xué)原理，并且采用Pytorch框架對常見的強(qiáng)化學(xué)習(xí)算法、案例進(jìn)行實(shí)現(xiàn) ，幫助讀者理解并快速上手開發(fā)。同時(shí)，輔以各種機(jī)器學(xué)習(xí)、數(shù)據(jù)處理技術(shù)，擴(kuò)充人工智能的底層知識。 ??詳情：
2024年02月04日
瀏覽(24)
【機(jī)器學(xué)習(xí)】強(qiáng)化學(xué)習(xí)（六）-DQN(Deep Q-Learning)訓(xùn)練月球著陸器示例
概述 Deep Q-Learning（深度 Q 學(xué)習(xí)）是一種強(qiáng)化學(xué)習(xí)算法，用于解決決策問題，其中代理（agent）通過學(xué)習(xí)在不同環(huán)境中采取行動(dòng)來最大化累積獎(jiǎng)勵(lì)。Lunar Lander 是一個(gè)經(jīng)典的強(qiáng)化學(xué)習(xí)問題，其中代理的任務(wù)是控制一個(gè)著陸艙在月球表面著陸，最小化著陸過程中的燃料消耗。以下
2024年01月25日
瀏覽(28)
強(qiáng)化學(xué)習(xí)應(yīng)用（二）：基于Q-learning的物流配送路徑規(guī)劃研究（提供Python代碼）
Q-learning是一種強(qiáng)化學(xué)習(xí)算法，用于解決基于馬爾可夫決策過程（MDP）的問題。它通過學(xué)習(xí)一個(gè)值函數(shù)來指導(dǎo)智能體在環(huán)境中做出決策，以最大化累積獎(jiǎng)勵(lì)。 Q-learning算法的核心思想是使用一個(gè)Q值函數(shù)來估計(jì)每個(gè)狀態(tài)動(dòng)作對的價(jià)值。Q值表示在特定狀態(tài)下采取某個(gè)動(dòng)作所能獲得
2024年01月21日
瀏覽(33)
強(qiáng)化學(xué)習(xí)應(yīng)用（四）：基于Q-learning的無人機(jī)物流路徑規(guī)劃研究（提供Python代碼）
Q-learning是一種強(qiáng)化學(xué)習(xí)算法，用于解決基于馬爾可夫決策過程（MDP）的問題。它通過學(xué)習(xí)一個(gè)價(jià)值函數(shù)來指導(dǎo)智能體在環(huán)境中做出決策，以最大化累積獎(jiǎng)勵(lì)。 Q-learning算法的核心思想是通過不斷更新一個(gè)稱為Q值的表格來學(xué)習(xí)最優(yōu)策略。Q值表示在給定狀態(tài)下采取某個(gè)動(dòng)作所能
2024年01月17日
瀏覽(30)
強(qiáng)化學(xué)習(xí)應(yīng)用（八）：基于Q-learning的無人機(jī)物流路徑規(guī)劃研究（提供Python代碼）
Q-learning是一種強(qiáng)化學(xué)習(xí)算法，用于解決基于馬爾可夫決策過程（MDP）的問題。它通過學(xué)習(xí)一個(gè)價(jià)值函數(shù)來指導(dǎo)智能體在環(huán)境中做出決策，以最大化累積獎(jiǎng)勵(lì)。 Q-learning算法的核心思想是通過不斷更新一個(gè)稱為Q值的表格來學(xué)習(xí)最優(yōu)策略。Q值表示在給定狀態(tài)下采取某個(gè)動(dòng)作所能
2024年01月17日
瀏覽(21)

<tfoot id="uskvw"></tfoot>

<dl id="uskvw"><strike id="uskvw"><input id="uskvw"></input></strike></dl>

<abbr id="uskvw"><track id="uskvw"></track></abbr><sub id="uskvw"><tr id="uskvw"><li id="uskvw"></li></tr></sub>