国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

DQN、Double DQN、Dueling DQN、Per DQN、NoisyDQN 學(xué)習(xí)筆記

2年前作者：如果皮卡會(huì)coding分類(lèi)：Toy博客閱讀(51)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了DQN、Double DQN、Dueling DQN、Per DQN、NoisyDQN 學(xué)習(xí)筆記。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

部分內(nèi)容與圖片摘自：JoyRL 、 EasyRL

DQN (Deep Q-Network)

說(shuō)明

DQN通過(guò)深度學(xué)習(xí)技術(shù)處理高維狀態(tài)空間，它的核心是使用深度神經(jīng)網(wǎng)絡(luò)來(lái)近似Q值函數(shù)。傳統(tǒng)Q-learning依賴(lài)于一個(gè)查找表（Q表）來(lái)存儲(chǔ)每個(gè)狀態(tài)-動(dòng)作對(duì)的Q值，但這在高維空間中變得不可行。DQN通過(guò)訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)這個(gè)映射關(guān)系。

DQN、Double DQN、Dueling DQN、Per DQN、NoisyDQN 學(xué)習(xí)筆記,強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí),DQN
除了用深度網(wǎng)絡(luò)代替 Q表之外，DQN算法還引入了一些技巧，如經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)。

經(jīng)驗(yàn)回放：通過(guò)存儲(chǔ)代理的經(jīng)驗(yàn)（狀態(tài)，動(dòng)作，獎(jiǎng)勵(lì)，新?tīng)顟B(tài)）在回放緩存中，并在訓(xùn)練時(shí)從中隨機(jī)抽樣，這樣做可以打破數(shù)據(jù)間的時(shí)間相關(guān)性，提高學(xué)習(xí)的穩(wěn)定性和效率。

目標(biāo)網(wǎng)絡(luò)：DQN使用了兩個(gè)網(wǎng)絡(luò)：一個(gè)用于估計(jì)當(dāng)前的Q值（在線(xiàn)網(wǎng)絡(luò)），另一個(gè)用于生成目標(biāo)Q值（目標(biāo)網(wǎng)絡(luò)）。這種分離有助于穩(wěn)定訓(xùn)練過(guò)程，因?yàn)樗鼫p少了目標(biāo)值隨學(xué)習(xí)過(guò)程快速變化的問(wèn)題。

偽代碼

initialize replay memory D
initialize action-value function Q with random weights
for episode = 1, M do
    initialize state s
    for t = 1, T do
        select action a with ε-greedy policy based on Q
        execute action a, observe reward r and new state s'
        store transition (s, a, r, s') in D
        sample random minibatch from D
        calculate target for each minibatch sample
        update Q using gradient descent
    end for
end for

應(yīng)用范圍

適用于具有高維狀態(tài)空間和離散動(dòng)作空間的問(wèn)題。
常用于游戲和模擬環(huán)境。

Double DQN

說(shuō)明

主要解決了DQN在估計(jì)Q值時(shí)的過(guò)高估計(jì)（overestimation）問(wèn)題。在傳統(tǒng)的DQN中，選擇和評(píng)估動(dòng)作的Q值使用相同的網(wǎng)絡(luò)，這可能導(dǎo)致在某些狀態(tài)下對(duì)某些動(dòng)作的Q值被高估，從而影響學(xué)習(xí)的穩(wěn)定性和最終策略的質(zhì)量。

Double DQN 通過(guò)使用兩個(gè)不同的網(wǎng)絡(luò) Q^A 和 Q^B 來(lái)分別進(jìn)行動(dòng)作的選擇和價(jià)值的估計(jì)，進(jìn)而減少了傳統(tǒng)DQN可能導(dǎo)致的Q值過(guò)高估計(jì)問(wèn)題。

具體來(lái)說(shuō)，動(dòng)作選擇是基于 Q^A 網(wǎng)絡(luò)進(jìn)行的，而價(jià)值估計(jì)則是基于 Q^B網(wǎng)絡(luò)。在更新 Q^A 的過(guò)程中，使用 Q^B 來(lái)估計(jì)下一狀態(tài)的價(jià)值，但是每隔固定的時(shí)間步， Q^B 會(huì)被 Q^A 的權(quán)值更新，從而實(shí)現(xiàn)兩個(gè)網(wǎng)絡(luò)的同步。這種方法提高了Q值估計(jì)的準(zhǔn)確性，從而可以在復(fù)雜的決策環(huán)境中提供更穩(wěn)定和可靠的學(xué)習(xí)性能。

偽代碼

# Same as DQN until the target calculation
for each minibatch sample (s, a, r, s'):
    if s' is terminal:
        y = r
    else:
        a' = argmax_a Q(s', a; θ)  # action selection by Q-network
        y = r + γ * Q(s', a'; θ')  # target calculation by target network
    update Q using gradient descent

應(yīng)用范圍

減少估計(jì)偏差，提高策略穩(wěn)定性。
適用于需要精確動(dòng)作價(jià)值估計(jì)的場(chǎng)景。

Dueling DQN

實(shí)現(xiàn)原理

Dueling DQN修改的是網(wǎng)絡(luò)結(jié)構(gòu)，算法中在輸出層之前分流（ dueling ）出了兩個(gè)層，如圖所示，一個(gè)是優(yōu)勢(shì)層，用于估計(jì)每個(gè)動(dòng)作帶來(lái)的優(yōu)勢(shì)，輸出維度為動(dòng)作數(shù)一個(gè)是價(jià)值層，用于估計(jì)每個(gè)狀態(tài)的價(jià)值，輸出維度為 1。

DQN、Double DQN、Dueling DQN、Per DQN、NoisyDQN 學(xué)習(xí)筆記,強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí),DQN

這種結(jié)構(gòu)設(shè)計(jì)使得Dueling DQN在評(píng)估每個(gè)狀態(tài)的價(jià)值時(shí)更加準(zhǔn)確，尤其是在那些動(dòng)作選擇不會(huì)極大影響環(huán)境的情況下。換句話(huà)說(shuō)，即使在狀態(tài)的價(jià)值變化不大時(shí)，Dueling DQN也能有效地學(xué)習(xí)到動(dòng)作間的差異，這對(duì)于在復(fù)雜策略空間中找到最優(yōu)策略特別有用。

應(yīng)用范圍

Dueling DQN特別適合于那些狀態(tài)值比動(dòng)作選擇本身更重要的場(chǎng)景，例如，在一些策略游戲或者決策問(wèn)題中，環(huán)境可能對(duì)特定動(dòng)作不敏感（比如不需要開(kāi)火？），此時(shí)，能夠精確評(píng)估狀態(tài)價(jià)值的Dueling DQN將非常有用。此外，Dueling DQN也適用于需要從大量相似動(dòng)作中做出選擇的任務(wù)，因?yàn)樗軌蚋玫貐^(qū)分各個(gè)動(dòng)作的微小差異。

偽代碼

# Network architecture change
for each minibatch sample (s, a, r, s'):
    V = V(s; θV)  # State value function
    A = A(s, a; θA)  # Advantage function
    Q = V + (A - mean(A))  # Q value calculation
    update Q using gradient descent

Per DQN (Prioritized Experience Replay DQN)

Per DQN增強(qiáng)了基本DQN的經(jīng)驗(yàn)回放機(jī)制，通過(guò)優(yōu)先級(jí)回放來(lái)指導(dǎo)學(xué)習(xí)過(guò)程。在傳統(tǒng)的經(jīng)驗(yàn)回放中，訓(xùn)練樣本是隨機(jī)抽取的，每個(gè)樣本被重新使用的概率相同。然而，并非所有的經(jīng)驗(yàn)都同等重要。Per DQN通過(guò)計(jì)算時(shí)間差分誤差（Temporal Difference Error，TD error），為每個(gè)經(jīng)驗(yàn)樣本分配一個(gè)優(yōu)先級(jí)，優(yōu)先級(jí)高的樣本更有可能被抽取來(lái)進(jìn)行學(xué)習(xí)。

時(shí)序差分誤差：TD error是實(shí)際獎(jiǎng)勵(lì)與當(dāng)前Q值函數(shù)預(yù)測(cè)獎(jiǎng)勵(lì)之間的差異。較大的TD error意味著對(duì)應(yīng)的經(jīng)驗(yàn)可能會(huì)給我們的學(xué)習(xí)帶來(lái)更多信息。
優(yōu)先級(jí)的設(shè)定：在經(jīng)驗(yàn)優(yōu)先回放（Prioritized Experience Replay）中，每個(gè)經(jīng)驗(yàn)的優(yōu)先級(jí)是根據(jù)其時(shí)序差分誤差（TD error）的大小來(lái)設(shè)定的。TD error是實(shí)際獎(jiǎng)勵(lì)與估計(jì)獎(jiǎng)勵(lì)之間的差異，它反映了當(dāng)前策略預(yù)測(cè)的準(zhǔn)確性。一個(gè)高TD error的經(jīng)驗(yàn)表示當(dāng)前策略有更大的學(xué)習(xí)潛力，因此被賦予更高的優(yōu)先級(jí)，以便更頻繁地從經(jīng)驗(yàn)回放中被抽樣學(xué)習(xí)。

應(yīng)用范圍

Per DQN適用于那些代理可以從特定經(jīng)驗(yàn)中快速學(xué)習(xí)的場(chǎng)景。在復(fù)雜的環(huán)境中，一些關(guān)鍵的決策點(diǎn)可能只出現(xiàn)幾次，傳統(tǒng)的隨機(jī)抽樣可能會(huì)忽略這些經(jīng)驗(yàn)。Per DQN確保這些有價(jià)值的經(jīng)驗(yàn)?zāi)軌虮桓l繁地回顧和學(xué)習(xí)，從而加速學(xué)習(xí)過(guò)程，有助于更快地收斂到一個(gè)好的策略。

偽代碼

initialize priority replay memory D
for each minibatch sample (s, a, r, s'):
    calculate TD error: δ = |r + γ * max_a' Q(s', a') - Q(s, a)|
    update priority of (s, a, r, s') in D based on δ
    update Q using gradient descent

缺陷：直接使用TD誤差作為優(yōu)先級(jí)存在一些問(wèn)題。首先，考慮到算法效率問(wèn)題，我們?cè)诿看胃聲r(shí)不會(huì)把經(jīng)驗(yàn)回放中的所有樣本都計(jì)算TD誤差并更新對(duì)應(yīng)的優(yōu)先級(jí)，而是只更新當(dāng)前取到的一定批量的樣本。這樣一來(lái)，每次計(jì)算的TD誤差是對(duì)應(yīng)之前的網(wǎng)絡(luò)，而不是當(dāng)前待更新的網(wǎng)絡(luò)。

所以引入了額外的技巧：隨機(jī)采樣和重要性采樣。

NoisyDQN

增加噪聲層（煉丹的通用操作)，提高模型泛化性，避免陷入局部最優(yōu)解。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-809492.html

偽代碼

initialize Q network with noisy layers
for each minibatch sample (s, a, r, s'):
    select action a using Q with noise
    execute action a, observe r, s'
    store transition, sample minibatch
    update Q using gradient descent

應(yīng)用范圍

適用于探索性任務(wù)和非穩(wěn)態(tài)環(huán)境。
動(dòng)態(tài)調(diào)整探索策略，適合于需要適應(yīng)性探索的復(fù)雜場(chǎng)景。

到了這里，關(guān)于DQN、Double DQN、Dueling DQN、Per DQN、NoisyDQN 學(xué)習(xí)筆記的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

使用Pytorch實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)——DQN算法
目錄一、強(qiáng)化學(xué)習(xí)的主要構(gòu)成二、基于python的強(qiáng)化學(xué)習(xí)框架三、gym 四、DQN算法 1.DQN算法兩個(gè)特點(diǎn) （1）經(jīng)驗(yàn)回放（2）目標(biāo)網(wǎng)絡(luò) 2.DQN算法的流程五、使用pytorch實(shí)現(xiàn)DQN算法 1.replay memory 2.神經(jīng)網(wǎng)絡(luò)部分 3.Agent 4.模型訓(xùn)練函數(shù) 5.訓(xùn)練模型 6.實(shí)驗(yàn)結(jié)果六、補(bǔ)充說(shuō)明強(qiáng)化學(xué)習(xí)主要由
2023年04月20日
瀏覽(25)
基于深度強(qiáng)化學(xué)習(xí)(DQN)的迷宮尋路算法
QLearning方法有著明顯的局限性，當(dāng)狀態(tài)和動(dòng)作空間是離散的且維數(shù)不高時(shí)可使用Q-Table存儲(chǔ)每個(gè)狀態(tài)動(dòng)作的Q值，而當(dāng)狀態(tài)和動(dòng)作時(shí)高維連續(xù)時(shí)，該方法便不太適用。可以將Q-Table的更新問(wèn)題變成一個(gè)函數(shù)擬合問(wèn)題，通過(guò)更新參數(shù)θ使得Q函數(shù)逼近最優(yōu)Q值。DL是解決參數(shù)學(xué)習(xí)的有效
2023年04月22日
瀏覽(81)
【深度強(qiáng)化學(xué)習(xí)】(1) DQN 模型解析，附Pytorch完整代碼
大家好，今天和各位講解一下深度強(qiáng)化學(xué)習(xí)中的基礎(chǔ)模型 DQN，配合 OpenAI 的 gym 環(huán)境，訓(xùn)練模型完成一個(gè)小游戲，完整代碼可以從我的 GitHub 中獲得： https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model DQN（Deep Q Network）算法由 DeepMind 團(tuán)隊(duì)提出，是深度神經(jīng)網(wǎng)絡(luò)和 Q-Learning 算
2023年04月08日
瀏覽(24)
【機(jī)器學(xué)習(xí)】強(qiáng)化學(xué)習(xí)（六）-DQN(Deep Q-Learning)訓(xùn)練月球著陸器示例
概述 Deep Q-Learning（深度 Q 學(xué)習(xí)）是一種強(qiáng)化學(xué)習(xí)算法，用于解決決策問(wèn)題，其中代理（agent）通過(guò)學(xué)習(xí)在不同環(huán)境中采取行動(dòng)來(lái)最大化累積獎(jiǎng)勵(lì)。Lunar Lander 是一個(gè)經(jīng)典的強(qiáng)化學(xué)習(xí)問(wèn)題，其中代理的任務(wù)是控制一個(gè)著陸艙在月球表面著陸，最小化著陸過(guò)程中的燃料消耗。以下
2024年01月25日
瀏覽(25)
DQN,DDPG,PPO 等強(qiáng)化學(xué)習(xí)算法在人工智能中的未來(lái)發(fā)展方向：從大規(guī)模到小規(guī)模部署
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 隨著近年來(lái)人工智能領(lǐng)域的蓬勃發(fā)展，強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）被越來(lái)越多的人認(rèn)可并應(yīng)用于人工智能領(lǐng)域。如今，RL已經(jīng)可以處理許多復(fù)雜的問(wèn)題，如自動(dòng)駕駛、機(jī)器人控制等。在過(guò)去的一段時(shí)間里，我一直想和各位分享一下RL在人工
2024年02月09日
瀏覽(28)
人工智能課程筆記（7）強(qiáng)化學(xué)習(xí)（基本概念 Q學(xué)習(xí) 深度強(qiáng)化學(xué)習(xí) 附有大量例題）
強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)都是機(jī)器學(xué)習(xí)的分支，但是兩者在方法和應(yīng)用場(chǎng)景上有所不同。強(qiáng)化學(xué)習(xí) ：強(qiáng)化學(xué)習(xí)概述：強(qiáng)化學(xué)習(xí)是一種通過(guò)智能體與環(huán)境進(jìn)行交互來(lái)學(xué)習(xí)最優(yōu)行動(dòng)策略的算法。在強(qiáng)化學(xué)習(xí)中，智能體與環(huán)境不斷交互，觀察環(huán)境的狀態(tài)并采取不同的行動(dòng)，從而獲得獎(jiǎng)
2024年01月17日
瀏覽(27)
強(qiáng)化學(xué)習(xí)價(jià)值函數(shù)方法筆記
在強(qiáng)化學(xué)習(xí)中，價(jià)值函數(shù)（Value Function）是一個(gè)核心概念，它用于衡量在不同狀態(tài)或狀態(tài)-動(dòng)作對(duì)下，一個(gè)智能體（agent）可以獲得的預(yù)期累積獎(jiǎng)勵(lì)。價(jià)值函數(shù)對(duì)于智能體做出決策和學(xué)習(xí)行為策略非常重要。價(jià)值函數(shù)可以分為兩種類(lèi)型：狀態(tài)價(jià)值函數(shù)（State Value Function）：記作
2024年02月15日
瀏覽(20)
安全強(qiáng)化學(xué)習(xí)筆記
TRPO 如何看懂TRPO里所有的數(shù)學(xué)推導(dǎo)細(xì)節(jié)? - 小小何先生的回答 - 知乎安全/約束強(qiáng)化學(xué)習(xí)路線(xiàn)圖（Safe RL Roadmap）編輯于 2023-05-06 知乎南山張學(xué)有 Safe RL 的一點(diǎn)點(diǎn)總結(jié)編輯于 2021-04-25 1.CPO 2.RCPO 3.CPPO-PID 4.SafeLayer+DDPG 5.Safety-Gym 【安全強(qiáng)化學(xué)習(xí)· 一】Safe Reinforcement Learning（一）2020
2024年02月02日
瀏覽(21)
強(qiáng)化學(xué)習(xí)快速?gòu)?fù)習(xí)筆記--待更新
蒙特卡洛方法求解價(jià)值函數(shù)和狀態(tài)價(jià)值函數(shù)，可以使用蒙特卡洛方法和動(dòng)態(tài)規(guī)劃。首先介紹一下蒙特卡洛的方法，這個(gè)方法是統(tǒng)計(jì)模擬方法，基于概率統(tǒng)計(jì)來(lái)進(jìn)行數(shù)值計(jì)算。優(yōu)點(diǎn)：不需要知道環(huán)境模型，直接從交互中學(xué)習(xí) 缺點(diǎn)：每一次更新都需要完整的軌跡，使用一些具
2024年02月15日
瀏覽(26)
遷移強(qiáng)化學(xué)習(xí)論文筆記（一）（Successor Features）
M ≡ ( S , A , p , R , γ ) M equiv(mathcal{S}, mathcal{A}, p, R, gamma) M ≡ ( S , A , p , R , γ ) S cal S S :狀態(tài)空間 A cal A A ：行動(dòng)空間 p p p : p ( ? ∣ s t , a t ) p(cdotmid s_t,a_t) p ( ? ∣ s t ? , a t ? ) 狀態(tài)轉(zhuǎn)移概率 R R R : R ( s t , a t , s t + 1 ) R(s_t,a_t,s_{t+1}) R ( s t ? , a t ? , s t + 1 ? ) 獎(jiǎng)勵(lì)
2024年04月17日
瀏覽(20)