本部分視頻所在地址:深度強(qiáng)化學(xué)習(xí)的理論與實(shí)踐
3.1節(jié) 蒙特卡羅法簡介
在其他學(xué)科中的蒙特卡羅法是一種抽樣的方法。
如果狀態(tài)轉(zhuǎn)移概率是已知的,則是基于模型的方法。如果狀態(tài)轉(zhuǎn)移概率是未知的,則是免模型的方法。動(dòng)態(tài)規(guī)劃方法無法求解倒立擺問題,即無法處理沒有狀態(tài)轉(zhuǎn)移概率的問題。蒙特卡羅法可以求解。
無偏估計(jì)量的理解參考:什么叫估計(jì)量的無偏性?一致性?有效性?、也可以參考下圖(鏈接不好找,直接截圖了):
3.2節(jié) 蒙特卡羅策略評(píng)估
法1:ML擬合模擬數(shù)據(jù)法:本節(jié)不講應(yīng)用機(jī)器學(xué)習(xí)算法學(xué)習(xí)一個(gè)轉(zhuǎn)移概率(這種方法是模擬出大量的數(shù)據(jù),即下圖中列出來的數(shù)據(jù),然后使用一些ML如監(jiān)督學(xué)習(xí)的方法來學(xué)習(xí)出P_head(s'|s,a)
)
法2:免模型強(qiáng)化學(xué)習(xí)法(即蒙特卡羅方法)經(jīng)歷完整的MDP序列
:從初始狀態(tài)S0或某一中間狀態(tài)St,經(jīng)過動(dòng)作,獎(jiǎng)勵(lì),狀態(tài),直到最終的終止?fàn)顟B(tài)ST。經(jīng)歷完整的MDP序列不一定從初始狀態(tài)開始。
一個(gè)經(jīng)歷完整的MDP序列稱為一次采樣
。
可以使用模擬程序來采樣m條經(jīng)歷完整的MDP序列。
1)每條MDP序列的終止?fàn)顟B(tài)有可能一樣有可能不一樣,因?yàn)橐粋€(gè)問題可能有多個(gè)終止?fàn)顟B(tài)
2)T1、T2、。。。Tm不是相同的
3)一個(gè)MDP序列可能從多種初始狀態(tài)或多種中間狀態(tài)開始。
上面的MDP序列中動(dòng)作是根據(jù)π來決定的,如果要評(píng)估這個(gè)策略π,就要計(jì)算這個(gè)策略的動(dòng)作值函數(shù)(或狀態(tài)值函數(shù)),以下一動(dòng)作值函數(shù)Q(s,a)為例
根據(jù)Q(s,a)的表達(dá)式是無法求出該期望的,因此希望使用樣本的均值來近似該期望。此樣本來自上面抽樣出的MDP序列。
假設(shè)Gi(s,a)表示第i條MDP序列中從狀態(tài)s開始執(zhí)行動(dòng)作a獲得的累計(jì)折扣獎(jiǎng)勵(lì)。此時(shí)即可計(jì)算Q(s,a)。下式使用統(tǒng)計(jì)模擬出的m條MDP序列中得到的動(dòng)作值函數(shù)均值來估計(jì)真實(shí)動(dòng)作值函數(shù)的期望:
此處會(huì)出現(xiàn)一個(gè)問題(這個(gè)老師講的不清楚,此處我聽不懂,下面是瞎寫的):
s取自狀態(tài)空間,a取自動(dòng)作空間,(s,a)取自兩個(gè)空間的乘積。對(duì)于m條MDP,如10000條MDP,10000sa的結(jié)果很大,采樣效率較低
因此引入定義:
因此
好好看下下面這個(gè)算法,看懂了就懂了前面那些老師沒講清楚的內(nèi)容。算法是很清晰的。
上面這個(gè)算法是先產(chǎn)生多個(gè)序列才去迭代算法
i表示當(dāng)前統(tǒng)計(jì)到第i條鏈,因?yàn)榈趉條鏈上不一定有(s,a)
k不是第k條鏈,而是表示(s,a)在1,2,3,。。。i條鏈中出現(xiàn)的次數(shù)
算法3-1和算法3-2都是在維持一個(gè)這種的表格。
基于表格的方法,這種方法是針對(duì)離散的狀態(tài)空間和動(dòng)作空間。
動(dòng)態(tài)規(guī)劃算出來的解是精確地解,蒙特卡羅的解是估計(jì)出來的
3.3節(jié) 蒙特卡羅強(qiáng)化學(xué)習(xí)
上面的表是稀疏的,解決該問題提出來兩種解決方式,如下:
1)保證每一個(gè)(s,a)都作為MDP鏈的初始狀態(tài)。
2)在確定性策略中一些狀態(tài)之后必然會(huì)發(fā)生某動(dòng)作,其他動(dòng)作將不會(huì)發(fā)生,軟策略的改進(jìn)在于,使確定性動(dòng)作概率轉(zhuǎn)為e,其他動(dòng)作改為e/動(dòng)作的個(gè)數(shù)。軟策略中的其中一種稱為e貪婪策略
。
如何保證狀態(tài)-動(dòng)作對(duì)
都已出現(xiàn)在MDP序列中?三種方法:
下面這個(gè)算法不用細(xì)致研究
下面這個(gè)算法中的過程:()
,括號(hào)內(nèi)容可以不在那里執(zhí)行
3.4節(jié) 異策略蒙特卡羅法
兩種策略的示例如下:
觀察上圖使用的均勻分布的采樣方法來劃分區(qū)間大小,其實(shí)在函數(shù)導(dǎo)數(shù)較大的地方也使用這種均勻劃分區(qū)間的方法不太合適。因?yàn)榇藭r(shí)矩形面試遠(yuǎn)大于曲線下方面積。因此有了一個(gè)想法,在導(dǎo)數(shù)大的地方劃分的密集一點(diǎn),在導(dǎo)數(shù)較小的地方劃分的稀疏一點(diǎn)。因此有了重要性采樣。
其中π策略是未知的,使用p分布來代替π分布
是為了能實(shí)現(xiàn)不均衡采樣,p分布可以認(rèn)為就是已知的不均衡分布。上面的式子中π/p·f
的取值會(huì)很困難,但是做到了最起碼得采樣是不均衡采樣,即重要性采樣。
已知一個(gè)行為策略π和一個(gè)狀態(tài)轉(zhuǎn)移概率p,如何計(jì)算一個(gè)已知的MDP序列存在的概率是多少?
ρ就叫重要性權(quán)重,這個(gè)值類似于積分中的π/p
值
使用b分布來進(jìn)行采樣對(duì)行為策略π進(jìn)行評(píng)估,需要最終乘以一個(gè)重要性權(quán)重。
重要性權(quán)重分:一般重要性采樣和加權(quán)重要性采樣
2、一般重要性采樣的公式是下面第一個(gè)
上面算法中的異策略表現(xiàn)在待改進(jìn)的策略與行為策略不一樣。
尾部學(xué)習(xí)效應(yīng):是指重要性采樣得到的MDP序列只學(xué)習(xí)后面一些狀態(tài)和動(dòng)作。文章來源:http://www.zghlxwxcb.cn/news/detail-759171.html
對(duì)于確定性策略使用異策略效果不會(huì)很好。文章來源地址http://www.zghlxwxcb.cn/news/detail-759171.html
到了這里,關(guān)于學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)---第3部分----RL蒙特卡羅相關(guān)算法的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!