一、Gridworld
????????Gridworld是一個(gè)用于教授強(qiáng)化學(xué)習(xí)概念的簡(jiǎn)化的電子游戲環(huán)境。它具有一個(gè)簡(jiǎn)單的二維網(wǎng)格,智能體可以在其中執(zhí)行動(dòng)作并獲得獎(jiǎng)勵(lì)。這個(gè)環(huán)境是有限的,因?yàn)樗幸粋€(gè)明確的開始和結(jié)束狀態(tài),以及一組確定的動(dòng)作和獎(jiǎng)勵(lì)。
????????在Gridworld中,每個(gè)單元格代表一個(gè)狀態(tài),智能體可以在該狀態(tài)執(zhí)行四個(gè)可能的動(dòng)作:向北、向南、向東或向西移動(dòng)一個(gè)單元格。如果智能體執(zhí)行的動(dòng)作將它們移動(dòng)到網(wǎng)格之外,它們的位置將保持不變,但它們將獲得一個(gè)獎(jiǎng)勵(lì)1。另一方面,如果智能體從特殊狀態(tài)A或B開始執(zhí)行動(dòng)作,它們將獲得不同的獎(jiǎng)勵(lì)。
????????從狀態(tài)A開始,智能體執(zhí)行的動(dòng)作將使它們獲得獎(jiǎng)勵(lì)+10,并將它們移動(dòng)到A0單元格。類似地,從狀態(tài)B開始,智能體執(zhí)行的動(dòng)作將使它們獲得獎(jiǎng)勵(lì)+5,并將它們移動(dòng)到B0單元格。
????????通過這個(gè)簡(jiǎn)單的環(huán)境,學(xué)生可以學(xué)習(xí)強(qiáng)化學(xué)習(xí)的基本概念,如值函數(shù)、策略和最優(yōu)解。此外,Gridworld還提供了用于評(píng)估和比較不同策略的工具,使學(xué)生能夠更好地理解這些概念并應(yīng)用它們來解決實(shí)際問題。
????????在Gridworld圖1中,使用了一個(gè)矩形網(wǎng)格來描繪一個(gè)簡(jiǎn)單的有限MDP(馬爾可夫決策過程)的值函數(shù)。網(wǎng)格的每個(gè)單元格都對(duì)應(yīng)于環(huán)境的一個(gè)狀態(tài)。在每個(gè)單元格,有四個(gè)可能的動(dòng)作:北、南、東、西,這些動(dòng)作將確定性地將智能體移動(dòng)到相應(yīng)方向的一個(gè)單元格。如果動(dòng)作會(huì)使智能體離開網(wǎng)格,那么其位置將保持不變,但也會(huì)獲得一個(gè)獎(jiǎng)勵(lì)1。其他動(dòng)作的獎(jiǎng)勵(lì)為0,除非它們將智能體從特殊狀態(tài)A和B中移出。從狀態(tài)A開始,所有四個(gè)動(dòng)作都會(huì)產(chǎn)生獎(jiǎng)勵(lì)+10并將智能體移動(dòng)到A0。從狀態(tài)B開始,所有動(dòng)作都會(huì)產(chǎn)生獎(jiǎng)勵(lì)+5并將智能體移動(dòng)到B0。
圖1
????????假設(shè)智能體在所有狀態(tài)下以相等的概率選擇所有四個(gè)動(dòng)作。圖b顯示了對(duì)于這個(gè)策略的值函數(shù)vπ,對(duì)于帶折扣的獎(jiǎng)勵(lì)情況,折扣因子γ = 0.9。該值函數(shù)是通過求解方程計(jì)算得出的。請(qǐng)注意,靠近下邊緣的負(fù)值是由于在該隨機(jī)策略下,那里有很大可能性會(huì)撞到網(wǎng)格的邊緣。狀態(tài)A在該策略下是最好的狀態(tài),但其期望回報(bào)小于10,即其即時(shí)獎(jiǎng)勵(lì),因?yàn)閺腁狀態(tài)開始,智能體將被帶到A0狀態(tài),從那里很可能會(huì)撞到網(wǎng)格的邊緣。另一方面,狀態(tài)B的估值超過5,即其即時(shí)獎(jiǎng)勵(lì),因?yàn)閺腂狀態(tài)開始,智能體將被帶到B0狀態(tài),該狀態(tài)具有正價(jià)值。從B0狀態(tài)開始,由于可能撞到邊緣而產(chǎn)生的預(yù)期懲罰(負(fù)獎(jiǎng)勵(lì))超過了因可能撞到A或B而產(chǎn)生的預(yù)期收益。
二、高爾夫
????????將打高爾夫球的過程表述為強(qiáng)化學(xué)習(xí)任務(wù),我們會(huì)對(duì)每一擊都施加一個(gè)懲罰(負(fù)面獎(jiǎng)勵(lì)),直到球進(jìn)入洞中。狀態(tài)為球的位置,一個(gè)狀態(tài)的價(jià)值是,從此位置到球洞的擊球次數(shù)。我們的行動(dòng)是針對(duì)如何瞄準(zhǔn)和揮動(dòng)球桿的動(dòng)作,當(dāng)然,還包括選擇哪種球桿。讓我們假設(shè)這些都是給定的,只需要考慮球桿的選擇,我們假設(shè)只能是推桿或驅(qū)動(dòng)器。圖2的上半部分顯示了對(duì)于始終使用推桿的策略可能的狀態(tài)值函數(shù)vputt(s)。在洞中的終端狀態(tài)的價(jià)值為0。我們假設(shè)無論在球場(chǎng)的哪個(gè)位置,我們都可以推桿;這些狀態(tài)的價(jià)值為e1。如果我們?cè)诰G地之外的位置,就無法通過推桿到達(dá)洞穴,因此其價(jià)值更大。如果我們可以通過推桿從某個(gè)狀態(tài)到達(dá)綠地,那么該狀態(tài)的價(jià)值必須比綠地的價(jià)值少1,即2。為了簡(jiǎn)化問題,我們假設(shè)可以非常精確和確定性地進(jìn)行推桿,但范圍有限。這給我們提供了圖中標(biāo)記為d2的尖銳等高線;位于該線與綠地之間的所有位置都需要恰好兩次擊球來完成這個(gè)洞。同樣地,位于e2等高線以內(nèi)的任何位置都必須具有價(jià)值3,依此類推,得到圖中所示的所有等高線。推桿無法讓我們從沙陷阱中脫身,因此沙陷阱的價(jià)值為負(fù)無窮大??傮w而言,我們需要六次擊球才能從發(fā)球臺(tái)到達(dá)洞穴。
文章來源:http://www.zghlxwxcb.cn/news/detail-715617.html
圖2文章來源地址http://www.zghlxwxcb.cn/news/detail-715617.html
到了這里,關(guān)于強(qiáng)化學(xué)習(xí)中值函數(shù)應(yīng)用示例的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!