国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

強(qiáng)化學(xué)習(xí)(二)多臂老虎機(jī) “Multi-armed Bandits”——1

這篇具有很好參考價(jià)值的文章主要介紹了強(qiáng)化學(xué)習(xí)(二)多臂老虎機(jī) “Multi-armed Bandits”——1。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

將強(qiáng)化學(xué)習(xí)與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)區(qū)分開的最重要的特征為:它通過訓(xùn)練中信息來評(píng)估所采取的動(dòng)作,而不是給出正確的動(dòng)作進(jìn)行指導(dǎo),這極大地促進(jìn)了尋找更優(yōu)動(dòng)作的需求。

1、多臂老虎機(jī)(Multi-armed Bandits)問題

強(qiáng)化學(xué)習(xí)(二)多臂老虎機(jī) “Multi-armed Bandits”——1,強(qiáng)化學(xué)習(xí),人工智能
賭場的老虎機(jī)有一個(gè)綽號(hào)叫單臂強(qiáng)盜(single-armed bandit),因?yàn)樗词怪挥幸恢桓觳?,也?huì)把你的錢拿走。而一排老虎機(jī)就引申出多臂強(qiáng)盜(多臂老虎機(jī))。

多臂老虎機(jī)(Multi-armed Bandits)問題可以描述如下:一個(gè)玩家走進(jìn)一個(gè)賭場,賭場里有 k k k 個(gè)老虎機(jī),每個(gè)老虎機(jī)的期望收益不一樣。假設(shè)玩家總共可以玩 t t t 輪, 在每一輪中,玩家可以選擇這 k k k 個(gè)老虎機(jī)中的任一個(gè),投入一枚游戲幣,拉動(dòng)搖桿,觀察是否中獎(jiǎng)以及獎(jiǎng)勵(lì)的大小。
問題,玩家采取怎么樣的策略才能最大化這 t t t 輪的總收益?

k k k 個(gè)老虎機(jī)(對(duì)應(yīng) k k k 個(gè)動(dòng)作選擇),每一個(gè)動(dòng)作都有其預(yù)期的獎(jiǎng)勵(lì),稱其為該動(dòng)作的價(jià)值。記第 t t t 輪選擇的動(dòng)作為 A t A_t At?,相應(yīng)的獎(jiǎng)勵(lì)為 R t R_t Rt?,那么任意動(dòng)作 a a a 的價(jià)值記為 q ? ( a ) q_\ast(a) q??(a),即動(dòng)作 a a a 的期望獎(jiǎng)勵(lì):
q ? ( a ) ? E [ R t ∣ A t = a ] q_\ast(a)\doteq\Bbb{E}[R_t|A_t=a] q??(a)?E[Rt?At?=a]

如果知道每個(gè)動(dòng)作的價(jià)值,那么問題就簡單了:總是選擇價(jià)值最高的動(dòng)作。如果不知道的話,我們需要對(duì)其進(jìn)行估計(jì),令動(dòng)作 a a a 在時(shí)間步長為 t t t 的價(jià)值估計(jì)為 Q t ( a ) Q_t(a) Qt?(a),我們希望 Q t ( a ) Q_t(a) Qt?(a) 盡可能地接近 q ? ( a ) q_\ast(a) q??(a)。

2、動(dòng)作價(jià)值方法

通過估計(jì)動(dòng)作價(jià)值,然后依據(jù)動(dòng)作價(jià)值作出動(dòng)作選擇的方法,統(tǒng)稱為動(dòng)作價(jià)值方法。某個(gè)動(dòng)作的真實(shí)價(jià)值應(yīng)當(dāng)是該動(dòng)作被選擇時(shí)的期望獎(jiǎng)勵(lì),即
Q t ( a ) ? t ?時(shí)刻之前, a ?被選中的總獎(jiǎng)勵(lì) t ?時(shí)刻之前, a ?被選中的次數(shù) = ∑ i = 1 t ? 1 R i ? I A i = a ∑ i = 1 t ? 1 I A i = a Q_t(a)\doteq\dfrac{t\ 時(shí)刻之前,a\ 被選中的總獎(jiǎng)勵(lì)}{t\ 時(shí)刻之前,a\ 被選中的次數(shù)}=\dfrac{\sum_{i=1}^{t-1}R_i\cdot\Bbb{I}_{A_i=a}}{\sum_{i=1}^{t-1}\Bbb{I}_{A_i=a}} Qt?(a)?t?時(shí)刻之前,a?被選中的次數(shù)t?時(shí)刻之前,a?被選中的總獎(jiǎng)勵(lì)?=i=1t?1?IAi?=a?i=1t?1?Ri??IAi?=a??

其中,若 A i = a A_i=a Ai?=a,則 I A i = a = 1 \Bbb{I}_{A_i=a}=1 IAi?=a?=1,否則 I A i = a = 0 \Bbb{I}_{A_i=a}=0 IAi?=a?=0,若分母為 0,則定義 Q t ( a ) Q_t(a) Qt?(a) 為一默認(rèn)值(例如 0),根據(jù)大數(shù)定律,當(dāng)分母趨于無窮時(shí), Q t ( a ) Q_t(a) Qt?(a) 收斂于 q ? ( a ) q_\ast(a) q??(a),稱這種方法為樣本平均法(sample-average method),這是估計(jì)動(dòng)作價(jià)值的一種方法,當(dāng)然并不一定是最好的方法,下面我們使用該方法來解決問題。

最簡單的動(dòng)作選擇就是選擇價(jià)值估計(jì)值最大的動(dòng)作,稱為貪心方法,其數(shù)學(xué)表示為:
A t ? arg?max ? a Q t ( a ) A_t\doteq\argmax_a Q_t(a) At??aargmax?Qt?(a)

另一種替代的方法是,大多數(shù)情況是貪心的,偶爾從動(dòng)作空間中隨機(jī)選擇,稱為 ? \epsilon ? -貪心方法。這種方法的優(yōu)點(diǎn)是,隨著步數(shù)增加,每個(gè)動(dòng)作會(huì)被無限采樣,則 Q t ( a ) Q_t(a) Qt?(a) 會(huì)逐漸收斂到 q ? ( a ) q_\ast(a) q??(a),也意味著選擇最優(yōu)動(dòng)作的概率收斂到 1 ? ? 1-\epsilon 1??

3、貪心動(dòng)作價(jià)值方法有效性

在 2000 個(gè)隨機(jī)生成的 10 臂老虎機(jī)問題中,其動(dòng)作價(jià)值 q ? ( a ) , a = 1 , ? ? , 10 q_\ast(a),a=1,\cdots,10 q??(a),a=1,?,10,服從期望為 0,方差為 1的正態(tài)分布;另外每次動(dòng)作 A t A_t At? 的實(shí)際獎(jiǎng)勵(lì) R t R_t Rt? 服從期望為 q ? ( A t ) q_\ast(A_t) q??(At?) ,方差為 1 的正態(tài)分布。
強(qiáng)化學(xué)習(xí)(二)多臂老虎機(jī) “Multi-armed Bandits”——1,強(qiáng)化學(xué)習(xí),人工智能

部分代碼

import numpy as np

step = 1000
q_true = np.random.normal(0, 1, 10)  # 真實(shí)的動(dòng)作價(jià)值
q_estimate = np.zeros(10)  # 估計(jì)的動(dòng)作價(jià)值
epsilon = 0.9  # 貪心概率
action_space = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
action_count = np.zeros(10)
reward_sum = 0
for i in range(step):
    if (np.random.uniform() > epsilon1) or (q_estimate1.all() == 0):
        machine_name = np.random.choice(action_space)
        reward_sum += np.random.normal(q_true[machine_name], 1, 1)
        action_count[machine_name] += 1
        q_estimate[machine_name] = reward_sum / action_count[machine_name]
    else:
	    machine_name = np.argmax(q_estimate)
	    reward_sum += np.random.normal(q_true[machine_name], 1, 1)
	    action_count[machine_name] += 1
	    q_estimate[machine_name] = reward_sum / action_count[machine_name]

強(qiáng)化學(xué)習(xí)(二)多臂老虎機(jī) “Multi-armed Bandits”——1,強(qiáng)化學(xué)習(xí),人工智能文章來源地址http://www.zghlxwxcb.cn/news/detail-801892.html

到了這里,關(guān)于強(qiáng)化學(xué)習(xí)(二)多臂老虎機(jī) “Multi-armed Bandits”——1的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包