国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

多臂老虎機(jī) “Multi-armed Bandits”

這篇具有很好參考價值的文章主要介紹了多臂老虎機(jī) “Multi-armed Bandits”。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

將強(qiáng)化學(xué)習(xí)與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)區(qū)分開的最重要的特征為:它通過訓(xùn)練中信息來評估所采取的動作,而不是給出正確的動作進(jìn)行指導(dǎo),這極大地促進(jìn)了尋找更優(yōu)動作的需求。

1、多臂老虎機(jī)(Multi-armed Bandits)問題

多臂老虎機(jī) “Multi-armed Bandits”,強(qiáng)化學(xué)習(xí),人工智能
賭場的老虎機(jī)有一個綽號叫單臂強(qiáng)盜(single-armed bandit),因為它即使只有一只胳膊,也會把你的錢拿走。而一排老虎機(jī)就引申出多臂強(qiáng)盜(多臂老虎機(jī))。

多臂老虎機(jī)(Multi-armed Bandits)問題可以描述如下:一個玩家走進(jìn)一個賭場,賭場里有 k k k 個老虎機(jī),每個老虎機(jī)的期望收益不一樣。假設(shè)玩家總共可以玩 t t t 輪, 在每一輪中,玩家可以選擇這 k k k 個老虎機(jī)中的任一個,投入一枚游戲幣,拉動搖桿,觀察是否中獎以及獎勵的大小。
問題,玩家采取怎么樣的策略才能最大化這 t t t 輪的總收益?

k k k 個老虎機(jī)(對應(yīng) k k k 個動作選擇),每一個動作都有其預(yù)期的獎勵,稱其為該動作的價值。記第 t t t 輪選擇的動作為 A t A_t At?,相應(yīng)的獎勵為 R t R_t Rt?,那么任意動作 a a a 的價值記為 q ? ( a ) q_\ast(a) q??(a),即動作 a a a 的期望獎勵:
q ? ( a ) ? E [ R t ∣ A t = a ] q_\ast(a)\doteq\Bbb{E}[R_t|A_t=a] q??(a)?E[Rt?At?=a]

如果知道每個動作的價值,那么問題就簡單了:總是選擇價值最高的動作。如果不知道的話,我們需要對其進(jìn)行估計,令動作 a a a 在時間步長為 t t t 的價值估計為 Q t ( a ) Q_t(a) Qt?(a),我們希望 Q t ( a ) Q_t(a) Qt?(a) 盡可能地接近 q ? ( a ) q_\ast(a) q??(a)

2、動作價值方法

通過估計動作價值,然后依據(jù)動作價值作出動作選擇的方法,統(tǒng)稱為動作價值方法。某個動作的真實價值應(yīng)當(dāng)是該動作被選擇時的期望獎勵,即
Q t ( a ) ? t ?時刻之前, a ?被選中的總獎勵 t ?時刻之前, a ?被選中的次數(shù) = ∑ i = 1 t ? 1 R i ? I A i = a ∑ i = 1 t ? 1 I A i = a Q_t(a)\doteq\dfrac{t\ 時刻之前,a\ 被選中的總獎勵}{t\ 時刻之前,a\ 被選中的次數(shù)}=\dfrac{\sum_{i=1}^{t-1}R_i\cdot\Bbb{I}_{A_i=a}}{\sum_{i=1}^{t-1}\Bbb{I}_{A_i=a}} Qt?(a)?t?時刻之前,a?被選中的次數(shù)t?時刻之前,a?被選中的總獎勵?=i=1t?1?IAi?=a?i=1t?1?Ri??IAi?=a??

其中,若 A i = a A_i=a Ai?=a,則 I A i = a = 1 \Bbb{I}_{A_i=a}=1 IAi?=a?=1,否則 I A i = a = 0 \Bbb{I}_{A_i=a}=0 IAi?=a?=0,若分母為 0,則定義 Q t ( a ) Q_t(a) Qt?(a) 為一默認(rèn)值(例如 0),根據(jù)大數(shù)定律,當(dāng)分母趨于無窮時, Q t ( a ) Q_t(a) Qt?(a) 收斂于 q ? ( a ) q_\ast(a) q??(a),稱這種方法為樣本平均法(sample-average method),這是估計動作價值的一種方法,當(dāng)然并不一定是最好的方法,下面我們使用該方法來解決問題。

最簡單的動作選擇就是選擇價值估計值最大的動作,稱為貪心方法,其數(shù)學(xué)表示為:
A t ? arg?max ? a Q t ( a ) A_t\doteq\argmax_a Q_t(a) At??aargmax?Qt?(a)

另一種替代的方法是,大多數(shù)情況是貪心的,偶爾從動作空間中隨機(jī)選擇,稱為 ? \epsilon ? -貪心方法。這種方法的優(yōu)點是,隨著步數(shù)增加,每個動作會被無限采樣,則 Q t ( a ) Q_t(a) Qt?(a) 會逐漸收斂到 q ? ( a ) q_\ast(a) q??(a),也意味著選擇最優(yōu)動作的概率收斂到 1 ? ? 1-\epsilon 1??。

3、貪心動作價值方法有效性

在 2000 個隨機(jī)生成的 10 臂老虎機(jī)問題中,其動作價值 q ? ( a ) , a = 1 , ? ? , 10 q_\ast(a),a=1,\cdots,10 q??(a),a=1,?,10,服從期望為 0,方差為 1的正態(tài)分布;另外每次動作 A t A_t At? 的實際獎勵 R t R_t Rt? 服從期望為 q ? ( A t ) q_\ast(A_t) q??(At?) ,方差為 1 的正態(tài)分布。
多臂老虎機(jī) “Multi-armed Bandits”,強(qiáng)化學(xué)習(xí),人工智能

部分代碼

import numpy as np

step = 1000
q_true = np.random.normal(0, 1, 10)  # 真實的動作價值
q_estimate = np.zeros(10)  # 估計的動作價值
epsilon = 0.9  # 貪心概率
action_space = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
action_count = np.zeros(10)
reward_sum = 0
for i in range(step):
    if (np.random.uniform() > epsilon1) or (q_estimate1.all() == 0):
        machine_name = np.random.choice(action_space)
        reward_sum += np.random.normal(q_true[machine_name], 1, 1)
        action_count[machine_name] += 1
        q_estimate[machine_name] = reward_sum / action_count[machine_name]
    else:
	    machine_name = np.argmax(q_estimate)
	    reward_sum += np.random.normal(q_true[machine_name], 1, 1)
	    action_count[machine_name] += 1
	    q_estimate[machine_name] = reward_sum / action_count[machine_name]

多臂老虎機(jī) “Multi-armed Bandits”,強(qiáng)化學(xué)習(xí),人工智能文章來源地址http://www.zghlxwxcb.cn/news/detail-792854.html

到了這里,關(guān)于多臂老虎機(jī) “Multi-armed Bandits”的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 4-arm-PEG-Nor,MV1K,2K,4-臂聚乙二醇降冰片烯,多臂聚合物,端基取代率:>>95

    4-arm-PEG-Nor,MV1K,2K,4-臂聚乙二醇降冰片烯,多臂聚合物,端基取代率:>>95

    一、試劑基團(tuán)反應(yīng)特點(Reagent group reaction characteristics): 4-arm-PEG-Nor,4-臂聚乙二醇降冰片烯,將多個降冰片烯結(jié)構(gòu)單元連接到聚乙二醇鏈上。這種聚合方法可以精確控制每個臂的長度和分子量,使得產(chǎn)物具有較高的純度和特定的分子量分布。 4-臂聚乙二醇降冰片烯是一種多

    2024年04月23日
    瀏覽(34)
  • 蜂鳴器播放《兩只老虎》

    蜂鳴器播放《兩只老虎》

    ??通過往期的按鍵控制蜂鳴器課程,我們了解了蜂鳴器器件,本次課程將使用蜂鳴器,播放我小時候經(jīng)常聽的《兩只老虎》音樂,來勾起我童年的回憶。 ??我們回顧一下蜂鳴器的知識: 按照工作原理可分為:壓電式蜂鳴器和電磁式蜂鳴器。 按照音源可分為:有源蜂鳴器

    2023年04月08日
    瀏覽(59)
  • 利用法線貼圖渲染逼真的3D老虎模型

    利用法線貼圖渲染逼真的3D老虎模型

    在線工具推薦: 3D數(shù)字孿生場景編輯器 ?-? GLTF/GLB材質(zhì)紋理編輯器 ?-? 3D模型在線轉(zhuǎn)換 ?-? Three.js AI自動紋理開發(fā)包 ?-? YOLO 虛幻合成數(shù)據(jù)生成器 ?-? 三維模型預(yù)覽圖生成器 ?-? 3D模型語義搜索引擎 當(dāng)談到游戲角色的3D模型風(fēng)格時,有幾種不同的風(fēng)格: 寫實風(fēng)格 :這種風(fēng)格

    2024年02月05日
    瀏覽(25)
  • 【Cisco Packet Tracer】VLAN通信 多臂/單臂路由/三層交換機(jī)

    【Cisco Packet Tracer】VLAN通信 多臂/單臂路由/三層交換機(jī)

    在進(jìn)行本文的實驗之前,請確保掌握以下內(nèi)容: 【Cisco Packet Tracer】交換機(jī) 學(xué)習(xí)/更新/泛洪/VLAN實驗 【Cisco Packet Tracer】路由器實驗 靜態(tài)路由/RIP/OSPF/BGP 【Cisco Packet Tracer】路由器 NAT實驗 本文介紹VLAN間的通信方法, 包括多臂/單臂路由/三層交換機(jī)。 請完成以下的拓?fù)浣Y(jié)構(gòu):

    2024年02月04日
    瀏覽(31)
  • FPGA實現(xiàn)蜂鳴器播放音樂實驗,以兒歌《兩只老虎》為例

    FPGA實現(xiàn)蜂鳴器播放音樂實驗,以兒歌《兩只老虎》為例

    ** ** 開發(fā)板上電后,通過蜂鳴器播放《兩只老虎》。 原理:想要讓蜂鳴器播放音樂,就需要知道每個音符的頻率,再通過換算將頻率轉(zhuǎn)換為周期,再結(jié)合開發(fā)板具體的系統(tǒng)時鐘周期,便可計算出每個音符對應(yīng)多少個系統(tǒng)時鐘周期個數(shù),通過對這些個數(shù)計數(shù),便可控制蜂鳴器播

    2024年02月15日
    瀏覽(86)
  • 老虎/TiggerRamDisk注冊/下載/官網(wǎng) 繞過激活鎖,屏幕鎖隱藏工具,支持最新iOS17系統(tǒng)

    老虎/TiggerRamDisk注冊/下載/官網(wǎng) 繞過激活鎖,屏幕鎖隱藏工具,支持最新iOS17系統(tǒng)

    支持的版本:iOS12.0 ~ 17.3 支持的型號: iPhone 6 6s、6sp、SE、7、7P、8、8P、X iPad Air 2 WiFi (A1566) iPad Air 2 4G (A1567) iPad Mini 4 WiFi (A1538) iPad Mini 4 4G (A1550) iPad 5 2017 WiFi (A1822) iPad 5 2017 4G (A1823) iPad 6 2018 WiFi (A1893) iPad 6 2018 4G (A1954) iPad 7 2019 WiFi (A2197) iPad 7 2019 4G (A2198、A2199、A2200) iPad Pro1

    2024年03月22日
    瀏覽(541)
  • 基于深度學(xué)習(xí)的高精度老虎檢測識別系統(tǒng)(PyTorch+Pyside6+YOLOv5模型)

    基于深度學(xué)習(xí)的高精度老虎檢測識別系統(tǒng)(PyTorch+Pyside6+YOLOv5模型)

    摘要:基于深度學(xué)習(xí)的高精度老虎檢測識別系統(tǒng)可用于日常生活中或野外來檢測與定位老虎目標(biāo),利用深度學(xué)習(xí)算法可實現(xiàn)圖片、視頻、攝像頭等方式的老虎目標(biāo)檢測識別,另外支持結(jié)果可視化與圖片或視頻檢測結(jié)果的導(dǎo)出。本系統(tǒng)采用YOLOv5目標(biāo)檢測模型訓(xùn)練數(shù)據(jù)集,使用

    2024年02月12日
    瀏覽(23)
  • iOS15-16繞過激活鎖,屏幕鎖完美隱藏工具老虎V4.5,支持最新iOS16.1.1系統(tǒng)

    iOS15-16繞過激活鎖,屏幕鎖完美隱藏工具老虎V4.5,支持最新iOS16.1.1系統(tǒng)

    老虎V4.5這是一款可以繞過激活鎖、屏幕鎖界面完美隱藏的工具,也可以解決手機(jī)或者平板無法激活的問題,支持最新的iOS16.1.1系統(tǒng)。 老虎V4.5新增一鍵紫萍抹除 目前支持的型號: 需要工程線 iPhone:SE16S6SP iPad?Air2 ?(A1566 A1567) iPad Mini4? (A1538 A1550) iPad 5 2017? (A1822?A1823) iPad?

    2024年02月01日
    瀏覽(201)
  • Elasticsearch:Multi-match (multi_match) 及 Disjunction max 查詢

    多重匹配(multi_match)查詢,顧名思義就是跨多個字段搜索查詢。 例如,如果我們想在 title、synopsis 和 tags 三個字段中搜索 Java 一詞,那么 multi_match query 就是答案。另外,很多開發(fā)者還不是很清楚 multi-match 及 disjunction max query 的區(qū)別和聯(lián)系。在今天的文章中,我將詳述這兩個

    2024年02月05日
    瀏覽(24)
  • Multi-class classification without multi-class labels (ICLR 2019)

    Multi-class classification without multi-class labels (ICLR 2019)

    摘要 這項工作提出了針對多分類的新策略,不需要具體的類別標(biāo)簽,取而代之是利用樣本之間的兩兩相似度,這是一種弱化的標(biāo)注方式。所提方法稱作元分類學(xué)習(xí),為兩兩相似度預(yù)測優(yōu)化一個二分類器,并通過該過程學(xué)習(xí)一個多分類器作為子模塊。我們闡述了這種方法,并給

    2024年02月11日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包