国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

^{<sup id="ddaoi"></sup>}

多臂老虎機(jī) “Multi-armed Bandits”

2年前作者：EasonZzzzzzz分類：Toy博客閱讀(12)違法舉報

這篇具有很好參考價值的文章主要介紹了多臂老虎機(jī) “Multi-armed Bandits”。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

將強(qiáng)化學(xué)習(xí)與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)區(qū)分開的最重要的特征為：它通過訓(xùn)練中信息來評估所采取的動作，而不是給出正確的動作進(jìn)行指導(dǎo)，這極大地促進(jìn)了尋找更優(yōu)動作的需求。

1、多臂老虎機(jī)（Multi-armed Bandits）問題

多臂老虎機(jī) “Multi-armed Bandits”,強(qiáng)化學(xué)習(xí),人工智能
賭場的老虎機(jī)有一個綽號叫單臂強(qiáng)盜（single-armed bandit），因為它即使只有一只胳膊，也會把你的錢拿走。而一排老虎機(jī)就引申出多臂強(qiáng)盜（多臂老虎機(jī)）。

多臂老虎機(jī)（Multi-armed Bandits）問題可以描述如下：一個玩家走進(jìn)一個賭場，賭場里有 $k$ 個老虎機(jī)，每個老虎機(jī)的期望收益不一樣。假設(shè)玩家總共可以玩 $t$ 輪，在每一輪中，玩家可以選擇這 $k$ 個老虎機(jī)中的任一個，投入一枚游戲幣，拉動搖桿，觀察是否中獎以及獎勵的大小。
問題，玩家采取怎么樣的策略才能最大化這 $t$ 輪的總收益？

$k$ 個老虎機(jī)（對應(yīng) $k$ 個動作選擇），每一個動作都有其預(yù)期的獎勵，稱其為該動作的價值。記第 $t$ 輪選擇的動作為 $A_t$ ，相應(yīng)的獎勵為 $R_t$ ，那么任意動作 $a$ 的價值記為 $q_\ast(a)$ ，即動作 $a$ 的期望獎勵：
$q_\ast(a)\doteq\Bbb{E}[R_t|A_t=a]$

如果知道每個動作的價值，那么問題就簡單了：總是選擇價值最高的動作。如果不知道的話，我們需要對其進(jìn)行估計，令動作 $a$ 在時間步長為 $t$ 的價值估計為 $Q_t(a)$ ，我們希望 $Q_t(a)$ 盡可能地接近 $q_\ast(a)$ 。

2、動作價值方法

通過估計動作價值，然后依據(jù)動作價值作出動作選擇的方法，統(tǒng)稱為動作價值方法。某個動作的真實價值應(yīng)當(dāng)是該動作被選擇時的期望獎勵，即
$Q_t(a)\doteq\dfrac{t\ 時刻之前，a\ 被選中的總獎勵}{t\ 時刻之前，a\ 被選中的次數(shù)}=\dfrac{\sum_{i=1}^{t-1}R_i\cdot\Bbb{I}_{A_i=a}}{\sum_{i=1}^{t-1}\Bbb{I}_{A_i=a}}$

其中，若 $A_i=a$ ，則 $\Bbb{I}_{A_i=a}=1$ ，否則 $\Bbb{I}_{A_i=a}=0$ ，若分母為 0，則定義 $Q_t(a)$ 為一默認(rèn)值（例如 0），根據(jù)大數(shù)定律，當(dāng)分母趨于無窮時， $Q_t(a)$ 收斂于 $q_\ast(a)$ ，稱這種方法為樣本平均法（sample-average method），這是估計動作價值的一種方法，當(dāng)然并不一定是最好的方法，下面我們使用該方法來解決問題。

最簡單的動作選擇就是選擇價值估計值最大的動作，稱為貪心方法，其數(shù)學(xué)表示為：
$A_t\doteq\argmax_a Q_t(a)$

另一種替代的方法是，大多數(shù)情況是貪心的，偶爾從動作空間中隨機(jī)選擇，稱為 $\epsilon$ -貪心方法。這種方法的優(yōu)點是，隨著步數(shù)增加，每個動作會被無限采樣，則 $Q_t(a)$ 會逐漸收斂到 $q_\ast(a)$ ，也意味著選擇最優(yōu)動作的概率收斂到 $1-\epsilon$ 。

3、貪心動作價值方法有效性

在 2000 個隨機(jī)生成的 10 臂老虎機(jī)問題中，其動作價值 $q_\ast(a),a=1,\cdots,10$ ，服從期望為 0，方差為 1的正態(tài)分布；另外每次動作 $A_t$ 的實際獎勵 $R_t$ 服從期望為 $q_\ast(A_t)$ ，方差為 1 的正態(tài)分布。
多臂老虎機(jī) “Multi-armed Bandits”,強(qiáng)化學(xué)習(xí),人工智能

部分代碼

import numpy as np

step = 1000
q_true = np.random.normal(0, 1, 10)  # 真實的動作價值
q_estimate = np.zeros(10)  # 估計的動作價值
epsilon = 0.9  # 貪心概率
action_space = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
action_count = np.zeros(10)
reward_sum = 0
for i in range(step):
    if (np.random.uniform() > epsilon1) or (q_estimate1.all() == 0):
        machine_name = np.random.choice(action_space)
        reward_sum += np.random.normal(q_true[machine_name], 1, 1)
        action_count[machine_name] += 1
        q_estimate[machine_name] = reward_sum / action_count[machine_name]
    else:
	    machine_name = np.argmax(q_estimate)
	    reward_sum += np.random.normal(q_true[machine_name], 1, 1)
	    action_count[machine_name] += 1
	    q_estimate[machine_name] = reward_sum / action_count[machine_name]

多臂老虎機(jī) “Multi-armed Bandits”,強(qiáng)化學(xué)習(xí),人工智能文章來源地址http://www.zghlxwxcb.cn/news/detail-792854.html

到了這里，關(guān)于多臂老虎機(jī) “Multi-armed Bandits”的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

4-arm-PEG-Nor，MV1K，2K，4-臂聚乙二醇降冰片烯，多臂聚合物，端基取代率：＞＞95
一、試劑基團(tuán)反應(yīng)特點（Reagent group reaction characteristics）： 4-arm-PEG-Nor，4-臂聚乙二醇降冰片烯，將多個降冰片烯結(jié)構(gòu)單元連接到聚乙二醇鏈上。這種聚合方法可以精確控制每個臂的長度和分子量，使得產(chǎn)物具有較高的純度和特定的分子量分布。 4-臂聚乙二醇降冰片烯是一種多
2024年04月23日
瀏覽(34)
蜂鳴器播放《兩只老虎》
??通過往期的按鍵控制蜂鳴器課程，我們了解了蜂鳴器器件，本次課程將使用蜂鳴器，播放我小時候經(jīng)常聽的《兩只老虎》音樂，來勾起我童年的回憶。 ??我們回顧一下蜂鳴器的知識：按照工作原理可分為：壓電式蜂鳴器和電磁式蜂鳴器。按照音源可分為：有源蜂鳴器
2023年04月08日
瀏覽(59)
利用法線貼圖渲染逼真的3D老虎模型
在線工具推薦： 3D數(shù)字孿生場景編輯器 ?-? GLTF/GLB材質(zhì)紋理編輯器 ?-? 3D模型在線轉(zhuǎn)換 ?-? Three.js AI自動紋理開發(fā)包 ?-? YOLO 虛幻合成數(shù)據(jù)生成器 ?-? 三維模型預(yù)覽圖生成器 ?-? 3D模型語義搜索引擎當(dāng)談到游戲角色的3D模型風(fēng)格時，有幾種不同的風(fēng)格：寫實風(fēng)格：這種風(fēng)格
2024年02月05日
瀏覽(25)
【Cisco Packet Tracer】VLAN通信多臂/單臂路由/三層交換機(jī)
在進(jìn)行本文的實驗之前，請確保掌握以下內(nèi)容：【Cisco Packet Tracer】交換機(jī) 學(xué)習(xí)/更新/泛洪/VLAN實驗【Cisco Packet Tracer】路由器實驗靜態(tài)路由/RIP/OSPF/BGP 【Cisco Packet Tracer】路由器 NAT實驗本文介紹VLAN間的通信方法，包括多臂/單臂路由/三層交換機(jī)。請完成以下的拓?fù)浣Y(jié)構(gòu)：
2024年02月04日
瀏覽(31)
FPGA實現(xiàn)蜂鳴器播放音樂實驗，以兒歌《兩只老虎》為例
** ** 開發(fā)板上電后，通過蜂鳴器播放《兩只老虎》。原理：想要讓蜂鳴器播放音樂，就需要知道每個音符的頻率，再通過換算將頻率轉(zhuǎn)換為周期，再結(jié)合開發(fā)板具體的系統(tǒng)時鐘周期，便可計算出每個音符對應(yīng)多少個系統(tǒng)時鐘周期個數(shù)，通過對這些個數(shù)計數(shù)，便可控制蜂鳴器播
2024年02月15日
瀏覽(86)
老虎/TiggerRamDisk注冊/下載/官網(wǎng) 繞過激活鎖，屏幕鎖隱藏工具，支持最新iOS17系統(tǒng)
支持的版本：iOS12.0 ~ 17.3 支持的型號： iPhone 6 6s、6sp、SE、7、7P、8、8P、X iPad Air 2 WiFi (A1566) iPad Air 2 4G (A1567) iPad Mini 4 WiFi (A1538) iPad Mini 4 4G (A1550) iPad 5 2017 WiFi (A1822) iPad 5 2017 4G (A1823) iPad 6 2018 WiFi (A1893) iPad 6 2018 4G (A1954) iPad 7 2019 WiFi (A2197) iPad 7 2019 4G (A2198、A2199、A2200) iPad Pro1
2024年03月22日
瀏覽(541)
基于深度學(xué)習(xí)的高精度老虎檢測識別系統(tǒng)（PyTorch+Pyside6+YOLOv5模型）
摘要：基于深度學(xué)習(xí)的高精度老虎檢測識別系統(tǒng)可用于日常生活中或野外來檢測與定位老虎目標(biāo)，利用深度學(xué)習(xí)算法可實現(xiàn)圖片、視頻、攝像頭等方式的老虎目標(biāo)檢測識別，另外支持結(jié)果可視化與圖片或視頻檢測結(jié)果的導(dǎo)出。本系統(tǒng)采用YOLOv5目標(biāo)檢測模型訓(xùn)練數(shù)據(jù)集，使用
2024年02月12日
瀏覽(23)
iOS15-16繞過激活鎖，屏幕鎖完美隱藏工具老虎V4.5,支持最新iOS16.1.1系統(tǒng)
老虎V4.5這是一款可以繞過激活鎖、屏幕鎖界面完美隱藏的工具，也可以解決手機(jī)或者平板無法激活的問題，支持最新的iOS16.1.1系統(tǒng)。老虎V4.5新增一鍵紫萍抹除目前支持的型號：需要工程線 iPhone：SE16S6SP iPad?Air2 ?(A1566 A1567) iPad Mini4? (A1538 A1550) iPad 5 2017? (A1822?A1823) iPad?
2024年02月01日
瀏覽(201)
Elasticsearch：Multi-match (multi_match) 及 Disjunction max 查詢
多重匹配（multi_match）查詢，顧名思義就是跨多個字段搜索查詢。例如，如果我們想在 title、synopsis 和 tags 三個字段中搜索 Java 一詞，那么 multi_match query 就是答案。另外，很多開發(fā)者還不是很清楚 multi-match 及 disjunction max query 的區(qū)別和聯(lián)系。在今天的文章中，我將詳述這兩個
2024年02月05日
瀏覽(24)
Multi-class classification without multi-class labels (ICLR 2019)
摘要這項工作提出了針對多分類的新策略，不需要具體的類別標(biāo)簽，取而代之是利用樣本之間的兩兩相似度，這是一種弱化的標(biāo)注方式。所提方法稱作元分類學(xué)習(xí)，為兩兩相似度預(yù)測優(yōu)化一個二分類器，并通過該過程學(xué)習(xí)一個多分類器作為子模塊。我們闡述了這種方法，并給
2024年02月11日
瀏覽(18)

<mark id="uxzma"><em id="uxzma"></em></mark>

<kbd id="uxzma"></kbd>

<dl id="uxzma"><td id="uxzma"></td></dl>