国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

強(qiáng)化學(xué)習(xí)中值函數(shù)應(yīng)用示例

這篇具有很好參考價(jià)值的文章主要介紹了強(qiáng)化學(xué)習(xí)中值函數(shù)應(yīng)用示例。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、Gridworld

????????Gridworld是一個(gè)用于教授強(qiáng)化學(xué)習(xí)概念的簡(jiǎn)化的電子游戲環(huán)境。它具有一個(gè)簡(jiǎn)單的二維網(wǎng)格,智能體可以在其中執(zhí)行動(dòng)作并獲得獎(jiǎng)勵(lì)。這個(gè)環(huán)境是有限的,因?yàn)樗幸粋€(gè)明確的開始和結(jié)束狀態(tài),以及一組確定的動(dòng)作和獎(jiǎng)勵(lì)。

????????在Gridworld中,每個(gè)單元格代表一個(gè)狀態(tài),智能體可以在該狀態(tài)執(zhí)行四個(gè)可能的動(dòng)作:向北、向南、向東或向西移動(dòng)一個(gè)單元格。如果智能體執(zhí)行的動(dòng)作將它們移動(dòng)到網(wǎng)格之外,它們的位置將保持不變,但它們將獲得一個(gè)獎(jiǎng)勵(lì)1。另一方面,如果智能體從特殊狀態(tài)A或B開始執(zhí)行動(dòng)作,它們將獲得不同的獎(jiǎng)勵(lì)。

????????從狀態(tài)A開始,智能體執(zhí)行的動(dòng)作將使它們獲得獎(jiǎng)勵(lì)+10,并將它們移動(dòng)到A0單元格。類似地,從狀態(tài)B開始,智能體執(zhí)行的動(dòng)作將使它們獲得獎(jiǎng)勵(lì)+5,并將它們移動(dòng)到B0單元格。

????????通過這個(gè)簡(jiǎn)單的環(huán)境,學(xué)生可以學(xué)習(xí)強(qiáng)化學(xué)習(xí)的基本概念,如值函數(shù)、策略和最優(yōu)解。此外,Gridworld還提供了用于評(píng)估和比較不同策略的工具,使學(xué)生能夠更好地理解這些概念并應(yīng)用它們來解決實(shí)際問題。

????????在Gridworld圖1中,使用了一個(gè)矩形網(wǎng)格來描繪一個(gè)簡(jiǎn)單的有限MDP(馬爾可夫決策過程)的值函數(shù)。網(wǎng)格的每個(gè)單元格都對(duì)應(yīng)于環(huán)境的一個(gè)狀態(tài)。在每個(gè)單元格,有四個(gè)可能的動(dòng)作:北、南、東、西,這些動(dòng)作將確定性地將智能體移動(dòng)到相應(yīng)方向的一個(gè)單元格。如果動(dòng)作會(huì)使智能體離開網(wǎng)格,那么其位置將保持不變,但也會(huì)獲得一個(gè)獎(jiǎng)勵(lì)1。其他動(dòng)作的獎(jiǎng)勵(lì)為0,除非它們將智能體從特殊狀態(tài)A和B中移出。從狀態(tài)A開始,所有四個(gè)動(dòng)作都會(huì)產(chǎn)生獎(jiǎng)勵(lì)+10并將智能體移動(dòng)到A0。從狀態(tài)B開始,所有動(dòng)作都會(huì)產(chǎn)生獎(jiǎng)勵(lì)+5并將智能體移動(dòng)到B0。

強(qiáng)化學(xué)習(xí)中值函數(shù)應(yīng)用示例,人工智能

圖1

????????假設(shè)智能體在所有狀態(tài)下以相等的概率選擇所有四個(gè)動(dòng)作。圖b顯示了對(duì)于這個(gè)策略的值函數(shù)vπ,對(duì)于帶折扣的獎(jiǎng)勵(lì)情況,折扣因子γ = 0.9。該值函數(shù)是通過求解方程計(jì)算得出的。請(qǐng)注意,靠近下邊緣的負(fù)值是由于在該隨機(jī)策略下,那里有很大可能性會(huì)撞到網(wǎng)格的邊緣。狀態(tài)A在該策略下是最好的狀態(tài),但其期望回報(bào)小于10,即其即時(shí)獎(jiǎng)勵(lì),因?yàn)閺腁狀態(tài)開始,智能體將被帶到A0狀態(tài),從那里很可能會(huì)撞到網(wǎng)格的邊緣。另一方面,狀態(tài)B的估值超過5,即其即時(shí)獎(jiǎng)勵(lì),因?yàn)閺腂狀態(tài)開始,智能體將被帶到B0狀態(tài),該狀態(tài)具有正價(jià)值。從B0狀態(tài)開始,由于可能撞到邊緣而產(chǎn)生的預(yù)期懲罰(負(fù)獎(jiǎng)勵(lì))超過了因可能撞到A或B而產(chǎn)生的預(yù)期收益。

二、高爾夫

????????將打高爾夫球的過程表述為強(qiáng)化學(xué)習(xí)任務(wù),我們會(huì)對(duì)每一擊都施加一個(gè)懲罰(負(fù)面獎(jiǎng)勵(lì)),直到球進(jìn)入洞中。狀態(tài)為球的位置,一個(gè)狀態(tài)的價(jià)值是,從此位置到球洞的擊球次數(shù)。我們的行動(dòng)是針對(duì)如何瞄準(zhǔn)和揮動(dòng)球桿的動(dòng)作,當(dāng)然,還包括選擇哪種球桿。讓我們假設(shè)這些都是給定的,只需要考慮球桿的選擇,我們假設(shè)只能是推桿或驅(qū)動(dòng)器。圖2的上半部分顯示了對(duì)于始終使用推桿的策略可能的狀態(tài)值函數(shù)vputt(s)。在洞中的終端狀態(tài)的價(jià)值為0。我們假設(shè)無論在球場(chǎng)的哪個(gè)位置,我們都可以推桿;這些狀態(tài)的價(jià)值為e1。如果我們?cè)诰G地之外的位置,就無法通過推桿到達(dá)洞穴,因此其價(jià)值更大。如果我們可以通過推桿從某個(gè)狀態(tài)到達(dá)綠地,那么該狀態(tài)的價(jià)值必須比綠地的價(jià)值少1,即2。為了簡(jiǎn)化問題,我們假設(shè)可以非常精確和確定性地進(jìn)行推桿,但范圍有限。這給我們提供了圖中標(biāo)記為d2的尖銳等高線;位于該線與綠地之間的所有位置都需要恰好兩次擊球來完成這個(gè)洞。同樣地,位于e2等高線以內(nèi)的任何位置都必須具有價(jià)值3,依此類推,得到圖中所示的所有等高線。推桿無法讓我們從沙陷阱中脫身,因此沙陷阱的價(jià)值為負(fù)無窮大??傮w而言,我們需要六次擊球才能從發(fā)球臺(tái)到達(dá)洞穴。

強(qiáng)化學(xué)習(xí)中值函數(shù)應(yīng)用示例,人工智能

圖2文章來源地址http://www.zghlxwxcb.cn/news/detail-715617.html

到了這里,關(guān)于強(qiáng)化學(xué)習(xí)中值函數(shù)應(yīng)用示例的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 通用人工智能之路:什么是強(qiáng)化學(xué)習(xí)?如何結(jié)合深度學(xué)習(xí)?

    通用人工智能之路:什么是強(qiáng)化學(xué)習(xí)?如何結(jié)合深度學(xué)習(xí)?

    2015年, OpenAI 由馬斯克、美國(guó)創(chuàng)業(yè)孵化器Y Combinator總裁阿爾特曼、全球在線支付平臺(tái)PayPal聯(lián)合創(chuàng)始人彼得·蒂爾等硅谷科技大亨創(chuàng)立,公司核心宗旨在于 實(shí)現(xiàn)安全的通用人工智能(AGI) ,使其有益于人類。 ChatGPT 是 OpenAI 推出的一個(gè)基于對(duì)話的原型 AI 聊天機(jī)器人,2022年12 月 1

    2024年02月16日
    瀏覽(34)
  • 走進(jìn)人工智能|強(qiáng)化學(xué)習(xí) AI發(fā)展的未來引擎

    走進(jìn)人工智能|強(qiáng)化學(xué)習(xí) AI發(fā)展的未來引擎

    前言: 強(qiáng)化學(xué)習(xí)是一種通過智能體與環(huán)境交互,通過嘗試最大化累計(jì)獎(jiǎng)勵(lì)來學(xué)習(xí)最優(yōu)行為策略的機(jī)器學(xué)習(xí)方法。 本篇帶你走進(jìn)強(qiáng)化學(xué)習(xí)!一起來學(xué)習(xí)了解吧!??! 強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,旨在通過試錯(cuò)來學(xué)習(xí)正確的行為。與其他機(jī)器學(xué)習(xí)方法不同,強(qiáng)化學(xué)習(xí)的主要目

    2024年02月10日
    瀏覽(98)
  • 人工智能導(dǎo)論——機(jī)器人自動(dòng)走迷宮&強(qiáng)化學(xué)習(xí)

    人工智能導(dǎo)論——機(jī)器人自動(dòng)走迷宮&強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中重要的學(xué)習(xí)方法之一,與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)并不依賴于數(shù)據(jù),并不是數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方法,其旨在與發(fā)揮智能體(Agent)的主觀能動(dòng)性,在當(dāng)前的狀態(tài)(state)下,通過與環(huán)境的交互,通過對(duì)應(yīng)的策略,采用對(duì)應(yīng)的行動(dòng)(action),獲得一定的獎(jiǎng)

    2024年02月06日
    瀏覽(29)
  • 深度強(qiáng)化學(xué)習(xí)與人工智能:如何實(shí)現(xiàn)高效的資源分配

    深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)是一種人工智能技術(shù),它結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩個(gè)領(lǐng)域的優(yōu)點(diǎn),以解決復(fù)雜的決策問題。在過去的幾年里,DRL已經(jīng)取得了顯著的成果,例如在游戲、機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域的應(yīng)用。在資源分配方面,DRL可以幫助企業(yè)更有效地

    2024年02月21日
    瀏覽(26)
  • 通用人工智能技術(shù)(深度學(xué)習(xí),大模型,Chatgpt,多模態(tài),強(qiáng)化學(xué)習(xí),具身智能)

    目錄 前言 1.通用人工智能 1.1 生物學(xué)分析 1.2具身智能 1.2.1當(dāng)前的人工智能的局限 1.2.2?具身智能實(shí)現(xiàn)的基礎(chǔ) 1.2.3 強(qiáng)化學(xué)習(xí)(決策大模型) 2.結(jié)論 往期文章 參考文獻(xiàn) ? ? ? 目前的人工智能實(shí)質(zhì)上只是強(qiáng)人工智能,或者說單個(gè)領(lǐng)域的通用人工智能。比方說Chatgpt它屬于自然語言

    2024年02月07日
    瀏覽(31)
  • 強(qiáng)化學(xué)習(xí):原理與Python實(shí)戰(zhàn)||一分鐘秒懂人工智能對(duì)齊

    強(qiáng)化學(xué)習(xí):原理與Python實(shí)戰(zhàn)||一分鐘秒懂人工智能對(duì)齊

    人工智能對(duì)齊(AI Alignment)指讓人工智能的行為符合人的意圖和價(jià)值觀。 人工智能系統(tǒng)可能會(huì)出現(xiàn)“不對(duì)齊”(misalign)的問題。以ChatGPT這樣的問答系統(tǒng)為例,ChatGPT的回答可能會(huì)含有危害祖國(guó)統(tǒng)一、侮辱先烈、丑化中華民族、教唆暴力、出口成“臟”等違法或不符合社會(huì)主

    2024年02月05日
    瀏覽(18)
  • 火星探測(cè)器背后的人工智能:從原理到實(shí)戰(zhàn)的強(qiáng)化學(xué)習(xí)

    火星探測(cè)器背后的人工智能:從原理到實(shí)戰(zhàn)的強(qiáng)化學(xué)習(xí)

    本文詳細(xì)探討了強(qiáng)化學(xué)習(xí)在火星探測(cè)器任務(wù)中的應(yīng)用。從基礎(chǔ)概念到模型設(shè)計(jì),再到實(shí)戰(zhàn)代碼演示,我們深入分析了任務(wù)需求、環(huán)境模型構(gòu)建及算法實(shí)現(xiàn),提供了一個(gè)全面的強(qiáng)化學(xué)習(xí)案例解析,旨在推動(dòng)人工智能技術(shù)在太空探索中的應(yīng)用。 關(guān)注TechLead,分享AI全維度知識(shí)。作

    2024年02月05日
    瀏覽(20)
  • 強(qiáng)化學(xué)習(xí)在人工智能的發(fā)展中的重要性與前景

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種人工智能(Artificial Intelligence, AI)技術(shù),它通過在環(huán)境中進(jìn)行交互,學(xué)習(xí)如何取得最大化的獎(jiǎng)勵(lì)。在過去的幾年里,強(qiáng)化學(xué)習(xí)技術(shù)取得了顯著的進(jìn)展,并在許多領(lǐng)域得到了廣泛應(yīng)用,如游戲、自動(dòng)駕駛、機(jī)器人控制、語音識(shí)別等。 在本文中,

    2024年02月20日
    瀏覽(29)
  • 人工智能的分類:機(jī)器學(xué)習(xí)/專家系統(tǒng)/推薦系統(tǒng)/知識(shí)圖譜/強(qiáng)化學(xué)習(xí)/遷移學(xué)習(xí)/特征工程/模式識(shí)別

    機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)算法工程師:技術(shù)路線、方向選擇、職業(yè)規(guī)劃、最新技術(shù)(從小白到大魔王全攻略)_會(huì)害羞的楊卓越的博客-CSDN博客 專家系統(tǒng) 知識(shí)圖譜 知識(shí)圖譜:實(shí)體-關(guān)系-實(shí)體/知識(shí)建模/知識(shí)獲取/知識(shí)融合/知識(shí)存儲(chǔ)/知識(shí)應(yīng)用_會(huì)害羞的楊卓越的博客-CSDN博客 特征工程

    2024年02月16日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包