国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

機器學(xué)習(xí)算法(三十):強化學(xué)習(xí)(Reinforcement Learning)

這篇具有很好參考價值的文章主要介紹了機器學(xué)習(xí)算法(三十):強化學(xué)習(xí)(Reinforcement Learning)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

目錄

1 簡介?

1.1 什么是強化學(xué)習(xí)

1.2 強化學(xué)習(xí)的主要特點

1.3 強化學(xué)習(xí)的組成部分

2?強化學(xué)習(xí)訓(xùn)練過程

?3?強化學(xué)習(xí)算法歸類

3.1 Value Based

3.2?Policy Based

3.3 Actor-Critic

3.4 其他分類

4?EE(Explore & Exploit)探索與利用

5 強化學(xué)習(xí)實際開展中的難點

6 強化學(xué)習(xí)的實際應(yīng)用

6.1 自動駕駛

6.2 游戲

6.3 推薦系統(tǒng)

7 Q-learning?

8 策略梯度


1 簡介?

1.1 什么是強化學(xué)習(xí)

機器學(xué)習(xí)強化學(xué)習(xí),機器學(xué)習(xí)算法,深度學(xué)習(xí),機器學(xué)習(xí)

? ? ? ?強化學(xué)習(xí)是一種機器學(xué)習(xí)的學(xué)習(xí)方式(四種主要的機器學(xué)習(xí)方式解釋見上圖)。??

? ? ? ? 上圖沒有提到深度學(xué)習(xí),是因為從學(xué)習(xí)方式層面上來說,深度學(xué)習(xí)屬于上述四種方式的子集。而強化學(xué)習(xí)是獨立存在的,所以上圖單獨列出強化學(xué)習(xí),而沒有列出深度學(xué)習(xí)。

? ? ? ? 強化學(xué)習(xí)和其他三種學(xué)習(xí)方式主要不同點在于:強化學(xué)習(xí)訓(xùn)練時,需要環(huán)境給予反饋,以及對應(yīng)具體的反饋值。它不是一個分類的任務(wù),不是金融反欺詐場景中如何分辨欺詐客戶和正??蛻?。強化學(xué)習(xí)主要是指導(dǎo)訓(xùn)練對象每一步如何決策,采用什么樣的行動可以完成特定的目的或者使收益最大化。

  • 比如AlphaGo下圍棋,AlphaGo就是強化學(xué)習(xí)的訓(xùn)練對象,AlphaGo走的每一步不存在對錯之分,但是存在“好壞”之分。當(dāng)前這個棋面下,下的“好”,這是一步好棋。下的“壞”,這是一步臭棋。強化學(xué)習(xí)的訓(xùn)練基礎(chǔ)在于AlphaGo的每一步行動環(huán)境都能給予明確的反饋,是“好”是“壞”?“好”“壞”具體是多少,可以量化。強化學(xué)習(xí)在AlphaGo這個場景中最終訓(xùn)練目的就是讓棋子占領(lǐng)棋面上更多的區(qū)域,贏得最后的勝利。

1.2 強化學(xué)習(xí)的主要特點

  • 試錯學(xué)習(xí):強化學(xué)習(xí)需要訓(xùn)練對象不停地和環(huán)境進行交互,通過試錯的方式去總結(jié)出每一步的最佳行為決策,整個過程沒有任何的指導(dǎo),只有冰冷的反饋。所有的學(xué)習(xí)基于環(huán)境反饋,訓(xùn)練對象去調(diào)整自己的行為決策。
  • 延遲反饋:強化學(xué)習(xí)訓(xùn)練過程中,訓(xùn)練對象的“試錯”行為獲得環(huán)境的反饋,有時候可能需要等到整個訓(xùn)練結(jié)束以后才會得到一個反饋,比如Game Over或者是Win。當(dāng)然這種情況,我們在訓(xùn)練時候一般都是進行拆解的,盡量將反饋分解到每一步。
  • 時間是強化學(xué)習(xí)的一個重要因素:強化學(xué)習(xí)的一系列環(huán)境狀態(tài)的變化和環(huán)境反饋等都是和時間強掛鉤,整個強化學(xué)習(xí)的訓(xùn)練過程是一個隨著時間變化,而狀態(tài)&反饋也在不停變化的,所以時間是強化學(xué)習(xí)的一個重要因素。
  • 當(dāng)前的行為影響后續(xù)接收到的數(shù)據(jù):為什么單獨把該特點提出來,也是為了和監(jiān)督學(xué)習(xí)&半監(jiān)督學(xué)習(xí)進行區(qū)分。在監(jiān)督學(xué)習(xí)&半監(jiān)督學(xué)習(xí)中,每條訓(xùn)練數(shù)據(jù)都是獨立的,相互之間沒有任何關(guān)聯(lián)。但是強化學(xué)習(xí)中并不是這樣,當(dāng)前狀態(tài)以及采取的行動,將會影響下一步接收到的狀態(tài)。數(shù)據(jù)與數(shù)據(jù)之間存在一定的關(guān)聯(lián)性。

1.3 強化學(xué)習(xí)的組成部分

  • Agent(智能體、機器人、代理):強化學(xué)習(xí)訓(xùn)練的主體就是Agent,有時候翻譯為“代理”,這里統(tǒng)稱為“智能體”。Pacman中就是這個張開大嘴的黃色扇形移動體。
  • Environment(環(huán)境):整個游戲的大背景就是環(huán)境;Pacman中Agent、Ghost、豆子以及里面各個隔離板塊組成了整個環(huán)境。
  • State(狀態(tài)):當(dāng)前 Environment和Agent所處的狀態(tài),因為Ghost一直在移動,豆子數(shù)目也在不停變化,Agent的位置也在不停變化,所以整個State處于變化中;這里特別強調(diào)一點,State包含了Agent和Environment的狀態(tài)。
  • Action(行動):基于當(dāng)前的State,Agent可以采取哪些action,比如向左or右,向上or下;Action是和State強掛鉤的,比如上圖中很多位置都是有隔板的,很明顯Agent在此State下是不能往左或者往右的,只能上下;
  • Reward(獎勵):Agent在當(dāng)前State下,采取了某個特定的action后,會獲得環(huán)境的一定反饋就是Reward。這里面用Reward進行統(tǒng)稱,雖然Reward翻譯成中文是“獎勵”的意思,但其實強化學(xué)習(xí)中Reward只是代表環(huán)境給予的“反饋”,可能是獎勵也可能是懲罰。比如Pacman游戲中,Agent碰見了Ghost那環(huán)境給予的就是懲罰。

2?強化學(xué)習(xí)訓(xùn)練過程

? ? ? ? 下面我們需要介紹一下強化學(xué)習(xí)的訓(xùn)練過程。整個訓(xùn)練過程都基于一個前提,我們認為整個過程都是符合馬爾可夫決策過程的。

  • 馬爾可夫決策過程(Markov Decision Process)

? ? ? ? Markov是一個俄國的數(shù)學(xué)家,為了紀念他在馬爾可夫鏈所做的研究,所以以他命名了“Markov Decision Process”,以下用MDP代替。

機器學(xué)習(xí)強化學(xué)習(xí),機器學(xué)習(xí)算法,深度學(xué)習(xí),機器學(xué)習(xí)

? ? ? ? MDP核心思想就是下一步的State只和當(dāng)前的狀態(tài)State以及當(dāng)前狀態(tài)將要采取的Action有關(guān),只回溯一步。比如上圖State3只和State2以及Action2有關(guān),和State1以及Action1無關(guān)。我們已知當(dāng)前的State和將要采取的Action,就可以推出下一步的State是什么,而不需要繼續(xù)回溯上上步的State以及Action是什么,再結(jié)合當(dāng)前的(State,Action)才能得出下一步State。實際應(yīng)用中基本場景都是馬爾可夫決策過程,比如AlphaGo下圍棋,當(dāng)前棋面是什么,當(dāng)前棋子準備落在哪里,我們就可以清晰地知道下一步的棋面是什么了。

? ? ? ? 為什么我們要先定義好整個訓(xùn)練過程符合MDP了,因為只有符合MDP,我們才方便根據(jù)當(dāng)前的State,以及要采取的Action,推理出下一步的State。方便在訓(xùn)練過程中清晰地推理出每一步的State變更,如果在訓(xùn)練過程中我們連每一步的State變化都推理不出,那么也無從訓(xùn)練。

? ? ? ? 接下來我們使用強化學(xué)習(xí)來指導(dǎo)Agent如何行動了。

3?強化學(xué)習(xí)算法歸類

? ? ? ? 我們選擇什么樣的算法來指導(dǎo)Agent行動了?本身強化學(xué)習(xí)算法有很多種,關(guān)于強化學(xué)習(xí)算法如何分類,有很多種分類方式,這里我選擇三種比較常見的分類方式。?

3.1 Value Based

機器學(xué)習(xí)強化學(xué)習(xí),機器學(xué)習(xí)算法,深度學(xué)習(xí),機器學(xué)習(xí)

  • 說明:
    • 基于每個State下可以采取的所有Action,這些Action對應(yīng)的Value,來選擇當(dāng)前State如何行動。強調(diào)一點這里面的Value并不是從當(dāng)前State進入下一個State,環(huán)境給的Reward,Reward是Value組成的一部分。但我們實際訓(xùn)練時既要關(guān)注當(dāng)前的收益,也要關(guān)注長遠的收益,所以這里面的Value是通過一個計算公式得出來的,而不僅僅是狀態(tài)變更環(huán)境立即反饋的Reward。因為Value的計算較為復(fù)雜,通常使用貝爾曼方程,在此不再細述。
  • 如何選擇Action
    • 簡單來說,選擇當(dāng)前State下對應(yīng)Value最大的Action。選擇能夠帶來最大Value加成的Action。比如下圖StateA狀態(tài)下,可以采取的Action有3個,但是Action2帶來的Value最大,所以最終Agent進入StateA狀態(tài)時,就會選擇Action2。(強調(diào)一點這里面的Value值,在強化學(xué)習(xí)訓(xùn)練開始時都是不知道的,我們一般都是設(shè)置為0。然后讓Agent不斷去嘗試各類Action,不斷與環(huán)境交互,不斷獲得Reward,然后根據(jù)我們計算Value的公式,不停地去更新Value,最終在訓(xùn)練N多輪以后,Value值會趨于一個穩(wěn)定的數(shù)字,才能得出具體的State下,采取特定Action,對應(yīng)的Value是多少)
  • 代表性算法:
    • Q-Learning、SARSA(State-Action-Reward-State-Action);
  • 適用場景:
    • ???????Action空間是離散的,比如Pacman里面的動作空間基本是“上下左右”,但有些Agent的動作空間是一個連續(xù)的過程,比如機械臂的控制,整個運動是連續(xù)的。如果強行要將連續(xù)的Action拆解為離散的也是可以的,但是得到的維度太大,往往是指數(shù)級的,不適宜訓(xùn)練。同時在Value-Based場景中,最終學(xué)習(xí)完每個State對應(yīng)的最佳Action基本固定。但有些場景即使最終學(xué)習(xí)完每個State對應(yīng)的最佳Action也是隨機的,比如剪刀石頭布游戲,最佳策略就是各1/3的概率出剪刀/石頭/布。

3.2?Policy Based

Policy Based策略就是對Value Based的一個補充,

  • 說明:
    • ???????基于每個State可以采取的Action策略,針對Action策略進行建模,學(xué)習(xí)出具體State下可以采取的Action對應(yīng)的概率,然后根據(jù)概率來選擇Action。如何利用Reward去計算每個Action對應(yīng)的概率里面涉及到大量的求導(dǎo)計算,對具體過程感興趣的可以參考這篇文章:基于值和策略的強化學(xué)習(xí)入坑 - 知乎
  • 如何選擇Action:
    • ???????基于得出的策略函數(shù),輸入State得到Action。
  • 代表性算法:
    • ???????Policy Gradients
  • 適用場景:
    • ???????Action空間是連續(xù)的&每個State對應(yīng)的最佳Action并不一定是固定的,基本上Policy Based適用場景是對Value Based適用場景的補充。對于Action空間是連續(xù)的,我們通常會先假設(shè)動作空間符合高斯分布,然后再進行下一步的計算。

3.3 Actor-Critic

? ? ? ? AC分類就是將Value-Based和Policy-Based結(jié)合在一起,里面的算法結(jié)合了3.1和3.2。

? ? ? ? 上述就是三大類常見的強化學(xué)習(xí)算法,而在Pacman這個游戲中,我們就可以適用Value-Based算法來訓(xùn)練。因為每個State下最終對應(yīng)的最優(yōu)Action是比較固定的,同時Reward函數(shù)也容易設(shè)定。

3.4 其他分類

? ? ? ? 上述三種分類是常見的分類方法,有時候我們還會通過其他角度進行分類,以下分類方法和上述的分類存在一定的重疊:

  • 根據(jù)是否學(xué)習(xí)出環(huán)境Model分類:
    • Model-based指的是,agent已經(jīng)學(xué)習(xí)出整個環(huán)境是如何運行的,當(dāng)agent已知任何狀態(tài)下執(zhí)行任何動作獲得的回報和到達的下一個狀態(tài)都可以通過模型得出時,此時總的問題就變成了一個動態(tài)規(guī)劃的問題,直接利用貪心算法即可了。這種采取對環(huán)境進行建模的強化學(xué)習(xí)方法就是Model-based方法。
    • Model-free指的是,有時候并不需要對環(huán)境進行建模也能找到最優(yōu)的策略。雖然我們無法知道確切的環(huán)境回報,但我們可以對它進行估計。Q-learning中的Q(s,a)就是對在狀態(tài)s下,執(zhí)行動作a后獲得的未來收益總和進行的估計,經(jīng)過很多輪訓(xùn)練后,Q(s,a)的估計值會越來越準,這時候同樣利用貪心算法來決定agent在某個具體狀態(tài)下采取什么行動。

? ? ? ? 如何判斷該強化學(xué)習(xí)算法是Model-based or Model-free, 我們是否在agent在狀態(tài)s下執(zhí)行它的動作a之前,就已經(jīng)可以準確對下一步的狀態(tài)和回報做出預(yù)測,如果可以,那么就是Model-based,如果不能,即為Model-free。

4?EE(Explore & Exploit)探索與利用

? ? ? ? 3里面介紹了各種強化學(xué)習(xí)算法:Value-Based、Policy-Based、Actor-Critic。但實際我們在進行強化學(xué)習(xí)訓(xùn)練過程中,會遇到一個“EE”問題。這里的Double E是“Explore & Exploit”,“探索&利用”。比如在Value-Based中,如下圖StateA的狀態(tài)下,最開始Action1&2&3對應(yīng)的Value都是0,因為訓(xùn)練前我們根本不知道,初始值均為0。如果第一次隨機選擇了Action1,這時候StateA轉(zhuǎn)化為了StateB,得到了Value=2,系統(tǒng)記錄在StateA下選擇Action1對應(yīng)的Value=2。如果下一次Agent又一次回到了StateA,此時如果我們選擇可以返回最大Value的action,那么一定還是選擇Action1。因為此時StateA下Action2&3對應(yīng)的Value仍然為0。Agent根本沒有嘗試過Action2&3會帶來怎樣的Value。

機器學(xué)習(xí)強化學(xué)習(xí),機器學(xué)習(xí)算法,深度學(xué)習(xí),機器學(xué)習(xí)

? ? ? ? ?所以在強化學(xué)習(xí)訓(xùn)練的時候,

  • 一開始會讓Agent更偏向于探索Explore,并不是哪一個Action帶來的Value最大就執(zhí)行該Action,選擇Action時具有一定的隨機性,目的是為了覆蓋更多的Action,嘗試每一種可能性。
  • 等訓(xùn)練很多輪以后各種State下的各種Action基本嘗試完以后,我們這時候會大幅降低探索的比例,盡量讓Agent更偏向于利用Exploit,哪一個Action返回的Value最大,就選擇哪一個Action。

? ? ? ? Explore&Exploit是一個在機器學(xué)習(xí)領(lǐng)域經(jīng)常遇到的問題,并不僅僅只是強化學(xué)習(xí)中會遇到,在推薦系統(tǒng)中也會遇到,比如用戶對某個商品 or 內(nèi)容感興趣,系統(tǒng)是否應(yīng)該一直為用戶推送,是不是也要適當(dāng)搭配隨機一些其他商品 or 內(nèi)容。

5 強化學(xué)習(xí)實際開展中的難點

? ? ? ? 我們實際在應(yīng)用強化學(xué)習(xí)去訓(xùn)練時,經(jīng)常會遇到各類問題。雖然強化學(xué)習(xí)很強大,但是有時候很多問題很棘手無從下手。

  • Reward的設(shè)置:如何去設(shè)置Reward函數(shù),如何將環(huán)境的反饋量化是一個非常棘手的問題。比如在AlphaGo里面,如何去衡量每一步棋下的“好”與“壞”,并且最終量化,這是一個非常棘手的問題。有些場景下的Reward函數(shù)是很難設(shè)置的。
  • 采樣訓(xùn)練耗時過長,實際工業(yè)屆應(yīng)用難:強化學(xué)習(xí)需要對每一個State下的每一個Action都要盡量探索到,然后進行學(xué)習(xí)。實際應(yīng)用時,部分場景這是一個十分龐大的數(shù)字,對于訓(xùn)練時長,算力開銷是十分龐大的。很多時候使用其他的算法也會獲得同樣的效果,而訓(xùn)練時長,算力開銷節(jié)約很多。強化學(xué)習(xí)的上限很高,但如果訓(xùn)練不到位,很多時候下限特別低。
  • 容易陷入局部最優(yōu):部分場景中Agent采取的行動可能是當(dāng)前局部最優(yōu),而不是全局最優(yōu)。網(wǎng)上經(jīng)常有人截圖爆出打游戲碰到了王者榮耀AI,明明此時推塔或者推水晶是最合理的行為,但是AI卻去打小兵,因為AI采取的是一個局部最優(yōu)的行為。再合理的Reward函數(shù)設(shè)置都可能陷入局部最優(yōu)中。

6 強化學(xué)習(xí)的實際應(yīng)用

? ? ? ? 雖然強化學(xué)習(xí)目前還有各種各樣的棘手問題,但目前工業(yè)界也開始嘗試應(yīng)用強化學(xué)習(xí)到實際場景中了,除了AlphaGo還有哪些應(yīng)用了:

6.1 自動駕駛

? ? ? ? 目前國內(nèi)百度在自動駕駛領(lǐng)域中就使用了一定的強化學(xué)習(xí)算法,但是因為強化學(xué)習(xí)需要和環(huán)境交互試錯,現(xiàn)實世界中這個成本太高,所以真實訓(xùn)練時都需要加入安全員進行干預(yù),及時糾正Agent采取的錯誤行為。

6.2 游戲

? ? ? ? 游戲可以說是目前強化學(xué)習(xí)應(yīng)用最廣闊的,目前市場上的一些MOBA游戲基本都有了強化學(xué)習(xí)版的AI在里面,最出名的就是王者榮耀AI。游戲環(huán)境下可以隨便交互,隨便試錯,沒有任何真實成本。同時Reward也相對比較容易設(shè)置,存在明顯的獎勵機制。

6.3 推薦系統(tǒng)

? ? ? ? 目前一些互聯(lián)網(wǎng)大廠也在推薦系統(tǒng)中嘗試加入強化學(xué)習(xí)來進行推薦,比如百度&美團。使用強化學(xué)習(xí)去提高推薦結(jié)果的多樣性,和傳統(tǒng)的協(xié)同過濾&CTR預(yù)估模型等進行互補。

7 Q-learning?

視頻:【莫煩Python】強化學(xué)習(xí) Reinforcement Learning_嗶哩嗶哩_bilibili

什么是 Q-learning? - 簡書??????百度安全驗證

??????百度安全驗證

如何用簡單例子講解 Q - learning 的具體過程? - 知乎


????????????A Painless Q-learning Tutorial (一個 Q-learning 算法的簡明教程)_皮果提的博客-CSDN博客_qlearning算法
?

8 策略梯度

策略梯度-Policy Gradient - 知乎

機器學(xué)習(xí)強化學(xué)習(xí),機器學(xué)習(xí)算法,深度學(xué)習(xí),機器學(xué)習(xí)

機器學(xué)習(xí)強化學(xué)習(xí),機器學(xué)習(xí)算法,深度學(xué)習(xí),機器學(xué)習(xí)?

機器學(xué)習(xí)強化學(xué)習(xí),機器學(xué)習(xí)算法,深度學(xué)習(xí),機器學(xué)習(xí)?

? ? ? ? 總的來說,策略梯度法就是讓高回報的軌跡出現(xiàn)的概率更大,低回報的軌跡出現(xiàn)的概率變小,從而得到一個較好的策略。?

通俗易懂談強化學(xué)習(xí) - 知乎文章來源地址http://www.zghlxwxcb.cn/news/detail-781428.html

到了這里,關(guān)于機器學(xué)習(xí)算法(三十):強化學(xué)習(xí)(Reinforcement Learning)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【Machine Learning 系列】一文帶你詳解什么是強化學(xué)習(xí)(Reinforcement Learning)

    【Machine Learning 系列】一文帶你詳解什么是強化學(xué)習(xí)(Reinforcement Learning)

    機器學(xué)習(xí)主要分為三類:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。在本文中,我們將介紹強化學(xué)習(xí)(Reinforcement Learning)的原理、常見算法和應(yīng)用領(lǐng)域。 強化學(xué)習(xí)(Reinforcement Learning)是機器學(xué)習(xí)中一種重要的學(xué)習(xí)范式,其目標是通過與環(huán)境的交互來學(xué)習(xí)如何做出最優(yōu)的決策。 強化

    2024年02月14日
    瀏覽(23)
  • 分層強化學(xué)習(xí) 綜述論文閱讀 Hierarchical Reinforcement Learning: A Comprehensive Survey

    分層強化學(xué)習(xí) 綜述論文閱讀 Hierarchical Reinforcement Learning: A Comprehensive Survey

    分層強化學(xué)習(xí)可以通過將困難的長期決策任務(wù)分解為更簡單的子任務(wù),提升強化學(xué)習(xí)算法的性能。 分層強化學(xué)習(xí)方法主要涉及:使用HRL學(xué)習(xí)分層策略、子任務(wù)發(fā)現(xiàn)、遷移學(xué)習(xí)和多智能體學(xué)習(xí)四個主要挑戰(zhàn)。 強化學(xué)習(xí)算法的一個痛點:如果任務(wù)的長度很長,狀態(tài)空間和動作空

    2024年02月04日
    瀏覽(30)
  • Pytorch深度強化學(xué)習(xí)案例:基于Q-Learning的機器人走迷宮

    本專欄重點介紹強化學(xué)習(xí)技術(shù)的數(shù)學(xué)原理,并且 采用Pytorch框架對常見的強化學(xué)習(xí)算法、案例進行實現(xiàn) ,幫助讀者理解并快速上手開發(fā)。同時,輔以各種機器學(xué)習(xí)、數(shù)據(jù)處理技術(shù),擴充人工智能的底層知識。 ??詳情:

    2024年02月04日
    瀏覽(24)
  • RLHF:基于人類反饋(Human Feedback)對語言模型進行強化學(xué)習(xí)【Reinforcement Learning from Human Feedback】

    HuggingFace發(fā)表了一篇博客,詳細講解了ChatGPT背后的技術(shù)原理——RLHF。 筆者讀過之后,覺得講解的還是蠻清晰的,因此提煉了一下核心脈絡(luò),希望給對ChatGPT技術(shù)原理感興趣的小伙伴帶來幫助。 此外,文末整理了幾篇關(guān)于 RLHF 最熱門的12篇必讀論文,賣萌醬打包好掛在公眾號后

    2023年04月22日
    瀏覽(39)
  • 強化學(xué)習(xí)論文閱讀——自動分組Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

    強化學(xué)習(xí)論文閱讀——自動分組Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

    Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning 這是一篇發(fā)表在NeurIPS2022的論文,文章提出了一種分組算法,旨在提高算法零樣本泛化能力 1 論文背景 CTDE :集中訓(xùn)練分散執(zhí)行,在訓(xùn)練階段將所有智能體的Q值加到一起去訓(xùn)練,訓(xùn)練完了之后在執(zhí)行階段大家各自執(zhí)行自己

    2024年01月25日
    瀏覽(29)
  • 強化學(xué)習(xí)路徑優(yōu)化:基于Q-learning算法的機器人路徑優(yōu)化(MATLAB)

    強化學(xué)習(xí)路徑優(yōu)化:基于Q-learning算法的機器人路徑優(yōu)化(MATLAB)

    Q-learning算法是強化學(xué)習(xí)算法中的一種,該算法主要包含:Agent、狀態(tài)、動作、環(huán)境、回報和懲罰。Q-learning算法通過機器人與環(huán)境不斷地交換信息,來實現(xiàn)自我學(xué)習(xí)。Q-learning算法中的Q表是機器人與環(huán)境交互后的結(jié)果,因此在Q-learning算法中更新Q表就是機器人與環(huán)境的交互過程

    2024年02月14日
    瀏覽(26)
  • 九章算法: 深度學(xué)習(xí)、強化學(xué)習(xí)、機器學(xué)習(xí)、推薦系統(tǒng)、圖像處理、文本處理、序列處理、搜索引擎、數(shù)據(jù)分析等

    作者:禪與計算機程序設(shè)計藝術(shù) 隨著計算機技術(shù)的飛速發(fā)展,人工智能和機器學(xué)習(xí)領(lǐng)域迎來蓬勃發(fā)展的時代,從“知識圖譜”到“零售系統(tǒng)自動化”,人工智能技術(shù)正在改變著社會生活的方方面面。傳統(tǒng)的人工智能技術(shù)都依賴于硬件上的復(fù)雜計算能力,如神經(jīng)網(wǎng)絡(luò)、決策樹等

    2024年02月08日
    瀏覽(20)
  • 中科院自動化所:基于關(guān)系圖深度強化學(xué)習(xí)的機器人多目標包圍問題新算法

    中科院自動化所:基于關(guān)系圖深度強化學(xué)習(xí)的機器人多目標包圍問題新算法

    摘要:中科院自動化所蒲志強教授團隊,提出一種基于關(guān)系圖的深度強化學(xué)習(xí)方法,應(yīng)用于多目標避碰包圍問題(MECA),使用NOKOV度量動作捕捉系統(tǒng)獲取多機器人位置信息,驗證了方法的有效性和適應(yīng)性。研究成果在2022年ICRA大會發(fā)表。 ? 在多機器人系統(tǒng)的研究領(lǐng)域中,包圍控

    2024年01月16日
    瀏覽(33)
  • 【強化學(xué)習(xí)】——Q-learning算法為例入門Pytorch強化學(xué)習(xí)

    【強化學(xué)習(xí)】——Q-learning算法為例入門Pytorch強化學(xué)習(xí)

    ???♂? 個人主頁:@Lingxw_w的個人主頁 ???作者簡介:計算機研究生在讀,研究方向復(fù)雜網(wǎng)絡(luò)和數(shù)據(jù)挖掘,阿里云專家博主,華為云云享專家,CSDN專家博主、人工智能領(lǐng)域優(yōu)質(zhì)創(chuàng)作者,安徽省優(yōu)秀畢業(yè)生 ?? 希望大家多多支持,我們一起進步!?? 如果文章對你有幫助的話

    2024年02月10日
    瀏覽(17)
  • 【強化學(xué)習(xí)】Q-Learning算法詳解

    【強化學(xué)習(xí)】Q-Learning算法詳解

    1 Q-Learning算法簡介 1.1 行為準則 我們做很多事情都有自己的行為準則,比如小時候爸媽常說:不寫完作業(yè)就不準看電視。所以我們在寫作業(yè)這種狀態(tài)下,寫的好的行為就是繼續(xù)寫作業(yè),知道寫完他,我們還可以得到獎勵。不好的行為就是沒寫完就跑去看電視了,被爸媽發(fā)現(xiàn),

    2024年01月16日
    瀏覽(37)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包