国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

強(qiáng)化學(xué)習(xí)路徑優(yōu)化:基于Q-learning算法的機(jī)器人路徑優(yōu)化(MATLAB)

這篇具有很好參考價(jià)值的文章主要介紹了強(qiáng)化學(xué)習(xí)路徑優(yōu)化:基于Q-learning算法的機(jī)器人路徑優(yōu)化(MATLAB)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

一、強(qiáng)化學(xué)習(xí)之Q-learning算法

Q-learning算法是強(qiáng)化學(xué)習(xí)算法中的一種,該算法主要包含:Agent、狀態(tài)、動(dòng)作、環(huán)境、回報(bào)和懲罰。Q-learning算法通過(guò)機(jī)器人與環(huán)境不斷地交換信息,來(lái)實(shí)現(xiàn)自我學(xué)習(xí)。Q-learning算法中的Q表是機(jī)器人與環(huán)境交互后的結(jié)果,因此在Q-learning算法中更新Q表就是機(jī)器人與環(huán)境的交互過(guò)程。機(jī)器人在當(dāng)前狀態(tài)s(t)下,選擇動(dòng)作a,通過(guò)環(huán)境的作用,形成新的狀態(tài)s(t+1),并產(chǎn)生回報(bào)或懲罰r(t+1),通過(guò)式(1)更新Q表后,若Q(s,a)值變小,則表明機(jī)器人處于當(dāng)前位置時(shí)選擇該動(dòng)作不是最優(yōu)的,當(dāng)下次機(jī)器人再次處于該位置或狀態(tài)時(shí),機(jī)器人能夠避免再次選擇該動(dòng)作action. 重復(fù)相同的步驟,機(jī)器人與環(huán)境之間不停地交互,就會(huì)獲得到大量的數(shù)據(jù),直至Q表收斂。QL算法使用得到的數(shù)據(jù)去修正自己的動(dòng)作策略,然后繼續(xù)同環(huán)境進(jìn)行交互,進(jìn)而獲得新的數(shù)據(jù)并且使用該數(shù)據(jù)再次改良它的策略,在多次迭代后,Agent最終會(huì)獲得最優(yōu)動(dòng)作。在一個(gè)時(shí)間步結(jié)束后,根據(jù)上個(gè)時(shí)間步的信息和產(chǎn)生的新信息更新Q表格,Q(s,a)更新方式如式(1):

強(qiáng)化學(xué)習(xí)matlab,強(qiáng)化學(xué)習(xí),Qlearning,MATLAB,算法,機(jī)器人,matlab

式中:st為當(dāng)前狀態(tài);r(t+1)為狀態(tài)st的及時(shí)回報(bào);a為狀態(tài)st的動(dòng)作空間;α為學(xué)習(xí)速率,α∈[0,1];γ為折扣速率,γ∈[0,1]。當(dāng)α=0時(shí),表明機(jī)器人只向過(guò)去狀態(tài)學(xué)習(xí),當(dāng)α=1時(shí),表明機(jī)器人只能學(xué)習(xí)接收到的信息。當(dāng)γ=1時(shí),機(jī)器人可以學(xué)習(xí)未來(lái)所有的獎(jiǎng)勵(lì),當(dāng)γ=0時(shí),機(jī)器人只能接受當(dāng)前的及時(shí)回報(bào)。

每個(gè)狀態(tài)的最優(yōu)動(dòng)作通過(guò)式(2)產(chǎn)生:

強(qiáng)化學(xué)習(xí)matlab,強(qiáng)化學(xué)習(xí),Qlearning,MATLAB,算法,機(jī)器人,matlab

Q-learning算法的搜索方向?yàn)樯舷伦笥宜膫€(gè)方向,如下圖所示:

強(qiáng)化學(xué)習(xí)matlab,強(qiáng)化學(xué)習(xí),Qlearning,MATLAB,算法,機(jī)器人,matlab

Q-learning算法基本原理參考文獻(xiàn):

[1]王付宇,張康,謝昊軒等.基于改進(jìn)Q-learning算法的移動(dòng)機(jī)器人路徑優(yōu)化[J].系統(tǒng)工程,2022,40(04):100-109.

二、Q-learning算法求解機(jī)器人路徑優(yōu)化

部分代碼:提供參考地圖,地圖數(shù)值可以修改(地圖中0代表障礙物,50代表通道 ,70代表起點(diǎn) ,100代表終點(diǎn)),最大訓(xùn)練次數(shù)等參數(shù)可根據(jù)自己需要修改。

close all
clear
clc
global maze2D;
global tempMaze2D;
NUM_ITERATIONS =700; % 最大訓(xùn)練次數(shù)(可以修改)
DISPLAY_FLAG = 0; % 是否顯示(1 顯示; 0 不顯示)注意:設(shè)置為0運(yùn)行速度更快
CurrentDirection = 4; % 當(dāng)前機(jī)器人的朝向(1-4具體指向如下)
% 1 - means robot facing up
% 2 - means robot facing left
% 3 - means robot facing right
% 4 - means robot facing down
maze2D=xlsread('10x10.xlsx');%%導(dǎo)入地圖(提供5個(gè)地圖,可以修改) maze2D中 0代表障礙物 50代表通道 70代表起點(diǎn) 100代表終點(diǎn)
[startX,startY]=find(maze2D==70);%獲取起點(diǎn)
[goalX,goalY] = find(maze2D==100);%獲取終點(diǎn)
orgMaze2D = maze2D;
tempMaze2D = orgMaze2D;
CorlorStr='jet';

地圖中綠色為通道,藍(lán)色為障礙物,紅線為得到的路徑,起始點(diǎn)均標(biāo)注。

(1)第一次結(jié)果

機(jī)器人最終路徑:

??49???1

??48???1

??47???1

??47???2

??47???3

??48???3

??48???4

??48???5

??48???6

??48???7

??48???8

??47???8

??47???9

??47??10

??46??10

??45??10

??45??11

??45??12

??44??12

??43??12

??42??12

??42??13

??42??14

??42??15

??42??16

??42??17

??42??18

??42??19

??41??19

??41??20

??41??21

??41??22

??40??22

??40??23

??40??24

??40??25

??39??25

??38??25

??37??25

??36??25

??35??25

??34??25

??34??24

??33??24

??32??24

??31??24

??30??24

??30??25

??29??25

??28??25

??28??24

??27??24

??26??24

??25??24

??24??24

??24??25

??24??26

??24??27

??23??27

??22??27

??21??27

??21??28

??21??29

??21??30

??22??30

??22??31

??22??32

??22??33

??22??34

??21??34

??21??35

??21??36

??20??36

??19??36

??18??36

??17??36

??16??36

??15??36

??15??37

??15??38

??14??38

??14??39

??14??40

??14??41

??13??41

??12??41

??11??41

??10??41

???9??41

???8??41

???8??40

???7??40

???6??40

???5??40

???4??40

???4??41

???4??42

???4??43

???3??43

???2??43

???1??43

???1??44

???1??45

???1??46

???1??47

???2??47

???2??48

???1??48

機(jī)器人最終路徑長(zhǎng)度為 107

機(jī)器人在最終路徑下的轉(zhuǎn)向及移動(dòng)次數(shù)為 189

強(qiáng)化學(xué)習(xí)matlab,強(qiáng)化學(xué)習(xí),Qlearning,MATLAB,算法,機(jī)器人,matlab

強(qiáng)化學(xué)習(xí)matlab,強(qiáng)化學(xué)習(xí),Qlearning,MATLAB,算法,機(jī)器人,matlab

(2)第二次結(jié)果

機(jī)器人最終路徑:

??49???1

??48???1

??47???1

??47???2

??46???2

??45???2

??44???2

??44???3

??44???4

??43???4

??42???4

??42???5

??42???6

??42???7

??42???8

??42???9

??42??10

??41??10

??41??11

??41??12

??42??12

??42??13

??42??14

??42??15

??42??16

??42??17

??42??18

??42??19

??41??19

??41??20

??41??21

??41??22

??40??22

??40??23

??40??24

??40??25

??39??25

??38??25

??37??25

??36??25

??35??25

??34??25

??34??24

??33??24

??32??24

??31??24

??30??24

??30??25

??29??25

??28??25

??28??24

??27??24

??26??24

??25??24

??24??24

??24??25

??24??26

??24??27

??23??27

??22??27

??21??27

??21??28

??21??29

??21??30

??22??30

??22??31

??22??32

??22??33

??22??34

??21??34

??21??35

??21??36

??20??36

??19??36

??19??37

??18??37

??18??38

??17??38

??16??38

??15??38

??14??38

??14??39

??14??40

??14??41

??13??41

??12??41

??11??41

??10??41

???9??41

???8??41

???8??40

???7??40

???6??40

???5??40

???4??40

???4??41

???4??42

???4??43

???3??43

???2??43

???1??43

???1??44

???1??45

???1??46

???1??47

???1??48

機(jī)器人最終路徑長(zhǎng)度為 105

機(jī)器人在最終路徑下的轉(zhuǎn)向及移動(dòng)次數(shù)為 186

強(qiáng)化學(xué)習(xí)matlab,強(qiáng)化學(xué)習(xí),Qlearning,MATLAB,算法,機(jī)器人,matlab

強(qiáng)化學(xué)習(xí)matlab,強(qiáng)化學(xué)習(xí),Qlearning,MATLAB,算法,機(jī)器人,matlab

(3)第三次結(jié)果

機(jī)器人最終路徑:

??49???1

??48???1

??47???1

??47???2

??47???3

??48???3

??48???4

??48???5

??48???6

??48???7

??48???8

??47???8

??47???9

??47??10

??46??10

??45??10

??45??11

??44??11

??44??12

??43??12

??42??12

??42??13

??42??14

??42??15

??42??16

??42??17

??42??18

??42??19

??41??19

??41??20

??41??21

??41??22

??40??22

??40??23

??40??24

??40??25

??39??25

??38??25

??37??25

??36??25

??35??25

??34??25

??34??24

??33??24

??32??24

??31??24

??30??24

??30??25

??29??25

??28??25

??28??24

??27??24

??26??24

??25??24

??24??24

??24??25

??24??26

??24??27

??23??27

??22??27

??21??27

??21??28

??21??29

??21??30

??22??30

??22??31

??22??32

??22??33

??22??34

??21??34

??21??35

??21??36

??20??36

??19??36

??19??37

??18??37

??18??38

??17??38

??16??38

??15??38

??14??38

??14??39

??14??40

??14??41

??13??41

??12??41

??11??41

??10??41

???9??41

???8??41

???8??40

???7??40

???6??40

???5??40

???4??40

???4??41

???4??42

???4??43

???3??43

???2??43

???1??43

???1??44

???1??45

???1??46

???2??46

???2??47

???1??47

???1??48

機(jī)器人最終路徑長(zhǎng)度為 107

機(jī)器人在最終路徑下的轉(zhuǎn)向及移動(dòng)次數(shù)為 200

強(qiáng)化學(xué)習(xí)matlab,強(qiáng)化學(xué)習(xí),Qlearning,MATLAB,算法,機(jī)器人,matlab

強(qiáng)化學(xué)習(xí)matlab,強(qiáng)化學(xué)習(xí),Qlearning,MATLAB,算法,機(jī)器人,matlab

三、完整MATLAB代碼

強(qiáng)化學(xué)習(xí)matlab,強(qiáng)化學(xué)習(xí),Qlearning,MATLAB,算法,機(jī)器人,matlab文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-620679.html

到了這里,關(guān)于強(qiáng)化學(xué)習(xí)路徑優(yōu)化:基于Q-learning算法的機(jī)器人路徑優(yōu)化(MATLAB)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 強(qiáng)化學(xué)習(xí)應(yīng)用(一):基于Q-learning的無(wú)人機(jī)物流路徑規(guī)劃研究(提供Python代碼)

    強(qiáng)化學(xué)習(xí)應(yīng)用(一):基于Q-learning的無(wú)人機(jī)物流路徑規(guī)劃研究(提供Python代碼)

    Q-learning是一種強(qiáng)化學(xué)習(xí)算法,用于解決基于馬爾可夫決策過(guò)程(MDP)的問(wèn)題。它通過(guò)學(xué)習(xí)一個(gè)價(jià)值函數(shù)來(lái)指導(dǎo)智能體在環(huán)境中做出決策,以最大化累積獎(jiǎng)勵(lì)。 Q-learning算法的核心思想是通過(guò)不斷更新一個(gè)稱為Q值的表格來(lái)學(xué)習(xí)最優(yōu)策略。Q值表示在給定狀態(tài)下采取某個(gè)動(dòng)作所能

    2024年02月02日
    瀏覽(33)
  • 強(qiáng)化學(xué)習(xí)應(yīng)用(五):基于Q-learning的無(wú)人機(jī)物流路徑規(guī)劃研究(提供Python代碼)

    強(qiáng)化學(xué)習(xí)應(yīng)用(五):基于Q-learning的無(wú)人機(jī)物流路徑規(guī)劃研究(提供Python代碼)

    Q-learning是一種強(qiáng)化學(xué)習(xí)算法,用于解決基于馬爾可夫決策過(guò)程(MDP)的問(wèn)題。它通過(guò)學(xué)習(xí)一個(gè)價(jià)值函數(shù)來(lái)指導(dǎo)智能體在環(huán)境中做出決策,以最大化累積獎(jiǎng)勵(lì)。 Q-learning算法的核心思想是通過(guò)不斷更新一個(gè)稱為Q值的表格來(lái)學(xué)習(xí)最優(yōu)策略。Q值表示在給定狀態(tài)下采取某個(gè)動(dòng)作所能

    2024年01月16日
    瀏覽(28)
  • 【強(qiáng)化學(xué)習(xí)】Q-Learning算法詳解

    【強(qiáng)化學(xué)習(xí)】Q-Learning算法詳解

    1 Q-Learning算法簡(jiǎn)介 1.1 行為準(zhǔn)則 我們做很多事情都有自己的行為準(zhǔn)則,比如小時(shí)候爸媽常說(shuō):不寫完作業(yè)就不準(zhǔn)看電視。所以我們?cè)趯懽鳂I(yè)這種狀態(tài)下,寫的好的行為就是繼續(xù)寫作業(yè),知道寫完他,我們還可以得到獎(jiǎng)勵(lì)。不好的行為就是沒寫完就跑去看電視了,被爸媽發(fā)現(xiàn),

    2024年01月16日
    瀏覽(37)
  • 強(qiáng)化學(xué)習(xí)——Q-Learning算法原理

    強(qiáng)化學(xué)習(xí)——Q-Learning算法原理

    一、Q-Learning :異策略時(shí)序差分控制 從決策方式來(lái)看,強(qiáng)化學(xué)習(xí)可以分為 基于策略 的方法( policy-based )和 基于價(jià)值 的方法( value-based )?;诓呗缘姆椒ㄖ苯訉?duì)策略進(jìn)行優(yōu)化,使制定的的策略能夠獲得最大的獎(jiǎng)勵(lì)?;趦r(jià)值的強(qiáng)化學(xué)習(xí)方法中,智能體不需要制定顯式的策略,

    2024年01月23日
    瀏覽(22)
  • 【強(qiáng)化學(xué)習(xí)】常用算法之一 “Q-learning”

    【強(qiáng)化學(xué)習(xí)】常用算法之一 “Q-learning”

    ? 作者主頁(yè): 愛笑的男孩。的博客_CSDN博客-深度學(xué)習(xí),活動(dòng),python領(lǐng)域博主 愛笑的男孩。擅長(zhǎng)深度學(xué)習(xí),活動(dòng),python,等方面的知識(shí),愛笑的男孩。關(guān)注算法,python,計(jì)算機(jī)視覺,圖像處理,深度學(xué)習(xí),pytorch,神經(jīng)網(wǎng)絡(luò),opencv領(lǐng)域. https://blog.csdn.net/Code_and516?type=blog 個(gè)人簡(jiǎn)介:打工人。 持續(xù)分

    2024年02月11日
    瀏覽(22)
  • 【強(qiáng)化學(xué)習(xí)】——Q-learning算法為例入門Pytorch強(qiáng)化學(xué)習(xí)

    【強(qiáng)化學(xué)習(xí)】——Q-learning算法為例入門Pytorch強(qiáng)化學(xué)習(xí)

    ???♂? 個(gè)人主頁(yè):@Lingxw_w的個(gè)人主頁(yè) ???作者簡(jiǎn)介:計(jì)算機(jī)研究生在讀,研究方向復(fù)雜網(wǎng)絡(luò)和數(shù)據(jù)挖掘,阿里云專家博主,華為云云享專家,CSDN專家博主、人工智能領(lǐng)域優(yōu)質(zhì)創(chuàng)作者,安徽省優(yōu)秀畢業(yè)生 ?? 希望大家多多支持,我們一起進(jìn)步!?? 如果文章對(duì)你有幫助的話

    2024年02月10日
    瀏覽(17)
  • Pytorch深度強(qiáng)化學(xué)習(xí)案例:基于Q-Learning的機(jī)器人走迷宮

    本專欄重點(diǎn)介紹強(qiáng)化學(xué)習(xí)技術(shù)的數(shù)學(xué)原理,并且 采用Pytorch框架對(duì)常見的強(qiáng)化學(xué)習(xí)算法、案例進(jìn)行實(shí)現(xiàn) ,幫助讀者理解并快速上手開發(fā)。同時(shí),輔以各種機(jī)器學(xué)習(xí)、數(shù)據(jù)處理技術(shù),擴(kuò)充人工智能的底層知識(shí)。 ??詳情:

    2024年02月04日
    瀏覽(23)
  • 強(qiáng)化學(xué)習(xí)基礎(chǔ)篇[2]:SARSA、Q-learning算法簡(jiǎn)介、應(yīng)用舉例、優(yōu)缺點(diǎn)分析

    強(qiáng)化學(xué)習(xí)基礎(chǔ)篇[2]:SARSA、Q-learning算法簡(jiǎn)介、應(yīng)用舉例、優(yōu)缺點(diǎn)分析

    【強(qiáng)化學(xué)習(xí)原理+項(xiàng)目專欄】必看系列:?jiǎn)沃悄荏w、多智能體算法原理+項(xiàng)目實(shí)戰(zhàn)、相關(guān)技巧(調(diào)參、畫圖等、趣味項(xiàng)目實(shí)現(xiàn)、學(xué)術(shù)應(yīng)用項(xiàng)目實(shí)現(xiàn) 專欄詳細(xì)介紹 :【強(qiáng)化學(xué)習(xí)原理+項(xiàng)目專欄】必看系列:?jiǎn)沃悄荏w、多智能體算法原理+項(xiàng)目實(shí)戰(zhàn)、相關(guān)技巧(調(diào)參、畫圖等、趣味項(xiàng)

    2024年02月07日
    瀏覽(20)
  • 強(qiáng)化學(xué)習(xí)Q-learning入門

    強(qiáng)化學(xué)習(xí)Q-learning入門

    本文為最近學(xué)習(xí)的強(qiáng)化學(xué)習(xí) Q-learning 的學(xué)習(xí)筆記,主要用于總結(jié)和日常記錄,本文主要講解相應(yīng)的必備入門知識(shí)。 閑話少說(shuō),我們直接開始吧! 我們小時(shí)候都經(jīng)歷過(guò)以下情形:我們做錯(cuò)了某年事,受到了懲罰,我們學(xué)習(xí)后,在遇到類似的狀況,我們將不會(huì)再犯錯(cuò)。同樣,許

    2024年02月08日
    瀏覽(17)
  • 強(qiáng)化學(xué)習(xí)Q-learning實(shí)踐

    強(qiáng)化學(xué)習(xí)Q-learning實(shí)踐

    前篇文章介紹了強(qiáng)化學(xué)習(xí)系統(tǒng)紅的基本概念和重要組成部分,并解釋了 Q-learning 算法相關(guān)的理論知識(shí)。本文的目標(biāo)是在 Python3 中實(shí)現(xiàn)該算法,并將其應(yīng)用于實(shí)際的實(shí)驗(yàn)中。 閑話少說(shuō),我們直接開始吧! 為了使本文具有實(shí)際具體的意義,特意選擇了一個(gè)簡(jiǎn)單而基本的環(huán)境,可

    2024年02月08日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包