国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

干貨 | 淺談機(jī)器人強(qiáng)化學(xué)習(xí)--從仿真到真機(jī)遷移

這篇具有很好參考價(jià)值的文章主要介紹了干貨 | 淺談機(jī)器人強(qiáng)化學(xué)習(xí)--從仿真到真機(jī)遷移。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

對(duì)于機(jī)器人的運(yùn)動(dòng)控制,強(qiáng)化學(xué)習(xí)是廣受關(guān)注的方法。本期技術(shù)干貨,我們邀請(qǐng)到了小米工程師——?jiǎng)⑻炝郑瑸榇蠹医榻B機(jī)器人(以足式機(jī)器人為主)強(qiáng)化學(xué)習(xí)中的sim-to-real問題及一些主流方法。

一、前言

設(shè)計(jì)并制造可以靈活運(yùn)動(dòng)的足式機(jī)器人,一直是工程師追逐的夢(mèng)想。相比于輪式機(jī)器人,足式機(jī)器人憑借其腿部結(jié)構(gòu)優(yōu)勢(shì)可以在離散非連續(xù)的路面行走。近年來,足式機(jī)器人技術(shù)發(fā)展迅速,涌現(xiàn)出了許多先進(jìn)的足式機(jī)器人,如波士頓動(dòng)力的Atlas/Spot機(jī)器人、麻省理工學(xué)院(MIT)的Cheetah系列機(jī)器人、瑞士蘇黎世理工學(xué)院(ETH)的ANYmal系列機(jī)器人、宇樹科技的A1/Go1機(jī)器人、小米的鐵蛋機(jī)器人等。主流的傳統(tǒng)運(yùn)動(dòng)控制方法,如模型預(yù)測(cè)控制(Model Predictive Control,MPC)和全身運(yùn)動(dòng)控制(Whole-Body Control,WBC),在足式機(jī)器人上得到了廣泛的應(yīng)用。

然而,這些方法往往需要復(fù)雜的建模和繁瑣的人工調(diào)參,生成的動(dòng)作在自然度和靈活性上也有所欠缺,這也使得研究者們把目光轉(zhuǎn)向受生物啟發(fā)的學(xué)習(xí)方法,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)就是其中最為廣泛關(guān)注的方法。圖1為四足機(jī)器人利用強(qiáng)化學(xué)習(xí)方法在不同路面行走的例子。

干貨 | 淺談機(jī)器人強(qiáng)化學(xué)習(xí)--從仿真到真機(jī)遷移

圖1 基于強(qiáng)化學(xué)習(xí)的四足機(jī)器人不同路面行走

圖片來源:https://ashish-kmr.github.io/rma-legged-robots/

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支。與監(jiān)督學(xué)習(xí)不同,在強(qiáng)化學(xué)習(xí)中,智能體通過與環(huán)境不斷交互進(jìn)行試錯(cuò)學(xué)習(xí),其目標(biāo)是最大化累積回報(bào)。強(qiáng)化學(xué)習(xí)最早起源于 20 世紀(jì) 50 年代出現(xiàn)的“最優(yōu)控制”,用于解決控制器的設(shè)計(jì)問題,其目標(biāo)是使得動(dòng)態(tài)系統(tǒng)能夠隨時(shí)間變化實(shí)現(xiàn)某種指標(biāo)的最優(yōu)(即最大或者最?。?。

強(qiáng)化學(xué)習(xí)的另一個(gè)起源來自于對(duì)動(dòng)物行為實(shí)驗(yàn)的觀察。研究發(fā)現(xiàn),動(dòng)物在面對(duì)相同情景時(shí)會(huì)表現(xiàn)出不同的行為,它們更傾向于能夠引起自身滿足感的行為,而對(duì)于那些會(huì)給自己帶來不適的行為則會(huì)盡量避免。換言之,動(dòng)物們的行為在與環(huán)境的互動(dòng)中通過不斷試錯(cuò)來鞏固,試錯(cuò)學(xué)習(xí)也是強(qiáng)化學(xué)習(xí)方法的核心思想。

強(qiáng)化學(xué)習(xí)通過與環(huán)境交互不斷試錯(cuò)來學(xué)習(xí),其代價(jià)是所需的樣本量很大,這對(duì)于實(shí)體機(jī)器人來說往往不可行,因?yàn)檫^多的交互次數(shù)會(huì)對(duì)機(jī)器人硬件造成不可逆轉(zhuǎn)的損耗,甚至損壞機(jī)器人,同時(shí)也需要大量時(shí)間。

基于物理引擎的仿真器,如Pybullet、Mujoco、Isaac Gym等,為獲取大量機(jī)器人交互數(shù)據(jù)提供了一個(gè)有效的方式。研究者們可以先在仿真器中進(jìn)行訓(xùn)練,之后再遷移到真實(shí)機(jī)器人上。然而,由于真實(shí)環(huán)境受到多種物理規(guī)律的約束,仿真器無法準(zhǔn)確地建模真實(shí)環(huán)境,這也使得仿真中訓(xùn)練得到的策略在真實(shí)機(jī)器人上直接部署時(shí)往往會(huì)失效或性能下降。學(xué)術(shù)界將從仿真到真機(jī)的遷移稱作sim-to-real,它們之間的差異稱作sim-to-real gap或者reality gap。

二、sim-to-real問題

在介紹具體方法之前,首先帶大家了解一下sim-to-real中需要考慮的一些問題,這也有助于大家理解解決sim-to-real問題背后的方法思想。圖2為機(jī)器人感知控制框架的示意圖,機(jī)器人處于一個(gè)環(huán)境中,根據(jù)自身傳感器獲取對(duì)環(huán)境的感知信息,之后根據(jù)這些信息進(jìn)行決策,得到相應(yīng)的動(dòng)作并在環(huán)境中執(zhí)行該動(dòng)作,整個(gè)過程是一個(gè)閉環(huán)的控制過程。從這個(gè)過程也可以了解仿真和真實(shí)的一些差異:

▍(1)環(huán)境建模差異。

物理仿真器無法準(zhǔn)確地捕捉真實(shí)世界的物理特性,如摩擦力、接觸力、質(zhì)量、地面反彈系數(shù)、地形方面的特性。

▍(2)感知差異。

真實(shí)世界中的感知往往是存在噪聲的,易受到多種因素如光照方面的影響。而且,不同于仿真環(huán)境,真實(shí)世界中的感知是部分可觀測(cè)的,sim-to-real時(shí)也需要考慮這方面的因素。

▍(3)機(jī)器人建模差異。

仿真中的機(jī)器人與真實(shí)機(jī)器人存在差異,無法準(zhǔn)確地刻畫真實(shí)機(jī)器人的運(yùn)動(dòng)學(xué)、動(dòng)力學(xué)、電機(jī)模型等方面的特性。

▍(4)控制差異。

受通信傳輸和機(jī)械傳動(dòng)的影響,從機(jī)器人發(fā)出控制指令到真正執(zhí)行指令之間存在延時(shí),且控制信號(hào)存在噪聲。當(dāng)前的sim-to-real研究主要也是從這四方面差異展開。

干貨 | 淺談機(jī)器人強(qiáng)化學(xué)習(xí)--從仿真到真機(jī)遷移

圖2 機(jī)器人感知控制框圖

?

三、主流方法

強(qiáng)化學(xué)習(xí)在仿真控制中取得了很大的成功,也促使研究者們將這些“成功”應(yīng)用到真實(shí)機(jī)器人中。本節(jié)介紹用于解決sim-to-real問題的前沿方法,包括更好的仿真、域隨機(jī)化、域適應(yīng)等。

?>>>>?3.1?更好的仿真

從仿真到真機(jī)遷移的一個(gè)直觀想法是,構(gòu)造更真實(shí)的物理模擬器,使得仿真中的環(huán)境及其生成的數(shù)據(jù)更接近于真實(shí)環(huán)境。

比如,在視覺感知方面,通過調(diào)節(jié)仿真器中的渲染參數(shù),使得仿真中得到的圖像數(shù)據(jù)更接近于真實(shí)環(huán)境的數(shù)據(jù)。在運(yùn)動(dòng)控制方面,一個(gè)經(jīng)典的例子是ETH 2019年發(fā)表在Science Robotics中的工作[1]。為了更好地模擬真實(shí)關(guān)節(jié)電機(jī)的驅(qū)動(dòng)效果,ETH的研究人員利用神經(jīng)網(wǎng)絡(luò)建模了從PD誤差到關(guān)機(jī)電機(jī)的輸出扭矩,其中,PD誤差包括關(guān)節(jié)位置誤差和關(guān)節(jié)速度。該神經(jīng)網(wǎng)絡(luò)也被稱作執(zhí)行器網(wǎng)絡(luò)(Actuator Net),如圖3右上角所示。在實(shí)現(xiàn)時(shí),為了更好地捕捉關(guān)節(jié)電機(jī)的動(dòng)態(tài)執(zhí)行特性,Actuator Net的輸入包括了過去多個(gè)時(shí)刻的關(guān)節(jié)位置誤差和關(guān)節(jié)速度。

干貨 | 淺談機(jī)器人強(qiáng)化學(xué)習(xí)--從仿真到真機(jī)遷移

圖3 仿真中訓(xùn)練ANYmal機(jī)器人的控制策略

圖片來源:https://www.science.org/doi/10.1126/scirobotics.aau5872

整個(gè)sim-to-real過程如圖4所示,共分為四步:

(1)識(shí)別出機(jī)器人的物理參數(shù),并對(duì)機(jī)器人進(jìn)行剛體運(yùn)動(dòng)學(xué)/動(dòng)力學(xué)建模;

(2)收集真實(shí)的關(guān)節(jié)電機(jī)執(zhí)行數(shù)據(jù),訓(xùn)練一個(gè)Actuator Net;

(3)在仿真中,利用Actuator Net建模關(guān)節(jié)電機(jī),并結(jié)合第一步中的剛體運(yùn)動(dòng)學(xué)/動(dòng)力學(xué)建模,進(jìn)行強(qiáng)化學(xué)習(xí);

(4)將第3步中訓(xùn)練得到的策略部署到真機(jī)上。

干貨 | 淺談機(jī)器人強(qiáng)化學(xué)習(xí)--從仿真到真機(jī)遷移

圖4 從仿真到真機(jī)遷移框圖

圖片來源:https://www.science.org/doi/10.1126/scirobotics.aau5872

除了視覺感知和運(yùn)動(dòng)控制方面,仿真速度也是大家關(guān)注的指標(biāo)。2021年,英偉達(dá)的研究人員開發(fā)了Isaac Gym強(qiáng)化學(xué)習(xí)仿真環(huán)境[2][3],該環(huán)境運(yùn)行在英偉達(dá)自家生產(chǎn)的RTX系列顯卡上。Isaac Gym充分利用了GPU多核并行計(jì)算的優(yōu)勢(shì),使得在同一個(gè)GPU中可以同時(shí)進(jìn)行數(shù)千個(gè)機(jī)器人的仿真訓(xùn)練學(xué)習(xí),這也加快了數(shù)據(jù)采集的時(shí)間。視頻1為ETH和英偉達(dá)的研究人員利用Isaac Gym進(jìn)行強(qiáng)化學(xué)習(xí)行走的例子。

視頻1 利用大規(guī)模并行強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)行走

視頻來源:https://www.youtube.com/watch?v=8sO7VS3q8d0

>>>>?3.2?域隨機(jī)化

從仿真到真機(jī)遷移的差異中,有很大一部分是仿真和真實(shí)之間的物理參數(shù)差異。域隨機(jī)化(Domain Randomization)方法的主要思路是,在訓(xùn)練過程中隨機(jī)化仿真環(huán)境的物理參數(shù)。它背后的思想是,如果這些參數(shù)足夠多樣化,并且模型能夠適應(yīng)這些不同的參數(shù),那么真實(shí)環(huán)境也可以看作是仿真環(huán)境中的一個(gè)特例。

域隨機(jī)化常見的一種方法是隨機(jī)化視覺特征參數(shù),這種方法在基于視覺的機(jī)器人策略中經(jīng)常被使用。例如,OpenAI和UC Berkeley的研究人員利用隨機(jī)化視覺特征參數(shù)后渲染得到的圖像訓(xùn)練物體檢測(cè)器,并將得到的物體檢測(cè)器用在真實(shí)機(jī)器人上進(jìn)行抓取控制 [5] ,如圖5所示。除了隨機(jī)化視覺特征參數(shù)外,隨機(jī)化動(dòng)力學(xué)參數(shù)也是一種常見的方法。例如,OpenAI的研究人員利用強(qiáng)化學(xué)習(xí)在仿真環(huán)境中訓(xùn)練 Shadow 機(jī)器人靈巧手的操作策略,并將得到的策略遷移到實(shí)體 Shadow 機(jī)器人靈巧手上[6],如視頻2所示。在仿真環(huán)境中,他們同時(shí)隨機(jī)化了系統(tǒng)的動(dòng)力學(xué)參數(shù)(如摩擦力、質(zhì)量等)和視覺特征參數(shù)。

干貨 | 淺談機(jī)器人強(qiáng)化學(xué)習(xí)--從仿真到真機(jī)遷移

圖5 利用圖像域隨機(jī)化實(shí)現(xiàn)從仿真到真機(jī)遷移

圖片來源:https://arxiv.org/pdf/1703.06907

視頻2 學(xué)習(xí)靈巧手操作策略

視頻來源:https://www.youtube.com/watch?v=jwSbzNHGflM

域隨機(jī)化的常見難點(diǎn)是,很多時(shí)候需要人為指定參數(shù)隨機(jī)化的范圍。這些范圍的確認(rèn)需要一些領(lǐng)域的知識(shí)或洞見,如果選擇不當(dāng)可能會(huì)導(dǎo)致從仿真到真機(jī)遷移時(shí)性能下降明顯。隨著自動(dòng)機(jī)器學(xué)習(xí)(Automated Machine Learning,AutoML)技術(shù)的發(fā)展,一些研究人員也開始探索自動(dòng)學(xué)習(xí)域隨機(jī)化的參數(shù)范圍,如Chebotar等人的工作[7]。

>>>>?3.3?域適應(yīng)

機(jī)器人在現(xiàn)實(shí)環(huán)境中成功部署需要它們能夠適應(yīng)不可見的場(chǎng)景,比如不斷變化的地形、不斷變化的負(fù)載、機(jī)械磨損等。與域隨機(jī)化對(duì)應(yīng)的另一種sim-to-real方法是域適應(yīng)(Domain Adaptation)。它旨在將仿真環(huán)境中 (源域) 訓(xùn)練得到的策略在現(xiàn)實(shí)環(huán)境中 (目標(biāo)域) 進(jìn)行再適應(yīng)。這種方法背后的假設(shè)是,不同域之間具有相同的特征,智能體在一個(gè)域中學(xué)習(xí)得到的行為和特征能夠幫助其在另一個(gè)域中學(xué)習(xí)。

在sim-to-real過程中,域隨機(jī)化常常也與域適應(yīng)一起使用。近年來,機(jī)器人領(lǐng)域一個(gè)經(jīng)典的域適應(yīng)工作是2021年UC Berkeley和CMU的研究人員發(fā)表在RSS機(jī)器人會(huì)議上的工作[8]。針對(duì)機(jī)器人實(shí)時(shí)在線適應(yīng)問題,他們提出了RMA(Rapid Motor Adaptation)方法,使得四足機(jī)器人可以在不同地形下實(shí)現(xiàn)快速適應(yīng),實(shí)驗(yàn)結(jié)果示例如圖1所示。圖6和圖7為RMA方法的系統(tǒng)框圖。RMA由兩個(gè)子模塊組成,包括基礎(chǔ)策略 π?和適應(yīng)模塊 Φ?。下面介紹如何在仿真中訓(xùn)練RMA,以及如何在真機(jī)中部署RMA。

?仿真中訓(xùn)練RMA(圖6) 共分為兩個(gè)階段

(1)在第一個(gè)階段中,利用模型無關(guān)(Model-free)的強(qiáng)化學(xué)習(xí)方法(如PPO[9])訓(xùn)練基礎(chǔ)策略?π?。其中,基礎(chǔ)策略?π?的輸入包括當(dāng)前時(shí)刻狀態(tài)?xt?、上一時(shí)刻動(dòng)作?at-1?、經(jīng)過環(huán)境特征編碼器 μ?編碼得到的隱變量?zt?。環(huán)境特征編碼器?μ?的輸入包括質(zhì)量、質(zhì)心、摩擦力、地形高度等,其中很大一部分信息在實(shí)際部署時(shí)很難獲取,僅在仿真時(shí)訓(xùn)練使用,這些信息也被稱為特權(quán)信息(Privileged Information)。

(2)在第二個(gè)階段中,利用監(jiān)督學(xué)習(xí)訓(xùn)練適應(yīng)模塊?Φ?,以取代第一階段中的環(huán)境特征編碼器?μ?,這也是RMA方法的主要?jiǎng)?chuàng)新點(diǎn)所在。需要注意的是,在這個(gè)階段中基礎(chǔ)策略?π?保持不變。適應(yīng)模塊?Φ?的輸入為過去多個(gè)時(shí)刻的狀態(tài)和動(dòng)作,輸出為環(huán)境信息的隱變量??t。它背后的思想是,系統(tǒng)當(dāng)前狀態(tài)是機(jī)器人在特定環(huán)境下的產(chǎn)物,根據(jù)過去的狀態(tài)和動(dòng)作信息可以推斷出當(dāng)前的環(huán)境信息。第二階段訓(xùn)練的適應(yīng)模塊?Φ?也解決了第一階段中訓(xùn)練得到的環(huán)境特征編碼器?μ?無法在實(shí)際環(huán)境中部署的問題。這種訓(xùn)練方式也被稱為Teacher-Student學(xué)習(xí),后續(xù)很多工作也采用了該方式。

干貨 | 淺談機(jī)器人強(qiáng)化學(xué)習(xí)--從仿真到真機(jī)遷移

圖6 RMA方法系統(tǒng)框圖 -- 在仿真中訓(xùn)練

圖片來源:https://arxiv.org/pdf/2107.04034

  • 真機(jī)部署RMA(圖7)

真機(jī)部署時(shí)與仿真訓(xùn)練中的第二階段類似,使用的是訓(xùn)練后的基礎(chǔ)策略?π?和適應(yīng)模塊?Φ?。其中,基礎(chǔ)策略?π?以100Hz運(yùn)行,適應(yīng)模塊?Φ?以更低的頻率(10Hz)異步運(yùn)行?;A(chǔ)策略?π?輸出的動(dòng)作?at?為關(guān)節(jié)期望角度,最終通過機(jī)器人的PD控制器轉(zhuǎn)換成扭矩。適應(yīng)模塊?Φ?的運(yùn)行過程相當(dāng)于一個(gè)在線的系統(tǒng)辨識(shí)過程,類似于卡爾曼濾波器通過先前的觀測(cè)狀態(tài)進(jìn)行狀態(tài)估計(jì)。

干貨 | 淺談機(jī)器人強(qiáng)化學(xué)習(xí)--從仿真到真機(jī)遷移

圖7 RMA方法系統(tǒng)框圖 -- 真機(jī)部署

圖片來源:https://arxiv.org/pdf/2107.04034

除了四足機(jī)器人,UC Berkeley和CMU的研究人員也將RMA方法成功部署到雙足機(jī)器人上[10],如視頻3所示。

視頻3 雙足機(jī)器人上應(yīng)用RMA方法

視頻來源:https://www.youtube.com/watch?v=HSdFHX0qQqg

>>>>?3.4?其他

除了前面提到的三種方法,近年來也有研究者使用其它方法來解決sim-to-real的問題。例如,通過元學(xué)習(xí)(即學(xué)習(xí)如何學(xué)習(xí))[11]來學(xué)習(xí)機(jī)器人的本體設(shè)計(jì)[12][13](視頻4),通過擴(kuò)展隨機(jī)力注入(Extended Random Force Injection,ERFI)學(xué)習(xí)魯棒的機(jī)器人運(yùn)動(dòng)控制策略[14](視頻5),通過對(duì)抗運(yùn)動(dòng)先驗(yàn)(Adversarial Motion Priors,AMP)從動(dòng)捕數(shù)據(jù)中學(xué)習(xí)機(jī)器人動(dòng)作[15][16](視頻6)。

視頻4 學(xué)習(xí)四足機(jī)器人的平行彈性執(zhí)行器設(shè)計(jì)及控制

視頻來源:https://twitter.com/i/status/1615291830882426883

視頻5 通過ERFI學(xué)習(xí)魯棒的運(yùn)動(dòng)控制策略

視頻來源:https://www.youtube.com/watch?v=kGkOoJ_DAwQ

視頻6 四足機(jī)器人上應(yīng)用AMP模仿學(xué)習(xí)方法

視頻來源:https://www.youtube.com/watch?v=Bo88rwUQbrM&t=4s

四、結(jié)語

隨著人工智能技術(shù)的不斷發(fā)展,強(qiáng)化學(xué)習(xí)作為實(shí)現(xiàn)機(jī)器人智能運(yùn)動(dòng)控制的有效途徑成為了大家的共識(shí)。借助現(xiàn)代物理仿真器技術(shù),研究人員可以先在虛擬世界中訓(xùn)練機(jī)器人,之后再遷移到現(xiàn)實(shí)世界中。

這篇文章討論了解決從仿真到真機(jī)遷移問題的主流方法,這些方法都各有自己的優(yōu)缺點(diǎn),在實(shí)際部署時(shí)一般都會(huì)結(jié)合起來使用。近年來,機(jī)器人頂級(jí)會(huì)議CoRL、RSS等也開始舉辦針對(duì)sim-to-real的學(xué)術(shù)研討會(huì)[17][18][19][20],未來sim-to-real將朝著更魯棒策略、更少經(jīng)驗(yàn)調(diào)參、更多維度感知的方向發(fā)展。伴隨著強(qiáng)化學(xué)習(xí)技術(shù)的不斷前進(jìn),相信在不久的將來,強(qiáng)化學(xué)習(xí)在實(shí)體機(jī)器人上的應(yīng)用落地也將迎來蓬勃發(fā)展的春天,為人類生產(chǎn)生活帶來便利。

參考文獻(xiàn)

[1] Hwangbo J, Lee J, Dosovitskiy A, et al. Learning agile and dynamic motor skills for legged robots[J]. Science Robotics, 2019, 4(26): eaau5872.

[2] Makoviychuk V, Wawrzyniak L, Guo Y, et al. Isaac gym: High performance gpu-based physics simulation for robot learning[J]. arXiv preprint arXiv:2108.10470, 2021.

[3]?https://github.com/NVIDIA-Omniverse/IsaacGymEnvs

[4] Rudin N, Hoeller D, Reist P, et al. Learning to walk in minutes using massively parallel deep reinforcement learning[C]//Conference on Robot Learning. PMLR, 2022: 91-100.

[5] Tobin J, Fong R, Ray A, et al. Domain randomization for transferring deep neural networks from simulation to the real world[C]//2017 IEEE/RSJ international conference on intelligent robots and systems (IROS). IEEE, 2017: 23-30.

[6] Andrychowicz O A I M, Baker B, Chociej M, et al. Learning dexterous in-hand manipulation[J]. The International Journal of Robotics Research, 2020, 39(1): 3-20.

[7] Chebotar Y, Handa A, Makoviychuk V, et al. Closing the sim-to-real loop: Adapting simulation randomization with real world experience[C]//2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019: 8973-8979.

[8] Kumar A, Fu Z, Pathak D, et al. Rma: Rapid motor adaptation for legged robots[J]. arXiv preprint arXiv:2107.04034, 2021.

[9] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.

[10] Kumar A, Li Z, Zeng J, et al. Adapting rapid motor adaptation for bipedal robots[C]//2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022: 1161-1168.

[11] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//International conference on machine learning. PMLR, 2017: 1126-1135.

[12] Belmonte-Baeza á, Lee J, Valsecchi G, et al. Meta reinforcement learning for optimal design of legged robots[J]. IEEE Robotics and Automation Letters, 2022, 7(4): 12134-12141.

[13] Bjelonic F, Lee J, Arm P, et al. Learning-based Design and Control for Quadrupedal Robots with Parallel-Elastic Actuators[J]. IEEE Robotics and Automation Letters, 2023.

[14] Campanaro L, Gangapurwala S, Merkt W, et al. Learning and Deploying Robust Locomotion Policies with Minimal Dynamics Randomization[J]. arXiv preprint arXiv:2209.12878, 2022.

[15] Escontrela A, Peng X B, Yu W, et al. Adversarial motion priors make good substitutes for complex reward functions[C]//2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022: 25-32.

[16] Vollenweider E, Bjelonic M, Klemm V, et al. Advanced skills through multiple adversarial motion priors in reinforcement learning[J]. arXiv preprint arXiv:2203.14912, 2022.

[17] https://sites.google.com/view/corl-22-sim-to-real

[18] https://sim2real.github.io/

[19] https://sim2real.github.io/rss2020

[20] https://sim2real.github.io/rss2019

干貨 | 淺談機(jī)器人強(qiáng)化學(xué)習(xí)--從仿真到真機(jī)遷移文章來源地址http://www.zghlxwxcb.cn/news/detail-450135.html

到了這里,關(guān)于干貨 | 淺談機(jī)器人強(qiáng)化學(xué)習(xí)--從仿真到真機(jī)遷移的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 人工智能導(dǎo)論——機(jī)器人自動(dòng)走迷宮&強(qiáng)化學(xué)習(xí)

    人工智能導(dǎo)論——機(jī)器人自動(dòng)走迷宮&強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中重要的學(xué)習(xí)方法之一,與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)并不依賴于數(shù)據(jù),并不是數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方法,其旨在與發(fā)揮智能體(Agent)的主觀能動(dòng)性,在當(dāng)前的狀態(tài)(state)下,通過與環(huán)境的交互,通過對(duì)應(yīng)的策略,采用對(duì)應(yīng)的行動(dòng)(action),獲得一定的獎(jiǎng)

    2024年02月06日
    瀏覽(29)
  • 強(qiáng)化學(xué)習(xí):用Python訓(xùn)練一個(gè)簡(jiǎn)單的機(jī)器人

    強(qiáng)化學(xué)習(xí):用Python訓(xùn)練一個(gè)簡(jiǎn)單的機(jī)器人

    ????????強(qiáng)化學(xué)習(xí)(RL)是一個(gè)令人興奮的研究領(lǐng)域,它使機(jī)器能夠通過與環(huán)境的交互來學(xué)習(xí)。在這篇博客中,我們將深入到RL的世界,并探索如何使用Python訓(xùn)練一個(gè)簡(jiǎn)單的機(jī)器人。在本文結(jié)束時(shí),您將對(duì) RL 概念有基本的了解,并能夠?qū)崿F(xiàn)自己的 RL 代理。 ????????設(shè)置

    2024年02月12日
    瀏覽(32)
  • 機(jī)器人強(qiáng)化學(xué)習(xí)環(huán)境mujoco官方文檔學(xué)習(xí)記錄(一)——XML

    鑒于研究生課題需要,開始在mujoco中配置仿真環(huán)境。而官方文檔中各種對(duì)象參數(shù)紛繁復(fù)雜,且涉及mujoco底層計(jì)算,不便于初學(xué)者進(jìn)行開發(fā)設(shè)計(jì)。因此本文將MJCF模型的常用對(duì)象參數(shù)進(jìn)行總結(jié)。 本文檔僅供學(xué)習(xí)參考,如有問題歡迎大家學(xué)習(xí)交流。 本章是MuJoCo中使用的MJCF建模語言

    2024年02月02日
    瀏覽(81)
  • 基于強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)的機(jī)器人路徑規(guī)劃MATLAB

    基于強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)的機(jī)器人路徑規(guī)劃MATLAB

    Q-learning算法是強(qiáng)化學(xué)習(xí)算法中的一種,該算法主要包含:Agent、狀態(tài)、動(dòng)作、環(huán)境、回報(bào)和懲罰。Q-learning算法通過機(jī)器人與環(huán)境不斷地交換信息,來實(shí)現(xiàn)自我學(xué)習(xí)。Q-learning算法中的Q表是機(jī)器人與環(huán)境交互后的結(jié)果,因此在Q-learning算法中更新Q表就是機(jī)器人與環(huán)境的交互過程

    2024年02月11日
    瀏覽(19)
  • Pytorch深度強(qiáng)化學(xué)習(xí)案例:基于Q-Learning的機(jī)器人走迷宮

    本專欄重點(diǎn)介紹強(qiáng)化學(xué)習(xí)技術(shù)的數(shù)學(xué)原理,并且 采用Pytorch框架對(duì)常見的強(qiáng)化學(xué)習(xí)算法、案例進(jìn)行實(shí)現(xiàn) ,幫助讀者理解并快速上手開發(fā)。同時(shí),輔以各種機(jī)器學(xué)習(xí)、數(shù)據(jù)處理技術(shù),擴(kuò)充人工智能的底層知識(shí)。 ??詳情:

    2024年02月04日
    瀏覽(23)
  • ]每日論文推送(有中文摘要或代碼或項(xiàng)目地址)---強(qiáng)化學(xué)習(xí),機(jī)器人,視覺導(dǎo)航

    [曉理紫]每日論文推送(有中文摘要或代碼或項(xiàng)目地址) 每日更新論文,請(qǐng)轉(zhuǎn)發(fā)給有需要的同學(xué) [曉理紫] VX關(guān)注曉理紫,獲取每日新論文 VX關(guān)注曉理紫,并留下郵箱可免費(fèi)獲取每日論文推送服務(wù) {曉理紫}喜分享,也很需要你的支持,喜歡留下痕跡哦! 大語言模型LLM 視覺模型VL

    2024年01月19日
    瀏覽(23)
  • 強(qiáng)化學(xué)習(xí)路徑優(yōu)化:基于Q-learning算法的機(jī)器人路徑優(yōu)化(MATLAB)

    強(qiáng)化學(xué)習(xí)路徑優(yōu)化:基于Q-learning算法的機(jī)器人路徑優(yōu)化(MATLAB)

    Q-learning算法是強(qiáng)化學(xué)習(xí)算法中的一種,該算法主要包含:Agent、狀態(tài)、動(dòng)作、環(huán)境、回報(bào)和懲罰。Q-learning算法通過機(jī)器人與環(huán)境不斷地交換信息,來實(shí)現(xiàn)自我學(xué)習(xí)。Q-learning算法中的Q表是機(jī)器人與環(huán)境交互后的結(jié)果,因此在Q-learning算法中更新Q表就是機(jī)器人與環(huán)境的交互過程

    2024年02月14日
    瀏覽(25)
  • 中科院自動(dòng)化所:基于關(guān)系圖深度強(qiáng)化學(xué)習(xí)的機(jī)器人多目標(biāo)包圍問題新算法

    中科院自動(dòng)化所:基于關(guān)系圖深度強(qiáng)化學(xué)習(xí)的機(jī)器人多目標(biāo)包圍問題新算法

    摘要:中科院自動(dòng)化所蒲志強(qiáng)教授團(tuán)隊(duì),提出一種基于關(guān)系圖的深度強(qiáng)化學(xué)習(xí)方法,應(yīng)用于多目標(biāo)避碰包圍問題(MECA),使用NOKOV度量動(dòng)作捕捉系統(tǒng)獲取多機(jī)器人位置信息,驗(yàn)證了方法的有效性和適應(yīng)性。研究成果在2022年ICRA大會(huì)發(fā)表。 ? 在多機(jī)器人系統(tǒng)的研究領(lǐng)域中,包圍控

    2024年01月16日
    瀏覽(33)
  • [機(jī)器人相關(guān)學(xué)習(xí)記錄] KUKA 的仿真工具

    [機(jī)器人相關(guān)學(xué)習(xí)記錄] KUKA 的仿真工具

    KUKA Sim Pro v3.1.2 和 Workvisual 的區(qū)別 項(xiàng)目 KUKA Sim Pro v3.1.2 Workvisual 功能 專注于機(jī)器人仿真和編程 集成機(jī)器人仿真、編程和監(jiān)控 適用場(chǎng)景 適用于機(jī)器人研發(fā)、調(diào)試和教育 適用于機(jī)器人生產(chǎn)、調(diào)試、維修和管理 界面 簡(jiǎn)潔,側(cè)重于機(jī)器人仿真和編程操作 更為全面,包含機(jī)器人狀態(tài)

    2024年04月27日
    瀏覽(61)
  • ROS學(xué)習(xí)筆記16:機(jī)器人系統(tǒng)建模與仿真

    ROS學(xué)習(xí)筆記16:機(jī)器人系統(tǒng)建模與仿真

    一、概述: 1.機(jī)器人系統(tǒng)仿真: ??????? 是通過計(jì)算機(jī)對(duì)實(shí)體機(jī)器人系統(tǒng)進(jìn)行模擬的技術(shù),在 ROS 中,仿真實(shí)現(xiàn)涉及的內(nèi)容主要有三:對(duì)機(jī)器人建模(URDF)、創(chuàng)建仿真環(huán)境(Gazebo)以及感知環(huán)境(Rviz)等系統(tǒng)性實(shí)現(xiàn)。 (1)仿真優(yōu)勢(shì):低成本、高效、高安全性。 (2)仿真缺陷:仿

    2024年02月09日
    瀏覽(43)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包