国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

強(qiáng)化學(xué)習(xí)論文閱讀(二)SAC算法

這篇具有很好參考價值的文章主要介紹了強(qiáng)化學(xué)習(xí)論文閱讀(二)SAC算法。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

SAC:Soft Actor-Critic Algorithms and Applications

原文傳遞:SAC算法原文

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

作者指出深度強(qiáng)化學(xué)習(xí)樣本效率低下的原因是:策略學(xué)習(xí),TRPO、PPO、A3C每次策略更新都需要收集樣本。學(xué)習(xí)有效的策略需要的步驟和樣本數(shù)量伴隨著任務(wù)的復(fù)雜性呈現(xiàn)增加的趨勢。Off-Policy為了重復(fù)使用過去產(chǎn)生的經(jīng)驗值,但是在傳統(tǒng)的策略公式當(dāng)中不能直接使用,Off-Policy的高維、非線性函數(shù)近似和神經(jīng)網(wǎng)絡(luò)的結(jié)合使得穩(wěn)定性和收斂性存在挑戰(zhàn)。

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)當(dāng)中,最優(yōu)策略和獎勵函數(shù)的比例無關(guān),在最大熵強(qiáng)化學(xué)習(xí)中,比例需要選擇合適的溫度進(jìn)行補(bǔ)償,所以作者設(shè)計的基于梯度的自動調(diào)整溫度的方法,調(diào)整訪問狀態(tài)的預(yù)期熵匹配目標(biāo)值。

SAC的組成

SAC主要包含三個部分:

1:actor-critic 架構(gòu):包含價值網(wǎng)絡(luò)和單獨(dú)的策略;

2:Off-policy formulation:重復(fù)使用以前的數(shù)據(jù)以提高效率;

3:熵的最大化: 穩(wěn)定探索記憶穩(wěn)定訓(xùn)練。

Actor-Critic算法一般從策略迭代開始,在策略評估和計算價值函數(shù)之間交替進(jìn)行,從而獲得更好的策略。Actor-critic王鐸單一使用都不能達(dá)到收斂,所以一般使用聯(lián)合網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),這種情況下,策略也被稱為是Actor,價值函數(shù)也稱作Critic,許多Actor_Critic算法都建立在標(biāo)準(zhǔn)的策略地圖共識上,考慮策略的熵,單沒有將熵最大化,而只是正則器。On-policy 訓(xùn)練傾向于提高穩(wěn)定性,但是樣本復(fù)雜度較差。

DDPG使用Q函數(shù)估計來實現(xiàn)非策略的學(xué)習(xí),并且使用確定性動作最大化Q函數(shù)。所以常常被視為確定性的Actor-Critic算法,也可以視為近似的Q學(xué)習(xí)算法,但是DDPG很難擴(kuò)展到高維任務(wù)。

作者將非策略的Actor-critic與隨機(jī)的Actor相結(jié)合,以熵最大化目標(biāo)為目的最大化Actor的熵。最大熵強(qiáng)化學(xué)習(xí)優(yōu)化策略,使得策略的期望收益和期望的熵最大化。

最大熵強(qiáng)化學(xué)習(xí)

最大熵目標(biāo)通過增加熵來概括標(biāo)準(zhǔn)目標(biāo),從而訪問每個狀態(tài)熵的最大化。

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

其中,α是溫度參數(shù),決定了熵項相對于獎勵的相對重要性,從而控制了最優(yōu)策略的隨機(jī)性。與傳統(tǒng)的強(qiáng)化學(xué)習(xí)的標(biāo)準(zhǔn)的最大預(yù)期匯報目標(biāo)不同,傳統(tǒng)目標(biāo)在α趨向于0的極限當(dāng)中恢復(fù)。將傳統(tǒng)的最大熵RL擴(kuò)展到無限范圍的問題,引入折扣因子γ來確保預(yù)期獎勵的總和是有限的。

最大熵的優(yōu)勢:

  1. 策略傾向于更加廣泛的探索,并且放棄明顯 沒有前途的途徑;

  1. 策略捕獲多種接近最優(yōu)的行為模式;

  1. 在多種具有同樣吸引力的動作當(dāng)中,策略對動作的概率估計是相同的。

Soft Actor-Critic

soft policy iteration 是學(xué)習(xí)最優(yōu)最大熵策略的一般算法,在對打賞框架內(nèi)交替進(jìn)行策略評估和改進(jìn)。在迭代評估的步驟當(dāng)中,希望根據(jù)最大熵目標(biāo)計算策略π的值。

對于固定的策略,soft Q-value計算迭代從狀態(tài)S到動作A到獎勵R的映射,反復(fù)的修正貝爾曼算子,

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔
sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

V(st)是狀態(tài)價值函數(shù)。

在策略改進(jìn)的步驟當(dāng)中,作者根據(jù)這個公式進(jìn)行更新

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

分區(qū)函數(shù)Zπ 分布?xì)w一化。

軟Q函數(shù)和政策使用函數(shù)近似,并且不運(yùn)行評估和改進(jìn)來收斂,而是用隨機(jī)梯度下降法交替優(yōu)化兩個網(wǎng)絡(luò)??紤]參數(shù)化的soft Q和穩(wěn)妥的策略。soft Q被建模為富有表現(xiàn)力的神經(jīng)網(wǎng)絡(luò),策略被建模為具有神經(jīng)網(wǎng)絡(luò)給出的平均值和協(xié)方差的高斯。soft Q函數(shù)的參數(shù)被訓(xùn)練為最小化貝爾曼殘差隨后使用隨機(jī)梯度進(jìn)行優(yōu)化。

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

使用神經(jīng)網(wǎng)絡(luò)變換重新改變策略的參數(shù)化,引入

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

ε是輸入的噪聲,通過抽樣其固定的分布,作者得到如下公式:

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

其中πφ被定義為fφ,策略剔骨被更新為:

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

自動調(diào)整最大熵值

作者目的是找到具有最大預(yù)期收益的隨機(jī)側(cè)列,滿足最小預(yù)期熵的約束,從形式上看,主要解決約束性的優(yōu)化問題。即為:

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

H為最小預(yù)期熵,但是對于完全MDP來說,優(yōu)化的策略是確定的,約束是嚴(yán)格的,不需要對熵加上上限。

作者認(rèn)為時間t的策略是影響未來的目標(biāo),所以想要通過采用一種近似的動態(tài)編程的方法,對時間向后求解來講目標(biāo)進(jìn)行重寫,在租后一個時間步上,將約束下最大化改為對偶問題。遵守

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

因為目標(biāo)是線性的,所以作者使用強(qiáng)對偶性。

為了簡化符號,作者最終利用soft Q 進(jìn)行遞歸定義,

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

同時解決對偶變量a*t 在解決了Q*和π*之后。

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

SAC算法的核心就是soft Q函數(shù)和sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔,在理論上,精確求解可以遞歸最優(yōu)熵約束的最大預(yù)期收益目標(biāo),在實踐當(dāng)中,需要借助函數(shù)老近似值和隨機(jī)梯度的下降。

算法偽代碼

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

算法比較

作者與DDPG、PPO、SQL、TD3等算法進(jìn)行了比較,下午展示了訓(xùn)練期間的不同收益值,實心曲線代表平均值,陰影區(qū)域是最大和最小收益,作者展示了SAC在學(xué)習(xí)速度和最終表現(xiàn)都由于其他方法。

sac算法,強(qiáng)化學(xué)習(xí),論文閱讀,論文閱讀,算法,Powered by 金山文檔

現(xiàn)實應(yīng)用:

作者將SAC算法轉(zhuǎn)移到了現(xiàn)有的四足機(jī)器人上,在現(xiàn)實世界中,一個運(yùn)動策略的效用關(guān)鍵在于它對不同地形和障礙物的概括能力。只在平坦的地形上訓(xùn)練了策略,如圖2(第一行)所示,隨后在不同的地形和障礙物上測試了它。

由于SAC在訓(xùn)練時學(xué)習(xí)了穩(wěn)健的政策,由于熵最大化,該政策可以很容易地泛化到這些擾動,而不需要任何額外的學(xué)習(xí)。機(jī)器人能夠在斜坡上行走,沖過由木塊組成的障礙物,并毫無困難地走下樓梯,盡管沒有在這些環(huán)境中接受訓(xùn)練。

總結(jié)

實驗表明SAC符合或超過了最先進(jìn)的無模型深度RL方法的性能,包括非政策性TD3算法和政策性PPO算法,不需要任何環(huán)境特定的超參數(shù)調(diào)整。我們在現(xiàn)實世界中的實驗表明,對于在現(xiàn)實世界中直接學(xué)習(xí)的機(jī)器人任務(wù),如運(yùn)動和靈巧的操縱,軟演員批評法是穩(wěn)健的,而且樣本效率很高。文章來源地址http://www.zghlxwxcb.cn/news/detail-737317.html

到了這里,關(guān)于強(qiáng)化學(xué)習(xí)論文閱讀(二)SAC算法的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 分層強(qiáng)化學(xué)習(xí) 綜述論文閱讀 Hierarchical Reinforcement Learning: A Comprehensive Survey

    分層強(qiáng)化學(xué)習(xí) 綜述論文閱讀 Hierarchical Reinforcement Learning: A Comprehensive Survey

    分層強(qiáng)化學(xué)習(xí)可以通過將困難的長期決策任務(wù)分解為更簡單的子任務(wù),提升強(qiáng)化學(xué)習(xí)算法的性能。 分層強(qiáng)化學(xué)習(xí)方法主要涉及:使用HRL學(xué)習(xí)分層策略、子任務(wù)發(fā)現(xiàn)、遷移學(xué)習(xí)和多智能體學(xué)習(xí)四個主要挑戰(zhàn)。 強(qiáng)化學(xué)習(xí)算法的一個痛點(diǎn):如果任務(wù)的長度很長,狀態(tài)空間和動作空

    2024年02月04日
    瀏覽(30)
  • 【論文閱讀】基于魯棒強(qiáng)化學(xué)習(xí)的無人機(jī)能量采集可重構(gòu)智能表面

    【論文閱讀】基于魯棒強(qiáng)化學(xué)習(xí)的無人機(jī)能量采集可重構(gòu)智能表面

    只做學(xué)習(xí)記錄,侵刪原文鏈接 @article{peng2023energy, title={Energy Harvesting Reconfigurable Intelligent Surface for UAV Based on Robust Deep Reinforcement Learning}, author={Peng, Haoran and Wang, Li-Chun}, journal={IEEE Transactions on Wireless Communications}, year={2023}, publisher={IEEE} } 研究目標(biāo) RIS每一個反射單元都由無源器件

    2024年02月05日
    瀏覽(20)
  • 圖像處理之《尋找和隱藏:通過深度強(qiáng)化學(xué)習(xí)的對抗隱寫術(shù)》論文閱讀

    圖像處理之《尋找和隱藏:通過深度強(qiáng)化學(xué)習(xí)的對抗隱寫術(shù)》論文閱讀

    一、文章摘要 圖像隱寫術(shù)的目的是將一個完整大小的圖像(稱為秘密)隱藏到另一個圖像(稱為封面)中。以往的圖像隱寫算法只能在一個封面中隱藏一個秘密。在這篇論文中, 我們提出了一個自適應(yīng)局部圖像隱寫(AdaSteg)系統(tǒng),允許縮放和位置自適應(yīng)圖像隱寫 。該系統(tǒng)通過在局部

    2024年03月14日
    瀏覽(29)
  • 強(qiáng)化學(xué)習(xí)論文閱讀——自動分組Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

    強(qiáng)化學(xué)習(xí)論文閱讀——自動分組Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

    Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning 這是一篇發(fā)表在NeurIPS2022的論文,文章提出了一種分組算法,旨在提高算法零樣本泛化能力 1 論文背景 CTDE :集中訓(xùn)練分散執(zhí)行,在訓(xùn)練階段將所有智能體的Q值加到一起去訓(xùn)練,訓(xùn)練完了之后在執(zhí)行階段大家各自執(zhí)行自己

    2024年01月25日
    瀏覽(28)
  • 對比學(xué)習(xí)論文閱讀:CoCLR算法筆記

    對比學(xué)習(xí)論文閱讀:CoCLR算法筆記

    標(biāo)題:Self-supervised Co-training for Video Representation Learning 會議:NIPS2020 論文地址:https://dl.acm.org/doi/abs/10.5555/3495724.3496201 官方代碼:https://www.robots.ox.ac.uk/~vgg/research/CoCLR/ 作者單位:牛津大學(xué) 本文的研究目標(biāo)是純視覺的自監(jiān)督視頻表征學(xué)習(xí)。我們做出了以下貢獻(xiàn):①我們研究了在

    2024年02月03日
    瀏覽(24)
  • Discuz論壇網(wǎng)站標(biāo)題欄Powered by Discuz!版權(quán)信息如何去除或是修改?

    Discuz論壇網(wǎng)站標(biāo)題欄Powered by Discuz!版權(quán)信息如何去除或是修改?

    當(dāng)我們搭建好DZ論壇網(wǎng)站后,為了美化網(wǎng)站,想把標(biāo)題欄的Powered?by?Discuz!去除或是修改,應(yīng)該如何操作呢?今天飛飛和你分享,在操作前務(wù)必把網(wǎng)站源碼和數(shù)據(jù)庫都備份到本地或是網(wǎng)盤。 ? Discuz的版權(quán)信息存在兩處地方,一個是標(biāo)題欄,一個是底部。一般為了美化修改個標(biāo)

    2024年02月08日
    瀏覽(96)
  • 【聯(lián)邦學(xué)習(xí)論文閱讀】常用算法理解(SCAFFOLD、FedPD、FedBN)-目前僅SCAFFOLD

    【聯(lián)邦學(xué)習(xí)論文閱讀】常用算法理解(SCAFFOLD、FedPD、FedBN)-目前僅SCAFFOLD

    SCAFFOLD(ICML-2020):SCAFFOLD: Stochastic Controlled Averaging for Federated Learning FedPD:https://arxiv.org/abs/2005.11418 FedBN(ICLR 2021):FEDBN: FEDERATED LEARNING ON NON-IID FEATURES VIA LOCAL BATCH NORMALIZATION 1… 梯度 實際上是對用戶數(shù)據(jù)進(jìn)行函數(shù)變換,在訓(xùn)練數(shù)據(jù)時攜帶信息,可能有泄露梯度隱私的風(fēng)險。

    2023年04月20日
    瀏覽(46)
  • 論文閱讀:PointCLIP: Point Cloud Understanding by CLIP

    論文閱讀:PointCLIP: Point Cloud Understanding by CLIP

    ?CVPR2022 鏈接:https://arxiv.org/pdf/2112.02413.pdf ????????最近,通過對比視覺語言預(yù)訓(xùn)練(CLIP)的零鏡頭學(xué)習(xí)和少鏡頭學(xué)習(xí)在2D視覺識別方面表現(xiàn)出了鼓舞人心的表現(xiàn),即學(xué)習(xí)在開放詞匯設(shè)置下將圖像與相應(yīng)的文本匹配。然而,在二維大規(guī)模圖像文本對的預(yù)訓(xùn)練下,CLIP識別能否推

    2024年02月04日
    瀏覽(28)
  • 【論文閱讀 03】機(jī)器學(xué)習(xí)算法在頸動脈斑塊影像學(xué)分類中的研究進(jìn)展

    【論文閱讀 03】機(jī)器學(xué)習(xí)算法在頸動脈斑塊影像學(xué)分類中的研究進(jìn)展

    讀完之后就是,總結(jié) 機(jī)器學(xué)習(xí)(SVM、小波)和深度學(xué)習(xí)(CNN)在 頸動脈斑塊影像學(xué)中的 分類效果。只討論了超聲、磁共振兩種成像 ? Chin J Clin Neurosci?臨床神經(jīng)科學(xué)雜志 復(fù)旦大學(xué) 頸動脈斑塊( carotid plaques) 是一種由于頸動脈血 管壁受損導(dǎo)致血液有形成分聚集而成的團(tuán)塊狀結(jié)

    2024年02月16日
    瀏覽(29)
  • (C#) IIS 響應(yīng)標(biāo)頭過濾敏感信息(如:Server/X-Powered-By等) 運(yùn)維知識

    (C#) IIS 響應(yīng)標(biāo)頭過濾敏感信息(如:Server/X-Powered-By等) 運(yùn)維知識

    再一次凈網(wǎng)行動中,客戶要求安全改造發(fā)現(xiàn)了接口請求的header標(biāo)頭中出現(xiàn)如圖中的敏感信息。 ? 其意義在于告知瀏網(wǎng)站是用什么語言或者框架編寫的。解決辦法就是修改該響應(yīng)頭為一個錯誤的值,將攻擊者導(dǎo)向一個錯誤的方向。 這里只說windows 的iis環(huán)境,不考慮其他服務(wù)器的

    2024年02月11日
    瀏覽(115)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包