SAC:Soft Actor-Critic Algorithms and Applications
原文傳遞:SAC算法原文

作者指出深度強(qiáng)化學(xué)習(xí)樣本效率低下的原因是:策略學(xué)習(xí),TRPO、PPO、A3C每次策略更新都需要收集樣本。學(xué)習(xí)有效的策略需要的步驟和樣本數(shù)量伴隨著任務(wù)的復(fù)雜性呈現(xiàn)增加的趨勢。Off-Policy為了重復(fù)使用過去產(chǎn)生的經(jīng)驗值,但是在傳統(tǒng)的策略公式當(dāng)中不能直接使用,Off-Policy的高維、非線性函數(shù)近似和神經(jīng)網(wǎng)絡(luò)的結(jié)合使得穩(wěn)定性和收斂性存在挑戰(zhàn)。
在傳統(tǒng)的強(qiáng)化學(xué)習(xí)當(dāng)中,最優(yōu)策略和獎勵函數(shù)的比例無關(guān),在最大熵強(qiáng)化學(xué)習(xí)中,比例需要選擇合適的溫度進(jìn)行補(bǔ)償,所以作者設(shè)計的基于梯度的自動調(diào)整溫度的方法,調(diào)整訪問狀態(tài)的預(yù)期熵匹配目標(biāo)值。
SAC的組成
SAC主要包含三個部分:
1:actor-critic 架構(gòu):包含價值網(wǎng)絡(luò)和單獨(dú)的策略;
2:Off-policy formulation:重復(fù)使用以前的數(shù)據(jù)以提高效率;
3:熵的最大化: 穩(wěn)定探索記憶穩(wěn)定訓(xùn)練。
Actor-Critic算法一般從策略迭代開始,在策略評估和計算價值函數(shù)之間交替進(jìn)行,從而獲得更好的策略。Actor-critic王鐸單一使用都不能達(dá)到收斂,所以一般使用聯(lián)合網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),這種情況下,策略也被稱為是Actor,價值函數(shù)也稱作Critic,許多Actor_Critic算法都建立在標(biāo)準(zhǔn)的策略地圖共識上,考慮策略的熵,單沒有將熵最大化,而只是正則器。On-policy 訓(xùn)練傾向于提高穩(wěn)定性,但是樣本復(fù)雜度較差。
DDPG使用Q函數(shù)估計來實現(xiàn)非策略的學(xué)習(xí),并且使用確定性動作最大化Q函數(shù)。所以常常被視為確定性的Actor-Critic算法,也可以視為近似的Q學(xué)習(xí)算法,但是DDPG很難擴(kuò)展到高維任務(wù)。
作者將非策略的Actor-critic與隨機(jī)的Actor相結(jié)合,以熵最大化目標(biāo)為目的最大化Actor的熵。最大熵強(qiáng)化學(xué)習(xí)優(yōu)化策略,使得策略的期望收益和期望的熵最大化。
最大熵強(qiáng)化學(xué)習(xí)
最大熵目標(biāo)通過增加熵來概括標(biāo)準(zhǔn)目標(biāo),從而訪問每個狀態(tài)熵的最大化。

其中,α是溫度參數(shù),決定了熵項相對于獎勵的相對重要性,從而控制了最優(yōu)策略的隨機(jī)性。與傳統(tǒng)的強(qiáng)化學(xué)習(xí)的標(biāo)準(zhǔn)的最大預(yù)期匯報目標(biāo)不同,傳統(tǒng)目標(biāo)在α趨向于0的極限當(dāng)中恢復(fù)。將傳統(tǒng)的最大熵RL擴(kuò)展到無限范圍的問題,引入折扣因子γ來確保預(yù)期獎勵的總和是有限的。
最大熵的優(yōu)勢:
策略傾向于更加廣泛的探索,并且放棄明顯 沒有前途的途徑;
策略捕獲多種接近最優(yōu)的行為模式;
在多種具有同樣吸引力的動作當(dāng)中,策略對動作的概率估計是相同的。
Soft Actor-Critic
soft policy iteration 是學(xué)習(xí)最優(yōu)最大熵策略的一般算法,在對打賞框架內(nèi)交替進(jìn)行策略評估和改進(jìn)。在迭代評估的步驟當(dāng)中,希望根據(jù)最大熵目標(biāo)計算策略π的值。
對于固定的策略,soft Q-value計算迭代從狀態(tài)S到動作A到獎勵R的映射,反復(fù)的修正貝爾曼算子,


V(st)是狀態(tài)價值函數(shù)。
在策略改進(jìn)的步驟當(dāng)中,作者根據(jù)這個公式進(jìn)行更新

分區(qū)函數(shù)Zπ 分布?xì)w一化。
軟Q函數(shù)和政策使用函數(shù)近似,并且不運(yùn)行評估和改進(jìn)來收斂,而是用隨機(jī)梯度下降法交替優(yōu)化兩個網(wǎng)絡(luò)??紤]參數(shù)化的soft Q和穩(wěn)妥的策略。soft Q被建模為富有表現(xiàn)力的神經(jīng)網(wǎng)絡(luò),策略被建模為具有神經(jīng)網(wǎng)絡(luò)給出的平均值和協(xié)方差的高斯。soft Q函數(shù)的參數(shù)被訓(xùn)練為最小化貝爾曼殘差隨后使用隨機(jī)梯度進(jìn)行優(yōu)化。

使用神經(jīng)網(wǎng)絡(luò)變換重新改變策略的參數(shù)化,引入

ε是輸入的噪聲,通過抽樣其固定的分布,作者得到如下公式:

其中πφ被定義為fφ,策略剔骨被更新為:

自動調(diào)整最大熵值
作者目的是找到具有最大預(yù)期收益的隨機(jī)側(cè)列,滿足最小預(yù)期熵的約束,從形式上看,主要解決約束性的優(yōu)化問題。即為:

H為最小預(yù)期熵,但是對于完全MDP來說,優(yōu)化的策略是確定的,約束是嚴(yán)格的,不需要對熵加上上限。
作者認(rèn)為時間t的策略是影響未來的目標(biāo),所以想要通過采用一種近似的動態(tài)編程的方法,對時間向后求解來講目標(biāo)進(jìn)行重寫,在租后一個時間步上,將約束下最大化改為對偶問題。遵守

因為目標(biāo)是線性的,所以作者使用強(qiáng)對偶性。
為了簡化符號,作者最終利用soft Q 進(jìn)行遞歸定義,

同時解決對偶變量a*t 在解決了Q*和π*之后。

SAC算法的核心就是soft Q函數(shù)和,在理論上,精確求解可以遞歸最優(yōu)熵約束的最大預(yù)期收益目標(biāo),在實踐當(dāng)中,需要借助函數(shù)老近似值和隨機(jī)梯度的下降。
算法偽代碼

算法比較
作者與DDPG、PPO、SQL、TD3等算法進(jìn)行了比較,下午展示了訓(xùn)練期間的不同收益值,實心曲線代表平均值,陰影區(qū)域是最大和最小收益,作者展示了SAC在學(xué)習(xí)速度和最終表現(xiàn)都由于其他方法。

現(xiàn)實應(yīng)用:
作者將SAC算法轉(zhuǎn)移到了現(xiàn)有的四足機(jī)器人上,在現(xiàn)實世界中,一個運(yùn)動策略的效用關(guān)鍵在于它對不同地形和障礙物的概括能力。只在平坦的地形上訓(xùn)練了策略,如圖2(第一行)所示,隨后在不同的地形和障礙物上測試了它。
由于SAC在訓(xùn)練時學(xué)習(xí)了穩(wěn)健的政策,由于熵最大化,該政策可以很容易地泛化到這些擾動,而不需要任何額外的學(xué)習(xí)。機(jī)器人能夠在斜坡上行走,沖過由木塊組成的障礙物,并毫無困難地走下樓梯,盡管沒有在這些環(huán)境中接受訓(xùn)練。文章來源:http://www.zghlxwxcb.cn/news/detail-737317.html
總結(jié)
實驗表明SAC符合或超過了最先進(jìn)的無模型深度RL方法的性能,包括非政策性TD3算法和政策性PPO算法,不需要任何環(huán)境特定的超參數(shù)調(diào)整。我們在現(xiàn)實世界中的實驗表明,對于在現(xiàn)實世界中直接學(xué)習(xí)的機(jī)器人任務(wù),如運(yùn)動和靈巧的操縱,軟演員批評法是穩(wěn)健的,而且樣本效率很高。文章來源地址http://www.zghlxwxcb.cn/news/detail-737317.html
到了這里,關(guān)于強(qiáng)化學(xué)習(xí)論文閱讀(二)SAC算法的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!