這篇具有很好參考價值的文章主要介紹了無人駕駛實戰(zhàn)-第十二課(強(qiáng)化學(xué)習(xí)自動駕駛系統(tǒng))(完)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。
在七月算法上報了《無人駕駛實戰(zhàn)》課程,老師講的真好。好記性不如爛筆頭,記錄一下學(xué)習(xí)內(nèi)容。?課程入口,感興趣的也可以跟著學(xué)一下。文章來源:http://www.zghlxwxcb.cn/news/detail-639090.html
—————————————————————————————————————————文章來源地址http://www.zghlxwxcb.cn/news/detail-639090.html
強(qiáng)化學(xué)習(xí):通過和環(huán)境交互學(xué)習(xí)到如何在相應(yīng)環(huán)境中采取最優(yōu)策略的行為。特點是不需要標(biāo)注,具有魯棒性,對行為(Action)的學(xué)習(xí)更友好。
Environment:整體任務(wù)的工作環(huán)境?
Reward:激勵、獎勵,對行為好壞的一個評價,Value Function,不同環(huán)境可以有不同的獎勵,
獎勵的設(shè)計對RL來說至關(guān)重要。
Agent:智能體,一般是RL的作用對象?
Action:智能體可以采取的所有可能的行動?
Sensors:環(huán)境返回的當(dāng)前情況?
MDP模型:馬爾科夫決策過程
逆強(qiáng)化學(xué)習(xí):能夠找到一種能夠高效可靠的Reward的方法,專家在完成某項任務(wù)時,其決策往往是最優(yōu)或接近最優(yōu)的。當(dāng)所有的策略所產(chǎn)生的累積回報期望都不比專家策略所產(chǎn)生的累積回報期望大時, 對應(yīng)的回報函數(shù)就是根據(jù)示例學(xué)到的回報函數(shù)。
常用的逆強(qiáng)化學(xué)習(xí)方法:學(xué)徒學(xué)習(xí)方法、最大邊際規(guī)劃算法MMP、基于最大熵的逆向強(qiáng)化學(xué)習(xí)
模仿學(xué)習(xí): 從專家提供的范例中學(xué)習(xí),一般提供人類專家的決策數(shù)據(jù), 每個決策包含狀態(tài)和動作序列, 把狀態(tài)作為特征,動作作為標(biāo)記進(jìn)行分類或回歸的學(xué)習(xí)從而得到最優(yōu)策略模型。目標(biāo)是使模型生成的狀態(tài)-動作軌跡分布和輸入的軌跡分布相匹配,算是一種監(jiān)督學(xué)習(xí)方法( 行為克隆 )。特點是泛化性很差,依賴于大量數(shù)據(jù) 數(shù)據(jù)增廣
深度學(xué)習(xí):感知能力,缺乏一定的決策能力
強(qiáng)化學(xué)習(xí):決策能力,非常適合做無人車決策規(guī)劃?
強(qiáng)化學(xué)習(xí)中的一些分類:On-Policy vs Off-Policy、Model Based vs Model Free、Q-Learning vs SARSA、
DQN(Deep Q Network) 端到端的學(xué)習(xí)方式、 深度卷積神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí)、 經(jīng)驗回放技術(shù);?
DDPG(Deep Deterministic Policy Gradient ) actor-critic 算法、 深度神經(jīng)網(wǎng)絡(luò)作為逼近器;
強(qiáng)化學(xué)習(xí)主要方法的對比
無人車如何使用強(qiáng)化學(xué)習(xí)(模仿學(xué)習(xí))
傳感器感知(輸入):Radar、Lidar、GPS、Camera … ,從原始數(shù)據(jù)抽取高階特征,機(jī)器學(xué)習(xí)將特征轉(zhuǎn)化成知識,知識處理后進(jìn)行推理;做出合理的動作決策。
Q-Learning
Q-Table為每一個 state 上進(jìn)行的每一個 action 計算出最大的未來 reward 的期望,每個狀態(tài)允許四種可能的操作:左移、右移、上移、下移, Table 里的參數(shù)式給定最佳策略的狀態(tài)下采取相應(yīng)動作獲得的最大未來獎勵期望 ?
如何計算 Q-table 中每個元素的值??
Q-Learning、學(xué)習(xí)動作值函數(shù)(Q值)、Bellman 方程
更新Q值的策略
選取一個動作:在基于當(dāng)前的 Q 值估計得出的狀態(tài) state 下選擇一個動作 action。采用動作 action 并且觀察輸出的狀態(tài) s' 和獎勵 reward。
DQN
4個Action:上下左右,每走一步有reward,Maximum 未來的 Reward總和
Q-Learning: 使用最佳策略使得最大化未來的Reward值(Q值),Off-policy,持續(xù)迭代更新每步(s, a) 。
Exploration vs Exploitation(探索和使用): 局部最優(yōu)(貪心),初始的時候?qū)π畔⒁粺o所知
持續(xù)更新(S, A) 是Q-Learning的最大問題,因為低效,泛化能力差,對復(fù)雜問題維數(shù)爆炸,所以后面使用Deep Learning代替Q-Table
DeepMind在這方面發(fā)表了文章在Nature上
如何訓(xùn)練DQN?
1.給定狀態(tài)轉(zhuǎn)移方式 ;2.在狀態(tài)s用前向推理計算所有Action的預(yù)測Q值;3.前向推理下一步s’及其最大Q’值;4.并用Loss function進(jìn)行梯度更新?
經(jīng)驗回放:提高數(shù)據(jù)利用率,遺忘數(shù)據(jù)流順序(加入隨機(jī)性)
課程總結(jié)
自動駕駛工程師技能圖譜
到了這里,關(guān)于無人駕駛實戰(zhàn)-第十二課(強(qiáng)化學(xué)習(xí)自動駕駛系統(tǒng))(完)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!
本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!