Python代碼:https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
英文原版書籍下載:http://incompleteideas.net/book/the-book-2nd.html
作者:
理查德·S·薩頓是阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)教授和強(qiáng)化學(xué)習(xí)與人工智能 AITF 主席,也是 DeepMind 的杰出研究科學(xué)家。
安德魯·G·巴托是馬薩諸塞大學(xué)阿默斯特分校計(jì)算機(jī)與信息科學(xué)學(xué)院的榮譽(yù)退休教授。
描述:
這是一本廣泛使用的強(qiáng)化學(xué)習(xí)教材的新版,內(nèi)容大幅擴(kuò)充和更新,涵蓋了人工智能中最活躍的研究領(lǐng)域之一的強(qiáng)化學(xué)習(xí)。
強(qiáng)化學(xué)習(xí)是人工智能中最活躍的研究領(lǐng)域之一,它是一種計(jì)算學(xué)習(xí)方法,通過(guò)讓一個(gè)智能體在與一個(gè)復(fù)雜、不確定的環(huán)境交互的過(guò)程中,嘗試最大化它所獲得的總獎(jiǎng)勵(lì)。在《強(qiáng)化學(xué)習(xí)》一書中,Richard Sutton 和 Andrew Barto 以清晰簡(jiǎn)潔的方式介紹了該領(lǐng)域的關(guān)鍵思想和算法。這本第二版在第一版的基礎(chǔ)上進(jìn)行了大幅的擴(kuò)充和更新,增加了一些新的主題,并更新了一些已有的主題。
與第一版一樣,這本第二版?zhèn)戎赜诮榻B核心的在線學(xué)習(xí)算法,將更多的數(shù)學(xué)內(nèi)容放在陰影框中。第一部分涵蓋了盡可能多的強(qiáng)化學(xué)習(xí)內(nèi)容,但沒(méi)有超出可以找到精確解的表格形式的情況。這一部分介紹的很多算法都是第二版新增的,包括 UCB,Expected Sarsa,和 Double Learning。第二部分將這些思想擴(kuò)展到函數(shù)逼近的情況,增加了一些新的章節(jié),涉及到人工神經(jīng)網(wǎng)絡(luò)和傅里葉基等主題,并對(duì)離策略學(xué)習(xí)和策略梯度方法進(jìn)行了更深入的討論。第三部分增加了一些新的章節(jié),探討了強(qiáng)化學(xué)習(xí)與心理學(xué)和神經(jīng)科學(xué)的關(guān)系,以及更新了一些案例研究,包括 AlphaGo 和 AlphaGo Zero,Atari 游戲,和 IBM Watson 的下注策略。最后一章討論了強(qiáng)化學(xué)習(xí)對(duì)未來(lái)社會(huì)的影響。
贊譽(yù):
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-801285.html
目錄 Contents
前言(第二版) Preface to the Second Edition xiii
前言(第一版) Preface to the First Edition xvii
符號(hào)說(shuō)明 Summary of Notation xix
第一章 引言 Introduction 1
1.1 強(qiáng)化學(xué)習(xí) Reinforcement Learning 1
1.2 例子 Examples 4
1.3 強(qiáng)化學(xué)習(xí)的要素 Elements of Reinforcement Learning 6
1.4 局限性和范圍 Limitations and Scope 7
1.5 一個(gè)擴(kuò)展的例子:井字棋 An Extended Example: Tic-Tac-Toe 8
1.6 總結(jié) Summary 13
1.7 強(qiáng)化學(xué)習(xí)的早期歷史 Early History of Reinforcement Learning 13
第一部分 表格型解法方法 I Tabular Solution Methods 23
第二章 多臂老虎機(jī) Multi-armed Bandits 25
2.1 k-臂老虎機(jī)問(wèn)題 A k-armed Bandit Problem 25
2.2 動(dòng)作價(jià)值方法 Action-value Methods 27
2.3 10-臂測(cè)試臺(tái) The 10-armed Testbed 28
2.4 增量實(shí)現(xiàn) Incremental Implementation 30
2.5 跟蹤非平穩(wěn)問(wèn)題 Tracking a Nonstationary Problem 32
2.6 樂(lè)觀初始值 Optimistic Initial Values 34
2.7 上置信界行動(dòng)選擇 Upper-Confidence-Bound Action Selection 35
2.8 梯度賭博機(jī)算法 Gradient Bandit Algorithms 37
2.9 關(guān)聯(lián)搜索(情景賭博機(jī)) Associative Search (Contextual Bandits) 41
2.10 本章總結(jié) Summary 42
第三章 有限馬爾可夫決策過(guò)程 Finite Markov Decision Processes 47
3.1 智能體-環(huán)境接口 The Agent–Environment Interface 47
3.2 目標(biāo)和獎(jiǎng)勵(lì) Goals and Rewards 53
3.3 回報(bào)和片段 Returns and Episodes 54
3.4 統(tǒng)一表示法:持續(xù)型和片段型任務(wù) Unified Notation for Episodic and Continuing Tasks 57
3.5 策略和價(jià)值函數(shù) Policies and Value Functions 58
3.6 最優(yōu)策略和最優(yōu)價(jià)值函數(shù) Optimal Policies and Optimal Value Functions 62
3.7 最優(yōu)性和近似 Optimality and Approximation 67
3.8 本章總結(jié) Summary 68
第四章 動(dòng)態(tài)規(guī)劃 Dynamic Programming 73
4.1 策略評(píng)估(預(yù)測(cè)) Policy Evaluation (Prediction) 74
4.2 策略改進(jìn) Policy Improvement 76
4.3 策略迭代 Policy Iteration 80
4.4 價(jià)值迭代 Value Iteration 82
4.5 異步動(dòng)態(tài)規(guī)劃 Asynchronous Dynamic Programming 85
4.6 廣義策略迭代 Generalized Policy Iteration 86
4.7 動(dòng)態(tài)規(guī)劃的效率 Efficiency of Dynamic Programming 87
4.8 本章總結(jié) Summary 88
第五章 蒙特卡羅方法 Monte Carlo Methods 91
5.1 蒙特卡羅預(yù)測(cè) Monte Carlo Prediction 92
5.2 蒙特卡羅估計(jì)動(dòng)作價(jià)值 Monte Carlo Estimation of Action Values 96
5.3 蒙特卡羅控制 Monte Carlo Control 97
5.4 無(wú)探索起始的蒙特卡羅控制 Monte Carlo Control without Exploring Starts 100
5.5 通過(guò)重要性采樣的離策略預(yù)測(cè) Off-policy Prediction via Importance Sampling 103
5.6 增量實(shí)現(xiàn) Incremental Implementation 109
5.7 離策略蒙特卡羅控制 Off-policy Monte Carlo Control 110
5.8 *考慮折扣的重要性采樣 *Discounting-aware Importance Sampling 112
5.9 *每決策重要性采樣 *Per-decision Importance Sampling 114
5.10 本章總結(jié) Summary 115
第六章 時(shí)序差分學(xué)習(xí) Temporal-Di?erence Learning 119
6.1 TD預(yù)測(cè) TD Prediction 119
6.2 TD預(yù)測(cè)方法的優(yōu)勢(shì) Advantages of TD Prediction Methods 124
6.3 TD(0)的最優(yōu)性 Optimality of TD(0) 126
6.4 Sarsa:基于策略的TD控制 Sarsa: On-policy TD Control 129
6.5 Q-learning:離策略的TD控制 Q-learning: Off-policy TD Control 131
6.6 期望Sarsa Expected Sarsa 133
6.7 最大化偏差和雙重學(xué)習(xí) Maximization Bias and Double Learning 134
6.8 博弈、后狀態(tài)和其他特殊情況 Games, Afterstates, and Other Special Cases 136
6.9 本章總結(jié) Summary 138
第七章 n步自舉 n-step Bootstrapping 141
7.1 n步TD預(yù)測(cè) n-step TD Prediction 142
7.2 n步Sarsa n-step Sarsa 145
7.3 n步離策略學(xué)習(xí) n-step Off-policy Learning 148
7.4 *每決策方法和控制變量 *Per-decision Methods with Control Variates 150
7.5 無(wú)需重要性采樣的離策略學(xué)習(xí):n步樹備份算法 Off-policy Learning Without Importance Sampling:The n-step Tree Backup Algorithm 152
7.6 *一個(gè)統(tǒng)一的算法:n步Q(!) *A Unifying Algorithm: n-step Q(!) 154
7.7 本章總結(jié) Summary 157
第八章 表格型方法的規(guī)劃和學(xué)習(xí) Planning and Learning with Tabular Methods 159
8.1 模型和規(guī)劃 Models and Planning 159
8.2 Dyna:集成規(guī)劃、行動(dòng)和學(xué)習(xí) Dyna: Integrated Planning, Acting, and Learning 161
8.3 當(dāng)模型出錯(cuò)時(shí) When the Model Is Wrong 166
8.4 優(yōu)先級(jí)掃描 Prioritized Sweeping 168
8.5 期望更新 vs. 樣本更新 Expected vs. Sample Updates 172
8.6 軌跡采樣 Trajectory Sampling 174
8.7 實(shí)時(shí)動(dòng)態(tài)規(guī)劃 Real-time Dynamic Programming 177
8.8 決策時(shí)刻的規(guī)劃 Planning at Decision Time 180
8.9 啟發(fā)式搜索 Heuristic Search 181
8.10 展開(kāi)算法 Rollout Algorithms 183
8.11 蒙特卡羅樹搜索 Monte Carlo Tree Search 185
8.12 本章總結(jié) Summary of the Chapter 188
8.13 第一部分總結(jié):維度 Summary of Part I: Dimensions 189
第二部分 近似解法方法 II Approximate Solution Methods 195
第九章 基于策略的近似預(yù)測(cè) On-policy Prediction with Approximation 197
9.1 價(jià)值函數(shù)近似 Value-function Approximation 198
9.2 預(yù)測(cè)目標(biāo)(VE) The Prediction Objective (VE) 199
9.3 隨機(jī)梯度和半梯度方法 Stochastic-gradient and Semi-gradient Methods 200
9.4 線性方法 Linear Methods 204
9.5 線性方法的特征構(gòu)造 Feature Construction for Linear Methods 210
9.5.1 多項(xiàng)式 Polynomials 210
9.5.2 傅里葉基 Fourier Basis 211
9.5.3 粗編碼 Coarse Coding 215
9.5.4 平鋪編碼 Tile Coding 217
9.5.5 徑向基函數(shù) Radial Basis Functions 221
9.6 手動(dòng)選擇步長(zhǎng)參數(shù) Selecting Step-Size Parameters Manually 222
9.7 非線性函數(shù)近似:人工神經(jīng)網(wǎng)絡(luò) Nonlinear Function Approximation: Artificial Neural Networks 223
9.8 最小二乘TD Least-Squares TD 228
9.9 基于記憶的函數(shù)近似 Memory-based Function Approximation 230
9.10 基于核的函數(shù)近似 Kernel-based Function Approximation 232
9.11 深入探究基于策略的學(xué)習(xí):興趣和強(qiáng)調(diào) Looking Deeper at On-policy Learning: Interest and Emphasis 234
9.12 本章總結(jié) Summary 236
第十章 基于策略的近似控制 On-policy Control with Approximation 243
10.1 片段半梯度控制 Episodic Semi-gradient Control 243
10.2 半梯度n步Sarsa Semi-gradient n-step Sarsa 247
10.3 平均獎(jiǎng)勵(lì):持續(xù)型任務(wù)的新問(wèn)題設(shè)定 Average Reward: A New Problem Setting for Continuing Tasks 249
10.4 廢棄折扣設(shè)定 Deprecating the Discounted Setting 253
10.5 差分半梯度n步Sarsa Differential Semi-gradient n-step Sarsa 255
10.6 本章總結(jié) Summary 256
第十一章 *離策略的近似方法 *Off-policy Methods with Approximation 257
11.1 半梯度方法 Semi-gradient Methods 258
11.2 離策略發(fā)散的例子 Examples of Off-policy Divergence 260
11.3 致命三角 The Deadly Triad 264
11.4 線性價(jià)值函數(shù)幾何 Linear Value-function Geometry 266
11.5 貝爾曼誤差的梯度下降 Gradient Descent in the Bellman Error 269
11.6 貝爾曼誤差是不可學(xué)習(xí)的 The Bellman Error is Not Learnable 274
11.7 梯度TD方法 Gradient-TD Methods 278
11.8 強(qiáng)調(diào)TD方法 Emphatic-TD Methods 281
11.9 降低方差 Reducing Variance 283
11.10 本章總結(jié) Summary 284
第十二章 資格跡 Eligibility Traces 287
12.1 λ-回報(bào) The λ-return 288
12.2 TD(λ) TD(λ) 292
12.3 n步截?cái)唳?回報(bào)方法 n-step Truncated λ-return Methods 295
12.4 重做更新:在線λ-回報(bào)算法 Redoing Updates: Online λ-return Algorithm 297
12.5 真在線TD(λ) True Online TD(λ) 299
12.6 *蒙特卡羅學(xué)習(xí)中的荷蘭跡 *Dutch Traces in Monte Carlo Learning 301
12.7 Sarsa(λ) Sarsa(λ) 303
12.8 變化的λ和γ Variable λ and γ 307
12.9 帶控制變量的離策略跡 Off-policy Traces with Control Variates 309
12.10 Watkins的Q(λ)到樹備份(γ) Watkins’s Q(λ) to Tree-Backup(γ) 312
12.11 穩(wěn)定的帶跡的離策略方法 Stable Off-policy Methods with Traces 314
12.12 實(shí)現(xiàn)問(wèn)題 Implementation Issues 316
12.13 結(jié)論 Conclusions 317
第十三章 策略梯度方法 Policy Gradient Methods 321
13.1 策略近似及其優(yōu)勢(shì) Policy Approximation and its Advantages 322
13.2 策略梯度定理 The Policy Gradient Theorem 324
13.3 REINFORCE:蒙特卡羅策略梯度 REINFORCE: Monte Carlo Policy Gradient 326
13.4 帶基線的REINFORCE REINFORCE with Baseline 329
13.5 行動(dòng)者-評(píng)論者方法 Actor–Critic Methods 331
13.6 持續(xù)問(wèn)題的策略梯度 Policy Gradient for Continuing Problems 333
13.7 連續(xù)行動(dòng)的策略參數(shù)化 Policy Parameterization for Continuous Actions 335
13.8 本章總結(jié) Summary 337
第三部分 深入探究 III Looking Deeper 339
第十四章 心理學(xué) Psychology 341
14.1 預(yù)測(cè)和控制 Prediction and Control 342
14.2 古典條件作用 Classical Conditioning 343
14.2.1 阻塞和高階條件作用 Blocking and Higher-order Conditioning 345
14.2.2 Rescorla–Wagner模型 The Rescorla–Wagner Model 346
14.2.3 TD模型 The TD Model 349
14.2.4 TD模型的仿真 TD Model Simulations 350
14.3 工具性條件作用 Instrumental Conditioning 357
14.4 延遲強(qiáng)化 Delayed Reinforcement 361
14.5 認(rèn)知地圖 Cognitive Maps 363
14.6 習(xí)慣性和目標(biāo)導(dǎo)向的行為 Habitual and Goal-directed Behavior 364
14.7 本章總結(jié) Summary 368
第十五章 神經(jīng)科學(xué) Neuroscience 377
15.1 神經(jīng)科學(xué)基礎(chǔ) Neuroscience Basics 378
15.2 獎(jiǎng)勵(lì)信號(hào)、強(qiáng)化信號(hào)、價(jià)值和預(yù)測(cè)誤差 Reward Signals, Reinforcement Signals, Values, and Prediction Errors 380
15.3 獎(jiǎng)勵(lì)預(yù)測(cè)誤差假說(shuō) The Reward Prediction Error Hypothesis 381
15.4 多巴胺 Dopamine 383
15.5 獎(jiǎng)勵(lì)預(yù)測(cè)誤差假說(shuō)的實(shí)驗(yàn)支持 Experimental Support for the Reward Prediction Error Hypothesis 387
15.6 TD誤差/多巴胺對(duì)應(yīng) TD Error/Dopamine Correspondence 390
15.7 神經(jīng)行動(dòng)者-評(píng)論者 Neural Actor–Critic 395
15.8 行動(dòng)者和評(píng)論者的學(xué)習(xí)規(guī)則 Actor and Critic Learning Rules 398
15.9 快樂(lè)神經(jīng)元 Hedonistic Neurons 402
15.10 集體強(qiáng)化學(xué)習(xí) Collective Reinforcement Learning 404
15.11 大腦中的基于模型的方法 Model-based Methods in the Brain 407
15.12 癮 Addiction 409
15.13 本章總結(jié) Summary 410
第十六章 應(yīng)用和案例研究 Applications and Case Studies 421
16.1 TD-Gammon TD-Gammon 421
16.2 Samuel的跳棋玩家 Samuel’s Checkers Player 426
16.3 Watson的每日雙倍賭注 Watson’s Daily-Double Wagering 429
16.4 優(yōu)化記憶控制 Optimizing Memory Control 432
16.5 人類水平的視頻游戲 Human-level Video Game Play 436
16.6 掌握圍棋 Mastering the Game of Go 441
16.6.1 AlphaGo AlphaGo 444
16.6.2 AlphaGo Zero AlphaGo Zero 447
16.7 個(gè)性化網(wǎng)絡(luò)服務(wù) Personalized Web Services 450
16.8 熱氣流滑翔 Thermal Soaring 453
第十七章 前沿 Frontiers 459
17.1 一般價(jià)值函數(shù)和輔助任務(wù) General Value Functions and Auxiliary Tasks 459
17.2 通過(guò)選項(xiàng)的時(shí)間抽象 Temporal Abstraction via Options 461
17.3 觀測(cè)和狀態(tài) Observations and State 464
17.4 設(shè)計(jì)獎(jiǎng)勵(lì)信號(hào) Designing Reward Signals 469
17.5 剩余問(wèn)題 Remaining Issues 472
17.6 強(qiáng)化學(xué)習(xí)和人工智能的未來(lái) Reinforcement Learning and the Future of Artificial Intelligence 475
參考文獻(xiàn) References 481
索引 Index 519
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-801285.html
到了這里,關(guān)于【書籍】強(qiáng)化學(xué)習(xí)第二版(英文版電子版下載、github源碼)-附copilot翻譯的中英文目錄...的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!