注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡人工智能深度強化學習:基礎、研究與應用

深度強化學習:基礎、研究與應用

深度強化學習:基礎、研究與應用

定 價:¥129.00

作 者: 董豪 等 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121411885 出版時間: 2021-06-01 包裝: 平裝
開本: 16開 頁數(shù): 520 字數(shù):  

內容簡介

  深度強化學習結合深度學習與強化學習算法各自的優(yōu)勢解決復雜的決策任務。得益于 DeepMind AlphaGo 和 OpenAI Five 成功的案例,深度強化學習受到大量的關注,相關技術廣泛應用于不同的領域。本書分為三大部分,覆蓋深度強化學習的全部內容。第一部分介紹深度學習和強化學習的入門知識、一些非?;A的深度強化學習算法及其實現(xiàn)細節(jié),包括第 1~6 章。第二部分是一些精選的深度強化學習研究題目,這些內容對準備開展深度強化學習研究的讀者非常有用,包括第 7~12 章。第三部分提供了豐富的應用案例,包括 AlphaZero、讓機器人學習跑步等,包括第 13~17 章。本書是為計算機科學專業(yè)背景、希望從零開始學習深度強化學習并開展研究課題和實踐項目的學生準備的。本書也適合沒有很強的機器學習背景、但是希望快速學習深度強化學習并將其應用到具體產品中的軟件工程師閱讀。

作者簡介

  董 豪北京大學計算機系前沿計算研究中心助理教授、深圳鵬城實驗室雙聘成員。于 2019 年秋獲得英國帝國理工學院博士學位。研究方向主要涉及計算機視覺和生成模型,目的是降低學習智能系統(tǒng)所需要的數(shù)據。致力于推廣人工智能技術,是深度學習開源框架 TensorLayer 的創(chuàng)始人,此框架獲得 ACM MM 2017 年度最佳開源軟件獎。在英國帝國理工學院和英國中央蘭開夏大學獲得一等研究生和一等本科學位。丁子涵 英國帝國理工學院碩士。獲普林斯頓大學博士生全額獎學金,曾在加拿大 Borealis AI、騰訊 Robotics X 實驗室有過工作經歷。本科就讀于中國科學技術大學,獲物理和計算機雙學位。研究方向主要涉及強化學習、機器人控制、計算機視覺等。在 ICRA、NeurIPS、AAAI、IJCAI、Physical Review 等頂級期刊與會議發(fā)表多篇論文,是 TensorLayer-RLzoo、TensorLet 和 Arena 開源項目的貢獻者。仉尚航 加州大學伯克利分校,BAIR 實驗室(Berkeley AI Research Lab)博士后研究員。于 2018年獲得卡內基??梅隆大學博士學位。研究方向主要涉及深度學習、計算機視覺及強化學習。在NeurIPS、CVPR、ICCV、TNNLS、AAAI、IJCAI 等人工智能頂級期刊和會議發(fā)表多篇論文。目前主要從事 Human-inspired sample-efficient learning 理論與算法研究,包括 low-shot learning、domain adaptation、self learning 等。獲得 AAAI 2021 Best Paper Award, 美國 2018 Rising Stars in EECS,及Adobe Collaboration Fund、Qualcomm Innovation Fellowship Finalist Award 等獎勵。袁 航 英國牛津大學計算機科學博士在讀、李嘉誠獎學金獲得者,主攻人工智能安全和深度學習在健康醫(yī)療中的運用。曾在歐美各大高校和研究機構研習,如帝國理工學院、馬克斯普朗克研究所、瑞士聯(lián)邦理工和卡內基??梅隆大學。張鴻銘 中國科學院自動化研究所算法工程師。于 2018 年獲得北京大學碩士研究生學位。本科就讀于北京師范大學,獲理學學士學位。研究方向涉及統(tǒng)計機器學習、強化學習和啟發(fā)式搜索。張敬卿 英國帝國理工學院計算機系博士生,師從帝國理工學院數(shù)據科學院院長郭毅可院士。主要研究方向為深度學習、機器學習、文本挖掘、數(shù)據挖掘及其應用。曾獲得中國國家獎學金。2016年于清華大學計算機科學與技術系獲得學士學位,2017 年于帝國理工學院計算機系獲得一等研究性碩士學位。黃彥華 就職于小紅書,負責大規(guī)模機器學習及強化學習在推薦系統(tǒng)中的應用。2016 年在華東師范大學數(shù)學系獲得理學學士學位。曾貢獻過開源項目 PyTorch、TensorFlow 和 Ray。余天洋 啟元世界算法工程師,負責強化學習在博弈場景中的應用。碩士畢業(yè)于南昌大學,是TensorLayer-RLzoo 開源項目的貢獻者。張華清 谷歌公司算法和機器學習工程師,側重于多智能體強化學習和多層次結構博弈論方向研究,于華中科技大學獲得學士學位,后于 2017 年獲得休斯敦大學博士學位。黃銳桐 Borealis AI (加拿大皇家銀行研究院)團隊主管。于 2017 年獲得阿爾伯塔大學統(tǒng)計機器學習博士學位。本科就讀于中國科學技術大學數(shù)學系,后于滑鐵盧大學獲得計算機碩士學位。研究方向主要涉及在線學習、優(yōu)化、對抗學習和強化學習。廖培元 目前本科就讀于卡內基??梅隆大學計算機科學學院。研究方向主要涉及表示學習和多模態(tài)機器學習。曾貢獻過開源項目 mmdetection 和 PyTorch Cluster,在 Kaggle 數(shù)據科學社區(qū)曾獲Competitions Grandmaster 稱號,**排名全球前 25 位。

圖書目錄

基礎部分 1 第 1 章 深度學習入門 2
1.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 多層感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 激活函數(shù) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 損失函數(shù) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.1 梯度下降和誤差的反向傳播 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.2 隨機梯度下降和自適應學習率 . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6.3 超參數(shù)篩選 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 正則化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7.1 過擬合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7.2 權重衰減 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7.3 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7.4 批標準化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7.5 其他緩和過擬合的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8 卷積神經網絡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.9 循環(huán)神經網絡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.10 深度學習的實現(xiàn)樣例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.10.1 張量和梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.10.2 定義模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.10.3 自定義層 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.10.4 多層感知器:MNIST 數(shù)據集上的圖像分類 . . . . . . . . . . . . . . . . . . . 33
1.10.5 卷積神經網絡:CIFAR-10 數(shù)據集上的圖像分類 . . . . . . . . . . . . . . . . 35
1.10.6 序列到序列模型:聊天機器人 . . . . . . . . . . . . . . . . . . . . . . . . . . 36
第 2 章 強化學習入門 43
2.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2 在線預測和在線學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.2 隨機多臂賭博機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.2.3 對抗多臂賭博機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.2.4 上下文賭博機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.3 馬爾可夫過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.2 馬爾可夫獎勵過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3.3 馬爾可夫決策過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.3.4 貝爾曼方程和最優(yōu)性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.3.5 其他重要概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4 動態(tài)規(guī)劃 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4.1 策略迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.4.2 價值迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.4.3 其他 DPs:異步 DP、近似 DP 和實時 DP . . . . . . . . . . . . . . . . . . . 68
2.5 蒙特卡羅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.5.1 蒙特卡羅預測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.5.2 蒙特卡羅控制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.5.3 增量蒙特卡羅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.6 時間差分學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.6.1 時間差分預測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.6.2 Sarsa:在線策略 TD 控制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.6.3 Q-Learning:離線策略 TD 控制 . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.7 策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.7.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.7.2 基于價值的優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
2.7.3 基于策略的優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2.7.4 結合基于策略和基于價值的方法 . . . . . . . . . . . . . . . . . . . . . . . . 105
第 3 章 強化學習算法分類 110
3.1 基于模型的方法和無模型的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.2 基于價值的方法和基于策略的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.3 蒙特卡羅方法和時間差分方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
3.4 在線策略方法和離線策略方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
第 4 章 深度 Q 網絡 119
4.1 Sarsa 和 Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.2 為什么使用深度學習: 價值函數(shù)逼近 . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.3 DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.4 Double DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.5 Dueling DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.6 優(yōu)先經驗回放 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.7 其他改進內容:多步學習、噪聲網絡和值分布強化學習 . . . . . . . . . . . . . . . 128
4.8 DQN 代碼實例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
第 5 章 策略梯度 146
5.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2 REINFORCE:初版策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
5.3 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.4 生成對抗網絡和 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
5.5 同步優(yōu)勢 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5.6 異步優(yōu)勢 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.7 信賴域策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
5.8 近端策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.9 使用 Kronecker 因子化信賴域的 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . 159
5.10 策略梯度代碼例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.10.1 相關的 Gym 環(huán)境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.10.2 REINFORCE: Atari Pong 和 CartPole-V0 . . . . . . . . . . . . . . . . . . . . . 165
5.10.3 AC: CartPole-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.10.4 A3C: BipedalWalker-v2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
5.10.5 TRPO: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
5.10.6 PPO: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
第 6 章 深度 Q 網絡和 Actor-Critic 的結合 200
6.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
6.2 深度確定性策略梯度算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
6.3 孿生延遲 DDPG 算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
6.4 柔性 Actor-Critic 算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
6.4.1 柔性策略迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
6.4.2 SAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.5 代碼例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
6.5.1 相關的 Gym 環(huán)境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
6.5.2 DDPG: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
6.5.3 TD3: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
6.5.4 SAC: Pendulum-v0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
研究部分 236
第 7 章 深度強化學習的挑戰(zhàn) 237
7.1 樣本效率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
7.2 學習穩(wěn)定性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
7.3 災難性遺忘 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
7.4 探索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
7.5 元學習和表征學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
7.6 多智能體強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
7.7 模擬到現(xiàn)實 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
7.8 大規(guī)模強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
7.9 其他挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
第 8 章 模仿學習 258
8.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
8.2 行為克隆方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
8.2.1 行為克隆方法的挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
8.2.2 數(shù)據集聚合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
8.2.3 Variational Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
8.2.4 行為克隆的其他方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
8.3 逆向強化學習方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
8.3.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
8.3.2 逆向強化學習方法的挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
8.3.3 生成對抗模仿學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
8.3.4 生成對抗網絡指導性代價學習 . . . . . . . . . . . . . . . . . . . . . . . . . . 266
8.3.5 對抗性逆向強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
8.4 從觀察量進行模仿學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
8.4.1 基于模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
8.4.2 無模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
8.4.3 從觀察量模仿學習的挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
8.5 概率性方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
8.6 模仿學習作為強化學習的初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
8.7 強化學習中利用示范數(shù)據的其他方法 . . . . . . . . . . . . . . . . . . . . . . . . . . 280
8.7.1 將示范數(shù)據導入經驗回放緩存 . . . . . . . . . . . . . . . . . . . . . . . . . . 280
8.7.2 標準化 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
8.7.3 用示范數(shù)據進行獎勵塑形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
8.8 總結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
第 9 章 集成學習與規(guī)劃 289
9.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
9.2 基于模型的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
9.3 集成模式架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
9.4 基于模擬的搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
9.4.1 樸素蒙特卡羅搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
9.4.2 蒙特卡羅樹搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
9.4.3 時間差分搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
第 10 章 分層強化學習 298
10.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
10.2 選項框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
10.2.1 戰(zhàn)略專注作家 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
10.2.2 選項-批判者結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
10.3 封建制強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
10.3.1 封建制網絡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
10.3.2 離線策略修正 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
10.4 其他工作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
第 11 章 多智能體強化學習 315
11.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
11.2 優(yōu)化和均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
11.2.1 納什均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
11.2.2 關聯(lián)性均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
11.2.3 斯塔克爾伯格博弈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
11.3 競爭與合作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
11.3.1 合作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
11.3.2 零和博弈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
11.3.3 同時決策下的競爭 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
11.3.4 順序決策下的競爭 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
11.4 博弈分析架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
第 12 章 并行計算 326
12.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
12.2 同步和異步 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
12.3 并行計算網絡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
12.4 分布式強化學習算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
12.4.1 異步優(yōu)勢 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
12.4.2 GPU/CPU 混合式異步優(yōu)勢 Actor-Critic . . . . . . . . . . . . . . . . . . . . . 332
12.4.3 分布式近端策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
12.4.4 重要性加權的行動者-學習者結構和可擴展高效深度強化學習 . . . . . . . . 336
12.4.5 Ape-X、回溯-行動者和分布式深度循環(huán)回放 Q 網絡 . . . . . . . . . . . . . 338
12.4.6 Gorila . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
12.5 分布式計算架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
應用部分 343
第 13 章 Learning to Run 344
13.1 NeurIPS 2017 挑戰(zhàn):Learning to Run . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
13.1.1 環(huán)境介紹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
13.1.2 安裝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
13.2 訓練智能體 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
13.2.1 并行訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
13.2.2 小技巧 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
13.2.3 學習結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
第 14 章 魯棒的圖像增強 354
14.1 圖像增強 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
14.2 用于魯棒處理的強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
第 15 章 AlphaZero 366
15.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
15.2 組合博弈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
15.3 蒙特卡羅樹搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
15.4 AlphaZero:棋類游戲的通用算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
第 16 章 模擬環(huán)境中機器人學習 388
16.1 機器人模擬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
16.2 強化學習用于機器人任務 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
16.2.1 并行訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
16.2.2 學習效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
16.2.3 域隨機化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408
16.2.4 機器人學習基準 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409
16.2.5 其他模擬器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409
第 17 章 Arena:多智能體強化學習平臺 412
17.1 安裝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
17.2 用 Arena 開發(fā)游戲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
17.2.1 簡單的單玩家游戲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
17.2.2 簡單的使用獎勵機制的雙玩家游戲 . . . . . . . . . . . . . . . . . . . . . . . 416
17.2.3 高級設置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
17.2.4 導出二進制游戲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
17.3 MARL 訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
17.3.1 設置 X-Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
17.3.2 進行訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
17.3.3 可視化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
17.3.4 致謝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
第 18 章 深度強化學習應用實踐技巧 433
18.1 概覽:如何應用深度強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
18.2 實現(xiàn)階段 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
18.3 訓練和調試階段 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
總結部分 445
附錄 A 算法總結表 446
附錄 B 算法速查表 451
B.1 深度學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451
B.1.1 隨機梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451
B.1.2 Adam 優(yōu)化器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
B.2 強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
B.2.1 賭博機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
B.2.2 動態(tài)規(guī)劃 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
B.2.3 蒙特卡羅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
B.3 深度強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
B.4 高等深度強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
B.4.1 模仿學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
B.4.2 基于模型的強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468
B.4.3 分層強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
B.4.4 多智能體強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
B.4.5 并行計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
附錄 C 中英文對照表 476

本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號