注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)人工智能深度強化學(xué)習(xí):入門與實踐指南

深度強化學(xué)習(xí):入門與實踐指南

深度強化學(xué)習(xí):入門與實踐指南

定 價:¥119.00

作 者: [俄] 馬克西姆,拉潘(Maxim Lapan) 著,王靜怡,劉斌 譯
出版社: 機(jī)械工業(yè)出版社
叢編項:
標(biāo) 簽: 暫缺

購買這本書可以去


ISBN: 9787111668084 出版時間: 2021-04-01 包裝: 平裝
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  強化學(xué)習(xí)是機(jī)器學(xué)習(xí)發(fā)展非常迅速的一個領(lǐng)域,由于其靈活性和通用性,可以應(yīng)用在從玩游戲到優(yōu)化復(fù)雜制造過程的許多實際情況。本書幫助讀者迅速理解深度強化學(xué)習(xí),并從原理到新近算法進(jìn)行全面探索。關(guān)于強化學(xué)習(xí)的新資料很多,但多數(shù)過于專業(yè)和抽象,很不容易理解,并且從理解原理到可以實際解決問題之間還有巨大差距,而本書意在填補強化學(xué)習(xí)方法在實用性和結(jié)構(gòu)化信息方面的不足,以幫助讀者從整體上輕松理解深度強化學(xué)習(xí)。同時本書的另一個特點是面向?qū)嵺`,從簡單到非常復(fù)雜,將每種方法實際應(yīng)用在各種具體環(huán)境中,以幫助讀者在實際研究和工作中應(yīng)用深度強化學(xué)習(xí)來解決問題。 本書適合深度強化學(xué)習(xí)、機(jī)器學(xué)習(xí)、人工智能相關(guān)行業(yè)從業(yè)者、學(xué)習(xí)者閱讀參考。

作者簡介

  Maxim Lapan 深度學(xué)習(xí)研究者,作為一名軟件開發(fā)人員和系統(tǒng)架構(gòu)師,具有超過15年的專業(yè)經(jīng)驗,涵蓋了從Linux內(nèi)核驅(qū)動程序開發(fā)到可在數(shù)千臺服務(wù)器上工作的分布式應(yīng)用項目的設(shè)計與性能優(yōu)化。他在大數(shù)據(jù)、機(jī)器學(xué)習(xí)以及大型并行分布式HPC系統(tǒng)方面擁有豐富的工作經(jīng)驗,并擅長使用簡單的文字和生動的示例來解釋復(fù)雜事物。他目前專注的領(lǐng)域是深度學(xué)習(xí)的實際應(yīng)用,例如深度自然語言處理和深度強化學(xué)習(xí)。Maxim目前在以色列一家初創(chuàng)公司工作,擔(dān)任高級NLP開發(fā)人員。

圖書目錄

目 錄

原書前言
第1章 什么是強化學(xué)習(xí) // 1
1.1 學(xué)習(xí)—監(jiān)督、無監(jiān)督和強化 // 1
1.2 RL形式和關(guān)系 // 3
1.2.1 獎勵 // 4
1.2.2 智能體 // 5
1.2.3 環(huán)境 // 5
1.2.4 動作 // 6
1.2.5 觀察 // 6
1.3 馬爾可夫決策過程簡介 // 8
1.3.1 馬爾可夫過程 // 8
1.3.2 馬爾可夫獎勵過程 // 11
1.3.3 馬爾可夫決策過程 // 13
1.4 本章小結(jié) // 16

第2章 OpenAI Gym開源平臺 // 17
2.1 智能體剖析 // 17
2.2 硬件和軟件要求 // 19
2.3 OpenAI Gym API // 20
2.3.1 動作空間 // 21
2.3.2 觀察空間 // 21
2.3.3 環(huán)境 // 22
2.3.4 創(chuàng)建環(huán)境 // 23
2.3.5 CartPole會話 // 25
2.4 隨機(jī)CartPole智能體 // 26
2.5 額外的Gym功能—Wrapper和Monitor // 27
2.5.1 Wrapper // 28
2.5.2 Monitor // 30
2.6 本章小結(jié) // 32

第3章  使用PyTorch進(jìn)行深度學(xué)習(xí) // 33
3.1 張量 // 33
3.1.1 創(chuàng)建張量 // 33
3.1.2 標(biāo)量張量 // 35
3.1.3 張量操作 // 36
3.1.4 GPU張量 // 36
3.2 梯度 // 37
3.2.1 張量和梯度 // 38
3.3 NN構(gòu)建塊 // 40
3.4 定制層級 // 41
3.5 最終的黏合劑—損失函數(shù)和優(yōu)化器 // 43
3.5.1 損失函數(shù) // 44
3.5.2 優(yōu)化器 // 44
3.6 使用TensorBoard監(jiān)控 // 45
3.6.1 TensorBoard簡介 // 46
3.6.2 繪圖工具 // 47
3.7 示例:在Atari圖像上使用GAN // 48
3.8 本章小結(jié) // 52

第4章 交叉熵方法 // 53
4.1 RL方法的分類 // 53
4.2 實踐交叉熵 // 54
4.3 CartPole上的交叉熵方法 // 55
4.4 FrozenLake上的交叉熵方法 // 62
4.5 交叉熵方法的理論背景 // 67
4.6 本章小結(jié) // 68

第5章  表格學(xué)習(xí)與Bellman方程 // 69
5.1 值、狀態(tài)、最優(yōu)性 // 69
5.2 最優(yōu)的Bellman方程 // 70
5.3 動作的值 // 72
5.4 值迭代法 // 74
5.5 實踐中的值迭代 // 75
5.6 FrozenLake中的Q-learning // 80
5.7 本章小結(jié) // 82

第6章 深度Q網(wǎng)絡(luò) // 83
6.1 現(xiàn)實中的值迭代 // 83
6.2 表格式Q-learning // 84
6.3 深度Q-learning // 88
6.3.1 與環(huán)境的交互 // 89
6.3.2 SGD優(yōu)化 // 90
6.3.3 步驟之間的相關(guān)性 // 90
6.3.4 馬爾可夫性 // 90
6.3.5 DQN訓(xùn)練的最終形式 // 91
6.4 Pong上的DQN // 91
6.4.1 封裝 // 92
6.4.2 DQN模型 // 96
6.4.3 訓(xùn)練 // 98
6.4.4 運行與性能 // 105
6.4.5 動作中的模型 // 107
6.5 本章小結(jié) // 109

第7章 DQN擴(kuò)展 // 110
7.1 PyTorch Agent Net函數(shù)庫 // 110
7.1.1 智能體 // 111
7.1.2 智能體的經(jīng)驗 // 112
7.1.3 經(jīng)驗緩沖區(qū) // 113
7.1.4 Gym env封裝 // 113
7.2 基本DQN // 113
7.3 N步DQN // 119
7.3.1 實現(xiàn) // 121
7.4 雙DQN // 123
7.4.1 實現(xiàn) // 123
7.4.2 結(jié)果 // 126
7.5 有噪網(wǎng)絡(luò) // 127
7.5.1 實現(xiàn) // 127
7.5.2 結(jié)果 // 130
7.6 優(yōu)先級重放緩沖區(qū) // 132
7.6.1 實現(xiàn) // 133
7.6.2 結(jié)果 // 137
7.7 競爭DQN // 137
7.7.1 實現(xiàn) // 138
7.7.2 結(jié)果 // 139
7.8 分類 // 140
7.8.1 實現(xiàn) // 142
7.8.2 結(jié)果 // 148
7.9 結(jié)合所有 // 149
7.9.1 實現(xiàn) // 150
7.9.2 結(jié)果 // 154
7.10 本章小結(jié) // 155
參考文獻(xiàn) // 155

第8章 RL用于股票交易 // 156
8.1 貿(mào)易 // 156
8.2 數(shù)據(jù) // 156
8.3 問題陳述和關(guān)鍵決策 // 157
8.4 交易環(huán)境 // 159
8.5 模型 // 165
8.6 訓(xùn)練代碼 // 166
8.7 結(jié)果 // 167
8.7.1 前饋模型 // 167
8.7.2 卷積模型 // 170
8.8 要嘗試的事 // 173
8.9 本章小結(jié) // 173

第9章  策略梯度法:一種替代方案 // 174
9.1 值與策略 // 174
9.1.1 為什么是策略 // 174
9.1.2 策略表示 // 175
9.1.3 策略梯度 // 175
9.2 強化方法 // 176
9.2.1 CartPole的例子 // 177
9.2.2 結(jié)果 // 180
9.2.3 基于策略的方法與基于值的方法 // 181
9.3 強化問題 // 181
9.3.1 完整episode是必需的 // 182
9.3.2 高梯度方差 // 182
9.3.3 探索 // 182
9.3.4 樣本之間的相關(guān)性 // 183
9.4 CartPole上的PG // 183
9.5 Pong上的PG // 187
9.6 本章小結(jié) // 190

第10章 Actor-Critic方法 // 191
10.1 方差減少 // 191
10.2 CartPole方差 // 192
10.3 Actor-Critic // 194
10.4 Pong上的A2C // 196
10.5 Pong上的A2C的結(jié)果 // 201
10.6 調(diào)整超參數(shù) // 202
10.6.1 學(xué)習(xí)率 // 203
10.6.2 熵beta // 203
10.6.3 環(huán)境數(shù)量 // 204
10.6.4 batch大小 // 204
10.7 本章小結(jié) // 204

第11章  異步優(yōu)勢Actor-Critic方法 // 205
11.1 相關(guān)性和樣本效率 // 205
11.2 在A2C中添加另一個A // 206
11.3 Python中的多處理 // 208
11.4 A3C—數(shù)據(jù)并行 // 208
11.5 A3C—梯度并行 // 214
11.6 本章小結(jié) // 219

第12章  用 RL訓(xùn)練聊天機(jī)器人 // 220
12.1 聊天機(jī)器人概述 // 220
12.2 Deep NLP基礎(chǔ)知識 // 221
12.2.1 RNN // 222
12.2.2 嵌入 // 223
12.2.3 編碼器 -解碼器 // 224
12.3 seq2seq訓(xùn)練 // 224
12.3.1 對數(shù)似然訓(xùn)練 // 224
12.3.2 雙語評估替補(BLEU)得分 // 226
12.3.3 seq2seq中的RL // 226
12.3.4 自我評價序列訓(xùn)練 // 228
12.4 聊天機(jī)器人示例 // 228
12.4.1 示例結(jié)構(gòu) // 229
12.4.2 模塊:cornell.py和data.py // 229
12.4.3 BLEU得分和utils.py // 230
12.4.4 模型 // 231
12.4.5 訓(xùn)練:交叉熵 // 236
12.4.6 執(zhí)行訓(xùn)練 // 239
12.4.7 檢查數(shù)據(jù) // 241
12.4.8 測試訓(xùn)練的模型 // 243
12.4.9 訓(xùn)練:SCST // 244
12.4.10 運行SCST訓(xùn)練 // 250
12.4.11 結(jié)果 // 251
12.4.12 電報機(jī)器人 // 252
12.5 本章小結(jié) // 254

第13章 Web瀏覽 // 255
13.1 網(wǎng)頁瀏覽 // 255
13.1.1 瀏覽器自動化操作和強化學(xué)習(xí) // 255
13.1.2 Mini World of Bits基準(zhǔn) // 256
13.2 OpenAI Universe // 258
13.2.1 安裝 // 258
13.2.2 動作和觀察 // 259
13.2.3 環(huán)境創(chuàng)建 // 259
13.2.4 MiniWoB穩(wěn)定性 // 261
13.3 簡單的點擊方式 // 261
13.3.1 網(wǎng)格動作 // 262
13.3.2 示例概述 // 263
13.3.3 模型 // 264
13.3.4 訓(xùn)練代碼 // 264
13.3.5 啟動容器 // 269
13.3.6 訓(xùn)練過程 // 271
13.3.7 檢查學(xué)到的策略 // 272
13.3.8 簡單點擊的問題 // 273
13.4 人工演示 // 275
13.4.1 記錄演示 // 275
13.4.2 錄制格式 // 277
13.4.3 使用演示進(jìn)行訓(xùn)練 // 279
13.4.4 結(jié)果 // 280
13.4.5 TicTacToe問題 // 281
13.5 增加文本描述 // 283
13.6 要嘗試的事情 // 288
13.7 本章小結(jié) // 288

第14章 連續(xù)動作空間 // 289
14.1 為什么是連續(xù)空間 // 289
14.2 動作空間 // 289
14.3 環(huán)境 // 290
14.4 Actor-Critic(A2C)方法 // 292
14.4.1 實現(xiàn) // 292
14.4.2 結(jié)果 // 295
14.4.3 使用模型和錄制視頻 // 296
14.5 確定性策略梯度 // 297
14.5.1 探索 // 298
14.5.2 實現(xiàn) // 298
14.5.3 結(jié)果 // 302
14.5.4 錄制視頻 // 303
14.6 分布式策略梯度 // 304
14.6.1 架構(gòu) // 304
14.6.2 實現(xiàn) // 304
14.6.3 結(jié)果 // 308
14.7 需要進(jìn)一步嘗試的事情 // 309
14.8 本章小結(jié) // 309

第15章  信賴域 —TRPO、PPO和ACKTR // 310
15.1 引言 // 310
15.2 roboschool // 310
15.3 A2C基線 // 311
15.3.1 結(jié)果 // 313
15.3.2 錄制視頻 // 313
15.4 PPO // 313
15.4.1 實現(xiàn) // 314
15.4.2 結(jié)果 // 317
15.5 TRPO // 318
15.5.1 實現(xiàn) // 318
15.5.2 結(jié)果 // 319
15.6 使用ACKTR的A2C // 320
15.6.1 實現(xiàn) // 320
15.6.2 結(jié)果 // 321
15.7 本章小結(jié) // 321

第16章 RL中的黑盒優(yōu)化 // 322
16.1 黑盒方法 // 322
16.2 進(jìn)化策略 // 322
16.2.1 CartPole上的ES // 323
16.2.2 HalfCheetah上的ES // 328
16.3 遺傳算法 // 332
16.3.1 CartPole上的GA // 333
16.3.2 GA調(diào)整 // 335
16.3.3 Cheetah上的GA // 336
16.4 本章小結(jié) // 339
參考文獻(xiàn) // 339

第17章  超越無模型 —想象力 // 340
17.1 基于模型與無模型 // 340
17.2 模型缺陷 // 341
17.3 想象力增強的智能體 // 342
17.3.1 環(huán)境模型 // 343
17.3.2 走步策略 // 343
17.3.3 走步編碼器 // 344
17.3.4 論文結(jié)果 // 344
17.4 Atari Breakout上的I2A // 344
17.4.1 基線A2C智能體 // 344
17.4.2 環(huán)境模型訓(xùn)練 // 345
17.4.3 想象力智能體 // 347
17.5 實驗結(jié)果 // 352
17.5.1 基線智能體 // 352
17.5.2 訓(xùn)練環(huán)境模型權(quán)重 // 353
17.5.3 使用I2A模型進(jìn)行訓(xùn)練 // 354
17.6 本章小結(jié) // 356
參考文獻(xiàn) // 356

第18章 AlphaGo Zero // 357
18.1 棋盤游戲 // 357
18.2 AlphaGo Zero方法 // 358
18.2.1 概述 // 358
18.2.2 MCTS // 359
18.2.3 自玩 // 360
18.2.4 訓(xùn)練和評估 // 360
18.3 Connect4機(jī)器人 // 361
18.3.1 游戲模型 // 361
18.3.2 實現(xiàn)MCTS // 363
18.3.3 模型 // 368
18.3.4 訓(xùn)練 // 369
18.3.5 測試和比較 // 370
18.4 Connect4結(jié)果 // 370
18.5 本章小結(jié) // 372
參考文獻(xiàn) // 372

本書總結(jié) // 373

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號