Python強(qiáng)化學(xué)習(xí)實戰(zhàn)：使用OpenAI Gym、TensorFlow和Keras

定　價：￥49.80

作　者：	[美] 托威赫·貝索洛著，敖富江，杜靜，張民壘譯
出版社：	清華大學(xué)出版社
叢編項：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787302570097	出版時間：	2021-02-01	包裝：	平裝
開本：	32開	頁數(shù)：	127	字?jǐn)?shù)：

內(nèi)容簡介

　　《Python強(qiáng)化學(xué)習(xí)實戰(zhàn)：使用OpenAI Gym、TensorFlow和Keras》帶領(lǐng)讀者深入強(qiáng)化學(xué)習(xí)算法的世界，并使用Python在不同用例中應(yīng)用它們。其中涵蓋了一些重要主題，例如策略梯度算法和Q學(xué)習(xí)算法，并使用了TensorFlow、Keras和OpenAIGym框架?！禤ython強(qiáng)化學(xué)習(xí)實戰(zhàn)：使用OpenAI Gym、TensorFlow和Keras》介紹了強(qiáng)化學(xué)習(xí)（RL）算法背后的理論及用于實現(xiàn)它們的代碼。讀者將依次學(xué)習(xí)OpenAIGym的各類功能，從應(yīng)用標(biāo)準(zhǔn)庫，到創(chuàng)建自己的環(huán)境，再到掌握如何構(gòu)建強(qiáng)化學(xué)習(xí)問題，從而能夠研究、開發(fā)和部署基于強(qiáng)化學(xué)習(xí)的解決方案。

作者簡介

　　Taweh Beysolow II是一位數(shù)據(jù)科學(xué)家和作家，目前居住在美國。他擁有美國圣約翰大學(xué)的經(jīng)濟(jì)學(xué)學(xué)士學(xué)位和福特漢姆大學(xué)的應(yīng)用統(tǒng)計學(xué)理學(xué)碩士學(xué)位。在成功退出與他人共同創(chuàng)立的初創(chuàng)公司后，他現(xiàn)在擔(dān)任總部位于舊金山的私人股本公司Industry Capital的董事，在那里領(lǐng)導(dǎo)加密貨幣和區(qū)塊鏈平臺。

圖書目錄

第1章強(qiáng)化學(xué)習(xí)導(dǎo)論 1

1.1 強(qiáng)化學(xué)習(xí)的發(fā)展史 2

1.2 MDP及其與強(qiáng)化學(xué)習(xí)的關(guān)系 3

1.3 強(qiáng)化學(xué)習(xí)算法和強(qiáng)化學(xué)習(xí)框架 5

1.4 Q學(xué)習(xí) 8

1.5 強(qiáng)化學(xué)習(xí)的應(yīng)用 9

1.5.1 經(jīng)典控制問題 9

1.5.2 《超級馬里奧兄弟》游戲 10

1.5.3 《毀滅戰(zhàn)士》游戲 11

1.5.4 基于強(qiáng)化學(xué)習(xí)的做市策略 12

1.5.5 《刺猬索尼克》游戲 12

1.6 本章小結(jié) 13

第2章強(qiáng)化學(xué)習(xí)算法 15

2.1 OpenAI Gym 15

2.2 基于策略的學(xué)習(xí) 16

2.3 策略梯度的數(shù)學(xué)解釋 17

2.4 基于梯度上升的策略優(yōu)化 19

2.5 使用普通策略梯度法求解車桿問題 20

2.6 什么是折扣獎勵，為什么要使用它們 23

2.7 策略梯度的不足 28

2.8 近端策略優(yōu)化(PPO)和Actor-Critic模型 29

2.9 實現(xiàn)PPO并求解《超級馬里奧兄弟》 30

2.9.1 《超級馬里奧兄弟》概述 30

2.9.2 安裝環(huán)境軟件包 31

2.9.3 資源庫中的代碼結(jié)構(gòu) 32

2.9.4 模型架構(gòu) 32

2.10 應(yīng)對難度更大的強(qiáng)化學(xué)習(xí)挑戰(zhàn) 37

2.11 容器化強(qiáng)化學(xué)習(xí)實驗 39

2.12 實驗結(jié)果 41

2.13 本章小結(jié) 41

第3章強(qiáng)化學(xué)習(xí)算法：Q學(xué)習(xí)及其變種 43

3.1 Q學(xué)習(xí) 43

3.2 時序差分(TD)學(xué)習(xí) 45

3.3 epsilon-greedy算法 46

3.4 利用Q學(xué)習(xí)求解冰湖問題 47

3.5 深度Q學(xué)習(xí) 50

3.6 利用深度Q學(xué)習(xí)玩《毀滅戰(zhàn)士》游戲 51

3.7 訓(xùn)練與性能 56

3.8 深度Q學(xué)習(xí)的局限性 57

3.9 雙Q學(xué)習(xí)和雙深度Q網(wǎng)絡(luò) 58

3.10 本章小結(jié) 59

第4章基于強(qiáng)化學(xué)習(xí)的做市策略 61

4.1 什么是做市 61

4.2 Trading Gym 63

4.3 為什么強(qiáng)化學(xué)習(xí)適用于做市 64

4.4 使用Trading Gym合成訂單簿數(shù)據(jù) 66

4.5 使用Trading Gym生成訂單簿數(shù)據(jù) 67

4.6 實驗設(shè)計 68

4.6.1 強(qiáng)化學(xué)習(xí)方法1：策略梯度 71

4.6.2 強(qiáng)化學(xué)習(xí)方法2：深度Q網(wǎng)絡(luò) 71

4.7 結(jié)果和討論 73

4.8 本章小結(jié) 74

第5章自定義OpenAI強(qiáng)化學(xué)習(xí)環(huán)境 75

5.1 《刺猬索尼克》游戲概述 75

5.2 下載該游戲 76

5.3 編寫該環(huán)境的代碼 78

5.4 A3C Actor-Critic 82

5.5 本章小結(jié) 88

附錄A 源代碼 91

Python強(qiáng)化學(xué)習(xí)實戰(zhàn)：使用OpenAI Gym、TensorFlow和Keras

購買這本書可以去

內(nèi)容簡介

作者簡介

圖書目錄

本目錄推薦

圖解C++開發(fā)基礎(chǔ)（案例視頻版）…

DeepSeek實戰(zhàn)：從提示詞到部署和…

JavaScript程序設(shè)計標(biāo)準(zhǔn)教程

無界：透視微軟創(chuàng)新研究之境

JavaScript項目開發(fā)全程實錄

一天理解JavaScript Promise

C語言不掛科

認(rèn)知躍遷：CTO寫給程序員的26節(jié)…

你好！Java 關(guān)東升

印刷圖像安全與智能識別

Python強(qiáng)化學(xué)習(xí)實戰(zhàn)：使用OpenAI Gym、TensorFlow和Keras

購買這本書可以去

內(nèi)容簡介

作者簡介

圖書目錄

本目錄推薦

Python強(qiáng)化學(xué)習(xí)實戰(zhàn)：使用OpenAI Gym、TensorFlow和Keras