Python強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)：應(yīng)用OpenAI Gym和TensorFlow精通強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)

定　價(jià)：￥69.00

作　者：	（印度）蘇達(dá)?！だS尚迪蘭著
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買這本書可以去

ISBN：	9787111612889	出版時(shí)間：	2018-12-01	包裝：	平裝
開本：	16開	頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　強(qiáng)化學(xué)習(xí)是一種重要的機(jī)器學(xué)習(xí)方法，在智能體及分析預(yù)測(cè)等領(lǐng)域有許多應(yīng)用?！禤ython強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)：應(yīng)用OpenAI Gym和TensorFlow精通強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)》共13章，主要包括強(qiáng)化學(xué)習(xí)的各種要素，即智能體、環(huán)境、策略和模型以及相應(yīng)平臺(tái)和庫(kù)；Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置；馬爾可夫鏈和馬爾可夫過程及其與強(qiáng)化學(xué)習(xí)問題建模之間的關(guān)系，動(dòng)態(tài)規(guī)劃的基本概念；蒙特卡羅方法以及不同類型的蒙特卡羅預(yù)測(cè)和控制方法；時(shí)間差分學(xué)習(xí)、預(yù)測(cè)、離線/在線策略控制等；多臂賭博機(jī)問題以及相關(guān)的各種探索策略方法；深度學(xué)習(xí)的各種基本概念和RNN、LSTM、CNN等神經(jīng)網(wǎng)絡(luò)；深度強(qiáng)化學(xué)習(xí)算法DQN，以及雙DQN和對(duì)抗網(wǎng)絡(luò)體系結(jié)構(gòu)等改進(jìn)架構(gòu)；DRQN以及DARQN；A3C網(wǎng)絡(luò)的基本工作原理及架構(gòu)；策略梯度和優(yōu)化問題；*后介紹了強(qiáng)化學(xué)習(xí)的*新進(jìn)展以及未來發(fā)展。

作者簡(jiǎn)介

　　作者簡(jiǎn)介Sudharsan Ravichandiran 是一位數(shù)據(jù)科學(xué)家、研究員、人工智能愛好者以及 YouTuber（搜索 Sudharsan reinforcement learning），獲得了 Anna 大學(xué)信息技術(shù)學(xué)士學(xué)位。他的研究領(lǐng)域包括深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的實(shí)現(xiàn)，其中包括自然語言處理和計(jì)算機(jī)視覺。他曾是一名自由職業(yè)的網(wǎng)頁開發(fā)人員和設(shè)計(jì)師，所設(shè)計(jì)開發(fā)的網(wǎng)站屢獲殊榮，同時(shí)也熱衷于開源，擅長(zhǎng)解答堆棧溢出問題。原書審稿人簡(jiǎn)介Sujit Pal 是 Elsevier 實(shí)驗(yàn)室的技術(shù)研究總監(jiān)， Elsevier 實(shí)驗(yàn)室是 Reed-Elservier 集團(tuán)公司下的一個(gè)先進(jìn)技術(shù)團(tuán)隊(duì)，研究領(lǐng)域包括語義檢索、自然語言處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。他在 Elsevier 實(shí)驗(yàn)室主要從事搜索質(zhì)量檢測(cè)與改進(jìn)、圖像分類和重復(fù)率檢測(cè)、醫(yī)學(xué)和科學(xué)語料庫(kù)的標(biāo)注與本體開發(fā)。他曾與 Antonio Gulli 合作撰寫了一本關(guān)于深度學(xué)習(xí)的著作，并在博客 Slamon Run 上撰寫了一些科技文章。Suriyadeepan Ramamoorthy 是一名來自印度 Puducherry 的 AI 研究人員和工程師，主要研究領(lǐng)域是自然語言理解和推理，同時(shí)積極撰寫有關(guān)深度學(xué)習(xí)的博客文章。在 SAAMA 技術(shù)中，他將先進(jìn)的深度學(xué)習(xí)技術(shù)應(yīng)用于生物醫(yī)學(xué)文本分析，同時(shí)也是一名積極推動(dòng) FSFTN領(lǐng)域發(fā)展的免費(fèi)軟件宣傳者，另外對(duì)社交網(wǎng)絡(luò)、數(shù)據(jù)可視化和創(chuàng)造性編程也非常感興趣。

圖書目錄

譯者序

原書前言

第1章強(qiáng)化學(xué)習(xí)簡(jiǎn)介 //1

1.1　什么是強(qiáng)化學(xué)習(xí) //1

1.2　強(qiáng)化學(xué)習(xí)算法 //2

1.3　強(qiáng)化學(xué)習(xí)與其他機(jī)器學(xué)習(xí)范式的不同 //3

1.4　強(qiáng)化學(xué)習(xí)的要素 //3

1.4.1　智能體 //3

1.4.2　策略函數(shù) //3

1.4.3　值函數(shù) //4

1.4.4　模型 //4

1.5　智能體環(huán)境接口 //4

1.6　強(qiáng)化學(xué)習(xí)的環(huán)境類型 //5

1.6.1　確定性環(huán)境 //5

1.6.2　隨機(jī)性環(huán)境 //5

1.6.3　完全可觀測(cè)環(huán)境 //5

1.6.4　部分可觀測(cè)環(huán)境 //5

1.6.5　離散環(huán)境 //5

1.6.6　連續(xù)環(huán)境 //5

1.6.7　情景和非情景環(huán)境 //5

1.6.8　單智能體和多智能體環(huán)境 //6

1.7　強(qiáng)化學(xué)習(xí)平臺(tái) //6

1.7.1　OpenAI Gym和Universe //6

1.7.2　DeepMind Lab //6

1.7.3　RLGlue //6

1.7.4　Project Malmo //6

1.7.5　VizDoom //6

1.8　強(qiáng)化學(xué)習(xí)的應(yīng)用 //7

1.8.1　教育 //7

1.8.2　醫(yī)療和健康 //7

1.8.3　制造業(yè) //7

1.8.4　庫(kù)存管理 //7

1.8.5　金融 //7

1.8.6　自然語言處理和計(jì)算機(jī)視覺 //7

1.9　小結(jié) //8

1.10　問題 //8

1.11　擴(kuò)展閱讀 //8

第2章從OpenAI和TensorFlow入門 //9

2.1　計(jì)算機(jī)設(shè)置 //9

2.1.1　安裝Anaconda //9

2.1.2　安裝Docker //10

2.1.3　安裝OpenAI Gym和Universe //11

2.2　OpenAI Gym //13

2.2.1　基本模擬 //13

2.2.2　訓(xùn)練機(jī)器人行走 //14

2.3　OpenAI Universe //16

2.3.1　構(gòu)建一個(gè)視頻游戲機(jī)器人 //16

2.4　TensorFlow //20

2.4.1　變量、常量和占位符 //20

2.4.2　計(jì)算圖 //21

2.4.3　會(huì)話 //21

2.4.4　TensorBoard //22

2.5　小結(jié) //25

2.6　問題 //25

2.7　擴(kuò)展閱讀 //25

第3章馬爾可夫決策過程和動(dòng)態(tài)規(guī)劃 //26

3.1　馬爾可夫鏈和馬爾可夫過程 //26

3.2　MDP //27

3.2.1　獎(jiǎng)勵(lì)和回報(bào) //28

3.2.2　情景和連續(xù)任務(wù) //28

3.2.3　折扣因數(shù) //28

3.2.4　策略函數(shù) //29

3.2.5　狀態(tài)值函數(shù) //29

3.2.6　狀態(tài)—行為值函數(shù)（Q函數(shù)）//30

3.3　Bellman方程和最優(yōu)性 //30

3.3.1　推導(dǎo)值函數(shù)和Q函數(shù)的Bellman方程 //31

3.4　求解Bellman方程 //32

3.4.1　動(dòng)態(tài)規(guī)劃 //32

3.5　求解冰凍湖問題 //38

3.5.1　值迭代 //39

3.5.2　策略迭代 //43

3.6　小結(jié) //45

3.7　問題 //45

3.8　擴(kuò)展閱讀 //46

第4章基于蒙特卡羅方法的博弈游戲 //47

4.1　蒙特卡羅方法 //47

4.1.1　利用蒙特卡羅方法估計(jì)π值 //47

4.2　蒙特卡羅預(yù)測(cè) //50

4.2.1　首次訪問蒙特卡羅 //51

4.2.2　每次訪問蒙特卡羅 //52

4.2.3　利用蒙特卡羅方法玩二十一點(diǎn)游戲 //52

4.3　蒙特卡羅控制 //58

4.3.1　蒙特卡羅探索開始 //58

4.3.2　在線策略的蒙特卡羅控制 //59

4.3.3　離線策略的蒙特卡羅控制 //61

4.4　小結(jié) //62

4.5　問題 //62

4.6　擴(kuò)展閱讀 //63

第5章時(shí)間差分學(xué)習(xí) //64

5.1　時(shí)間差分學(xué)習(xí) //64

5.2　時(shí)間差分預(yù)測(cè) //64

5.3　時(shí)間差分控制 //66

5.3.1　Q學(xué)習(xí) //66

5.3.2　SARSA //72

5.4　Q學(xué)習(xí)和SARSA之間的區(qū)別 //77

5.5　小結(jié) //77

5.6　問題 //78

5.7　擴(kuò)展閱讀 //78

第6章 MAB問題 //79

6.1　MAB問題 //79

6.1.1　ε貪婪策略 //80

6.1.2　Softmax探索算法 //82

6.1.3　UCB算法 //83

6.1.4　Thompson采樣算法 //85

6.2　MAB的應(yīng)用 //86

6.3　利用MAB識(shí)別正確的廣告標(biāo)識(shí) //87

6.4　上下文賭博機(jī) //89

6.5　小結(jié) //89

6.6　問題 //89

6.7　擴(kuò)展閱讀 //89

第7章深度學(xué)習(xí)基礎(chǔ) //90

7.1　人工神經(jīng)元 //90

7.2　ANN //91

7.2.1　輸入層 //92

7.2.2　隱層 //92

7.2.3　輸出層 //92

7.2.4　激活函數(shù) //92

7.3　深入分析ANN //93

7.3.1　梯度下降 //95

7.4　TensorFlow中的神經(jīng)網(wǎng)絡(luò) //99

7.5　RNN //101

7.5.1　基于時(shí)間的反向傳播 //103

7.6　LSTM RNN //104

7.6.1　利用LSTM RNN生成歌詞 //105

7.7　CNN //108

7.7.1　卷積層 //109

7.7.2　池化層 //111

7.7.3　全連接層 //112

7.7.4　CNN架構(gòu) //112

7.8　利用CNN對(duì)時(shí)尚產(chǎn)品進(jìn)行分類　//113

7.9　小結(jié) //117

7.10　問題 //117

7.11　擴(kuò)展閱讀 //118

第8章基于DQN的Atari游戲　//119

8.1　什么是DQN //119

8.2　DQN的架構(gòu) //120

8.2.1　卷積網(wǎng)絡(luò) //120

8.2.2　經(jīng)驗(yàn)回放 //121

8.2.3　目標(biāo)網(wǎng)絡(luò) //121

8.2.4　獎(jiǎng)勵(lì)裁剪 //122

8.2.5　算法理解 //122

8.3　構(gòu)建一個(gè)智能體來玩Atari游戲 //122

8.4　雙DQN //129

8.5　優(yōu)先經(jīng)驗(yàn)回放 //130

8.6　對(duì)抗網(wǎng)絡(luò)體系結(jié)構(gòu) //130

8.7　小結(jié) //131

8.8　問題 //132

8.9　擴(kuò)展閱讀 //132

第9章基于DRQN玩Doom游戲　//133

9.1　DRQN //133

9.1.1　DRQN架構(gòu) //134

9.2　訓(xùn)練一個(gè)玩Doom游戲的智能體 //135

9.2.1　基本的Doom游戲 //135

9.2.2　基于DRQN的Doom游戲 //136

9.3　DARQN //145

9.3.1　DARQN架構(gòu) //145

9.4　小結(jié) //145

9.5　問題 //146

9.6　擴(kuò)展閱讀 //146

第10章 A3C網(wǎng)絡(luò) //147

10.1　A3C //147

10.1.1　異步優(yōu)勢(shì)行為者 //147

10.1.2　A3C架構(gòu) //148

TRIZ理論在高職藝術(shù)設(shè)計(jì)專業(yè)學(xué)生…

Python強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)：應(yīng)用OpenAI Gym和TensorFlow精通強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)

購(gòu)買這本書可以去

內(nèi)容簡(jiǎn)介

作者簡(jiǎn)介

圖書目錄

本目錄推薦

建筑制圖習(xí)題集（第二版）

裝配式建筑技術(shù)與綠色建筑設(shè)計(jì)研…

文心耕耘

工業(yè)設(shè)計(jì)材料手冊(cè)

磚筑生態(tài)村鎮(zhèn)同籌綠水青山：中國(guó)…

建筑設(shè)計(jì)藝術(shù)研究

安藤忠雄與光影同在

綠洲城市規(guī)模、結(jié)構(gòu)與效益研究

共建共享通信建筑設(shè)計(jì)標(biāo)準(zhǔn)