定 價:¥69.00
作 者: | (印度)蘇達(dá)?!だS尚迪蘭 著 |
出版社: | 機(jī)械工業(yè)出版社 |
叢編項: | |
標(biāo) 簽: | 暫缺 |
ISBN: | 9787111612889 | 出版時間: | 2018-12-01 | 包裝: | 平裝 |
開本: | 16開 | 頁數(shù): | 字?jǐn)?shù): |
譯者序
原書前言
第1章 強(qiáng)化學(xué)習(xí)簡介 //1
1.1 什么是強(qiáng)化學(xué)習(xí) //1
1.2 強(qiáng)化學(xué)習(xí)算法 //2
1.3 強(qiáng)化學(xué)習(xí)與其他機(jī)器學(xué)習(xí)范式的不同 //3
1.4 強(qiáng)化學(xué)習(xí)的要素 //3
1.4.1 智能體 //3
1.4.2 策略函數(shù) //3
1.4.3 值函數(shù) //4
1.4.4 模型 //4
1.5 智能體環(huán)境接口 //4
1.6 強(qiáng)化學(xué)習(xí)的環(huán)境類型 //5
1.6.1 確定性環(huán)境 //5
1.6.2 隨機(jī)性環(huán)境 //5
1.6.3 完全可觀測環(huán)境 //5
1.6.4 部分可觀測環(huán)境 //5
1.6.5 離散環(huán)境 //5
1.6.6 連續(xù)環(huán)境 //5
1.6.7 情景和非情景環(huán)境 //5
1.6.8 單智能體和多智能體環(huán)境 //6
1.7 強(qiáng)化學(xué)習(xí)平臺 //6
1.7.1 OpenAI Gym和Universe //6
1.7.2 DeepMind Lab //6
1.7.3 RLGlue //6
1.7.4 Project Malmo //6
1.7.5 VizDoom //6
1.8 強(qiáng)化學(xué)習(xí)的應(yīng)用 //7
1.8.1 教育 //7
1.8.2 醫(yī)療和健康 //7
1.8.3 制造業(yè) //7
1.8.4 庫存管理 //7
1.8.5 金融 //7
1.8.6 自然語言處理和計算機(jī)視覺 //7
1.9 小結(jié) //8
1.10 問題 //8
1.11 擴(kuò)展閱讀 //8
第2章 從OpenAI和TensorFlow入門 //9
2.1 計算機(jī)設(shè)置 //9
2.1.1 安裝Anaconda //9
2.1.2 安裝Docker //10
2.1.3 安裝OpenAI Gym和Universe //11
2.2 OpenAI Gym //13
2.2.1 基本模擬 //13
2.2.2 訓(xùn)練機(jī)器人行走 //14
2.3 OpenAI Universe //16
2.3.1 構(gòu)建一個視頻游戲機(jī)器人 //16
2.4 TensorFlow //20
2.4.1 變量、常量和占位符 //20
2.4.2 計算圖 //21
2.4.3 會話 //21
2.4.4 TensorBoard //22
2.5 小結(jié) //25
2.6 問題 //25
2.7 擴(kuò)展閱讀 //25
第3章 馬爾可夫決策過程和動態(tài)規(guī)劃 //26
3.1 馬爾可夫鏈和馬爾可夫過程 //26
3.2 MDP //27
3.2.1 獎勵和回報 //28
3.2.2 情景和連續(xù)任務(wù) //28
3.2.3 折扣因數(shù) //28
3.2.4 策略函數(shù) //29
3.2.5 狀態(tài)值函數(shù) //29
3.2.6 狀態(tài)—行為值函數(shù)(Q函數(shù))//30
3.3 Bellman方程和最優(yōu)性 //30
3.3.1 推導(dǎo)值函數(shù)和Q函數(shù)的Bellman方程 //31
3.4 求解Bellman方程 //32
3.4.1 動態(tài)規(guī)劃 //32
3.5 求解冰凍湖問題 //38
3.5.1 值迭代 //39
3.5.2 策略迭代 //43
3.6 小結(jié) //45
3.7 問題 //45
3.8 擴(kuò)展閱讀 //46
第4章 基于蒙特卡羅方法的博弈游戲 //47
4.1 蒙特卡羅方法 //47
4.1.1 利用蒙特卡羅方法估計π值 //47
4.2 蒙特卡羅預(yù)測 //50
4.2.1 首次訪問蒙特卡羅 //51
4.2.2 每次訪問蒙特卡羅 //52
4.2.3 利用蒙特卡羅方法玩二十一點(diǎn)游戲 //52
4.3 蒙特卡羅控制 //58
4.3.1 蒙特卡羅探索開始 //58
4.3.2 在線策略的蒙特卡羅控制 //59
4.3.3 離線策略的蒙特卡羅控制 //61
4.4 小結(jié) //62
4.5 問題 //62
4.6 擴(kuò)展閱讀 //63
第5章 時間差分學(xué)習(xí) //64
5.1 時間差分學(xué)習(xí) //64
5.2 時間差分預(yù)測 //64
5.3 時間差分控制 //66
5.3.1 Q學(xué)習(xí) //66
5.3.2 SARSA //72
5.4 Q學(xué)習(xí)和SARSA之間的區(qū)別 //77
5.5 小結(jié) //77
5.6 問題 //78
5.7 擴(kuò)展閱讀 //78
第6章 MAB問題 //79
6.1 MAB問題 //79
6.1.1 ε貪婪策略 //80
6.1.2 Softmax探索算法 //82
6.1.3 UCB算法 //83
6.1.4 Thompson采樣算法 //85
6.2 MAB的應(yīng)用 //86
6.3 利用MAB識別正確的廣告標(biāo)識 //87
6.4 上下文賭博機(jī) //89
6.5 小結(jié) //89
6.6 問題 //89
6.7 擴(kuò)展閱讀 //89
第7章 深度學(xué)習(xí)基礎(chǔ) //90
7.1 人工神經(jīng)元 //90
7.2 ANN //91
7.2.1 輸入層 //92
7.2.2 隱層 //92
7.2.3 輸出層 //92
7.2.4 激活函數(shù) //92
7.3 深入分析ANN //93
7.3.1 梯度下降 //95
7.4 TensorFlow中的神經(jīng)網(wǎng)絡(luò) //99
7.5 RNN //101
7.5.1 基于時間的反向傳播 //103
7.6 LSTM RNN //104
7.6.1 利用LSTM RNN生成歌詞 //105
7.7 CNN //108
7.7.1 卷積層 //109
7.7.2 池化層 //111
7.7.3 全連接層 //112
7.7.4 CNN架構(gòu) //112
7.8 利用CNN對時尚產(chǎn)品進(jìn)行分類 //113
7.9 小結(jié) //117
7.10 問題 //117
7.11 擴(kuò)展閱讀 //118
第8章 基于DQN的Atari游戲 //119
8.1 什么是DQN //119
8.2 DQN的架構(gòu) //120
8.2.1 卷積網(wǎng)絡(luò) //120
8.2.2 經(jīng)驗回放 //121
8.2.3 目標(biāo)網(wǎng)絡(luò) //121
8.2.4 獎勵裁剪 //122
8.2.5 算法理解 //122
8.3 構(gòu)建一個智能體來玩Atari游戲 //122
8.4 雙DQN //129
8.5 優(yōu)先經(jīng)驗回放 //130
8.6 對抗網(wǎng)絡(luò)體系結(jié)構(gòu) //130
8.7 小結(jié) //131
8.8 問題 //132
8.9 擴(kuò)展閱讀 //132
第9章 基于DRQN玩Doom游戲 //133
9.1 DRQN //133
9.1.1 DRQN架構(gòu) //134
9.2 訓(xùn)練一個玩Doom游戲的智能體 //135
9.2.1 基本的Doom游戲 //135
9.2.2 基于DRQN的Doom游戲 //136
9.3 DARQN //145
9.3.1 DARQN架構(gòu) //145
9.4 小結(jié) //145
9.5 問題 //146
9.6 擴(kuò)展閱讀 //146
第10章 A3C網(wǎng)絡(luò) //147
10.1 A3C //147
10.1.1 異步優(yōu)勢行為者 //147
10.1.2 A3C架構(gòu) //148