強(qiáng)化學(xué)習(xí)：原理與Python實(shí)現(xiàn)

定　價(jià)：￥89.00

作　者：	肖智清著
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：	智能系統(tǒng)與技術(shù)叢書(shū)
標(biāo)　簽：	暫缺

購(gòu)買(mǎi)這本書(shū)可以去

ISBN：	9787111631774	出版時(shí)間：	2019-07-01	包裝：	平裝
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：	239	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　全書(shū)分為三個(gè)部分。第壹部分了解強(qiáng)化學(xué)習(xí)應(yīng)用，了解強(qiáng)化學(xué)習(xí)基本知識(shí)，搭建強(qiáng)化學(xué)習(xí)測(cè)試環(huán)境。該部分包括：強(qiáng)化學(xué)習(xí)的概況、強(qiáng)化學(xué)習(xí)簡(jiǎn)單示例、強(qiáng)化學(xué)習(xí)算法的常見(jiàn)思想、強(qiáng)化學(xué)習(xí)的應(yīng)用、強(qiáng)化學(xué)習(xí)測(cè)試環(huán)境的搭建。第二部分介紹強(qiáng)化學(xué)習(xí)理論與深度強(qiáng)化學(xué)習(xí)算法。強(qiáng)化學(xué)習(xí)理論部分：Markov決策過(guò)程的數(shù)學(xué)描述、Monte Carlo方法和時(shí)序差分方法的數(shù)學(xué)理論；深度強(qiáng)化學(xué)習(xí)算法部分：詳細(xì)剖析全部具有重要影響力的深度強(qiáng)化學(xué)習(xí)算法，結(jié)合TensorFlow實(shí)現(xiàn)源碼。第三部分介紹強(qiáng)化學(xué)習(xí)綜合應(yīng)用案例。

作者簡(jiǎn)介

　　肖智清強(qiáng)化學(xué)習(xí)一線研發(fā)人員，清華大學(xué)工學(xué)博士，現(xiàn)就職于全球知名投資銀行。擅長(zhǎng)概率統(tǒng)計(jì)和機(jī)器學(xué)習(xí)，近5年發(fā)表SCI/EI論文十余篇，是多個(gè)國(guó)際性知名期刊和會(huì)議審稿人。在國(guó)內(nèi)外多項(xiàng)程序設(shè)計(jì)和數(shù)據(jù)科學(xué)競(jìng)賽上獲得冠軍。

圖書(shū)目錄

前言
第1章　初識(shí)強(qiáng)化學(xué)習(xí) 1
1.1　強(qiáng)化學(xué)習(xí)及其關(guān)鍵元素 1
1.2　強(qiáng)化學(xué)習(xí)的應(yīng)用 3
1.3　智能體/環(huán)境接口 4
1.4　強(qiáng)化學(xué)習(xí)的分類(lèi) 6
1.4.1　按任務(wù)分類(lèi) 6
1.4.2　按算法分類(lèi) 7
1.5　如何學(xué)習(xí)強(qiáng)化學(xué)習(xí) 8
1.5.1　學(xué)習(xí)路線 9
1.5.2　學(xué)習(xí)資源 9
1.6　案例：基于Gym庫(kù)的智能體/環(huán)境交互 9
1.6.1　安裝Gym庫(kù) 10
1.6.2　使用Gym庫(kù) 10
1.6.3　小車(chē)上山 12
1.7　本章小結(jié) 14
第2章　Markov決策過(guò)程 16
2.1　Markov決策過(guò)程模型 16
2.1.1　離散時(shí)間Markov決策過(guò)程 16
2.1.2　環(huán)境與動(dòng)力 18
2.1.3　智能體與策略 19
2.1.4　獎(jiǎng)勵(lì)、回報(bào)與價(jià)值函數(shù) 19
2.2　Bellman期望方程 21
2.3　最優(yōu)策略及其性質(zhì) 25
2.3.1　最優(yōu)策略與最優(yōu)價(jià)值函數(shù) 25
2.3.2　Bellman最優(yōu)方程 25
2.3.3　用Bellman最優(yōu)方程求解最優(yōu)策略 29
2.4　案例：懸崖尋路 31
2.4.1　實(shí)驗(yàn)環(huán)境使用 31
2.4.2　求解Bellman期望方程 32
2.4.3　求解Bellman最優(yōu)方程 33
2.5　本章小結(jié) 35
第3章　有模型數(shù)值迭代 37
3.1　度量空間與壓縮映射 37
3.1.1　度量空間及其完備性 37
3.1.2　壓縮映射與Bellman算子 38
3.1.3　Banach不動(dòng)點(diǎn)定理 39
3.2　有模型策略迭代 40
3.2.1　策略評(píng)估 40
3.2.2　策略改進(jìn) 42
3.2.3　策略迭代 44
3.3　有模型價(jià)值迭代 45
3.4　動(dòng)態(tài)規(guī)劃 46
3.4.1　從動(dòng)態(tài)規(guī)劃看迭代算法 46
3.4.2　異步動(dòng)態(tài)規(guī)劃 47
3.5　案例：冰面滑行 47
3.5.1　實(shí)驗(yàn)環(huán)境使用 48
3.5.2　有模型策略迭代求解 49
3.5.3　有模型價(jià)值迭代求解 51
3.6　本章小結(jié) 52
第4章　回合更新價(jià)值迭代 54
4.1　同策回合更新 54
4.1.1　同策回合更新策略評(píng)估 54
4.1.2　帶起始探索的同策回合更新 58
4.1.3　基于柔性策略的同策回合更新 60
4.2　異策回合更新 62
4.2.1　重要性采樣 62
4.2.2　異策回合更新策略評(píng)估 64
4.2.3　異策回合更新最優(yōu)策略求解 65
4.3　案例：21點(diǎn)游戲 66
4.3.1　實(shí)驗(yàn)環(huán)境使用 66
4.3.2　同策策略評(píng)估 67
4.3.3　同策最優(yōu)策略求解 70
4.3.4　異策策略評(píng)估 72
4.3.5　異策最優(yōu)策略求解 73
4.4　本章小結(jié) 74
第5章　時(shí)序差分價(jià)值迭代 76
5.1　同策時(shí)序差分更新 76
5.1.1　時(shí)序差分更新策略評(píng)估 78
5.1.2　SARSA算法 81
5.1.3　期望SARSA算法 83
5.2　異策時(shí)序差分更新 85
5.2.1　基于重要性采樣的異策算法 85
5.2.2　Q學(xué)習(xí) 86
5.2.3　雙重Q學(xué)習(xí) 87
5.3　資格跡 89
5.3.1　λ回報(bào) 89
5.3.2　TD(λ) 90
5.4　案例：出租車(chē)調(diào)度 92
5.4.1　實(shí)驗(yàn)環(huán)境使用 93
5.4.2　同策時(shí)序差分學(xué)習(xí)調(diào)度 94
5.4.3　異策時(shí)序差分學(xué)習(xí)調(diào)度 97
5.4.4　資格跡學(xué)習(xí)調(diào)度 99
5.5　本章小結(jié) 100
第6章　函數(shù)近似方法 101
6.1　函數(shù)近似原理 101
6.1.1　隨機(jī)梯度下降 101
6.1.2　半梯度下降 103
6.1.3　帶資格跡的半梯度下降 105
6.2　線性近似 107
6.2.1　精確查找表與線性近似的關(guān)系 107
6.2.2　線性最小二乘策略評(píng)估 107
6.2.3　線性最小二乘最優(yōu)策略求解 109
6.3　函數(shù)近似的收斂性 109
6.4　深度Q學(xué)習(xí) 110
6.4.1　經(jīng)驗(yàn)回放 111
6.4.2　帶目標(biāo)網(wǎng)絡(luò)的深度Q學(xué)習(xí) 112
6.4.3　雙重深度Q網(wǎng)絡(luò) 114
6.4.4　對(duì)偶深度Q網(wǎng)絡(luò) 114
6.5　案例：小車(chē)上山 115
6.5.1　實(shí)驗(yàn)環(huán)境使用 116
6.5.2　用線性近似求解最優(yōu)策略 117
6.5.3　用深度Q學(xué)習(xí)求解最優(yōu)策略 120
6.6　本章小結(jié) 123
第7章　回合更新策略梯度方法 125
7.1　策略梯度算法的原理 125
7.1.1　函數(shù)近似與動(dòng)作偏好 125
7.1.2　策略梯度定理 126
7.2　同策回合更新策略梯度算法 128
7.2.1　簡(jiǎn)單的策略梯度算法 128
7.2.2　帶基線的簡(jiǎn)單策略梯度算法 129
7.3　異策回合更新策略梯度算法 131
7.4　策略梯度更新和極大似然估計(jì)的關(guān)系 132
7.5　案例：車(chē)桿平衡 132
7.5.1　同策策略梯度算法求解最優(yōu)策略 133
7.5.2　異策策略梯度算法求解最優(yōu)策略 135
7.6　本章小結(jié) 137
第8章　執(zhí)行者/評(píng)論者方法 139
8.1　同策執(zhí)行者/評(píng)論者算法 139
8.1.1　動(dòng)作價(jià)值執(zhí)行者/評(píng)論者算法 140
8.1.2　優(yōu)勢(shì)執(zhí)行者/評(píng)論者算法 141
8.1.3　帶資格跡的執(zhí)行者/評(píng)論者算法 143
8.2　基于代理優(yōu)勢(shì)的同策算法 143
8.2.1　代理優(yōu)勢(shì) 144
8.2.2　鄰近策略?xún)?yōu)化 145
8.3　信任域算法 146
8.3.1　KL散度 146
8.3.2　信任域 147
8.3.3　自然策略梯度算法 148
8.3.4　信任域策略?xún)?yōu)化 151
8.3.5　Kronecker因子信任域執(zhí)行者/評(píng)論者算法 152
8.4　重要性采樣異策執(zhí)行者/評(píng)論者算法 153
8.4.1　基本的異策算法 154
8.4.2　帶經(jīng)驗(yàn)回放的異策算法 154
8.5　柔性執(zhí)行者/評(píng)論者算法 157
8.5.1　熵 157
8.5.2　獎(jiǎng)勵(lì)工程和帶熵的獎(jiǎng)勵(lì) 158
8.5.3　柔性執(zhí)行者/評(píng)論者的網(wǎng)絡(luò)設(shè)計(jì) 159
8.6　案例：雙節(jié)倒立擺 161
8.6.1　同策執(zhí)行者/評(píng)論者算法求解最優(yōu)策略 162
8.6.2　異策執(zhí)行者/評(píng)論者算法求解最優(yōu)策略 168
8.7　本章小結(jié) 170
第9章　連續(xù)動(dòng)作空間的確定性策略 172
9.1　同策確定性算法 172
9.