注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)人工智能深入淺出強化學(xué)習(xí):原理入門

深入淺出強化學(xué)習(xí):原理入門

深入淺出強化學(xué)習(xí):原理入門

定 價:¥79.00

作 者: 郭憲,方勇純 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787121329180 出版時間: 2018-01-01 包裝: 平裝
開本: 16 頁數(shù): 256 字數(shù):  

內(nèi)容簡介

  《深入淺出強化學(xué)習(xí):原理入門》用通俗易懂的語言深入淺出地介紹了強化學(xué)習(xí)的基本原理,覆蓋了傳統(tǒng)的強化學(xué)習(xí)基本方法和當(dāng)前炙手可熱的深度強化學(xué)習(xí)方法。開篇從最基本的馬爾科夫決策過程入手,將強化學(xué)習(xí)問題納入到嚴謹?shù)臄?shù)學(xué)框架中,接著闡述了解決此類問題最基本的方法——動態(tài)規(guī)劃方法,并從中總結(jié)出解決強化學(xué)習(xí)問題的基本思路:交互迭代策略評估和策略改善。 基于這個思路,分別介紹了基于值函數(shù)的強化學(xué)習(xí)方法和基于直接策略搜索的強化學(xué)習(xí)方法。最后介紹了逆向強化學(xué)習(xí)方法和近年具有代表性、比較前沿的強化學(xué)習(xí)方法。 除了系統(tǒng)地介紹基本理論,書中還介紹了相應(yīng)的數(shù)學(xué)基礎(chǔ)和編程實例。因此,《深入淺出強化學(xué)習(xí):原理入門》既適合零基礎(chǔ)的人員入門學(xué)習(xí)、也適合相關(guān)科研人員作為研究參考。

作者簡介

暫缺《深入淺出強化學(xué)習(xí):原理入門》作者簡介

圖書目錄

1 緒論 1
1.1 這是一本什么書 1
1.2 強化學(xué)習(xí)可以解決什么問題 2
1.3 強化學(xué)習(xí)如何解決問題 4
1.4 強化學(xué)習(xí)算法分類及發(fā)展趨勢 5
1.5 強化學(xué)習(xí)仿真環(huán)境構(gòu)建 7
1.5.1 gym安裝及簡單的demo示例 8
1.5.2 深入剖析gym環(huán)境構(gòu)建 10
1.6 本書主要內(nèi)容及安排 12
第一篇 強化學(xué)習(xí)基礎(chǔ) 17
2 馬爾科夫決策過程 18
2.1 馬爾科夫決策過程理論講解 18
2.2 MDP中的概率學(xué)基礎(chǔ)講解 26
2.3 基于gym的MDP實例講解 29
2.4 習(xí)題 34
3 基于模型的動態(tài)規(guī)劃方法 36
3.1 基于模型的動態(tài)規(guī)劃方法理論 36
3.2 動態(tài)規(guī)劃中的數(shù)學(xué)基礎(chǔ)講解 47
3.2.1 線性方程組的迭代解法 47
3.2.2 壓縮映射證明策略評估的收斂性 49
3.3 基于gym的編程實例 52
3.4 最優(yōu)控制與強化學(xué)習(xí)比較 54
3.5 習(xí)題 56
第二篇 基于值函數(shù)的強化學(xué)習(xí)方法 57
4 基于蒙特卡羅的強化學(xué)習(xí)方法 58
4.1 基于蒙特卡羅方法的理論 58
4.2 統(tǒng)計學(xué)基礎(chǔ)知識 67
4.3 基于Python的編程實例 71
4.4 習(xí)題 74
5 基于時間差分的強化學(xué)習(xí)方法 75
5.1 基于時間差分強化學(xué)習(xí)算法理論講解 75
5.2 基于Python和gym的編程實例 83
5.3 習(xí)題 87
6 基于值函數(shù)逼近的強化學(xué)習(xí)方法 88
6.1 基于值函數(shù)逼近的理論講解 88
6.2 DQN及其變種 94
6.2.1 DQN方法 94
6.2.2 Double DQN 100
6.2.3 優(yōu)先回放(Prioritized Replay) 102
6.2.4 Dueling DQN 104
6.3 函數(shù)逼近方法 105
6.3.1 基于非參數(shù)的函數(shù)逼近 105
6.3.2 基于參數(shù)的函數(shù)逼近 111
6.3.3 卷積神經(jīng)網(wǎng)絡(luò) 117
6.4 習(xí)題 123
第三篇 基于直接策略搜索的強化學(xué)習(xí)方法 125
7 基于策略梯度的強化學(xué)習(xí)方法 126
7.1 基于策略梯度的強化學(xué)習(xí)方法理論講解 126
7.2 基于gym和TensorFlow的策略梯度算法實現(xiàn) 134
7.2.1 安裝Tensorflow 135
7.2.2 策略梯度算法理論基礎(chǔ) 135
7.2.3 Softmax策略及其損失函數(shù) 136
7.2.4 基于TensorFlow的策略梯度算法實現(xiàn) 138
7.2.5 基于策略梯度算法的小車倒立擺問題 141
7.3 習(xí)題 141
8 基于置信域策略優(yōu)化的強化學(xué)習(xí)方法 142
8.1 理論基礎(chǔ) 143
8.2 TRPO中的數(shù)學(xué)知識 153
8.2.1 信息論 153
8.2.2 優(yōu)化方法 155
8.3 習(xí)題 164
9 基于確定性策略搜索的強化學(xué)習(xí)方法 165
9.1 理論基礎(chǔ) 165
9.2 習(xí)題 170
10 基于引導(dǎo)策略搜索的強化學(xué)習(xí)方法 171
10.1 理論基礎(chǔ) 171
10.2 GPS中涉及的數(shù)學(xué)基礎(chǔ) 178
10.2.1 監(jiān)督相LBFGS優(yōu)化方法 178
10.2.2 ADMM算法 179
10.2.3 KL散度與變分推理 183
10.3 習(xí)題 184
第四篇 強化學(xué)習(xí)研究及前沿 185
11 逆向強化學(xué)習(xí) 186
11.1 概述 186
11.2 基于最大邊際的逆向強化學(xué)習(xí) 187
11.3 基于最大熵的逆向強化學(xué)習(xí) 194
11.4 習(xí)題 201
12 組合策略梯度和值函數(shù)方法 202
13 值迭代網(wǎng)絡(luò) 207
13.1 為什么要提出值迭代網(wǎng)絡(luò) 207
13.2 值迭代網(wǎng)絡(luò) 210
14 基于模型的強化學(xué)習(xí)方法:PILCO及其擴展 214
14.1 概述 214
14.2 PILCO 216
14.3 濾波PILCO和探索PILCO 226
14.3.1 濾波PILCO算法 227
14.3.2 有向探索PILCO算法 230
14.4 深度PILCO 232
后記 235
參考文獻 237

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號