用Python動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)

定　價(jià)：￥89.80

作　者：	[日] 久保隆宏著，梁垿，程引譯
出版社：	人民郵電出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買這本書可以去

ISBN：	9787115564221	出版時(shí)間：	2021-07-01	包裝：	平裝
開(kāi)本：	32開(kāi)	頁(yè)數(shù)：	262	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要分支之一?！队肞ython動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)》結(jié)合實(shí)際可運(yùn)行的Python代碼，通過(guò)簡(jiǎn)明的文字、豐富的插圖和示例，通俗易懂地介紹了從基礎(chǔ)概念到前沿應(yīng)用等方方面面的內(nèi)容，包括根據(jù)環(huán)境和經(jīng)驗(yàn)制訂計(jì)劃的學(xué)習(xí)方法、強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的組合，以及強(qiáng)化學(xué)習(xí)的弱點(diǎn)和克服方法。讀者通過(guò)下載書中代碼并親自動(dòng)手運(yùn)行，可以快速入門強(qiáng)化學(xué)習(xí)并進(jìn)行實(shí)踐。

作者簡(jiǎn)介

　　[日]久保隆宏（作者）任職于日本大型系統(tǒng)集成商TIS，具有豐富的機(jī)器學(xué)習(xí)研究和開(kāi)發(fā)經(jīng)驗(yàn)。論文共享網(wǎng)站站arXivTimes運(yùn)營(yíng)者，積極致力于技術(shù)普及，著有《TensorFlow應(yīng)用指南》（合著）。梁垿（譯者）碩士畢業(yè)于日本早稻田大學(xué)，研究方向?yàn)闄C(jī)器學(xué)習(xí)。目前在日本大型系統(tǒng)集成商TIS任自然語(yǔ)言處理工程師。熱愛(ài)長(zhǎng)跑與讀書，喜歡科幻、蒸汽朋克、克蘇魯?shù)阮}材的作品。程引（譯者）工學(xué)博士學(xué)位，畢業(yè)于上海交通大學(xué)。目前在日本BizReach公司（Visional Group）AI部門任算法工程師。業(yè)務(wù)方向?yàn)橥扑]系統(tǒng)與自然語(yǔ)言處理，研究興趣包括強(qiáng)化學(xué)習(xí)與自動(dòng)控制。

圖書目錄

第 1章　了解強(qiáng)化學(xué)習(xí) 1
1．1　強(qiáng)化學(xué)習(xí)與各關(guān)鍵詞之間的關(guān)系 1
1．2　強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn)和弱點(diǎn) 8
1．3　強(qiáng)化學(xué)習(xí)的問(wèn)題設(shè)定：馬爾可夫決策過(guò)程 9
第 2章　強(qiáng)化學(xué)習(xí)的解法(1)：根據(jù)環(huán)境制訂計(jì)劃 21
2．1　價(jià)值的定義和計(jì)算：貝爾曼方程 22
2．2　基于動(dòng)態(tài)規(guī)劃法的價(jià)值近似的學(xué)習(xí)：價(jià)值迭代 28
2．3　基于動(dòng)態(tài)規(guī)劃法的策略的學(xué)習(xí)：策略迭代 32
2．4　基于模型的方法和無(wú)模型的方法的區(qū)別 36
第3章　強(qiáng)化學(xué)習(xí)的解法(2)：根據(jù)經(jīng)驗(yàn)制訂計(jì)劃 39
3．1　平衡經(jīng)驗(yàn)的積累與利用：Epsilon-Greedy 算法 41
3．2　是根據(jù)實(shí)際獎(jiǎng)勵(lì)還是預(yù)測(cè)來(lái)修正計(jì)劃：蒙特卡洛方法和時(shí)序差分學(xué)習(xí) 46
3．3　用經(jīng)驗(yàn)來(lái)更新價(jià)值近似還是策略：基于價(jià)值和基于策略 62
第4章　使用面向強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò) 73
4．1　將神經(jīng)網(wǎng)絡(luò)應(yīng)用于強(qiáng)化學(xué)習(xí) 74
4．2　通過(guò)含有參數(shù)的函數(shù)實(shí)現(xiàn)價(jià)值近似：價(jià)值函數(shù)近似 100
4．3　將深度學(xué)習(xí)應(yīng)用于價(jià)值近似：DQN 109
4．4　通過(guò)含有參數(shù)的函數(shù)實(shí)現(xiàn)策略：策略梯度 121
4．5　將深度學(xué)習(xí)應(yīng)用于策略：A2C 133
4．6　是價(jià)值近似還是策略呢 153
第5章　強(qiáng)化學(xué)習(xí)的弱點(diǎn) 157
5．1　獲取樣本的效率低 157
5．2　容易陷入局部最優(yōu)行動(dòng)和過(guò)擬合160
5．3　復(fù)現(xiàn)性差 163
5．4　以弱點(diǎn)為前提的對(duì)策 164
第6章　克服強(qiáng)化學(xué)習(xí)弱點(diǎn)的方法 169
6．1　應(yīng)對(duì)采樣效率低的方法：與基于模型的方法一起使用、表征學(xué)習(xí) 170
6．2　改善復(fù)現(xiàn)性的方法：進(jìn)化策略 198
6．3　應(yīng)對(duì)局部最優(yōu)行動(dòng)和過(guò)擬合的方法：模仿學(xué)習(xí)和逆強(qiáng)化學(xué)習(xí) 206
第7章　強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域 237
7．1　行動(dòng)的最優(yōu)化 239
7．2　學(xué)習(xí)的最優(yōu)化 248
參考文獻(xiàn) 252