注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計用Python動手學(xué)強化學(xué)習(xí)

用Python動手學(xué)強化學(xué)習(xí)

用Python動手學(xué)強化學(xué)習(xí)

定 價:¥89.80

作 者: [日] 久保隆宏 著,梁垿,程引 譯
出版社: 人民郵電出版社
叢編項:
標 簽: 暫缺

ISBN: 9787115564221 出版時間: 2021-07-01 包裝: 平裝
開本: 32開 頁數(shù): 262 字數(shù):  

內(nèi)容簡介

  強化學(xué)習(xí)是機器學(xué)習(xí)的重要分支之一。《用Python動手學(xué)強化學(xué)習(xí)》結(jié)合實際可運行的Python代碼,通過簡明的文字、豐富的插圖和示例,通俗易懂地介紹了從基礎(chǔ)概念到前沿應(yīng)用等方方面面的內(nèi)容,包括根據(jù)環(huán)境和經(jīng)驗制訂計劃的學(xué)習(xí)方法、強化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的組合,以及強化學(xué)習(xí)的弱點和克服方法。讀者通過下載書中代碼并親自動手運行,可以快速入門強化學(xué)習(xí)并進行實踐。

作者簡介

  [日]久保隆宏(作者)任職于日本大型系統(tǒng)集成商TIS,具有豐富的機器學(xué)習(xí)研究和開發(fā)經(jīng)驗。論文共享網(wǎng)站站arXivTimes運營者,積極致力于技術(shù)普及,著有《TensorFlow應(yīng)用指南》(合著)。梁垿(譯者)碩士畢業(yè)于日本早稻田大學(xué),研究方向為機器學(xué)習(xí)。目前在日本大型系統(tǒng)集成商TIS任自然語言處理工程師。熱愛長跑與讀書,喜歡科幻、蒸汽朋克、克蘇魯?shù)阮}材的作品。程引(譯者)工學(xué)博士學(xué)位,畢業(yè)于上海交通大學(xué)。目前在日本BizReach公司(Visional Group)AI部門任算法工程師。業(yè)務(wù)方向為推薦系統(tǒng)與自然語言處理,研究興趣包括強化學(xué)習(xí)與自動控制。

圖書目錄

第 1章 了解強化學(xué)習(xí) 1
1.1 強化學(xué)習(xí)與各關(guān)鍵詞之間的關(guān)系 1
1.2 強化學(xué)習(xí)的優(yōu)點和弱點 8
1.3 強化學(xué)習(xí)的問題設(shè)定:馬爾可夫決策過程 9
第 2章 強化學(xué)習(xí)的解法(1):根據(jù)環(huán)境制訂計劃 21
2.1 價值的定義和計算:貝爾曼方程 22
2.2 基于動態(tài)規(guī)劃法的價值近似的學(xué)習(xí):價值迭代 28
2.3 基于動態(tài)規(guī)劃法的策略的學(xué)習(xí):策略迭代 32
2.4 基于模型的方法和無模型的方法的區(qū)別 36
第3章 強化學(xué)習(xí)的解法(2):根據(jù)經(jīng)驗制訂計劃 39
3.1 平衡經(jīng)驗的積累與利用:Epsilon-Greedy 算法 41
3.2 是根據(jù)實際獎勵還是預(yù)測來修正計劃:蒙特卡洛方法和時序差分學(xué)習(xí) 46
3.3 用經(jīng)驗來更新價值近似還是策略:基于價值和基于策略 62
第4章 使用面向強化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò) 73
4.1 將神經(jīng)網(wǎng)絡(luò)應(yīng)用于強化學(xué)習(xí) 74
4.2 通過含有參數(shù)的函數(shù)實現(xiàn)價值近似:價值函數(shù)近似 100
4.3 將深度學(xué)習(xí)應(yīng)用于價值近似:DQN 109
4.4 通過含有參數(shù)的函數(shù)實現(xiàn)策略:策略梯度 121
4.5 將深度學(xué)習(xí)應(yīng)用于策略:A2C 133
4.6 是價值近似還是策略呢 153
第5章 強化學(xué)習(xí)的弱點 157
5.1 獲取樣本的效率低 157
5.2 容易陷入局部最優(yōu)行動和過擬合160
5.3 復(fù)現(xiàn)性差 163
5.4 以弱點為前提的對策 164
第6章 克服強化學(xué)習(xí)弱點的方法 169
6.1 應(yīng)對采樣效率低的方法:與基于模型的方法一起使用、表征學(xué)習(xí) 170
6.2 改善復(fù)現(xiàn)性的方法:進化策略 198
6.3 應(yīng)對局部最優(yōu)行動和過擬合的方法:模仿學(xué)習(xí)和逆強化學(xué)習(xí) 206
第7章 強化學(xué)習(xí)的應(yīng)用領(lǐng)域 237
7.1 行動的最優(yōu)化 239
7.2 學(xué)習(xí)的最優(yōu)化 248
參考文獻 252

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號