注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書教育/教材/教輔教材研究生/本科/??平滩?/a>強化學(xué)習(xí)入門(基于Python)

強化學(xué)習(xí)入門(基于Python)

強化學(xué)習(xí)入門(基于Python)

定 價:¥49.00

作 者: 吳喜之,張敏
出版社: 中國人民大學(xué)出版社
叢編項: 基于Python的數(shù)據(jù)分析叢書
標(biāo) 簽: 暫缺

ISBN: 9787300313818 出版時間: 2023-03-01 包裝: 平裝
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  強化學(xué)習(xí)是機器學(xué)習(xí)的重要組成部分?!稄娀瘜W(xué)習(xí)入門——基于Python(基于Python的數(shù)據(jù)分析叢書)》采用理論與實踐相結(jié)合的寫法,從強化學(xué)習(xí)的基本概念開始,詳細(xì)介紹了強化學(xué)習(xí)的算法理論和實踐操作,配有Python代碼實現(xiàn),完整呈現(xiàn)強化學(xué)習(xí)算法的實踐細(xì)節(jié)。通過這本書你將會:(1)理解強化學(xué)習(xí)關(guān)鍵方面的問題。(2)探索馬爾可夫決策過程及動態(tài)規(guī)劃的過程。(3)深入理解強化學(xué)習(xí)的各種方法,包括MC方法,TD方法,深度學(xué)習(xí)Q方法,SARSA方法等。(4)通過大量的現(xiàn)實例子及Python實現(xiàn)程序,不斷地實踐,成為強化學(xué)習(xí)的高手。

作者簡介

暫缺《強化學(xué)習(xí)入門(基于Python)》作者簡介

圖書目錄

第一部分 強化學(xué)習(xí)基礎(chǔ)與實踐
第1章引 言
1.1 從迷宮問題談起
1.1.1 人類和動物所面對的迷宮問題
1.1.2 迷宮的說明性例子
1.1.3 例1.1: 獎勵矩陣
1.1.4 例1.1: 訓(xùn)練以得到關(guān)于狀態(tài)和行動的獎勵: Q矩陣
1.1.5 例1.1: 使用Q矩陣來得到最優(yōu)行動(路徑)
1.1.6 例1.1: 把代碼組合成 class
1.2 熱身: 井字游戲*
1.2.1 兩個真人的簡單井字游戲
1.2.2 人和機器的井字游戲的強化學(xué)習(xí)實踐
1.2.3 井字游戲的強化學(xué)習(xí)代碼解釋
1.2.4 整個訓(xùn)練過程
1.2.5 使用訓(xùn)練后的模型做人機游戲
1.2.6 1.2.1節(jié)代碼
1.2.7 附錄: 1.2.3節(jié)人和機器的井字游戲代碼
1.3 強化學(xué)習(xí)的基本概念
1.4 馬爾可夫決策過程的要素
1.5 作為目標(biāo)的獎勵
1.6 探索與開發(fā)的權(quán)衡
1.6.1 探索與開發(fā)
1.6.2 強化學(xué)習(xí)中的優(yōu)化和其他學(xué)科的區(qū)別
1.7 本書將會討論和運算的一些例子
1.7.1 例1.3格子路徑問題
1.7.2 例1.4出租車問題
1.7.3 例1.5推車桿問題
1.7.4 例1.6倒立擺問題
1.7.5 例1.7多臂老虎機問題
1.7.6 例1.7和其他例子(例1.3、例1.5及例1.6)的區(qū)別
第2章馬爾可夫決策過程和動態(tài)規(guī)劃
2.1 馬爾可夫決策過程簡介
2.1.1 馬爾可夫性
2.1.2 策略
2.1.3 作為回報期望的價值函數(shù)
2.1.4 通過例 1.3 格子路徑問題理解本節(jié)概念
2.2 動態(tài)規(guī)劃
2.2.1 動態(tài)規(guī)劃簡介
2.2.2 Bellman方程
2.2.3 最優(yōu)策略和最優(yōu)價值函數(shù)
2.3 強化學(xué)習(xí)基本方法概述
2.3.1 代理與環(huán)境的互動
2.3.2 策略迭代: 策略評估和策略改進(jìn)
2.3.3 價值迭代
2.3.4 策略迭代與價值迭代比較
2.3.5 異步動態(tài)規(guī)劃
2.3.6 廣義策略迭代
2.3.7 策略梯度
2.3.8 off-policy, on-policy和offline RL
2.4 蒙特卡羅抽樣
2.4.1 MC策略評估
2.4.2 MC狀態(tài)-行動值的估計
2.4.3 on-policy: Q價值的MC估計
2.4.4 off-policy: MC預(yù)測
2.4.5 MC的策略梯度
2.5 和本章概念相關(guān)的例子
2.5.1 例1.3格子路徑問題使用Bellman方程做價值迭代
2.5.2 例1.3格子路徑問題的TD函數(shù)
第3章各種機器學(xué)習(xí)算法及實例
3.1 暫時差(TD)簡介
3.1.1 TD、DP和MC算法的比較
3.1.2 TD方法的特點
3.1.3 TD(0)方法的延伸
3.2 TD評估及策略改進(jìn)
3.2.1 SARSA (on-policy)
3.2.2 Q學(xué)習(xí) (off-policy)
3.2.3 加倍Q學(xué)習(xí) (off-policy)
3.3 函數(shù)逼近及深度學(xué)習(xí)算法
3.3.1 基于價值和策略的函數(shù)逼近
3.3.2 深度Q學(xué)習(xí)
3.3.3 TD: 演員-批評者(AC)架構(gòu)
3.3.4 A2C算法步驟
3.3.5 A3C 算法
3.3.6 DDPG 算法
3.3.7 ES 算法
3.3.8 PPO 算法
3.3.9 SAC 算法
3.4 用第1章的例子理解本章算法
3.4.1 例1.3格子路徑問題: SARSA
3.4.2 例1.4出租車問題: SARSA
3.4.3 例1.3格子路徑問題: 加倍Q學(xué)
3.4.4 例1.5推車桿問題: 深度Q學(xué)習(xí)
3.4.5 例1.5推車桿問題: A3C
3.4.6 例1.6倒立擺問題: DDPG
3.4.7 例1.5推車桿問題: ES
3.4.8 例1.5推車桿問題: PPO-Clip
3.4.9 例1.6 倒立擺問題: SAC
第二部分: 軟件及一些數(shù)學(xué)知識

第4章 Python基礎(chǔ)
4.1 引言
4.2 安裝
4.2.1 安裝及開始體驗
4.2.2 運行Notebook
4.3 基本模塊的編程
4.4 Numpy模塊
4.5 Pandas模塊
4.6 Matplotlib模塊
4.7 Python 的類――面向?qū)ο缶幊毯喗?
4.7.1 類的基本結(jié)構(gòu)
4.7.2 計算最小二乘回歸的例子
4.7.3 子類
第5章 PyTorch與深度學(xué)習(xí)
5.1 作為機器學(xué)習(xí)一部分的深度學(xué)習(xí)
5.2 PyTorch 簡介
5.3 神經(jīng)網(wǎng)絡(luò)簡介
5.3.1 神經(jīng)網(wǎng)絡(luò)概述
5.3.2 梯度下降法
5.3.3 深度神經(jīng)網(wǎng)絡(luò)的PyTorch表示
5.4 深度學(xué)習(xí)的步驟
5.4.1 定義神經(jīng)網(wǎng)絡(luò)
5.4.2 轉(zhuǎn)換數(shù)據(jù)成訓(xùn)練需要的格式
5.4.3 訓(xùn)練并評估結(jié)果
第6章 回顧一些數(shù)學(xué)知識*
6.1 條件概率和條件期望
6.2 范數(shù)和收縮
6.3 線性代數(shù)
6.3.1 特征值和特征向量
6.3.2 隨機矩陣
6.4 馬爾可夫決策過程
6.4.1 馬爾可夫鏈和馬爾可夫決策過程
6.4.2 策略
6.4.3 關(guān)于時間視界的優(yōu)化
6.5 Bellman 方程
6.5.1 有折扣無限視界問題的Bellman問題
6.5.2 無折扣無限視界問題的Bellman問題
6.6 動態(tài)規(guī)劃
6.6.1 價值迭代
6.6.2 策略迭代

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號