注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書教育/教材/教輔教材研究生/本科/??平滩?/a>強(qiáng)化學(xué)習(xí)入門(基于Python)

強(qiáng)化學(xué)習(xí)入門(基于Python)

強(qiáng)化學(xué)習(xí)入門(基于Python)

定 價(jià):¥49.00

作 者: 吳喜之,張敏
出版社: 中國人民大學(xué)出版社
叢編項(xiàng): 基于Python的數(shù)據(jù)分析叢書
標(biāo) 簽: 暫缺

ISBN: 9787300313818 出版時(shí)間: 2023-03-01 包裝: 平裝
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要組成部分?!稄?qiáng)化學(xué)習(xí)入門——基于Python(基于Python的數(shù)據(jù)分析叢書)》采用理論與實(shí)踐相結(jié)合的寫法,從強(qiáng)化學(xué)習(xí)的基本概念開始,詳細(xì)介紹了強(qiáng)化學(xué)習(xí)的算法理論和實(shí)踐操作,配有Python代碼實(shí)現(xiàn),完整呈現(xiàn)強(qiáng)化學(xué)習(xí)算法的實(shí)踐細(xì)節(jié)。通過這本書你將會:(1)理解強(qiáng)化學(xué)習(xí)關(guān)鍵方面的問題。(2)探索馬爾可夫決策過程及動態(tài)規(guī)劃的過程。(3)深入理解強(qiáng)化學(xué)習(xí)的各種方法,包括MC方法,TD方法,深度學(xué)習(xí)Q方法,SARSA方法等。(4)通過大量的現(xiàn)實(shí)例子及Python實(shí)現(xiàn)程序,不斷地實(shí)踐,成為強(qiáng)化學(xué)習(xí)的高手。

作者簡介

暫缺《強(qiáng)化學(xué)習(xí)入門(基于Python)》作者簡介

圖書目錄

第一部分 強(qiáng)化學(xué)習(xí)基礎(chǔ)與實(shí)踐
第1章引 言
1.1 從迷宮問題談起
1.1.1 人類和動物所面對的迷宮問題
1.1.2 迷宮的說明性例子
1.1.3 例1.1: 獎(jiǎng)勵(lì)矩陣
1.1.4 例1.1: 訓(xùn)練以得到關(guān)于狀態(tài)和行動的獎(jiǎng)勵(lì): Q矩陣
1.1.5 例1.1: 使用Q矩陣來得到最優(yōu)行動(路徑)
1.1.6 例1.1: 把代碼組合成 class
1.2 熱身: 井字游戲*
1.2.1 兩個(gè)真人的簡單井字游戲
1.2.2 人和機(jī)器的井字游戲的強(qiáng)化學(xué)習(xí)實(shí)踐
1.2.3 井字游戲的強(qiáng)化學(xué)習(xí)代碼解釋
1.2.4 整個(gè)訓(xùn)練過程
1.2.5 使用訓(xùn)練后的模型做人機(jī)游戲
1.2.6 1.2.1節(jié)代碼
1.2.7 附錄: 1.2.3節(jié)人和機(jī)器的井字游戲代碼
1.3 強(qiáng)化學(xué)習(xí)的基本概念
1.4 馬爾可夫決策過程的要素
1.5 作為目標(biāo)的獎(jiǎng)勵(lì)
1.6 探索與開發(fā)的權(quán)衡
1.6.1 探索與開發(fā)
1.6.2 強(qiáng)化學(xué)習(xí)中的優(yōu)化和其他學(xué)科的區(qū)別
1.7 本書將會討論和運(yùn)算的一些例子
1.7.1 例1.3格子路徑問題
1.7.2 例1.4出租車問題
1.7.3 例1.5推車桿問題
1.7.4 例1.6倒立擺問題
1.7.5 例1.7多臂老虎機(jī)問題
1.7.6 例1.7和其他例子(例1.3、例1.5及例1.6)的區(qū)別
第2章馬爾可夫決策過程和動態(tài)規(guī)劃
2.1 馬爾可夫決策過程簡介
2.1.1 馬爾可夫性
2.1.2 策略
2.1.3 作為回報(bào)期望的價(jià)值函數(shù)
2.1.4 通過例 1.3 格子路徑問題理解本節(jié)概念
2.2 動態(tài)規(guī)劃
2.2.1 動態(tài)規(guī)劃簡介
2.2.2 Bellman方程
2.2.3 最優(yōu)策略和最優(yōu)價(jià)值函數(shù)
2.3 強(qiáng)化學(xué)習(xí)基本方法概述
2.3.1 代理與環(huán)境的互動
2.3.2 策略迭代: 策略評估和策略改進(jìn)
2.3.3 價(jià)值迭代
2.3.4 策略迭代與價(jià)值迭代比較
2.3.5 異步動態(tài)規(guī)劃
2.3.6 廣義策略迭代
2.3.7 策略梯度
2.3.8 off-policy, on-policy和offline RL
2.4 蒙特卡羅抽樣
2.4.1 MC策略評估
2.4.2 MC狀態(tài)-行動值的估計(jì)
2.4.3 on-policy: Q價(jià)值的MC估計(jì)
2.4.4 off-policy: MC預(yù)測
2.4.5 MC的策略梯度
2.5 和本章概念相關(guān)的例子
2.5.1 例1.3格子路徑問題使用Bellman方程做價(jià)值迭代
2.5.2 例1.3格子路徑問題的TD函數(shù)
第3章各種機(jī)器學(xué)習(xí)算法及實(shí)例
3.1 暫時(shí)差(TD)簡介
3.1.1 TD、DP和MC算法的比較
3.1.2 TD方法的特點(diǎn)
3.1.3 TD(0)方法的延伸
3.2 TD評估及策略改進(jìn)
3.2.1 SARSA (on-policy)
3.2.2 Q學(xué)習(xí) (off-policy)
3.2.3 加倍Q學(xué)習(xí) (off-policy)
3.3 函數(shù)逼近及深度學(xué)習(xí)算法
3.3.1 基于價(jià)值和策略的函數(shù)逼近
3.3.2 深度Q學(xué)習(xí)
3.3.3 TD: 演員-批評者(AC)架構(gòu)
3.3.4 A2C算法步驟
3.3.5 A3C 算法
3.3.6 DDPG 算法
3.3.7 ES 算法
3.3.8 PPO 算法
3.3.9 SAC 算法
3.4 用第1章的例子理解本章算法
3.4.1 例1.3格子路徑問題: SARSA
3.4.2 例1.4出租車問題: SARSA
3.4.3 例1.3格子路徑問題: 加倍Q學(xué)
3.4.4 例1.5推車桿問題: 深度Q學(xué)習(xí)
3.4.5 例1.5推車桿問題: A3C
3.4.6 例1.6倒立擺問題: DDPG
3.4.7 例1.5推車桿問題: ES
3.4.8 例1.5推車桿問題: PPO-Clip
3.4.9 例1.6 倒立擺問題: SAC
第二部分: 軟件及一些數(shù)學(xué)知識

第4章 Python基礎(chǔ)
4.1 引言
4.2 安裝
4.2.1 安裝及開始體驗(yàn)
4.2.2 運(yùn)行Notebook
4.3 基本模塊的編程
4.4 Numpy模塊
4.5 Pandas模塊
4.6 Matplotlib模塊
4.7 Python 的類――面向?qū)ο缶幊毯喗?
4.7.1 類的基本結(jié)構(gòu)
4.7.2 計(jì)算最小二乘回歸的例子
4.7.3 子類
第5章 PyTorch與深度學(xué)習(xí)
5.1 作為機(jī)器學(xué)習(xí)一部分的深度學(xué)習(xí)
5.2 PyTorch 簡介
5.3 神經(jīng)網(wǎng)絡(luò)簡介
5.3.1 神經(jīng)網(wǎng)絡(luò)概述
5.3.2 梯度下降法
5.3.3 深度神經(jīng)網(wǎng)絡(luò)的PyTorch表示
5.4 深度學(xué)習(xí)的步驟
5.4.1 定義神經(jīng)網(wǎng)絡(luò)
5.4.2 轉(zhuǎn)換數(shù)據(jù)成訓(xùn)練需要的格式
5.4.3 訓(xùn)練并評估結(jié)果
第6章 回顧一些數(shù)學(xué)知識*
6.1 條件概率和條件期望
6.2 范數(shù)和收縮
6.3 線性代數(shù)
6.3.1 特征值和特征向量
6.3.2 隨機(jī)矩陣
6.4 馬爾可夫決策過程
6.4.1 馬爾可夫鏈和馬爾可夫決策過程
6.4.2 策略
6.4.3 關(guān)于時(shí)間視界的優(yōu)化
6.5 Bellman 方程
6.5.1 有折扣無限視界問題的Bellman問題
6.5.2 無折扣無限視界問題的Bellman問題
6.6 動態(tài)規(guī)劃
6.6.1 價(jià)值迭代
6.6.2 策略迭代

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號