注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)自動(dòng)化技術(shù)、計(jì)算技術(shù)深度強(qiáng)化學(xué)習(xí):原理算法與PyTorch實(shí)戰(zhàn)(微課視頻版)

深度強(qiáng)化學(xué)習(xí):原理算法與PyTorch實(shí)戰(zhàn)(微課視頻版)

深度強(qiáng)化學(xué)習(xí):原理算法與PyTorch實(shí)戰(zhàn)(微課視頻版)

定 價(jià):¥59.80

作 者: 劉全,黃志剛 編
出版社: 清華大學(xué)出版社
叢編項(xiàng): 大數(shù)據(jù)與人工智能技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787302578208 出版時(shí)間: 2021-08-01 包裝: 平裝
開本: 16開 頁數(shù): 243 字?jǐn)?shù):  

內(nèi)容簡介

  圍繞著MDP模型,闡述動(dòng)態(tài)規(guī)劃、蒙特卡羅、動(dòng)態(tài)規(guī)劃等有窮表格式強(qiáng)化學(xué)習(xí)方法。在深度強(qiáng)化學(xué)習(xí)框架PyTorch下,闡述DQN,DDDPG,A3C等算法。本書以實(shí)例為導(dǎo)向,深度淺出地講解相關(guān)算法。全書采用完整的數(shù)學(xué)體系,各章內(nèi)容循序漸進(jìn),嚴(yán)謹(jǐn)?shù)刂v授強(qiáng)化學(xué)習(xí)的理論基礎(chǔ),主要定理均給出證明過程。基于理論講解強(qiáng)化學(xué)習(xí)算法,覆蓋了所有主流強(qiáng)化學(xué)習(xí)算法,包括資格跡等經(jīng)典算法和深度確定性梯度策略等深度強(qiáng)化學(xué)習(xí)算法。適合本科以上的人工智能相關(guān)專業(yè)學(xué)生及工程人員。

作者簡介

  劉全,蘇州大學(xué)教授,博士生導(dǎo)師。 吉林大學(xué)博士, 南京大學(xué)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室博士后。蘇州市人工智能學(xué)會常務(wù)理事、秘書長。2006年開始從事強(qiáng)化學(xué)習(xí) 領(lǐng)域的教學(xué)和科研工作。主講研究生、本科生《強(qiáng)化學(xué)習(xí)》及相關(guān)課程16次。主持“深度強(qiáng)化學(xué)習(xí)方法研究”、“部分感知強(qiáng)化學(xué)習(xí)理論及方法”、“基于tableau的邏輯強(qiáng)化學(xué)習(xí)研究”等國家、省部級項(xiàng)目10余項(xiàng)。目前主要研究方向?yàn)椋荷疃葟?qiáng)化學(xué)習(xí)。2012年獲江蘇省教工委優(yōu)秀共產(chǎn)黨員稱號。2011年、2012年入選江蘇省“六大人才”、江蘇省“333”人才培養(yǎng)計(jì)劃。

圖書目錄

第一部分:預(yù)備知識及環(huán)境安裝
第1章 深度強(qiáng)化學(xué)習(xí)概述
1.1 引言
1.2 深度學(xué)習(xí)
1.3 強(qiáng)化學(xué)習(xí)
1.4 深度強(qiáng)化學(xué)習(xí)
1.5 小結(jié)
1.6 習(xí)題
第2章 環(huán)境的配置
2.1 PyTorch簡介
2.2 PvTorch和TensorFlow
2.3 強(qiáng)化學(xué)習(xí)的開發(fā)環(huán)境
2.3.1 Anaconda環(huán)境搭建
2.3.2 Anaconda環(huán)境管理
2.3.3 PyTorch的安裝
2.3.4 Jupyter Notebook的安裝
2.3.5 Jupyter Notebook的使用
2.3.6 Gym的安裝
2.3.7 Gym案例
2.4 小結(jié)
2.5 習(xí)題
第二部分:表格式強(qiáng)化學(xué)習(xí)
第3章 數(shù)學(xué)建模
3.1 馬爾可夫決策過程
3.2 基于模型與無模型
3.3 求解強(qiáng)化學(xué)習(xí)任務(wù)
3.3.1 策略
3.3.2 獎(jiǎng)賞與回報(bào)
3.3.3 值函數(shù)與貝爾曼方程
3.3.4 最優(yōu)策略與最優(yōu)值函數(shù)
3.4 探索與利用
3.5 小結(jié)
3.6 習(xí)題
第4章 動(dòng)態(tài)規(guī)劃法
4.1 策略迭代
4.1.1 策略評估
4.1.2 策略迭代
4.2 值迭代
4.3 廣義策略迭代
4.4 小結(jié)
4.5 習(xí)題
第5章 蒙特卡洛法
5.1 蒙特卡洛法的基本概念
5.1.1 MC的核心要素
5.1.2 MC的特點(diǎn)
5.2 蒙特卡洛預(yù)測
5.3 蒙特卡洛評估
5.4 蒙特卡洛控制
5.4.1 基于探索始點(diǎn)的蒙特卡洛控制
5.4.2 同策略蒙特卡洛控制
5.4.3 異策略與重要性采樣
5.4.4 蒙特卡洛中的增量式計(jì)算
5.4.5 異策略蒙特卡洛控制
5.5 小結(jié)
5.6 習(xí)題
第6章 時(shí)序差分法
6.1 時(shí)序差分預(yù)測
6.2 時(shí)序差分控制圓
6.2.1 Sarsa算法
6.2.2 Q-Learning算法
6.2.3 期望sarsa算法
6.3 最大化偏差與Double Q-Learning
6.3.1 最大化偏差
6.3.2 Double Q-Learning
6.3.3 Double Q-Learning
6.4 DP、MC和TD算法的關(guān)系
6.4.1 窮舉式遍歷與軌跡采樣
6.4.2 期望更新與采樣更新
6.5 小結(jié)
6.6 習(xí)題
第7章 n-步時(shí)序差分法
7.1.l n-步TD預(yù)測及資格跡回
7.1.1 n-步TD預(yù)測
7.1.2 前向TD(λ)算法
7.1.3 后向TD(λ)算法
7.2 n-步TD控制及其資格跡實(shí)現(xiàn)
7.2.1 同策略n-步Sarsa算法
7.2.2 Sarsa(λ)算法
7.2.3 異策略n-步Sarsa算法
7.2.4 n-步Tree Backup算法
7.3 小結(jié)
7.4 習(xí)題
第8章 規(guī)劃和蒙特卡洛樹搜索
8.1 模型、學(xué)習(xí)與規(guī)劃回
8.1.1 模型
8.1.2 學(xué)習(xí)
8.1.3 規(guī)劃
8.2 Dyna-Q結(jié)構(gòu)及其算法改進(jìn)回
8.2.1 Dyna-Q架構(gòu)
8.2.2 優(yōu)先遍歷
8.2.3 模擬模型的錯(cuò)誤性
8.3 決策時(shí)間規(guī)劃
8.3.1 啟發(fā)式搜索
8.3.2 預(yù)演算法
8.3.3 蒙特卡洛樹搜索
8.4 小結(jié)
8.5 習(xí)題
第三部分:深度強(qiáng)化學(xué)習(xí)
第9章 深度學(xué)習(xí)
9.1 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)圓
9.1.1 感知器神經(jīng)元
9.1.2 激活函數(shù)
9.2 反向傳播算法
9.2.1 前向傳播
9.2.2 權(quán)重調(diào)整
9.2.3 BP算法推導(dǎo)
9.3 卷積神經(jīng)網(wǎng)絡(luò)
9.3.1 卷積神經(jīng)網(wǎng)絡(luò)核心思想
9.3.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
9.4 小結(jié)
9.5 習(xí)題
第10章 PyTorch與神經(jīng)網(wǎng)絡(luò)
10.1 PyTorch扣的Tensor
10.1.1 直接構(gòu)造法
10.1.2 間接轉(zhuǎn)換法
10.1.3 Tensor的變換
10.2 自動(dòng)梯度計(jì)算
10.2.1 標(biāo)量對標(biāo)量的自動(dòng)梯度計(jì)算
10.2.2 向量對向量的自動(dòng)梯度計(jì)算
10.2.3 標(biāo)量對向量(或矩陣)的自動(dòng)梯度計(jì)算
10.3 神經(jīng)網(wǎng)絡(luò)的模型搭建和參數(shù)優(yōu)化
10.3.1 模型的搭建
10.3.2 激活函數(shù)
10.3.3 常用的損失函數(shù)
10.3.4 模型的保存和重載
10.4 小結(jié)
10.5 習(xí)題
第ll章 深度Q網(wǎng)絡(luò)
11.1 DQN算法
11.1.1 核心思想
11.1.2 訓(xùn)練算法
11.1.3 實(shí)驗(yàn)結(jié)果與分析
11.2 Double DQN算法
11.2.1 核心思想
11.2.2 實(shí)驗(yàn)結(jié)果與分析
11.3 Prioritized DQN
11.3.1 核心思想
11.3.2 訓(xùn)練算法
11.3.3 實(shí)驗(yàn)結(jié)果與分析
11.4 Dueling DQN
11.4.1 訓(xùn)練算法
11.4.2 實(shí)驗(yàn)結(jié)果與分析
11.5 小結(jié)
11.6 習(xí)題
第12章 策略梯度法
12.1 隨機(jī)策略梯度法
12.1.1 梯度上升算法
12.1.2 策略梯度法與值函數(shù)逼近法的比較
12.2 策略優(yōu)化方法
12.2.1 情節(jié)式策略目標(biāo)函數(shù)
12.2.2 連續(xù)式策略目標(biāo)函數(shù)
12.2.3 策略梯度定理
12.3 策略表達(dá)形式
12.3.1 離散動(dòng)作空間策略參數(shù)化
12.3.2 連續(xù)動(dòng)作空間策略參數(shù)化
1

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號