揭秘深度強(qiáng)化學(xué)習(xí)

定　價(jià)：￥89.80

作　者：	彭偉著
出版社：	中國(guó)水利水電出版社
叢編項(xiàng)：	人工智能機(jī)器學(xué)習(xí)技術(shù)叢書
標(biāo)　簽：	暫缺

購(gòu)買這本書可以去

ISBN：	9787517062387	出版時(shí)間：	2018-05-01	包裝：	平裝
開(kāi)本：	16	頁(yè)數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning，DRL）是深度學(xué)習(xí)算法和強(qiáng)化學(xué)習(xí)算法的巧妙結(jié)合，它是一種新興的通用人工智能算法技術(shù)，也是機(jī)器學(xué)習(xí)的前沿技術(shù)，DRL 算法潛力無(wú)限，AlphaGo 是目前該算法相當(dāng)成功的使用案例。DRL 算法以馬爾科夫決策過(guò)程為基礎(chǔ)，是在深度學(xué)習(xí)強(qiáng)大的非線性函數(shù)的擬合能力下構(gòu)成的一種增強(qiáng)算法。深度強(qiáng)化學(xué)習(xí)算法主要包括基于動(dòng)態(tài)規(guī)劃（DP）的算法以及基于策略優(yōu)化的算法，本書的目的就是要把這兩種主要的算法（及設(shè)計(jì)技巧）講解清楚，使算法研究人員能夠熟練地掌握。《揭秘深度強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)技術(shù)叢書》共10 章，首先以AlphaGo 在圍棋大戰(zhàn)的偉大事跡開(kāi)始，引起對(duì)人工智能發(fā)展和現(xiàn)狀的介紹，進(jìn)而介紹深度強(qiáng)化學(xué)習(xí)的基本知識(shí)。然后分別介紹了強(qiáng)化學(xué)習(xí)（重點(diǎn)介紹蒙特卡洛算法和時(shí)序差分算法）和深度學(xué)習(xí)的基礎(chǔ)知識(shí)、功能神經(jīng)網(wǎng)絡(luò)層、卷積神經(jīng)網(wǎng)絡(luò)（CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），以及深度強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)和當(dāng)前主流的算法框架。最后介紹了深度強(qiáng)化學(xué)習(xí)在不同領(lǐng)域的幾個(gè)應(yīng)用實(shí)例。引例、基礎(chǔ)知識(shí)和實(shí)例相結(jié)合，方便讀者理解和學(xué)習(xí)。《揭秘深度強(qiáng)化學(xué)習(xí) 人工智能機(jī)器學(xué)習(xí)技術(shù)叢書》內(nèi)容豐富，講解全面、語(yǔ)言描述通俗易懂，是深度強(qiáng)化學(xué)習(xí)算法入門的優(yōu)選。本書適合計(jì)算機(jī)專業(yè)本科相關(guān)學(xué)生、人工智能領(lǐng)域的研究人員以及所有對(duì)機(jī)器學(xué)習(xí)和人工智能算法感興趣的人員。

作者簡(jiǎn)介

暫缺《揭秘深度強(qiáng)化學(xué)習(xí)》作者簡(jiǎn)介

圖書目錄

第1章深度強(qiáng)化學(xué)習(xí)概覽
1.1 什么是深度強(qiáng)化學(xué)習(xí)？
1.1.1 俯瞰強(qiáng)化學(xué)習(xí)
1.1.2 來(lái)一杯深度學(xué)習(xí)
1.1.3 Hello，深度強(qiáng)化學(xué)習(xí)
1.2 深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)策略
1.3 本書的內(nèi)容概要
參考文獻(xiàn)
第2章強(qiáng)化學(xué)習(xí)基礎(chǔ)
2.1 真相--經(jīng)典的隱馬爾科夫模型（HMM）
2.1.1 HMM引例
2.1.2 模型理解與推導(dǎo)
2.1.3 隱馬爾科夫應(yīng)用舉例
2.2 逢考必過(guò)—馬爾科夫決策過(guò)程（MDP）
2.2.1 MDP生活化引例
2.2.2 MDP模型
2.2.3 MDP模型引例
2.2.4 模型理解
2.2.5 探索與利用
2.2.6 值函數(shù)和動(dòng)作值函數(shù)
2.2.7 基于動(dòng)態(tài)規(guī)劃的強(qiáng)化問(wèn)題求解
2.3 糟糕，考試不給題庫(kù)—無(wú)模型強(qiáng)化學(xué)習(xí)
2.3.1 蒙特卡洛算法
2.3.2 時(shí)序差分算法
2.3.3 異步強(qiáng)化學(xué)習(xí)算法
2.4 學(xué)霸來(lái)了--強(qiáng)化學(xué)習(xí)之模仿學(xué)習(xí)
2.4.1 模仿學(xué)習(xí)（Imitation Learning）
2.4.2 逆強(qiáng)化學(xué)習(xí)
本章總結(jié)
參考
第3章深度學(xué)習(xí)基礎(chǔ)
3.1 深度學(xué)習(xí)簡(jiǎn)史
3.1.1 神經(jīng)網(wǎng)絡(luò)發(fā)展史
3.1.2 深度學(xué)習(xí)的分類
3.1.3 深度學(xué)習(xí)的應(yīng)用
3.1.4 深度學(xué)習(xí)存在的問(wèn)題
3.2 深度學(xué)習(xí)基礎(chǔ)概念
3.2.1 深度學(xué)習(xí)總體感知
3.2.2 神經(jīng)網(wǎng)絡(luò)的基本組成
3.2.3 深度學(xué)習(xí)訓(xùn)練
3.2.4 梯度下降法
3.2.5 反向傳播算法（BP）
3.3 數(shù)據(jù)預(yù)處理
3.3.1 主成分分析（PCA）
3.3.2 獨(dú)立成分分析（ICA）
3.3.3 數(shù)據(jù)白化處理
3.4 深度學(xué)習(xí)硬件基礎(chǔ)
3.4.1 深度學(xué)習(xí)硬件基礎(chǔ)
3.4.2 GPU簡(jiǎn)介
3.4.3 CUDA編程
本章總結(jié)
參考
第4章功能神經(jīng)網(wǎng)絡(luò)層
4.1 激活函數(shù)單元
4.2 池化層Pooling layer
4.3 參數(shù)開(kāi)關(guān)Dropout
4.4 批量歸一化層（Batch normalization layer）
4.5 全連接層
4.6 卷積神經(jīng)網(wǎng)絡(luò)
4.7 全卷積神經(jīng)網(wǎng)絡(luò)
4.8 循環(huán)（遞歸）神經(jīng)網(wǎng)絡(luò)（RNN）
4.9 深度學(xué)習(xí)的
本章總結(jié)
參考
第5章卷積神經(jīng)網(wǎng)絡(luò)（CNN）
5.1 卷積神經(jīng)網(wǎng)絡(luò) CNN 基礎(chǔ)
5.1.1 卷積神經(jīng)網(wǎng)絡(luò)的歷史
5.1.2 卷積神經(jīng)網(wǎng)絡(luò)的核心
5.2 卷積神經(jīng)網(wǎng)絡(luò) CNN 結(jié)構(gòu)
5.2.1 深度卷積神經(jīng)網(wǎng)絡(luò)CNN
5.2.2 深度卷積神經(jīng)網(wǎng)絡(luò)CNN可視化
5.3 經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)分析
5.3.1 一切的開(kāi)始--LeNet
5.3.2 王者回歸--AlexNet
5.3.3 起飛的時(shí)候--VGG
5.3.4 致敬經(jīng)典GoogLeNet
5.3.5 沒(méi)有最深只有更深--ResNet
5.4 對(duì)抗網(wǎng)絡(luò)
5.4.1 對(duì)抗網(wǎng)絡(luò)（GAN）
5.4.2 WGAN
5.5 RCNN
5.6 CNN的應(yīng)用實(shí)例
本章總結(jié)
參考
第6章循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）
6.1 RNN概覽
6.2 長(zhǎng)期依賴（Long-Term Dependencies）問(wèn)題
6.3 LSTM 的變體
本章總結(jié)
參考
第7章：如何寫自己的CNN—C語(yǔ)言實(shí)現(xiàn)深度學(xué)習(xí)
7.1 如何寫自己的CMake文件
7.2 如何寫自己神經(jīng)網(wǎng)絡(luò)
7.2.1 激活函數(shù)
7.2.2 池化函數(shù)
7.2.3 全連接層
7.3 卷積神經(jīng)網(wǎng)絡(luò)
7.3.1 CNN網(wǎng)絡(luò)的構(gòu)建
7.3.2 CNN前向傳播
7.3.3 CNN的反向傳播
7.4 文件解析
本章總結(jié)
第8章深度強(qiáng)化學(xué)習(xí)
8.1 初識(shí)深度強(qiáng)化學(xué)習(xí)
8.1.1 深度強(qiáng)化學(xué)習(xí)概覽
8.1.2 記憶回放（Memory-Replay）機(jī)制
8.1.3 蒙特卡羅搜索樹(shù)
8.2 深度強(qiáng)化學(xué)習(xí)（DRL）中的值函數(shù)算法
8.2.1 DRL中值函數(shù)的作用
8.2.2 DRL中值函數(shù)理論推導(dǎo)
8.3 深度強(qiáng)化學(xué)習(xí)中的策略梯度（Policy Gradient）
8.3.1 策略梯度的作用和優(yōu)勢(shì)
8.3.2 策略梯度的理論推導(dǎo)
8.3.3 REINFORCE算法
8.3.4 策略梯度的優(yōu)化算法
8.3.5 策略子－評(píng)判算法（Actor-Critic）
8.4 深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)
參考
第9章深度強(qiáng)化學(xué)習(xí)算法框架
9.1 深度Q學(xué)習(xí)
9.2 雙Q學(xué)習(xí)
9.3 異步深度強(qiáng)化學(xué)習(xí)
9.4 異步優(yōu)越性策略子-評(píng)價(jià)算法
9.5 DDPG 算法：
9.6 值迭代網(wǎng)絡(luò)
本章總結(jié)
參考
第10章深度強(qiáng)化學(xué)習(xí)應(yīng)用實(shí)例
10.1 Flappy Bird 應(yīng)用
10.2 Play Pong 應(yīng)用
10.3 深度地形-自適應(yīng)應(yīng)用（Deep Terrain-adaptive應(yīng)用）
10.4 AlphaGo 254
10.4.1 獨(dú)立算法的研究部分
10.4.2 AlphaGo算法
本章總結(jié)
參考
附錄：常用的深度學(xué)習(xí)框架
F.1. 谷歌TensorFlow
F.1.1 TensorFlow 簡(jiǎn)介
F.1.2 TensorFlow 基礎(chǔ)
F.2 輕量級(jí)MXNet
F.2.1 MXnet介紹
F.2.2 MXnet基礎(chǔ)
F.3 來(lái)至UCLA 的Caffe
F.3.1 Caffe 簡(jiǎn)介
F3.2 Caffe基礎(chǔ)
F.4 悠久的 Theano
F.4.1 Theano簡(jiǎn)介
F.4.2 Theano基礎(chǔ)
F.5 30s 入門的Keras
參考