注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡人工智能揭秘深度強化學習

揭秘深度強化學習

揭秘深度強化學習

定 價:¥89.80

作 者: 彭偉 著
出版社: 中國水利水電出版社
叢編項: 人工智能機器學習技術叢書
標 簽: 暫缺

ISBN: 9787517062387 出版時間: 2018-05-01 包裝: 平裝
開本: 16 頁數(shù): 字數(shù):  

內(nèi)容簡介

  深度強化學習(Deep Reinforcement Learning,DRL)是深度學習算法和強化學習算法的巧妙結合,它是一種新興的通用人工智能算法技術,也是機器學習的前沿技術,DRL 算法潛力無限,AlphaGo 是目前該算法相當成功的使用案例。DRL 算法以馬爾科夫決策過程為基礎,是在深度學習強大的非線性函數(shù)的擬合能力下構成的一種增強算法。深度強化學習算法主要包括基于動態(tài)規(guī)劃(DP)的算法以及基于策略優(yōu)化的算法,本書的目的就是要把這兩種主要的算法(及設計技巧)講解清楚,使算法研究人員能夠熟練地掌握。 《揭秘深度強化學習人工智能機器學習技術叢書》共10 章,首先以AlphaGo 在圍棋大戰(zhàn)的偉大事跡開始,引起對人工智能發(fā)展和現(xiàn)狀的介紹,進而介紹深度強化學習的基本知識。然后分別介紹了強化學習(重點介紹蒙特卡洛算法和時序差分算法)和深度學習的基礎知識、功能神經(jīng)網(wǎng)絡層、卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN),以及深度強化學習的理論基礎和當前主流的算法框架。最后介紹了深度強化學習在不同領域的幾個應用實例。引例、基礎知識和實例相結合,方便讀者理解和學習。 《揭秘深度強化學習 人工智能機器學習技術叢書》內(nèi)容豐富,講解全面、語言描述通俗易懂,是深度強化學習算法入門的優(yōu)選。本書適合計算機專業(yè)本科相關學生、人工智能領域的研究人員以及所有對機器學習和人工智能算法感興趣的人員。

作者簡介

暫缺《揭秘深度強化學習》作者簡介

圖書目錄

第1章 深度強化學習概覽
1.1 什么是深度強化學習?
1.1.1 俯瞰強化學習
1.1.2 來一杯深度學習
1.1.3 Hello,深度強化學習
1.2 深度強化學習的學習策略
1.3 本書的內(nèi)容概要
參考文獻
第2章 強化學習基礎
2.1 真相--經(jīng)典的隱馬爾科夫模型(HMM)
2.1.1 HMM引例
2.1.2 模型理解與推導
2.1.3 隱馬爾科夫應用舉例
2.2 逢考必過—馬爾科夫決策過程(MDP)
2.2.1 MDP生活化引例
2.2.2 MDP模型
2.2.3 MDP模型引例
2.2.4 模型理解
2.2.5 探索與利用
2.2.6 值函數(shù)和動作值函數(shù)
2.2.7 基于動態(tài)規(guī)劃的強化問題求解
2.3 糟糕,考試不給題庫—無模型強化學習
2.3.1 蒙特卡洛算法
2.3.2 時序差分算法
2.3.3 異步強化學習算法
2.4 學霸來了--強化學習之模仿學習
2.4.1 模仿學習(Imitation Learning)
2.4.2 逆強化學習
本章總結
參考
第3章 深度學習基礎
3.1 深度學習簡史
3.1.1 神經(jīng)網(wǎng)絡發(fā)展史
3.1.2 深度學習的分類
3.1.3 深度學習的應用
3.1.4 深度學習存在的問題
3.2 深度學習基礎概念
3.2.1 深度學習總體感知
3.2.2 神經(jīng)網(wǎng)絡的基本組成
3.2.3 深度學習訓練
3.2.4 梯度下降法
3.2.5 反向傳播算法(BP)
3.3 數(shù)據(jù)預處理
3.3.1 主成分分析(PCA)
3.3.2 獨立成分分析(ICA)
3.3.3 數(shù)據(jù)白化處理
3.4 深度學習硬件基礎
3.4.1 深度學習硬件基礎
3.4.2 GPU簡介
3.4.3 CUDA編程
本章總結
參考
第4章 功能神經(jīng)網(wǎng)絡層
4.1 激活函數(shù)單元
4.2 池化層Pooling layer
4.3 參數(shù)開關Dropout
4.4 批量歸一化層(Batch normalization layer)
4.5 全連接層
4.6 卷積神經(jīng)網(wǎng)絡
4.7 全卷積神經(jīng)網(wǎng)絡
4.8 循環(huán)(遞歸)神經(jīng)網(wǎng)絡(RNN)
4.9 深度學習的
本章總結
參考
第5章 卷積神經(jīng)網(wǎng)絡(CNN)
5.1 卷積神經(jīng)網(wǎng)絡 CNN 基礎
5.1.1 卷積神經(jīng)網(wǎng)絡的歷史
5.1.2 卷積神經(jīng)網(wǎng)絡的核心
5.2 卷積神經(jīng)網(wǎng)絡 CNN 結構
5.2.1 深度卷積神經(jīng)網(wǎng)絡CNN
5.2.2 深度卷積神經(jīng)網(wǎng)絡CNN可視化
5.3 經(jīng)典卷積神經(jīng)網(wǎng)絡架構分析
5.3.1 一切的開始--LeNet
5.3.2 王者回歸--AlexNet
5.3.3 起飛的時候--VGG
5.3.4 致敬經(jīng)典GoogLeNet
5.3.5 沒有最深只有更深--ResNet
5.4 對抗網(wǎng)絡
5.4.1 對抗網(wǎng)絡(GAN)
5.4.2 WGAN
5.5 RCNN
5.6 CNN的應用實例
本章總結
參考
第6章 循環(huán)神經(jīng)網(wǎng)絡(RNN)
6.1 RNN概覽
6.2 長期依賴(Long-Term Dependencies)問題
6.3 LSTM 的變體
本章總結
參考
第7章:如何寫自己的CNN—C語言實現(xiàn)深度學習
7.1 如何寫自己的CMake文件
7.2 如何寫自己神經(jīng)網(wǎng)絡
7.2.1 激活函數(shù)
7.2.2 池化函數(shù)
7.2.3 全連接層
7.3 卷積神經(jīng)網(wǎng)絡
7.3.1 CNN網(wǎng)絡的構建
7.3.2 CNN前向傳播
7.3.3 CNN的反向傳播
7.4 文件解析
本章總結
第8章 深度強化學習
8.1 初識深度強化學習
8.1.1 深度強化學習概覽
8.1.2 記憶回放(Memory-Replay)機制
8.1.3 蒙特卡羅搜索樹
8.2 深度強化學習(DRL)中的值函數(shù)算法
8.2.1 DRL中值函數(shù)的作用
8.2.2 DRL中值函數(shù)理論推導
8.3 深度強化學習中的策略梯度(Policy Gradient)
8.3.1 策略梯度的作用和優(yōu)勢
8.3.2 策略梯度的理論推導
8.3.3 REINFORCE算法
8.3.4 策略梯度的優(yōu)化算法
8.3.5 策略子-評判算法(Actor-Critic)
8.4 深度強化學習網(wǎng)絡結構
參考
第9章 深度強化學習算法框架
9.1 深度Q學習
9.2 雙Q學習
9.3 異步深度強化學習
9.4 異步優(yōu)越性策略子-評價算法
9.5 DDPG 算法:
9.6 值迭代網(wǎng)絡
本章總結
參考
第10章 深度強化學習應用實例
10.1 Flappy Bird 應用
10.2 Play Pong 應用
10.3 深度地形-自適應應用(Deep Terrain-adaptive應用)
10.4 AlphaGo 254
10.4.1 獨立算法的研究部分
10.4.2 AlphaGo算法
本章總結
參考
附錄: 常用的深度學習框架
F.1. 谷歌TensorFlow
F.1.1 TensorFlow 簡介
F.1.2 TensorFlow 基礎
F.2 輕量級MXNet
F.2.1 MXnet介紹
F.2.2 MXnet基礎
F.3 來至UCLA 的Caffe
F.3.1 Caffe 簡介
F3.2 Caffe基礎
F.4 悠久的 Theano
F.4.1 Theano簡介
F.4.2 Theano基礎
F.5 30s 入門的Keras
參考

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號