注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計強化學(xué)習(xí)實戰(zhàn):從零開始制作AlphaGo圍棋(微課視頻版)

強化學(xué)習(xí)實戰(zhàn):從零開始制作AlphaGo圍棋(微課視頻版)

強化學(xué)習(xí)實戰(zhàn):從零開始制作AlphaGo圍棋(微課視頻版)

定 價:¥69.90

作 者: 劉佳
出版社: 清華大學(xué)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787302629696 出版時間: 2023-04-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  本書通過基礎(chǔ)理論和算法實踐相結(jié)合,循序漸進地介紹了人工智能領(lǐng)域中的常見算法,并以圍棋游戲作為媒介,全面、系統(tǒng)地介紹了人工智能算法的實現(xiàn)方法,并通過Keras和PyTorch框架實踐人工智能算法中的深度強化學(xué)習(xí)內(nèi)容。全書共10章,分別介紹圍棋的基礎(chǔ)知識、如何制作圍棋軟件、傳統(tǒng)棋類智能算法、神經(jīng)網(wǎng)絡(luò)入門知識、如何實現(xiàn)圍棋智能體程序、通用化圍棋智能體程序、策略梯度算法、基于價值的深度學(xué)習(xí)網(wǎng)絡(luò)(DQN)算法、ActorCritic算法、如何實踐AlphaGo和AlphaZero等知識,書中的每個知識點都有相應(yīng)的實現(xiàn)代碼和實例。 本書主要面向廣大從事數(shù)據(jù)分析、機器學(xué)習(xí)、數(shù)據(jù)挖掘或深度學(xué)習(xí)的專業(yè)人員,從事高等教育的專任教師,高等學(xué)校的在讀學(xué)生及相關(guān)領(lǐng)域的廣大科研人員。

作者簡介

暫缺《強化學(xué)習(xí)實戰(zhàn):從零開始制作AlphaGo圍棋(微課視頻版)》作者簡介

圖書目錄

部分計算機圍棋的基礎(chǔ)知識和傳統(tǒng)的智能算法
第1章圍棋: 黑白的世界
1.1什么是圍棋
1.2圍棋的規(guī)則
1.3勝負的判定
1.4圍棋棋手的棋力
1.5計算機眼中的圍棋
1.5.1SGF文件
1.5.2GTP
第2章實現(xiàn)一個圍棋軟件
2.1軟件版本
2.2圍棋軟件的組成
2.3佐布里斯特散列
2.4圍棋智能體
2.5圍棋的棋盤
2.6引入裁判
2.7讓智能體下棋
第3章傳統(tǒng)的棋類智能
3.1極小化極大算法
3.2AlphaBeta剪枝算法
3.3棋類局面評估
3.4蒙特卡羅模擬
3.4.1蒙特卡羅算法
3.4.2蒙特卡羅樹搜索
3.4.3蒙特卡羅算法改進
3.4.4需要注意的問題
3.5監(jiān)督學(xué)習(xí)
3.6傳統(tǒng)方法的討論
第二部分基于神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)
第4章機器學(xué)習(xí)入門
4.1人工神經(jīng)網(wǎng)絡(luò)
4.1.1神經(jīng)元
4.1.2常見的激活函數(shù)
4.1.3多層感知器
4.1.4卷積神經(jīng)網(wǎng)絡(luò)
4.1.5反向傳播算法
4.1.6小批量訓(xùn)練法
4.1.7殘差網(wǎng)絡(luò)
4.1.8多層感知器的應(yīng)用示例
4.1.9卷積網(wǎng)絡(luò)對圖片進行多分類的應(yīng)用示例
4.2優(yōu)化神經(jīng)網(wǎng)絡(luò)
4.2.1訓(xùn)練集、驗證集、測試集以及交叉驗證
4.2.2欠擬合與過擬合
4.2.3損失函數(shù)的正則化
4.2.4精確率和召回率的權(quán)衡
4.3其他人工智能方法簡介
4.3.1K近鄰算法
4.3.2樸素貝葉斯法
4.3.3決策樹
4.3.4Boosting算法/Bagging算法
4.3.5支持向量機
4.3.6隨機場算法
4.3.7傳統(tǒng)智能算法所面臨的挑戰(zhàn)
 
 
 
第5章個圍棋智能體
5.1電子圍棋棋譜
5.2HDF5文件結(jié)構(gòu)
5.3數(shù)據(jù)模型
5.4獲取訓(xùn)練樣本
5.5代碼演示
第6章通用化圍棋智能體程序
6.1在網(wǎng)絡(luò)上發(fā)布圍棋智能體
6.2本地對戰(zhàn)
6.2.1計算機的圍棋語言
6.2.2圍棋的對弈圖形界面
6.2.3圍棋引擎
6.3讓圍棋智能體自己去網(wǎng)上下棋
第三部分強化學(xué)習(xí)
第7章策略梯度
第8章深度價值網(wǎng)絡(luò)
8.1傳統(tǒng)的QLearning算法
8.1.1原始版QLearning
8.1.2原始版QLearning計算時的優(yōu)化
8.1.3QLearning的變種Sarsa
8.1.4Sarsa的進化Sarsaλ
8.2在神經(jīng)網(wǎng)絡(luò)上應(yīng)用DQN
第9章ActorCritic算法
第10章AlphaGo和AlphaZero
10.1AlphaGo的結(jié)構(gòu)和訓(xùn)練流程
10.2AlphaZero的結(jié)構(gòu)與訓(xùn)練流程
10.3可行的優(yōu)化
附錄AKeras入門
附錄BPyTorch入門
附錄C反向傳播算法
C.1命名約定
C.2正文
C.3進一步討論
C.4拓展
附錄D不同地區(qū)的圍棋規(guī)則
D.1中國規(guī)則
D.2日本規(guī)則
D.3應(yīng)氏規(guī)則
D.4新西蘭規(guī)則
D.5美國規(guī)則
D.6智運會規(guī)則
D.7TrompTaylor規(guī)則
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號