本書比較全面、系統(tǒng)地介紹了深度強化學習的理論和算法,并配有大量的案例和編程實現(xiàn)。全書核心內容可以分為3部分,第一部分為經典強化學習,包括第2、3、4章,主要內容有動態(tài)規(guī)劃法,蒙特卡洛法、時序差分法;第二部分為深度強化學習,包括第6、7、8章,主要內容有值函數(shù)近似法、策略梯度法、策略梯度法進階;第三部分重點介紹了深度強化學習的經典應用——AlphaGo系列算法。另外,作為理論和算法的輔助,第1章介紹了強化學習的模型,第5章簡單介紹了深度學習和PyTorch編程框架。 本書可以作為理工科大學相關專業(yè)研究生的學位課教材,也可以作為人工智能、機器學習相關專業(yè)高年級本科生的選修課教材,還可以作為相關領域學術研究人員、教師和工程技術人員的參考資料。