野花电影韩剧在线观看,中文字幕av高清片

內(nèi)容簡(jiǎn)介

　　深度強(qiáng)化學(xué)習(xí)結(jié)合深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)算法各自的優(yōu)勢(shì)解決復(fù)雜的決策任務(wù)。得益于 DeepMind AlphaGo 和 OpenAI Five 成功的案例，深度強(qiáng)化學(xué)習(xí)受到大量的關(guān)注，相關(guān)技術(shù)廣泛應(yīng)用于不同的領(lǐng)域。本書分為三大部分，覆蓋深度強(qiáng)化學(xué)習(xí)的全部?jī)?nèi)容。第一部分介紹深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的入門知識(shí)、一些非?；A(chǔ)的深度強(qiáng)化學(xué)習(xí)算法及其實(shí)現(xiàn)細(xì)節(jié)，包括第 1～6 章。第二部分是一些精選的深度強(qiáng)化學(xué)習(xí)研究題目，這些內(nèi)容對(duì)準(zhǔn)備開展深度強(qiáng)化學(xué)習(xí)研究的讀者非常有用，包括第 7～12 章。第三部分提供了豐富的應(yīng)用案例，包括 AlphaZero、讓機(jī)器人學(xué)習(xí)跑步等，包括第 13～17 章。本書是為計(jì)算機(jī)科學(xué)專業(yè)背景、希望從零開始學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)并開展研究課題和實(shí)踐項(xiàng)目的學(xué)生準(zhǔn)備的。本書也適合沒有很強(qiáng)的機(jī)器學(xué)習(xí)背景、但是希望快速學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)并將其應(yīng)用到具體產(chǎn)品中的軟件工程師閱讀。

作者簡(jiǎn)介

　　董　豪北京大學(xué)計(jì)算機(jī)系前沿計(jì)算研究中心助理教授、深圳鵬城實(shí)驗(yàn)室雙聘成員。于 2019 年秋獲得英國(guó)帝國(guó)理工學(xué)院博士學(xué)位。研究方向主要涉及計(jì)算機(jī)視覺和生成模型，目的是降低學(xué)習(xí)智能系統(tǒng)所需要的數(shù)據(jù)。致力于推廣人工智能技術(shù)，是深度學(xué)習(xí)開源框架 TensorLayer 的創(chuàng)始人，此框架獲得 ACM MM 2017 年度最佳開源軟件獎(jiǎng)。在英國(guó)帝國(guó)理工學(xué)院和英國(guó)中央蘭開夏大學(xué)獲得一等研究生和一等本科學(xué)位。丁子涵英國(guó)帝國(guó)理工學(xué)院碩士。獲普林斯頓大學(xué)博士生全額獎(jiǎng)學(xué)金，曾在加拿大 Borealis AI、騰訊 Robotics X 實(shí)驗(yàn)室有過工作經(jīng)歷。本科就讀于中國(guó)科學(xué)技術(shù)大學(xué)，獲物理和計(jì)算機(jī)雙學(xué)位。研究方向主要涉及強(qiáng)化學(xué)習(xí)、機(jī)器人控制、計(jì)算機(jī)視覺等。在 ICRA、NeurIPS、AAAI、IJCAI、Physical Review 等頂級(jí)期刊與會(huì)議發(fā)表多篇論文，是 TensorLayer-RLzoo、TensorLet 和 Arena 開源項(xiàng)目的貢獻(xiàn)者。仉尚航加州大學(xué)伯克利分校，BAIR 實(shí)驗(yàn)室（Berkeley AI Research Lab）博士后研究員。于 2018年獲得卡內(nèi)基？？梅隆大學(xué)博士學(xué)位。研究方向主要涉及深度學(xué)習(xí)、計(jì)算機(jī)視覺及強(qiáng)化學(xué)習(xí)。在NeurIPS、CVPR、ICCV、TNNLS、AAAI、IJCAI 等人工智能頂級(jí)期刊和會(huì)議發(fā)表多篇論文。目前主要從事 Human-inspired sample-efficient learning 理論與算法研究，包括 low-shot learning、domain adaptation、self learning 等。獲得 AAAI 2021 Best Paper Award，美國(guó) 2018 Rising Stars in EECS，及Adobe Collaboration Fund、Qualcomm Innovation Fellowship Finalist Award 等獎(jiǎng)勵(lì)。袁　航英國(guó)牛津大學(xué)計(jì)算機(jī)科學(xué)博士在讀、李嘉誠獎(jiǎng)學(xué)金獲得者，主攻人工智能安全和深度學(xué)習(xí)在健康醫(yī)療中的運(yùn)用。曾在歐美各大高校和研究機(jī)構(gòu)研習(xí)，如帝國(guó)理工學(xué)院、馬克斯普朗克研究所、瑞士聯(lián)邦理工和卡內(nèi)基？？梅隆大學(xué)。張鴻銘中國(guó)科學(xué)院自動(dòng)化研究所算法工程師。于 2018 年獲得北京大學(xué)碩士研究生學(xué)位。本科就讀于北京師范大學(xué)，獲理學(xué)學(xué)士學(xué)位。研究方向涉及統(tǒng)計(jì)機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和啟發(fā)式搜索。張敬卿英國(guó)帝國(guó)理工學(xué)院計(jì)算機(jī)系博士生，師從帝國(guó)理工學(xué)院數(shù)據(jù)科學(xué)院院長(zhǎng)郭毅可院士。主要研究方向?yàn)樯疃葘W(xué)習(xí)、機(jī)器學(xué)習(xí)、文本挖掘、數(shù)據(jù)挖掘及其應(yīng)用。曾獲得中國(guó)國(guó)家獎(jiǎng)學(xué)金。2016年于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系獲得學(xué)士學(xué)位，2017 年于帝國(guó)理工學(xué)院計(jì)算機(jī)系獲得一等研究性碩士學(xué)位。黃彥華就職于小紅書，負(fù)責(zé)大規(guī)模機(jī)器學(xué)習(xí)及強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用。2016 年在華東師范大學(xué)數(shù)學(xué)系獲得理學(xué)學(xué)士學(xué)位。曾貢獻(xiàn)過開源項(xiàng)目 PyTorch、TensorFlow 和 Ray。余天洋啟元世界算法工程師，負(fù)責(zé)強(qiáng)化學(xué)習(xí)在博弈場(chǎng)景中的應(yīng)用。碩士畢業(yè)于南昌大學(xué)，是TensorLayer-RLzoo 開源項(xiàng)目的貢獻(xiàn)者。張華清谷歌公司算法和機(jī)器學(xué)習(xí)工程師，側(cè)重于多智能體強(qiáng)化學(xué)習(xí)和多層次結(jié)構(gòu)博弈論方向研究，于華中科技大學(xué)獲得學(xué)士學(xué)位，后于 2017 年獲得休斯敦大學(xué)博士學(xué)位。黃銳桐 Borealis AI （加拿大皇家銀行研究院）團(tuán)隊(duì)主管。于 2017 年獲得阿爾伯塔大學(xué)統(tǒng)計(jì)機(jī)器學(xué)習(xí)博士學(xué)位。本科就讀于中國(guó)科學(xué)技術(shù)大學(xué)數(shù)學(xué)系，后于滑鐵盧大學(xué)獲得計(jì)算機(jī)碩士學(xué)位。研究方向主要涉及在線學(xué)習(xí)、優(yōu)化、對(duì)抗學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。廖培元目前本科就讀于卡內(nèi)基？？梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院。研究方向主要涉及表示學(xué)習(xí)和多模態(tài)機(jī)器學(xué)習(xí)。曾貢獻(xiàn)過開源項(xiàng)目 mmdetection 和 PyTorch Cluster，在 Kaggle 數(shù)據(jù)科學(xué)社區(qū)曾獲Competitions Grandmaster 稱號(hào)，**排名全球前 25 位。

圖書目錄

基礎(chǔ)部分 1 第 1 章深度學(xué)習(xí)入門 2
1．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 2
1．2 感知器．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 3
1．3 多層感知器．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 7
1．4 激活函數(shù) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 9
1．5 損失函數(shù) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 11
1．6 優(yōu)化．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 13
1．6．1 梯度下降和誤差的反向傳播．．．．．．．．．．．．．．．．．．．．．．．．．．． 13
1．6．2 隨機(jī)梯度下降和自適應(yīng)學(xué)習(xí)率．．．．．．．．．．．．．．．．．．．．．．．．．． 15
1．6．3 超參數(shù)篩選．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 17
1．7 正則化．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 18
1．7．1 過擬合．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 18
1．7．2 權(quán)重衰減．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 18
1．7．3 Dropout ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 20
1．7．4 批標(biāo)準(zhǔn)化．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 20
1．7．5 其他緩和過擬合的方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 21
1．8 卷積神經(jīng)網(wǎng)絡(luò) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 22
1．9 循環(huán)神經(jīng)網(wǎng)絡(luò) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 25
1．10 深度學(xué)習(xí)的實(shí)現(xiàn)樣例．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 28
1．10．1 張量和梯度．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 28
1．10．2 定義模型．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 29
1．10．3 自定義層．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 31
1．10．4 多層感知器：MNIST 數(shù)據(jù)集上的圖像分類．．．．．．．．．．．．．．．．．．． 33
1．10．5 卷積神經(jīng)網(wǎng)絡(luò)：CIFAR-10 數(shù)據(jù)集上的圖像分類．．．．．．．．．．．．．．．． 35
1．10．6 序列到序列模型：聊天機(jī)器人．．．．．．．．．．．．．．．．．．．．．．．．．． 36
第 2 章強(qiáng)化學(xué)習(xí)入門 43
2．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 43
2．2 在線預(yù)測(cè)和在線學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 46
2．2．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 46
2．2．2 隨機(jī)多臂賭博機(jī) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 48
2．2．3 對(duì)抗多臂賭博機(jī) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 50
2．2．4 上下文賭博機(jī) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 51
2．3 馬爾可夫過程．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 52
2．3．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 52
2．3．2 馬爾可夫獎(jiǎng)勵(lì)過程．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 54
2．3．3 馬爾可夫決策過程．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 57
2．3．4 貝爾曼方程和最優(yōu)性．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 61
2．3．5 其他重要概念．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 64
2．4 動(dòng)態(tài)規(guī)劃．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 64
2．4．1 策略迭代．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 65
2．4．2 價(jià)值迭代．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 67
2．4．3 其他 DPs：異步 DP、近似 DP 和實(shí)時(shí) DP ．．．．．．．．．．．．．．．．．．． 68
2．5 蒙特卡羅．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 70
2．5．1 蒙特卡羅預(yù)測(cè) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 70
2．5．2 蒙特卡羅控制．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 71
2．5．3 增量蒙特卡羅．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 72
2．6 時(shí)間差分學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 73
2．6．1 時(shí)間差分預(yù)測(cè) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 73
2．6．2 Sarsa：在線策略 TD 控制．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 77
2．6．3 Q-Learning：離線策略 TD 控制．．．．．．．．．．．．．．．．．．．．．．．．． 80
2．7 策略優(yōu)化．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 80
2．7．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 80
2．7．2 基于價(jià)值的優(yōu)化．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 84
2．7．3 基于策略的優(yōu)化．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 89
2．7．4 結(jié)合基于策略和基于價(jià)值的方法．．．．．．．．．．．．．．．．．．．．．．．． 105
第 3 章強(qiáng)化學(xué)習(xí)算法分類 110
3．1 基于模型的方法和無模型的方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 111
3．2 基于價(jià)值的方法和基于策略的方法．．．．．．．．．．．．．．．．．．．．．．．．．．． 113
3．3 蒙特卡羅方法和時(shí)間差分方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 114
3．4 在線策略方法和離線策略方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 115
第 4 章深度 Q 網(wǎng)絡(luò) 119
4．1 Sarsa 和 Q-Learning ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 121
4．2 為什么使用深度學(xué)習(xí)：價(jià)值函數(shù)逼近．．．．．．．．．．．．．．．．．．．．．．．．．．． 121
4．3 DQN ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 123
4．4 Double DQN ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 124
4．5 Dueling DQN ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 125
4．6 優(yōu)先經(jīng)驗(yàn)回放．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 127
4．7 其他改進(jìn)內(nèi)容：多步學(xué)習(xí)、噪聲網(wǎng)絡(luò)和值分布強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．． 128
4．8 DQN 代碼實(shí)例．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 131
第 5 章策略梯度 146
5．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 146
5．2 REINFORCE：初版策略梯度．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 147
5．3 Actor-Critic ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 149
5．4 生成對(duì)抗網(wǎng)絡(luò)和 Actor-Critic ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 150
5．5 同步優(yōu)勢(shì) Actor-Critic ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 152
5．6 異步優(yōu)勢(shì) Actor-Critic ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 153
5．7 信賴域策略優(yōu)化．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 154
5．8 近端策略優(yōu)化．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 157
5．9 使用 Kronecker 因子化信賴域的 Actor-Critic ．．．．．．．．．．．．．．．．．．．．．． 159
5．10 策略梯度代碼例子．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 162
5．10．1 相關(guān)的 Gym 環(huán)境．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 162
5．10．2 REINFORCE： Atari Pong 和 CartPole-V0 ．．．．．．．．．．．．．．．．．．．．． 165
5．10．3 AC： CartPole-V0 ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 173
5．10．4 A3C： BipedalWalker-v2 ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 176
5．10．5 TRPO： Pendulum-V0 ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 181
5．10．6 PPO： Pendulum-V0 ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 192
第 6 章深度 Q 網(wǎng)絡(luò)和 Actor-Critic 的結(jié)合 200
6．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 200
6．2 深度確定性策略梯度算法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 201
6．3 孿生延遲 DDPG 算法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 203
6．4 柔性 Actor-Critic 算法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 206
6．4．1 柔性策略迭代．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 206
6．4．2 SAC ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 207
6．5 代碼例子．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 209
6．5．1 相關(guān)的 Gym 環(huán)境．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 209
6．5．2 DDPG： Pendulum-V0 ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 209
6．5．3 TD3： Pendulum-V0 ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 215
6．5．4 SAC： Pendulum-v0 ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 225
研究部分 236
第 7 章深度強(qiáng)化學(xué)習(xí)的挑戰(zhàn) 237
7．1 樣本效率．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 237
7．2 學(xué)習(xí)穩(wěn)定性．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 240
7．3 災(zāi)難性遺忘．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 242
7．4 探索．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 243
7．5 元學(xué)習(xí)和表征學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 245
7．6 多智能體強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 246
7．7 模擬到現(xiàn)實(shí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 247
7．8 大規(guī)模強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 251
7．9 其他挑戰(zhàn) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 252
第 8 章模仿學(xué)習(xí) 258
8．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 258
8．2 行為克隆方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 260
8．2．1 行為克隆方法的挑戰(zhàn) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 260
8．2．2 數(shù)據(jù)集聚合．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 261
8．2．3 Variational Dropout ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 262
8．2．4 行為克隆的其他方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 262
8．3 逆向強(qiáng)化學(xué)習(xí)方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 263
8．3．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 263
8．3．2 逆向強(qiáng)化學(xué)習(xí)方法的挑戰(zhàn) ．．．．．．．．．．．．．．．．．．．．．．．．．．．． 264
8．3．3 生成對(duì)抗模仿學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 265
8．3．4 生成對(duì)抗網(wǎng)絡(luò)指導(dǎo)性代價(jià)學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．． 266
8．3．5 對(duì)抗性逆向強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 268
8．4 從觀察量進(jìn)行模仿學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 269
8．4．1 基于模型方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 269
8．4．2 無模型方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 272
8．4．3 從觀察量模仿學(xué)習(xí)的挑戰(zhàn) ．．．．．．．．．．．．．．．．．．．．．．．．．．．． 277
8．5 概率性方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 277
8．6 模仿學(xué)習(xí)作為強(qiáng)化學(xué)習(xí)的初始化．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 279
8．7 強(qiáng)化學(xué)習(xí)中利用示范數(shù)據(jù)的其他方法．．．．．．．．．．．．．．．．．．．．．．．．．． 280
8．7．1 將示范數(shù)據(jù)導(dǎo)入經(jīng)驗(yàn)回放緩存．．．．．．．．．．．．．．．．．．．．．．．．．． 280
8．7．2 標(biāo)準(zhǔn)化 Actor-Critic ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 281
8．7．3 用示范數(shù)據(jù)進(jìn)行獎(jiǎng)勵(lì)塑形．．．．．．．．．．．．．．．．．．．．．．．．．．．． 282
8．8 總結(jié) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 282
第 9 章集成學(xué)習(xí)與規(guī)劃 289
9．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 289
9．2 基于模型的方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 290
9．3 集成模式架構(gòu) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 292
9．4 基于模擬的搜索．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 293
9．4．1 樸素蒙特卡羅搜索．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 294
9．4．2 蒙特卡羅樹搜索．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 294
9．4．3 時(shí)間差分搜索．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 295
第 10 章分層強(qiáng)化學(xué)習(xí) 298
10．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 298
10．2 選項(xiàng)框架．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 299
10．2．1 戰(zhàn)略專注作家．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 300
10．2．2 選項(xiàng)-批判者結(jié)構(gòu) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 303
10．3 封建制強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 305
10．3．1 封建制網(wǎng)絡(luò) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 305
10．3．2 離線策略修正．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 307
10．4 其他工作．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 309
第 11 章多智能體強(qiáng)化學(xué)習(xí) 315
11．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 315
11．2 優(yōu)化和均衡．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 316
11．2．1 納什均衡．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 317
11．2．2 關(guān)聯(lián)性均衡．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 318
11．2．3 斯塔克爾伯格博弈．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 320
11．3 競(jìng)爭(zhēng)與合作．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 321
11．3．1 合作．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 321
11．3．2 零和博弈．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 321
11．3．3 同時(shí)決策下的競(jìng)爭(zhēng) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 322
11．3．4 順序決策下的競(jìng)爭(zhēng) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 323
11．4 博弈分析架構(gòu) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 324
第 12 章并行計(jì)算 326
12．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 326
12．2 同步和異步．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 327
12．3 并行計(jì)算網(wǎng)絡(luò) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 329
12．4 分布式強(qiáng)化學(xué)習(xí)算法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 330
12．4．1 異步優(yōu)勢(shì) Actor-Critic ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 330
12．4．2 GPU/CPU 混合式異步優(yōu)勢(shì) Actor-Critic ．．．．．．．．．．．．．．．．．．．．． 332
12．4．3 分布式近端策略優(yōu)化．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 333
12．4．4 重要性加權(quán)的行動(dòng)者-學(xué)習(xí)者結(jié)構(gòu)和可擴(kuò)展高效深度強(qiáng)化學(xué)習(xí) ．．．．．．．． 336
12．4．5 Ape-X、回溯-行動(dòng)者和分布式深度循環(huán)回放 Q 網(wǎng)絡(luò) ．．．．．．．．．．．．． 338
12．4．6 Gorila ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 340
12．5 分布式計(jì)算架構(gòu) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 340
應(yīng)用部分 343
第 13 章 Learning to Run 344
13．1 NeurIPS 2017 挑戰(zhàn)：Learning to Run ．．．．．．．．．．．．．．．．．．．．．．．．．．． 344
13．1．1 環(huán)境介紹．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 344
13．1．2 安裝．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 346
13．2 訓(xùn)練智能體．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 347
13．2．1 并行訓(xùn)練．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 348
13．2．2 小技巧．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 351
13．2．3 學(xué)習(xí)結(jié)果．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 352
第 14 章魯棒的圖像增強(qiáng) 354
14．1 圖像增強(qiáng) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 354
14．2 用于魯棒處理的強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 356
第 15 章 AlphaZero 366
15．1 簡(jiǎn)介．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 366
15．2 組合博弈．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 367
15．3 蒙特卡羅樹搜索．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 370
15．4 AlphaZero：棋類游戲的通用算法．．．．．．．．．．．．．．．．．．．．．．．．．．．． 376
第 16 章模擬環(huán)境中機(jī)器人學(xué)習(xí) 388
16．1 機(jī)器人模擬．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 389
16．2 強(qiáng)化學(xué)習(xí)用于機(jī)器人任務(wù) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 405
16．2．1 并行訓(xùn)練．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 407
16．2．2 學(xué)習(xí)效果．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 407
16．2．3 域隨機(jī)化．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 408
16．2．4 機(jī)器人學(xué)習(xí)基準(zhǔn) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 409
16．2．5 其他模擬器．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 409
第 17 章 Arena：多智能體強(qiáng)化學(xué)習(xí)平臺(tái) 412
17．1 安裝．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 413
17．2 用 Arena 開發(fā)游戲．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 413
17．2．1 簡(jiǎn)單的單玩家游戲．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 414
17．2．2 簡(jiǎn)單的使用獎(jiǎng)勵(lì)機(jī)制的雙玩家游戲．．．．．．．．．．．．．．．．．．．．．．． 416
17．2．3 高級(jí)設(shè)置．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 420
17．2．4 導(dǎo)出二進(jìn)制游戲．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 424
17．3 MARL 訓(xùn)練．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 427
17．3．1 設(shè)置 X-Server ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 427
17．3．2 進(jìn)行訓(xùn)練．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 429
17．3．3 可視化．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 431
17．3．4 致謝．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 431
第 18 章深度強(qiáng)化學(xué)習(xí)應(yīng)用實(shí)踐技巧 433
18．1 概覽：如何應(yīng)用深度強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 433
18．2 實(shí)現(xiàn)階段．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 434
18．3 訓(xùn)練和調(diào)試階段．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 440
總結(jié)部分 445
附錄 A 算法總結(jié)表 446
附錄 B 算法速查表 451
B．1 深度學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 451
B．1．1 隨機(jī)梯度下降．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 451
B．1．2 Adam 優(yōu)化器．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 452
B．2 強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 452
B．2．1 賭博機(jī) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 452
B．2．2 動(dòng)態(tài)規(guī)劃．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 453
B．2．3 蒙特卡羅．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 454
B．3 深度強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 458
B．4 高等深度強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 467
B．4．1 模仿學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 467
B．4．2 基于模型的強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 468
B．4．3 分層強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 470
B．4．4 多智能體強(qiáng)化學(xué)習(xí) ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 471
B．4．5 并行計(jì)算．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．． 472
附錄 C 中英文對(duì)照表 476