強化學(xué)習(xí)實戰(zhàn)：強化學(xué)習(xí)在阿里的技術(shù)演進和業(yè)務(wù)創(chuàng)新

定　價：￥89.00

作　者：	笪慶，曾安祥著
出版社：	電子工業(yè)出版社
叢編項：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787121338984	出版時間：	2018-11-01	包裝：	平裝
開本：	16	頁數(shù)：	232	字數(shù)：

內(nèi)容簡介

　　《強化學(xué)習(xí)實戰(zhàn)：強化學(xué)習(xí)在阿里的技術(shù)演進和業(yè)務(wù)創(chuàng)新》匯集了阿里巴巴一線算法工程師在強化學(xué)習(xí)應(yīng)用方面的經(jīng)驗和心得，覆蓋了阿里巴巴集團多個事業(yè)部的多條業(yè)務(wù)線?！稄娀瘜W(xué)習(xí)實戰(zhàn)：強化學(xué)習(xí)在阿里的技術(shù)演進和業(yè)務(wù)創(chuàng)新》系統(tǒng)地披露在互聯(lián)網(wǎng)級別的應(yīng)用上使用強化學(xué)習(xí)的技術(shù)細節(jié)，更包含了算法工程師對強化學(xué)習(xí)的深入理解、思考和創(chuàng)新。作為算法工程師，你將了解到強化學(xué)習(xí)在實際應(yīng)用中的建模方法、常見的問題以及對應(yīng)的解決思路，提高建模和解決業(yè)務(wù)問題的能力；對于強化學(xué)習(xí)方向的研究人員，你將了解到在游戲之外更多實際的強化學(xué)習(xí)問題，以及對應(yīng)的解決方案，擴寬研究視野；對于機器學(xué)習(xí)愛好者，你將了解到阿里巴巴的一線機器學(xué)習(xí)算法工程師是如何發(fā)現(xiàn)問題、定義問題和解決問題的，激發(fā)研究興趣以及提升專業(yè)素養(yǎng)。《強化學(xué)習(xí)實戰(zhàn)：強化學(xué)習(xí)在阿里的技術(shù)演進和業(yè)務(wù)創(chuàng)新》適合算法工程師、強化學(xué)習(xí)方向的專業(yè)人員閱讀，也可供機器學(xué)習(xí)愛好者參考。

作者簡介

　　笪慶，花名達卿阿里巴巴高級算法專家，碩士畢業(yè)于南京大學(xué)機器學(xué)習(xí)與數(shù)據(jù)挖掘研究所，增多次獲得國內(nèi)外數(shù)據(jù)挖掘/人工智能類競賽冠軍，發(fā)表多篇領(lǐng)域頂會論文。在阿里主要從事搜索算法排序的工作，并率先在集團內(nèi)開展強化學(xué)習(xí)在電商業(yè)務(wù)中的應(yīng)用，實現(xiàn)了線上決策引擎的智能化決策升級。曾安祥，花名仁重阿里巴巴資深算法專家。于2009年加入阿里巴巴，作為淘寶搜索的創(chuàng)始人之一，先后參與組建了Query分析團隊和排序團隊等算法團隊，和伙伴們一起創(chuàng)造了領(lǐng)先的商品搜索技術(shù)。專注于大規(guī)模機器學(xué)習(xí)在線學(xué)習(xí)、深度學(xué)習(xí)及強化學(xué)習(xí)等技術(shù)在電商環(huán)境中的大規(guī)模實際應(yīng)用。發(fā)表了多篇頂會論文，申請了多個國內(nèi)外專利。

圖書目錄

序
第1 章強化學(xué)習(xí)基礎(chǔ) 1
1.1 引言 2
1.2 起源和發(fā)展 3
1.3 問題建模 5
1.4 常見強化學(xué)習(xí)算法 8
1.4.1 基于值函數(shù)的方法 9
1.4.2 基于直接策略搜索的方法 12
1.5 總結(jié) 14

第2 章基于強化學(xué)習(xí)的實時搜索排序策略調(diào)控 15
2.1 研究背景 16
2.2 問題建模 17
2.2.1 狀態(tài)定義 17
2.2.2 獎賞函數(shù)設(shè)計 18
2.3 算法設(shè)計 19
2.3.1 策略函數(shù) 19
2.3.2 策略梯度 20
2.3.3 值函數(shù)的學(xué)習(xí) 21
2.4 獎賞塑形 22
2.5 實驗效果 25
2.6 DDPG 與梯度融合 27
2.7 總結(jié)與展望 28

第3 章延遲獎賞在搜索排序場景中的作用分析 30
3.1 研究背景 31
3.2 搜索交互建模 31
3.3 數(shù)據(jù)統(tǒng)計分析 33
3.4 搜索排序問題形式化 36
3.4.1 搜索排序問題建模 36
3.4.2 搜索會話馬爾可夫決策過程 38
3.4.3 獎賞函數(shù) 39
3.5 理論分析 40
3.5.1 馬爾可夫性質(zhì) 40
3.5.2 折扣率 41
3.6 算法設(shè)計 44
3.7 實驗與分析 48
3.7.1 模擬實驗 48
3.7.2 搜索排序應(yīng)用 51

第4 章基于多智能體強化學(xué)習(xí)的多場景聯(lián)合優(yōu)化 54
4.1 研究背景 55
4.2 問題建模 57
4.2.1 相關(guān)背景簡介 57
4.2.2 建模方法 58
4.3 算法應(yīng)用 65
4.3.1 搜索與電商平臺 65
4.3.2 多排序場景協(xié)同優(yōu)化 66
4.4 實驗與分析 69
4.4.1 實驗設(shè)置 69
4.4.2 對比基準(zhǔn) 70
4.4.3 實驗結(jié)果 70
4.4.4 在線示例 73
4.5 總結(jié)與展望 75

第5 章虛擬淘寶 76
5.1 研究背景 77
5.2 問題描述 79
5.3 虛擬化淘寶 80
5.3.1 用戶生成策略 81
5.3.2 用戶模仿策略 83
5.4 實驗與分析 85
5.4.1 實驗設(shè)置 85
5.4.2 虛擬淘寶與真實淘寶對比 85
5.4.3 虛擬淘寶中的強化學(xué)習(xí) 87
5.5 總結(jié)與展望 90

第6 章組合優(yōu)化視角下基于強化學(xué)習(xí)的精準(zhǔn)定向廣告OCPC 業(yè)務(wù)優(yōu)化92
6.1 研究背景 93
6.2 問題建模 94
6.2.1 獎賞設(shè)計 94
6.2.2 動作定義 94
6.2.3 狀態(tài)定義 95
6.3 模型選擇 100
6.4 探索學(xué)習(xí) 102
6.5 業(yè)務(wù)實戰(zhàn) 103
6.5.1 系統(tǒng)設(shè)計 103
6.5.2 獎賞設(shè)計 105
6.5.3 實驗效果 106
6.6 總結(jié)與展望 106

第7 章策略優(yōu)化方法在搜索廣告排序和競價機制中的應(yīng)用 108
7.1 研究背景 109
7.2 數(shù)學(xué)模型和優(yōu)化方法 110
7.3 排序公式設(shè)計 112
7.4 系統(tǒng)簡介 113
7.4.1 離線仿真模塊 114
7.4.2 離線訓(xùn)練初始化 114
7.5 在線策略優(yōu)化 117
7.6 實驗與分析 118
7.7 總結(jié)與展望 120

第8 章 TaskBot——阿里小蜜的任務(wù)型問答技術(shù) 121
8.1 研究背景 122
8.2 模型設(shè)計 123
8.2.1 意圖網(wǎng)絡(luò) 123
8.2.2 信念跟蹤 124
8.2.3 策略網(wǎng)絡(luò) 124
8.3 業(yè)務(wù)應(yīng)用 126
8.4 總結(jié)與展望 127

第9 章 DRL 導(dǎo)購——阿里小蜜的多輪標(biāo)簽推薦技術(shù) 128
9.1 研究背景 129
9.2 算法框架 130
9.3 深度強化學(xué)習(xí)模型 133
9.3.1 強化學(xué)習(xí)模塊 133
9.3.2 模型融合 134
9.4 業(yè)務(wù)應(yīng)用 135
9.5 總結(jié)與展望 136

第10 章 Robust DQN 在淘寶錦囊推薦系統(tǒng)中的應(yīng)用 137
10.1 研究背景 138
10.2 Robust DQN 算法 140
10.2.1 分層采樣方法 140
10.2.2 基于分層采樣的經(jīng)驗池 141
10.2.3 近似遺憾獎賞 142
10.2.4 Robust DQN 算法 143
10.3 Robust DQN 算法在淘寶錦囊上的應(yīng)用 144
10.3.1 系統(tǒng)架構(gòu) 144
10.3.2 問題建模 145
10.4 實驗與分析 147
10.4.1 實驗設(shè)置 148
10.4.2 實驗結(jié)果 148
10.5 總結(jié)與展望 152

第11 章基于上下文因子選擇的商業(yè)搜索引擎性能優(yōu)化 153
11.1 研究背景 154
11.2 排序因子和排序函數(shù) 156
11.3 相關(guān)工作 157
11.4 排序中基于上下文的因子選擇 158
11.5 RankCFS：一種強化學(xué)習(xí)方法 162
11.5.1 CFS 問題的 MDP 建模 162
11.5.2 狀態(tài)與獎賞的設(shè)計 163
11.5.3 策略的學(xué)習(xí) 165
11.6 實驗與分析 166
11.6.1 離線對比 167
11.6.2 在線運行環(huán)境的評價 170
11.6.3 雙11 評價 171
11.7 總結(jié)與展望 172

第12 章基于深度強化學(xué)習(xí)求解一類新型三維裝箱問題 173
12.1 研究背景 174
12.2 問題建模 175
12.3 深度強化學(xué)習(xí)方法 177
12.3.1 網(wǎng)絡(luò)結(jié)構(gòu) 178
12.3.2 基于策略的強化學(xué)習(xí)方法 179
12.3.3 基準(zhǔn)值的更新 180
12.3.4 隨機采樣與集束搜索 180
12.4 實驗與分析 181
12.5 小結(jié) 182

第13 章基于強化學(xué)習(xí)的分層流量調(diào)控 183
13.1 研究背景 184
13.2 基于動態(tài)動作區(qū)間的DDPG 算法 186
13.3 實驗效果 189
13.4 總結(jié)與展望 189

第14 章風(fēng)險商品流量調(diào)控 190
14.1 研究背景 191
14.2 基于強化學(xué)習(xí)的問題建模 192
14.2.1 狀態(tài)空間的定義 192
14.2.2 動作空間的定義 193
14.2.3 獎賞函數(shù)的定義 193
14.2.4 模型選擇 194
14.2.5 獎賞函數(shù)歸一化 196
14.3 流量調(diào)控系統(tǒng)架構(gòu) 196
14.4 實驗效果 197
14.5 總結(jié)與展望 197
參考文獻 199