注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn):強(qiáng)化學(xué)習(xí)在阿里的技術(shù)演進(jìn)和業(yè)務(wù)創(chuàng)新

強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn):強(qiáng)化學(xué)習(xí)在阿里的技術(shù)演進(jìn)和業(yè)務(wù)創(chuàng)新

強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn):強(qiáng)化學(xué)習(xí)在阿里的技術(shù)演進(jìn)和業(yè)務(wù)創(chuàng)新

定 價(jià):¥89.00

作 者: 笪慶,曾安祥 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787121338984 出版時(shí)間: 2018-11-01 包裝: 平裝
開本: 16 頁數(shù): 232 字?jǐn)?shù):  

內(nèi)容簡介

  《強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn):強(qiáng)化學(xué)習(xí)在阿里的技術(shù)演進(jìn)和業(yè)務(wù)創(chuàng)新》匯集了阿里巴巴一線算法工程師在強(qiáng)化學(xué)習(xí)應(yīng)用方面的經(jīng)驗(yàn)和心得,覆蓋了阿里巴巴集團(tuán)多個(gè)事業(yè)部的多條業(yè)務(wù)線?!稄?qiáng)化學(xué)習(xí)實(shí)戰(zhàn):強(qiáng)化學(xué)習(xí)在阿里的技術(shù)演進(jìn)和業(yè)務(wù)創(chuàng)新》系統(tǒng)地披露在互聯(lián)網(wǎng)級(jí)別的應(yīng)用上使用強(qiáng)化學(xué)習(xí)的技術(shù)細(xì)節(jié),更包含了算法工程師對(duì)強(qiáng)化學(xué)習(xí)的深入理解、思考和創(chuàng)新。作為算法工程師,你將了解到強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中的建模方法、常見的問題以及對(duì)應(yīng)的解決思路,提高建模和解決業(yè)務(wù)問題的能力;對(duì)于強(qiáng)化學(xué)習(xí)方向的研究人員,你將了解到在游戲之外更多實(shí)際的強(qiáng)化學(xué)習(xí)問題,以及對(duì)應(yīng)的解決方案,擴(kuò)寬研究視野;對(duì)于機(jī)器學(xué)習(xí)愛好者,你將了解到阿里巴巴的一線機(jī)器學(xué)習(xí)算法工程師是如何發(fā)現(xiàn)問題、定義問題和解決問題的,激發(fā)研究興趣以及提升專業(yè)素養(yǎng)。 《強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn):強(qiáng)化學(xué)習(xí)在阿里的技術(shù)演進(jìn)和業(yè)務(wù)創(chuàng)新》適合算法工程師、強(qiáng)化學(xué)習(xí)方向的專業(yè)人員閱讀,也可供機(jī)器學(xué)習(xí)愛好者參考。

作者簡介

  笪慶,花名達(dá)卿阿里巴巴高級(jí)算法專家,碩士畢業(yè)于南京大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所,增多次獲得國內(nèi)外數(shù)據(jù)挖掘/人工智能類競賽冠軍,發(fā)表多篇領(lǐng)域頂會(huì)論文。在阿里主要從事搜索算法排序的工作,并率先在集團(tuán)內(nèi)開展強(qiáng)化學(xué)習(xí)在電商業(yè)務(wù)中的應(yīng)用,實(shí)現(xiàn)了線上決策引擎的智能化決策升級(jí)。曾安祥,花名仁重阿里巴巴資深算法專家。于2009年加入阿里巴巴,作為淘寶搜索的創(chuàng)始人之一,先后參與組建了Query分析團(tuán)隊(duì)和排序團(tuán)隊(duì)等算法團(tuán)隊(duì),和伙伴們一起創(chuàng)造了領(lǐng)先的商品搜索技術(shù)。專注于大規(guī)模機(jī)器學(xué)習(xí)在線學(xué)習(xí)、深度學(xué)習(xí)及強(qiáng)化學(xué)習(xí)等技術(shù)在電商環(huán)境中的大規(guī)模實(shí)際應(yīng)用。發(fā)表了多篇頂會(huì)論文,申請(qǐng)了多個(gè)國內(nèi)外專利。

圖書目錄


第1 章 強(qiáng)化學(xué)習(xí)基礎(chǔ) 1
1.1 引言 2
1.2 起源和發(fā)展 3
1.3 問題建模 5
1.4 常見強(qiáng)化學(xué)習(xí)算法 8
1.4.1 基于值函數(shù)的方法 9
1.4.2 基于直接策略搜索的方法 12
1.5 總結(jié) 14

第2 章 基于強(qiáng)化學(xué)習(xí)的實(shí)時(shí)搜索排序策略調(diào)控 15
2.1 研究背景 16
2.2 問題建模 17
2.2.1 狀態(tài)定義 17
2.2.2 獎(jiǎng)賞函數(shù)設(shè)計(jì) 18
2.3 算法設(shè)計(jì) 19
2.3.1 策略函數(shù) 19
2.3.2 策略梯度 20
2.3.3 值函數(shù)的學(xué)習(xí) 21
2.4 獎(jiǎng)賞塑形 22
2.5 實(shí)驗(yàn)效果 25
2.6 DDPG 與梯度融合 27
2.7 總結(jié)與展望 28

第3 章 延遲獎(jiǎng)賞在搜索排序場景中的作用分析 30
3.1 研究背景 31
3.2 搜索交互建模 31
3.3 數(shù)據(jù)統(tǒng)計(jì)分析 33
3.4 搜索排序問題形式化 36
3.4.1 搜索排序問題建模 36
3.4.2 搜索會(huì)話馬爾可夫決策過程 38
3.4.3 獎(jiǎng)賞函數(shù) 39
3.5 理論分析 40
3.5.1 馬爾可夫性質(zhì) 40
3.5.2 折扣率 41
3.6 算法設(shè)計(jì) 44
3.7 實(shí)驗(yàn)與分析 48
3.7.1 模擬實(shí)驗(yàn) 48
3.7.2 搜索排序應(yīng)用 51

第4 章 基于多智能體強(qiáng)化學(xué)習(xí)的多場景聯(lián)合優(yōu)化 54
4.1 研究背景 55
4.2 問題建模 57
4.2.1 相關(guān)背景簡介 57
4.2.2 建模方法 58
4.3 算法應(yīng)用 65
4.3.1 搜索與電商平臺(tái) 65
4.3.2 多排序場景協(xié)同優(yōu)化 66
4.4 實(shí)驗(yàn)與分析 69
4.4.1 實(shí)驗(yàn)設(shè)置 69
4.4.2 對(duì)比基準(zhǔn) 70
4.4.3 實(shí)驗(yàn)結(jié)果 70
4.4.4 在線示例 73
4.5 總結(jié)與展望 75

第5 章 虛擬淘寶 76
5.1 研究背景 77
5.2 問題描述 79
5.3 虛擬化淘寶 80
5.3.1 用戶生成策略 81
5.3.2 用戶模仿策略 83
5.4 實(shí)驗(yàn)與分析 85
5.4.1 實(shí)驗(yàn)設(shè)置 85
5.4.2 虛擬淘寶與真實(shí)淘寶對(duì)比 85
5.4.3 虛擬淘寶中的強(qiáng)化學(xué)習(xí) 87
5.5 總結(jié)與展望 90

第6 章 組合優(yōu)化視角下基于強(qiáng)化學(xué)習(xí)的精準(zhǔn)定向廣告OCPC 業(yè)務(wù)優(yōu)化92
6.1 研究背景 93
6.2 問題建模 94
6.2.1 獎(jiǎng)賞設(shè)計(jì) 94
6.2.2 動(dòng)作定義 94
6.2.3 狀態(tài)定義 95
6.3 模型選擇 100
6.4 探索學(xué)習(xí) 102
6.5 業(yè)務(wù)實(shí)戰(zhàn) 103
6.5.1 系統(tǒng)設(shè)計(jì) 103
6.5.2 獎(jiǎng)賞設(shè)計(jì) 105
6.5.3 實(shí)驗(yàn)效果 106
6.6 總結(jié)與展望 106

第7 章 策略優(yōu)化方法在搜索廣告排序和競價(jià)機(jī)制中的應(yīng)用 108
7.1 研究背景 109
7.2 數(shù)學(xué)模型和優(yōu)化方法 110
7.3 排序公式設(shè)計(jì) 112
7.4 系統(tǒng)簡介 113
7.4.1 離線仿真模塊 114
7.4.2 離線訓(xùn)練初始化 114
7.5 在線策略優(yōu)化 117
7.6 實(shí)驗(yàn)與分析 118
7.7 總結(jié)與展望 120

第8 章 TaskBot——阿里小蜜的任務(wù)型問答技術(shù) 121
8.1 研究背景 122
8.2 模型設(shè)計(jì) 123
8.2.1 意圖網(wǎng)絡(luò) 123
8.2.2 信念跟蹤 124
8.2.3 策略網(wǎng)絡(luò) 124
8.3 業(yè)務(wù)應(yīng)用 126
8.4 總結(jié)與展望 127

第9 章 DRL 導(dǎo)購——阿里小蜜的多輪標(biāo)簽推薦技術(shù) 128
9.1 研究背景 129
9.2 算法框架 130
9.3 深度強(qiáng)化學(xué)習(xí)模型 133
9.3.1 強(qiáng)化學(xué)習(xí)模塊 133
9.3.2 模型融合 134
9.4 業(yè)務(wù)應(yīng)用 135
9.5 總結(jié)與展望 136

第10 章 Robust DQN 在淘寶錦囊推薦系統(tǒng)中的應(yīng)用 137
10.1 研究背景 138
10.2 Robust DQN 算法 140
10.2.1 分層采樣方法 140
10.2.2 基于分層采樣的經(jīng)驗(yàn)池 141
10.2.3 近似遺憾獎(jiǎng)賞 142
10.2.4 Robust DQN 算法 143
10.3 Robust DQN 算法在淘寶錦囊上的應(yīng)用 144
10.3.1 系統(tǒng)架構(gòu) 144
10.3.2 問題建模 145
10.4 實(shí)驗(yàn)與分析 147
10.4.1 實(shí)驗(yàn)設(shè)置 148
10.4.2 實(shí)驗(yàn)結(jié)果 148
10.5 總結(jié)與展望 152

第11 章 基于上下文因子選擇的商業(yè)搜索引擎性能優(yōu)化 153
11.1 研究背景 154
11.2 排序因子和排序函數(shù) 156
11.3 相關(guān)工作 157
11.4 排序中基于上下文的因子選擇 158
11.5 RankCFS:一種強(qiáng)化學(xué)習(xí)方法 162
11.5.1 CFS 問題的 MDP 建模 162
11.5.2 狀態(tài)與獎(jiǎng)賞的設(shè)計(jì) 163
11.5.3 策略的學(xué)習(xí) 165
11.6 實(shí)驗(yàn)與分析 166
11.6.1 離線對(duì)比 167
11.6.2 在線運(yùn)行環(huán)境的評(píng)價(jià) 170
11.6.3 雙11 評(píng)價(jià) 171
11.7 總結(jié)與展望 172

第12 章 基于深度強(qiáng)化學(xué)習(xí)求解一類新型三維裝箱問題 173
12.1 研究背景 174
12.2 問題建模 175
12.3 深度強(qiáng)化學(xué)習(xí)方法 177
12.3.1 網(wǎng)絡(luò)結(jié)構(gòu) 178
12.3.2 基于策略的強(qiáng)化學(xué)習(xí)方法 179
12.3.3 基準(zhǔn)值的更新 180
12.3.4 隨機(jī)采樣與集束搜索 180
12.4 實(shí)驗(yàn)與分析 181
12.5 小結(jié) 182

第13 章 基于強(qiáng)化學(xué)習(xí)的分層流量調(diào)控 183
13.1 研究背景 184
13.2 基于動(dòng)態(tài)動(dòng)作區(qū)間的DDPG 算法 186
13.3 實(shí)驗(yàn)效果 189
13.4 總結(jié)與展望 189

第14 章 風(fēng)險(xiǎn)商品流量調(diào)控 190
14.1 研究背景 191
14.2 基于強(qiáng)化學(xué)習(xí)的問題建模 192
14.2.1 狀態(tài)空間的定義 192
14.2.2 動(dòng)作空間的定義 193
14.2.3 獎(jiǎng)賞函數(shù)的定義 193
14.2.4 模型選擇 194
14.2.5 獎(jiǎng)賞函數(shù)歸一化 196
14.3 流量調(diào)控系統(tǒng)架構(gòu) 196
14.4 實(shí)驗(yàn)效果 197
14.5 總結(jié)與展望 197
參考文獻(xiàn) 199

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)