注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Apache Spark機(jī)器學(xué)習(xí)

Apache Spark機(jī)器學(xué)習(xí)

Apache Spark機(jī)器學(xué)習(xí)

定 價(jià):¥59.00

作 者: [美] 劉永川Alex Liu 著;閆龍川 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 大數(shù)據(jù)技術(shù)叢書(shū)
標(biāo) 簽: 程序設(shè)計(jì) 計(jì)算機(jī)/網(wǎng)絡(luò)

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787111562559 出版時(shí)間: 2017-03-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 208 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)包裝了一系列項(xiàng)目“藍(lán)圖”,展示了Spark可以幫你解決的一些有趣挑戰(zhàn),讀者在將理論知識(shí)實(shí)踐于一些實(shí)際項(xiàng)目之前,會(huì)了解到如何使用Sparknotebook,以及如何訪問(wèn)、清洗和連接不同的數(shù)據(jù)集,你將在其中了解Spark機(jī)器學(xué)習(xí)如何幫助你完成從欺詐檢測(cè)到分析客戶(hù)流失等各種工作。你還將了解如何使用Spark的并行計(jì)算能力構(gòu)建推薦引擎。

作者簡(jiǎn)介

暫缺《Apache Spark機(jī)器學(xué)習(xí)》作者簡(jiǎn)介

圖書(shū)目錄

目  錄?Contents
譯者序
前 言
第1章 Spark機(jī)器學(xué)習(xí)簡(jiǎn)介 1
1.1 Spark概述和技術(shù)優(yōu)勢(shì) 2
1.1.1 Spark概述 2
1.1.2 Spark優(yōu)勢(shì) 3
1.2 在機(jī)器學(xué)習(xí)中應(yīng)用Spark計(jì)算 4
1.3 機(jī)器學(xué)習(xí)算法 5
1.4 MLlib 6
1.5 Spark RDD和DataFrame 8
1.5.1 Spark RDD 8
1.5.2 Spark DataFrame 9
1.5.3 R語(yǔ)言DataFrame API 10
1.5.4 機(jī)器學(xué)習(xí)框架、RM4E和Spark計(jì)算 11
1.5.5 機(jī)器學(xué)習(xí)框架 12
1.5.6 RM4E 13
1.5.7 Spark計(jì)算框架 13
1.6 機(jī)器學(xué)習(xí)工作流和Spark pipeline 14
1.7 機(jī)器學(xué)習(xí)工作流示例 16
1.8 Spark notebook簡(jiǎn)介 19
1.8.1 面向機(jī)器學(xué)習(xí)的notebook方法 19
1.8.2 Spark notebook 21
1.9 小結(jié) 22
第2章 Spark機(jī)器學(xué)習(xí)的數(shù)據(jù)準(zhǔn)備 24
2.1 訪問(wèn)和加載數(shù)據(jù)集 25
2.1.1 訪問(wèn)公開(kāi)可用的數(shù)據(jù)集 25
2.1.2 加載數(shù)據(jù)集到Spark 26
2.1.3 數(shù)據(jù)集探索和可視化 27
2.2 數(shù)據(jù)清洗 29
2.2.1 處理數(shù)據(jù)不完備性 30
2.2.2 在Spark中進(jìn)行數(shù)據(jù)清洗 31
2.2.3 更簡(jiǎn)便的數(shù)據(jù)清洗 32
2.3 一致性匹配 33
2.3.1 一致性問(wèn)題 33
2.3.2 基于Spark的一致性匹配 34
2.3.3 實(shí)體解析 34
2.3.4 更好的一致性匹配 35
2.4 數(shù)據(jù)集重組 36
2.4.1 數(shù)據(jù)集重組任務(wù) 36
2.4.2 使用Spark SQL進(jìn)行數(shù)據(jù)集重組 37
2.4.3 在Spark上使用R語(yǔ)言進(jìn)行數(shù)據(jù)集重組 38
2.5 數(shù)據(jù)集連接 39
2.5.1 數(shù)據(jù)連接及其工具——Spark SQL 39
2.5.2 Spark中的數(shù)據(jù)集連接 40
2.5.3 使用R語(yǔ)言數(shù)據(jù)表程序包進(jìn)行數(shù)據(jù)連接 40
2.6 特征提取 42
2.6.1 特征開(kāi)發(fā)的挑戰(zhàn) 42
2.6.2 基于Spark MLlib的特征開(kāi)發(fā) 43
2.6.3 基于R語(yǔ)言的特征開(kāi)發(fā) 45
2.7 復(fù)用性和自動(dòng)化 45
2.7.1 數(shù)據(jù)集預(yù)處理工作流 46
2.7.2 基于Spark pipeline的數(shù)據(jù)集預(yù)處理 47
2.7.3 數(shù)據(jù)集預(yù)處理自動(dòng)化 47
2.8 小結(jié) 49
第3章 基于Spark的整體視圖 51
3.1 Spark整體視圖 51
3.1.1 例子 52
3.1.2 簡(jiǎn)潔快速的計(jì)算 54
3.2 整體視圖的方法 55
3.2.1 回歸模型 56
3.2.2 SEM方法 57
3.2.3 決策樹(shù) 57
3.3 特征準(zhǔn)備 58
3.3.1 PCA 59
3.3.2 使用專(zhuān)業(yè)知識(shí)進(jìn)行分類(lèi)分組 59
3.3.3 特征選擇 60
3.4 模型估計(jì) 61
3.4.1 MLlib實(shí)現(xiàn) 62
3.4.2 R notebook實(shí)現(xiàn) 62
3.5 模型評(píng)估 63
3.5.1 快速評(píng)價(jià) 63
3.5.2 RMSE 64
3.5.3 ROC曲線 65
3.6 結(jié)果解釋 66
3.7 部署 66
3.7.1 儀表盤(pán) 67
3.7.2 規(guī)則 68
3.8 小結(jié) 68
第4章 基于Spark的欺詐檢測(cè) 69
4.1 Spark欺詐檢測(cè) 70
4.1.1 例子 70
4.1.2 分布式計(jì)算 71
4.2 欺詐檢測(cè)方法 72
4.2.1 隨機(jī)森林 73
4.2.2 決策樹(shù) 74
4.3 特征提取 74
4.3.1 從日志文件提取特征 75
4.3.2 數(shù)據(jù)合并 75
4.4 模型估計(jì) 76
4.4.1 MLlib實(shí)現(xiàn) 77
4.4.2 R notebook實(shí)現(xiàn) 77
4.5 模型評(píng)價(jià) 77
4.5.1 快速評(píng)價(jià) 78
4.5.2 混淆矩陣和誤報(bào)率 78
4.6 結(jié)果解釋 79
4.7 部署欺詐檢測(cè) 80
4.7.1 規(guī)則 81
4.7.2 評(píng)分 81
4.8 小結(jié) 82
第5章 基于Spark的風(fēng)險(xiǎn)評(píng)分 83
5.1 Spark用于風(fēng)險(xiǎn)評(píng)分 84
5.1.1 例子 84
5.1.2 Apache Spark notebook 85
5.2 風(fēng)險(xiǎn)評(píng)分方法 87
5.2.1 邏輯回歸 87
5.2.2 隨機(jī)森林和決策樹(shù) 88
5.3 數(shù)據(jù)和特征準(zhǔn)備 89
5.4 模型估計(jì) 91
5.4.1 在Data Scientist Workbench上應(yīng)用R notebook 91
5.4.2 實(shí)現(xiàn)R notebook 92
5.5 模型評(píng)價(jià) 93
5.5.1 混淆矩陣 93
5.5.2 ROC分析 93
5.5.3 Kolmogorov-Smirnov檢驗(yàn) 94
5.6 結(jié)果解釋 95
5.7 部署 96
5.8 小結(jié) 97
第6章 基于Spark的流失預(yù)測(cè) 99
6.1 Spark流失預(yù)測(cè) 99
6.1.1 例子 100
6.1.2 Spark計(jì)算 100
6.2 流失預(yù)測(cè)的方法 101
6.2.1 回歸模型 102
6.2.2 決策樹(shù)和隨機(jī)森林 103
6.3 特征準(zhǔn)備 104
6.3.1 特征提取 104
6.3.2 特征選擇 105
6.4 模型估計(jì) 105
6.5 模型評(píng)估 107
6.6 結(jié)果解釋 109
6.7 部署 110
6.7.1 評(píng)分 111
6.7.2 干預(yù)措施推薦 111
6.8 小結(jié) 111
第7章 基于Spark的產(chǎn)品推薦 112
7.1 基于Apache Spark 的產(chǎn)品推薦引擎 112
7.1.1 例子 113
7.1.2 基于Spark平臺(tái)的SPSS 114
7.2 產(chǎn)品推薦方法 117
7.2.1 協(xié)同過(guò)濾 117
7.2.2 編程準(zhǔn)備 118
7.3 基于SPSS的數(shù)據(jù)治理 119
7.4 模型估計(jì) 120
7.5 模型評(píng)價(jià) 121
7.6 產(chǎn)品推薦部署 122
7.7 小結(jié) 125
第8章 基于Spark的學(xué)習(xí)分析 126
8.1 Spark流失預(yù)測(cè) 127
8.1.1 例子 127
8.1.2 Spark計(jì)算 128
8.2 流失預(yù)測(cè)方法 130
8.2.1 回歸模型 130
8.2.2 決策樹(shù) 131
8.3 特征準(zhǔn)備 131
8.3.1 特征開(kāi)發(fā) 133
8.3.2 特征選擇 133
8.4 模型估計(jì) 135
8.5 模型評(píng)價(jià) 137
8.5.1 快速評(píng)價(jià) 138
8.5.2 混淆矩陣和錯(cuò)誤率 138
8.6 結(jié)果解釋 139
8.6.1 計(jì)算干預(yù)影響 140
8.6.2 計(jì)算主因子影響 140
8.7 部署 141
8.7.1 規(guī)則 141
8.7.2 評(píng)分 142
8.8 小結(jié)

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)