Spark機器學習進階實戰(zhàn)

定　價：￥59.00

作　者：	馬海平于俊呂昕向海著
出版社：	機械工業(yè)出版社
叢編項：	大數(shù)據(jù)技術叢書
標　簽：	暫缺

購買這本書可以去

京東 (￥59.00)

ISBN：	9787111608103	出版時間：	2018-09-01	包裝：	平裝
開本：	16開	頁數(shù)：	210	字數(shù)：

內(nèi)容簡介

　　全書一共分三大部分：基礎篇（1-2章）對Spark機器學習進行概述、并通過Spark機器學習開始進行數(shù)據(jù)分析；算法篇（3-8章）針對分類、聚類、回歸、協(xié)同過濾、關聯(lián)規(guī)則、降維等算法進行詳細講解，并進行案例支持；綜合案例篇（9-12章）重點通過異常檢測、用戶畫像、廣告點擊率預估、智慧交通大數(shù)據(jù)4個綜合場景，詳細講解基于Spark機器學習的綜合應用。

作者簡介

暫缺《Spark機器學習進階實戰(zhàn)》作者簡介

圖書目錄

前　言
第一篇　基礎篇
第1章　機器學習概述 2
1.1　機器學習概述 2
1.1.1　理解大數(shù)據(jù) 2
1.1.2　機器學習發(fā)展過程 4
1.1.3　大數(shù)據(jù)生態(tài)環(huán)境 5
1.2　機器學習算法 6
1.2.1　傳統(tǒng)機器學習 6
1.2.2　深度學習 8
1.2.3　其他機器學習 8
1.3　機器學習分類 9
1.3.1　監(jiān)督學習 9
1.3.2　無監(jiān)督學習 10
1.3.3　半監(jiān)督學習 10
1.3.4　強化學習 10
1.4　機器學習綜合應用 11
1.4.1　異常檢測 12
1.4.2　用戶畫像 12
1.4.3　廣告點擊率預估 12
1.4.4　企業(yè)征信大數(shù)據(jù)應用 12
1.4.5　智慧交通大數(shù)據(jù)應用 13
1.5　本章小結 13
第2章　數(shù)據(jù)分析流程和方法 14
2.1　數(shù)據(jù)分析概述 14
2.2　數(shù)據(jù)分析流程 15
2.2.1　業(yè)務調(diào)研 16
2.2.2　明確目標 16
2.2.3　數(shù)據(jù)準備 16
2.2.4　特征處理 17
2.2.5　模型訓練與評估 21
2.2.6　輸出結論 23
2.3　數(shù)據(jù)分析的基本方法 24
2.3.1　匯總統(tǒng)計 24
2.3.2　相關性分析 25
2.3.3　分層抽樣 26
2.3.4　假設檢驗 26
2.4　簡單的數(shù)據(jù)分析實踐 27
2.4.1　環(huán)境準備 27
2.4.2　準備數(shù)據(jù) 28
2.4.3　數(shù)據(jù)分析 29
2.5　本章小結 30
第二篇　算法篇
第3章　構建分類模型 32
3.1　分類模型概述 32
3.2　分類模型算法 34
3.2.1　邏輯回歸 34
3.2.2　樸素貝葉斯模型 36
3.2.3　SVM模型 37
3.2.4　決策樹模型 39
3.2.5　K-近鄰 40
3.3　分類效果評估 40
3.3.1　正確率 41
3.3.2　準確率、召回率和F1值 41
3.3.3　ROC和AUC 42
3.4　App數(shù)據(jù)的分類實現(xiàn) 44
3.4.1　選擇分類器 44
3.4.2　準備數(shù)據(jù) 45
3.4.3　訓練模型 46
3.4.4　模型性能評估 48
3.4.5　模型參數(shù)調(diào)優(yōu) 49
3.5　其他分類模型 50
3.5.1　隨機森林 50
3.5.2　梯度提升樹 51
3.5.3　因式分解機模型 51
3.6　本章小結 52
第4章　構建聚類模型 53
4.1　聚類概述 53
4.2　聚類模型 54
4.2.1　KMeans聚類 54
4.2.2　DBSCAN聚類 55
4.2.3　主題聚類 56
4.3　聚類效果評價 58
4.3.1　集中平方誤差和 58
4.3.2　Purity評價法 59
4.4　使用KMeans對鳶尾花卉數(shù)據(jù)集聚類 59
4.4.1　準備數(shù)據(jù) 59
4.4.2　特征處理 60
4.4.3　聚類分析 60
4.4.4　模型性能評估 62
4.5　使用DBSCAN對GPS數(shù)據(jù)進行聚類 62
4.5.1　準備數(shù)據(jù) 63
4.5.2　特征處理 64
4.5.3　聚類分析 64
4.5.4　模型參數(shù)調(diào)優(yōu) 65
4.6　其他模型 66
4.6.1　層次聚類 66
4.6.2　基于圖的聚類 67
4.6.3　混合聚類模型 67
4.7　本章小結 68
第5章　構建回歸模型 69
5.1　常用回歸模型 69
5.1.1　線性回歸模型 70
5.1.2　回歸樹模型 70
5.1.3　其他回歸模型 71
5.2　評估指標 73
5.3　回歸模型優(yōu)化 74
5.3.1　特征選擇 74
5.3.2　特征變換 74
5.4　構建UCI裙子銷售數(shù)據(jù)回歸模型 75
5.4.1　準備數(shù)據(jù) 75
5.4.2　訓練模型 78
5.4.3　評估效果 79
5.4.4　模型優(yōu)化 79
5.5　其他回歸模型案例 80
5.5.1　GDP影響因素分析 81
5.5.2　大氣污染分析 81
5.5.3　大數(shù)據(jù)比賽中的回歸問題 81
5.6　本章小結 82
第6章　構建關聯(lián)規(guī)則模型 83
6.1　關聯(lián)規(guī)則概述 83
6.2　常用關聯(lián)規(guī)則算法 84
6.2.1　Apriori算法 84
6.2.2　FP-Growth算法 85
6.3　效果評估和優(yōu)化 86
6.3.1　效果評估 86
6.3.2　效果優(yōu)化 87
6.4　使用FP-Growth對豆瓣評分數(shù)據(jù)進行挖掘 88
6.4.1　準備數(shù)據(jù) 89
6.4.2　訓練模型 89
6.4.3　觀察規(guī)則 91
6.4.4　參數(shù)調(diào)優(yōu) 91
6.4.5　使用算法 92
6.5　其他應用場景 94
6.6　本章小結 96
第7章　協(xié)同過濾 97
7.1　協(xié)同過濾概述 97
7.2　常用的協(xié)同過濾算法 98
7.2.1　基于用戶的協(xié)同過濾 99
7.2.2　基于物品的協(xié)同過濾 100
7.2.3　矩陣分解技術 101
7.2.4　推薦算法的選擇 102
7.3　評估標準 103
7.3.1　準確率 103
7.3.2　覆蓋率 103
7.3.3　多樣性 104
7.3.4　其他指標 104
7.4　使用電影評分數(shù)據(jù)進行協(xié)同過濾實踐 104
7.4.1　準備數(shù)據(jù) 105
7.4.2　訓練模型 106
7.4.3　測試模型 109
7.4.4　使用ALS結果 111
7.5　本章小結 112
第8章　數(shù)據(jù)降維 113
8.1　降維概述 113
8.2　常用降維算法 114
8.2.1　主成分分析 114
8.2.2　奇異值分解 116
8.2.3　廣義降維 117
8.2.4　文本降維 118
8.3　降維評估標準 121
8.4　使用PCA對Digits數(shù)據(jù)集進行降維 122
8.4.1　準備數(shù)據(jù) 122
8.4.2　訓練模型 123
8.4.3　分析降維結果 124
8.5　其他降維方法 124
8.5.1　線性判別分析 124
8.5.2　局部線性嵌入 125
8.5.3　拉普拉斯特征映射 125
8.6　本章小結 126
第三篇　綜合應用篇
第9章　異常檢測 128
9.1　異常概述 128
9.1.1　異常的產(chǎn)生 129
9.1.2　異常檢測的分類 129
9.2　異常檢測方法 130
9.2.1　基于模型的方法 130
9.2.2　基于鄰近度的方法 131
9.2.3　基于密度的方法 132
9.2.4　基于聚類的方法 133
9.3　異常檢測系統(tǒng) 133
9.3.1　異常檢測過程 133
9.