目錄
第1章 緒論 1
1.1 數(shù)據挖掘的含義 1
1.2 數(shù)據挖掘、機器學習與人工智能 2
1.3 數(shù)據挖掘基本任務 4
1.3.1 分類與預測 4
1.3.2 聚類分析 6
1.3.3 關聯(lián)分析 7
1.3.4 異常檢測 7
1.3.5 其他任務 8
1.4 數(shù)據挖掘流程 9
1.4.1 明確目標 9
1.4.2 數(shù)據收集 9
1.4.3 數(shù)據探索 10
1.4.4 數(shù)據預處理 10
1.4.5 挖掘建模 10
1.4.6 模型評價 11
1.5 數(shù)據挖掘常用工具及其比較 11
1.5.1 Python 11
1.5.2 R 11
1.5.3 Weka 12
1.5.4 SPSS Modeler 12
1.5.5 RapidMiner 12
1.6 Python的安裝及使用 13
1.6.1 WinPython 13
1.6.2 Anaconda 14
1.6.3 集成開發(fā)環(huán)境 15
1.7 本章小結 16
思考題 17
習題 17
本章參考文獻 17
第2章 數(shù)據預處理 18
2.1 概述 18
2.2 缺失值的處理 18
2.2.1 缺失值的查找 19
2.2.2 缺失值的刪除 20
2.2.3 缺失值的填充 22
2.3 異常值的處理 23
2.4 數(shù)據的標準化 25
2.4.1 Z-score標準化 25
2.4.2 將特征變量縮放到指定范圍 27
2.4.3 考慮異常值的標準化 28
2.5 數(shù)據的正則化 28
2.6 自定義轉換器 30
2.7 生成多項式和交互特征 30
2.8 本章小結 31
思考題 32
習題 32
第3章 樸素貝葉斯分類器 33
3.1 樸素貝葉斯分類算法相關的統(tǒng)計學知識 33
3.2 極大似然估計 34
3.3 貝葉斯估計 36
3.4 樸素貝葉斯分類算法的Python實現(xiàn) 37
3.5 本章小結 40
思考題 41
習題 41
本章參考文獻 41
第4章 決策樹 42
4.1 決策樹分類算法概述 42
4.2 熵與信息增益 43
4.3 ID3算法 46
4.4 C4.5算法 47
4.5 CART算法 49
4.6 過擬合與決策樹剪枝 52
4.6.1 過擬合 52
4.6.2 決策樹剪枝 52
4.7 分類模型的評估 54
4.7.1 混淆矩陣 54
4.7.2 ROC曲線 57
4.8 實例:決策樹的Python實現(xiàn) 59
4.9 本章小結 62
4.9.1 決策樹ID3、C4.5和CART算法比較 62
4.9.2 決策樹算法優(yōu)缺點 63
思考題 63
習題 63
本章參考文獻 64
第5章 集成學習 65
5.1 集成學習的思想 65
5.2 集成學習模型:結合策略 67
5.2.1 集成回歸模型的結合策略 67
5.2.2 集成分類模型的結合策略 68
5.3 Bagging方法與隨機森林 68
5.3.1 Bagging方法 68
5.3.2 隨機森林 69
5.4 Boosting方法與Adaboost 70
5.4.1 Boosting方法 70
5.4.2 Adaboost 71
5.5 集成學習模型的Python實現(xiàn) 72
5.6 實例:信用卡還貸情況預測 72
5.7 本章小結 74
思考題 74
習題 75
本章參考文獻 75
第6章 k-近鄰 76
6.1 數(shù)據在不同維度上分布的分類表現(xiàn) 76
6.2 算法原理 78
6.3 相似度與距離 79
6.3.1 二維向量空間的KNN分類 79
6.3.2 多維向量空間的KNN分類 80
6.4 k值的選擇 83
6.5 分類決策規(guī)則 84
6.6 KNN算法 84
6.7 kd樹 85
6.8 實例:鳶尾花分類 88
思考題 89
習題 89
本章參考文獻 89
第7章 支持向量機 90
7.1 SVM算法介紹 90
7.2 線性可分支持向量機 91
7.2.1 原始問題 91
7.2.2 對偶問題 95
7.2.3 算法過程 97
7.3 線性不可分支持向量機 97
7.3.1 原始問題 98
7.3.2 對偶問題 98
7.3.3 算法過程 99
7.4 非線性支持向量機 100
7.4.1 對偶問題 100
7.4.2 算法過程 101
7.5 實例:鳶尾花分類 102
思考題 103
習題 103
本章參考文獻 103
第8章 人工神經網絡 105
8.1 神經網絡的基本概念 105
8.2 神經網絡的發(fā)展過程 107
8.2.1 神經元 107
8.2.2 單層神經網絡(感知器) 109
8.2.3 兩層神經網絡(多層感知器) 110
8.2.4 神經網絡訓練(反向傳播) 113
8.3 實例:mnist手寫數(shù)字識別 118
思考題 119
習題 119
本章參考文獻 120
第9章 聚類分析 121
9.1 聚類問題 121
9.1.1 聚類問題的定義 121
9.1.2 聚類的依據:距離的定義 122
9.2 基于原型的聚類方法:k-均值聚類 123
9.2.1 k-均值聚類的原理和過程 123
9.2.2 k-均值聚類的特點 124
9.3 基于密度的聚類方法:DBSCAN 125
9.3.1 DBSCAN聚類方法的原理 126
9.3.2 DBSCAN 聚類方法的特點 127
9.4 基于層次的聚類方法:AGNES 127
9.4.1 AGNES 聚類方法的原理 128
9.4.2 AGNES聚類方法的特點 130
9.5 聚類結果的評價 130
9.6 使用Python進行聚類分析 132
9.7 實例:城市發(fā)展?jié)摿υu估 133
9.8 本章小結 134
思考題 135
習題 135
本章參考文獻 135
第10章 關聯(lián)分析 137
10.1 關聯(lián)分析的基本概念 137
10.1.1 問題定義 137
10.1.2 關聯(lián)分析的基本步驟 139
10.2 Apriori 關聯(lián)分析算法 140
10.2.1 尋找頻繁項集 140
10.2.2 生成關聯(lián)規(guī)則 141
10.3 FP增長算法 142
10.3.1 生成FP增長樹 142
10.3.2 尋找頻繁項集 144
10.4 使用Python進行關聯(lián)分析 145
10.5 實例:電影觀看記錄信息挖掘 145
10.6 本章小結 146
思考題 147
習題 147
本章參考文獻 147
第11章 Web挖掘 148
11.1 Web挖掘概述 148
11.1.1 Web挖掘的概念 148
11.1.2 Web挖掘的特點 148
11.1.3 Web挖掘的分類 149
11.2 Web挖掘技術實現(xiàn) 150
11.2.1 關聯(lián)規(guī)則挖掘技術 150
11.2.2 序列模式挖掘技術 152
11.2.3 分類挖掘技術 154
11.2.4 聚類挖掘技術 155
11.3 Web數(shù)據爬取 156
11.3.1 Web數(shù)據爬蟲簡介 157
11.3.2 Web數(shù)據處理過程 159
11.3.3 Web爬蟲性能及策略 160
11.4 Web挖掘評價標準 161
11.4.1 查準率與查全率 161
11.4.2 F1值 162
11.4.3 其他評價標準 162
11.5 實例:Web日志挖掘 164
11.6 本 章 小 結 172
思考題 172
習題 172
本章參考文獻 172
第12章 應用案例一:泰坦尼克號生存數(shù)據分析 174
12.1 案例背景及分析思路 174
12.2 數(shù) 據 解 讀 174
12.3 數(shù)據預處理 175
12.3.1 查看數(shù)據集 175
12.3.2 缺失值的填充 177
12.4 描述性統(tǒng)計分析 178
12.4.1 性別與生存率之間的關系 178
12.4.2 船艙等級、生存率與性別三者之間的關系 179
12.4.3 年齡與生存率之間的關系 180
12.4.4 登船港口與生存率之間的關系 181
12.4.5 家庭大小與生存率之間的關系 183
12.5 特征工程 186
12.6 模型構建與評估 190
12.6.1 隨機森林 191
12.6.2 支持向量機 191
12.6.3 樸素貝葉斯模型 192
12.7 本章小結 193
思考題 193
習題 193
第13章 應用案例二:心臟病預測分析 194
13.1 案例背景及分析思路 194
13.2 數(shù)據預處理 194
13.2.1 數(shù)據集的含義 195
13.2.2 重復值的刪除 196
13.2.3 缺失值處理 197
13.3 數(shù)據集的特征分析 198
13.4 構建模型 199
13.4.1 數(shù)據整理 199
13.4.2 KNN 202
13.4.3 隨機森林 204
13.4.4 logistic回歸 205
13.5 模型評估 206
13.5.1 KNN 207
13.5.2 隨機森林 209
13.5.3 logistic回歸 211
13.6 本章小結 212
思考題 212
習題 213
第14章 應用案例三:旅游評論傾向性分析 214
14.1 案例背景及分析思路 214
14.1.1 案例背景 214
14.1.2 數(shù)據分析思路與方法 214
14.2 數(shù)據分析準備工作 216
14.2.1 數(shù)據爬取 216
14.2.2 數(shù)據的預處理 218
14.2.3 描述性分析 222
14.3 特征工程 224
14.3.1 人工特征 224
14.3.2 TF-IDF編碼 225
14.3.3 Word2vec編碼 227
14.4 基于傳統(tǒng)分類器的景區(qū)評論傾向性分析 230
14.4.1 基于傳統(tǒng)弱分類器的傾向性分析 230
14.4.2 基于隨機森林的傾向性分析 231
14.4.3 基于提升樹的傾向性分析 232
14.5 基于LSTM和FastText的景區(qū)評論傾向性分析 233
14.5.1 基于自建詞典的LSTM情感分析模型 233
14.5.2 基于FastText的文本標簽分類模型 235
14.5.3 綜合FastText和LSTM的情感分析模型 237
14.6 模型評估 238
14.7 本章小結 239
思考題 240
習題 240
本章參考文獻 240