定 價(jià):¥79.00
作 者: | 劉順祥 |
出版社: | 清華大學(xué)出版社 |
叢編項(xiàng): | |
標(biāo) 簽: | 暫缺 |
ISBN: | 9787302509875 | 出版時(shí)間: | 2018-09-01 | 包裝: | 平裝 |
開本: | 16開 | 頁數(shù): | 字?jǐn)?shù): |
第1章 數(shù)據(jù)分析與挖掘概述 1
1.1 什么是數(shù)據(jù)分析和挖掘 1
1.2 數(shù)據(jù)分析與挖掘的應(yīng)用領(lǐng)域 2
1.2.1 電商領(lǐng)域——發(fā)現(xiàn)破壞規(guī)則的“害群之馬” 2
1.2.2 交通出行領(lǐng)域——為打車平臺進(jìn)行私人訂制 3
1.2.3 醫(yī)療健康領(lǐng)域——找到最佳醫(yī)療方案 3
1.3 數(shù)據(jù)分析與挖掘的區(qū)別 4
1.4 數(shù)據(jù)挖掘的流程 5
1.4.1 明確目標(biāo) 5
1.4.2 數(shù)據(jù)搜集 6
1.4.3 數(shù)據(jù)清洗 6
1.4.4 構(gòu)建模型 7
1.4.5 模型評估 7
1.4.6 應(yīng)用部署 8
1.5 常用的數(shù)據(jù)分析與挖掘工具 8
1.6 本章小結(jié) 9
第2章 從收入的預(yù)測分析開始 10
2.1 下載與安裝Anoconda 10
2.1.1 基于Windows系統(tǒng)安裝 11
2.1.2 基于Mac系統(tǒng)安裝 12
2.1.3 基于Linux系統(tǒng)安裝 14
2.2 基于Python的案例實(shí)戰(zhàn) 14
2.2.1 數(shù)據(jù)的預(yù)處理 14
2.2.2 數(shù)據(jù)的探索性分析 16
2.2.3 數(shù)據(jù)建模 19
2.3 本章小結(jié) 28
第3章 Python快速入門 29
3.1 數(shù)據(jù)結(jié)構(gòu)及方法 29
3.1.1 列表 29
3.1.2 元組 34
3.1.3 字典 35
3.2 控制流 38
3.2.1 if分支 38
3.2.2 for循環(huán) 39
3.2.3 while循環(huán) 41
3.3 字符串處理方法 43
3.3.1 字符串的常用方法 43
3.3.2 正則表達(dá)式 45
3.4 自定義函數(shù) 47
3.4.1 自定義函數(shù)語法 47
3.4.2 自定義函數(shù)的幾種參數(shù) 49
3.5 一個(gè)爬蟲案例 52
3.6 本章小結(jié) 54
第4章 Python數(shù)值計(jì)算工具——Numpy 56
4.1 數(shù)組的創(chuàng)建與操作 56
4.1.1 數(shù)組的創(chuàng)建 56
4.1.2 數(shù)組元素的獲取 57
4.1.3 數(shù)組的常用屬性 58
4.1.4 數(shù)組的形狀處理 59
4.2 數(shù)組的基本運(yùn)算符 62
4.2.1 四則運(yùn)算 62
4.2.2 比較運(yùn)算 63
4.2.3 廣播運(yùn)算 65
4.3 常用的數(shù)學(xué)和統(tǒng)計(jì)函數(shù) 66
4.4 線性代數(shù)的相關(guān)計(jì)算 67
4.4.1 矩陣乘法 68
4.4.2 diag函數(shù)的使用 69
4.4.3 特征根與特征向量 69
4.4.4 多元線性回歸模型的解 70
4.4.5 多元一次方程組的求解 70
4.4.6 范數(shù)的計(jì)算 71
4.5 偽隨機(jī)數(shù)的生成 71
4.6 本章小結(jié) 74
第5章 Python數(shù)據(jù)處理工具——Pandas 76
5.1 序列與數(shù)據(jù)框的構(gòu)造 76
5.1.1 構(gòu)造序列 77
5.1.2 構(gòu)造數(shù)據(jù)框 78
5.2 外部數(shù)據(jù)的讀取 79
5.2.1 文本文件的讀取 79
5.2.2 電子表格的讀取 81
5.2.3 數(shù)據(jù)庫數(shù)據(jù)的讀取 83
5.3 數(shù)據(jù)類型轉(zhuǎn)換及描述統(tǒng)計(jì) 85
5.4 字符與日期數(shù)據(jù)的處理 89
5.5 常用的數(shù)據(jù)清洗方法 93
5.5.1 重復(fù)觀測處理 93
5.5.2 缺失值處理 94
5.5.3 異常值處理 97
5.6 數(shù)據(jù)子集的獲取 99
5.7 透視表功能 101
5.8 表之間的合并與連接 104
5.9 分組聚合操作 107
5.10 本章小結(jié) 108
第6章 Python數(shù)據(jù)可視化 110
6.1 離散型變量的可視化 110
6.1.1 餅圖 110
6.1.2 條形圖 115
6.2 數(shù)值型變量的可視化 125
6.2.1 直方圖與核密度曲線 125
6.2.2 箱線圖 129
6.2.3 小提琴圖 133
6.2.4 折線圖 135
6.3 關(guān)系型數(shù)據(jù)的可視化 139
6.3.1 散點(diǎn)圖 139
6.3.2 氣泡圖 142
6.3.3 熱力圖 144
6.4 多個(gè)圖形的合并 146
6.5 本章小結(jié) 148
第7章 線性回歸預(yù)測模型 150
7.1 一元線性回歸模型 150
7.2 多元線性回歸模型 153
7.2.1 回歸模型的參數(shù)求解 154
7.2.2 回歸模型的預(yù)測 155
7.3 回歸模型的假設(shè)檢驗(yàn) 157
7.3.1 模型的顯著性檢驗(yàn)——F檢驗(yàn) 158
7.3.2 回歸系數(shù)的顯著性檢驗(yàn)——t檢驗(yàn) 160
7.4 回歸模型的診斷 162
7.4.1 正態(tài)性檢驗(yàn) 162
7.4.2 多重共線性檢驗(yàn) 164
7.4.3 線性相關(guān)性檢驗(yàn) 165
7.4.4 異常值檢驗(yàn) 167
7.4.5 獨(dú)立性檢驗(yàn) 170
7.4.6 方差齊性檢驗(yàn) 170
7.5 本章小結(jié) 173
第8章 嶺回歸與LASSO回歸模型 174
8.1 嶺回歸模型 174
8.1.1 參數(shù)求解 175
8.1.2 系數(shù)求解的幾何意義 176
8.2 嶺回歸模型的應(yīng)用 177
8.2.1 可視化方法確定?值 177
8.2.2 交叉驗(yàn)證法確定?值 179
8.2.3 模型的預(yù)測 180
8.3 LASSO回歸模型 182
8.3.1 參數(shù)求解 182
8.3.2 系數(shù)求解的幾何意義 183
8.4 LASSO回歸模型的應(yīng)用 184
8.4.1 可視化方法確定?值 184
8.4.2 交叉驗(yàn)證法確定?值 186
8.4.3 模型的預(yù)測 187
8.5 本章小結(jié) 189
第9章 Logistic回歸分類模型 190
9.1 Logistic模型的構(gòu)建 191
9.1.1 Logistic模型的參數(shù)求解 193
9.1.2 Logistic模型的參數(shù)解釋 195
9.2 分類模型的評估方法 195
9.2.1 混淆矩陣 196
9.2.2 ROC曲線 197
9.2.3 K-S曲線 198
9.3 Logistic回歸模型的應(yīng)用 200
9.3.1 模型的構(gòu)建 200
9.3.2 模型的預(yù)測 202
9.3.3 模型的評估 203
9.4 本章小結(jié) 207
第10章 決策樹與隨機(jī)森林 208
10.1 節(jié)點(diǎn)字段的選擇 209
10.1.1 信息增益 210
10.1.2 信息增益率 212
10.1.3 基尼指數(shù) 213
10.2 決策樹的剪枝 216
10.2.1 誤差降低剪枝法 217
10.2.2 悲觀剪枝法 217
10.2.3 代價(jià)復(fù)雜度剪枝法 219
10.3 隨機(jī)森林 220
10.4 決策樹與隨機(jī)森林的應(yīng)用 222
10.4.1 分類問題的解決 222
10.4.2 預(yù)測問題的解決 229
10.5 本章小結(jié) 231
第11章 KNN模型的應(yīng)用 233
11.1 KNN算法的思想 233
11.2 最佳k值的選擇 234
11.3 相似度的度量方法 235
11.3.1 歐式距離 235
11.3.2 曼哈頓距離 236
11.3.3 余弦相似度 236
11.3.4 杰卡德相似系數(shù) 237
11.4 近鄰樣本的搜尋方法 238
11.4.1 KD樹搜尋法 238
11.4.2 球樹搜尋法 242
11.5 KNN模型的應(yīng)用 244
11.5.1 分類問題的解決 245
11.5.2 預(yù)測問題的解決 248
11.6 本章小結(jié) 251
第12章 樸素貝葉斯模型 253
12.1 樸素貝葉斯理論基礎(chǔ) 253
12.2 幾種貝葉斯模型 255
12.2.1 高斯貝葉斯分類器 255
12.2.2 高斯貝葉斯分類器的應(yīng)用 257
12.2.3 多項(xiàng)式貝葉斯分類器 259
12.2.4 多項(xiàng)式貝葉斯分類器的應(yīng)用 261
12.2.5 伯努利貝葉斯分類器 264
12.2.6 伯努利貝葉斯分類器的應(yīng)用 266
12.3 本章小結(jié) 271
第13章 SVM模型的應(yīng)用 272
13.1 SVM簡介 273
13.1.1 距離公式的介紹 273
13.1.2 SVM的實(shí)現(xiàn)思想 274
13.2 幾種常見的SVM模型 276
13.2.1 線性可分的SVM 276
13.2.2 一個(gè)手動(dòng)計(jì)算的案例 279
13.2.3 近似線性可分SVM 281
13.2.4 非線性可分SVM 284
13.2.5 幾種常用的SVM核函數(shù) 285
13.2.6 SVM的回歸預(yù)測 287
13.3 分類問題的解決 289
13.4 預(yù)測問題的解決 291
13.5 本章小結(jié) 294
第14章 GBDT模型的應(yīng)用 296
14.1 提升樹算法 297
14.1.1 AdaBoost算法的損失函數(shù) 297
14.1.2 AdaBoost算法的操作步驟 299
14.1.3 AdaBoost算法的簡單例子 300
14.1.4 AdaBoost算法的應(yīng)用 302
14.2 梯度提升樹算法 308
14.2.1 GBDT算法的操作步驟 308
14.2.2 GBDT分類算法 309
14.2.3 GBDT回歸算法 309
14.2.4 GBDT算法的應(yīng)用 310
14.3 非平衡數(shù)據(jù)的處理 313
14.4 XGBoost算法 315
14.4.1 XGBoost算法的損失函數(shù) 315
14.4.2 損失函數(shù)的演變 317
14.4.3 XGBoost算法的應(yīng)用 319
14.5 本章小結(jié) 324
第15章 Kmeans聚類分析 326
15.1 Kmeans聚類 327
15.1.1 Kmeans的思想 327
15.1.2 Kmeans的原理 328
15.2 最佳k值的確定 329
15.2.1 拐點(diǎn)法 329
15.2.2 輪廓系數(shù)法 332
15.2.3 間隔統(tǒng)計(jì)量法 333
15.3 Kmeans聚類的應(yīng)用 336
15.3.1 iris數(shù)據(jù)集的聚類 336
15.3.2 NBA球員數(shù)據(jù)集的聚類 339
15.4 Kmeans聚類的注意事項(xiàng) 343
15.5 本章小結(jié) 343
第16章 DBSCAN與層次聚類分析 345
16.1 密度聚類簡介 345
16.1.1 密度聚類相關(guān)的概念 346
16.1.2 密度聚類的步驟 347
16.2 密度聚類與Kmeans的比較 349
16.3 層次聚類 353
16.3.1 簇間的距離度量 354
16.3.2 層次聚類的步驟 356
16.3.3 三種層次聚類的比較 357
16.4 密度聚類與層次聚類的應(yīng)用 359
16.5 本章小結(jié) 365