從零開始學(xué)Python數(shù)據(jù)分析與挖掘（第2版）

定　價：￥79.80

作　者：	劉順祥著
出版社：	清華大學(xué)出版社
叢編項：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787302553052	出版時間：	2020-04-01	包裝：	平裝
開本：	16	頁數(shù)：	390	字?jǐn)?shù)：

內(nèi)容簡介

　　本書以Python 3.7版本作為數(shù)據(jù)分析與挖掘?qū)崙?zhàn)的應(yīng)用工具，從Python的基礎(chǔ)語法開始，陸續(xù)介紹有關(guān)數(shù)值計算的numpy、數(shù)據(jù)處理的pandas、數(shù)據(jù)可視化的matplotlib和數(shù)據(jù)挖掘的sklearn等內(nèi)容。全書共涵蓋15種可視化圖形以及10個常用的數(shù)據(jù)挖掘算法和實戰(zhàn)項目，通過本書的學(xué)習(xí)，讀者可以掌握數(shù)據(jù)分析與挖掘的理論知識和實戰(zhàn)技能。本書適于統(tǒng)計學(xué)、數(shù)學(xué)、經(jīng)濟(jì)學(xué)、金融學(xué)、管理學(xué)以及相關(guān)理工科專業(yè)的本科生、研究生使用，也能夠提高從事數(shù)據(jù)咨詢、研究或分析等人士的專業(yè)水平和技能。

作者簡介

　　劉順祥，統(tǒng)計學(xué)碩士，“數(shù)據(jù)分析1480”微信公眾號運營者。曾就職于大數(shù)據(jù)咨詢公司，為聯(lián)想、亨氏、美麗田園、網(wǎng)魚網(wǎng)咖等企業(yè)項目提供服務(wù)；曾在唯品會大數(shù)據(jù)部擔(dān)任數(shù)據(jù)分析師一職，負(fù)責(zé)電商支付環(huán)節(jié)的數(shù)據(jù)分析業(yè)務(wù)。

圖書目錄

目錄
第1章數(shù)據(jù)分析與挖掘概述 1
1.1 什么是數(shù)據(jù)分析和挖掘 1
1.2 數(shù)據(jù)分析與挖掘的應(yīng)用領(lǐng)域 2
1.2.1 電商領(lǐng)域——發(fā)現(xiàn)破壞規(guī)則的“害群之馬” 2
1.2.2 交通出行領(lǐng)域——為打車平臺進(jìn)行私人訂制 3
1.2.3 醫(yī)療健康領(lǐng)域——找到醫(yī)療方案 3
1.3 數(shù)據(jù)分析與挖掘的區(qū)別 4
1.4 數(shù)據(jù)挖掘的流程 5
1.4.1 明確目標(biāo) 5
1.4.2 數(shù)據(jù)搜集 6
1.4.3 數(shù)據(jù)清洗 6
1.4.4 構(gòu)建模型 7
1.4.5 模型評估 7
1.4.6 應(yīng)用部署 7
1.5 常用的數(shù)據(jù)分析與挖掘工具 8
1.6 本章小結(jié) 9
1.7 課后練習(xí) 9
第2章從收入的預(yù)測分析開始 10
2.1 下載與安裝Anaconda 10
2.1.1 基于Windows系統(tǒng)安裝 11
2.1.2 基于Mac系統(tǒng)安裝 12
2.1.3 基于Linux系統(tǒng)安裝 14
2.2 基于Python的案例實戰(zhàn) 14
2.2.1 數(shù)據(jù)的預(yù)處理 14
2.2.2 數(shù)據(jù)的探索性分析 16
2.2.3 數(shù)據(jù)建模 19
2.3 本章小結(jié) 29
2.4 課后練習(xí) 29
第3章 Python基礎(chǔ)與數(shù)據(jù)抓取 30
3.1 數(shù)據(jù)結(jié)構(gòu)及方法 30
3.1.1 列表 30
3.1.2 元組 36
3.1.3 字典 36
3.2 控制流 40
3.2.1 if分支 40
3.2.2 for循環(huán) 41
3.2.3 while循環(huán) 43
3.3 字符串處理方法 45
3.3.1 字符串的常用方法 45
3.3.2 正則表達(dá)式 47
3.4 自定義函數(shù) 50
3.4.1 自定義函數(shù)語法 50
3.4.2 自定義函數(shù)的幾種參數(shù) 52
3.5 一個爬蟲案例 55
3.6 本章小結(jié) 57
3.7 課后練習(xí) 59
第4章 Python數(shù)值計算——numpy的高效技能 60
4.1 數(shù)組的創(chuàng)建與操作 60
4.1.1 數(shù)組的創(chuàng)建 60
4.1.2 數(shù)組元素的獲取 61
4.1.3 數(shù)組的常用屬性 63
4.1.4 數(shù)組的形狀處理 64
4.2 數(shù)組的基本運算符 67
4.2.1 四則運算 67
4.2.2 比較運算 68
4.2.3 廣播運算 70
4.3 常用的數(shù)學(xué)和統(tǒng)計函數(shù) 71
4.4 線性代數(shù)的相關(guān)計算 73
4.4.1 矩陣乘法 73
4.4.2 diag函數(shù)的使用 74
4.4.3 特征根與特征向量 75
4.4.4 多元線性回歸模型的解 75
4.4.5 多元一次方程組的求解 76
4.4.6 范數(shù)的計算 76
4.5 偽隨機(jī)數(shù)的生成 77
4.6 本章小結(jié) 80
4.7 課后練習(xí) 81
第5章 Python數(shù)據(jù)處理——展現(xiàn)pandas的強(qiáng)大 82
5.1 序列與數(shù)據(jù)框的構(gòu)造 82
5.1.1 構(gòu)造序列 83
5.1.2 構(gòu)造數(shù)據(jù)框 85
5.2 外部數(shù)據(jù)的讀取 86
5.2.1 文本文件的讀取 86
5.2.2 電子表格的讀取 88
5.2.3 數(shù)據(jù)庫數(shù)據(jù)的讀取 89
5.3 數(shù)據(jù)類型轉(zhuǎn)換及描述統(tǒng)計 91
5.4 字符與日期數(shù)據(jù)的處理 95
5.5 常用的數(shù)據(jù)清洗方法 99
5.5.1 重復(fù)觀測處理 99
5.5.2 缺失值處理 100
5.5.3 異常值處理 103
5.6 數(shù)據(jù)子集的獲取 106
5.7 透視表功能 108
5.8 表之間的合并與連接 111
5.9 分組聚合操作 114
5.10 本章小結(jié) 116
5.11 課后練習(xí) 118
第6章 Python數(shù)據(jù)可視化——分析報告必要元素 119
6.1 離散型變量的可視化 119
6.1.1 餅圖——“芝麻信用”失信用戶分布 120
6.1.2 條形圖——胡潤排行榜 124
6.2 數(shù)值型變量的可視化 134
6.2.1 直方圖與核密度曲線——展現(xiàn)年齡分布特征 134
6.2.2 箱線圖——二手房單價分布形態(tài) 138
6.2.3 小提琴圖——客戶消費數(shù)據(jù)的呈現(xiàn) 142
6.2.4 折線圖——公眾號每日閱讀趨勢 144
6.3 關(guān)系型數(shù)據(jù)的可視化 149
6.3.1 散點圖——探究鳶尾花花瓣長度與寬度的關(guān)系 149
6.3.2 氣泡圖——暴露商品的銷售特征 153
6.3.3 熱力圖——一份簡單的月度日歷 154
6.4 多個圖形的合并 157
6.5 本章小結(jié) 160
6.6 課后練習(xí) 161
第7章線性回歸預(yù)測模型 163
7.1 一元線性回歸模型——收入預(yù)測 163
7.2 多元線性回歸模型——銷售利潤預(yù)測 167
7.2.1 回歸模型的參數(shù)求解 167
7.2.2 回歸模型的預(yù)測 168
7.3 回歸模型的假設(shè)檢驗 171
7.3.1 模型的顯著性檢驗——F檢驗 171
7.3.2 回歸系數(shù)的顯著性檢驗——t檢驗 174
7.4 回歸模型的診斷 175
7.4.1 正態(tài)性檢驗 176
7.4.2 多重共線性檢驗 178
7.4.3 線性相關(guān)性檢驗 179
7.4.4 異常值檢驗 181
7.4.5 獨立性檢驗 184
7.4.6 方差齊性檢驗 184
7.5 本章小結(jié) 187
7.6 課后練習(xí) 188
第8章嶺回歸與LASSO回歸模型 189
8.1 嶺回歸模型 189
8.1.1 參數(shù)求解 190
8.1.2 系數(shù)求解的幾何意義 191
8.2 嶺回歸模型的應(yīng)用——糖尿病病情預(yù)測（1） 192
8.2.1 可視化方法確定λ值 192
8.2.2 交叉驗證法確定λ值 194
8.2.3 模型的預(yù)測 196
8.3 LASSO回歸模型——糖尿病病情預(yù)測（2） 197
8.3.1 參數(shù)求解 197
8.3.2 系數(shù)求解的幾何意義 199
8.4 LASSO回歸模型的應(yīng)用 200
8.4.1 可視化方法確定λ值 200
8.4.2 交叉驗證法確定λ值 201
8.4.3 模型的預(yù)測 202
8.5 本章小結(jié) 204
8.6 課后練習(xí) 205
第9章 Logistic回歸分類模型 206
9.1 Logistic模型的構(gòu)建 207
9.1.1 Logistic模型的參數(shù)求解 209
9.1.2 Logistic模型的參數(shù)解釋 211
9.2 分類模型的評估方法 211
9.2.1 混淆矩陣 212
9.2.2 ROC曲線 213
9.2.3 K-S曲線 214
9.3 Logistic回歸模型的應(yīng)用——運動狀態(tài)的識別 217
9.3.1 模型的構(gòu)建 217
9.3.2 模型的預(yù)測 219
9.3.3 模型的評估 219
9.4 本章小結(jié) 223
9.5 課后練習(xí) 224
第10章決策樹與隨機(jī)森林 225
10.1 節(jié)點字段的選擇 226
10.1.1 信息增益 227
10.1.2 信息增益率 229
10.1.3 基尼指數(shù) 230
10.2 決策樹的剪枝 233
10.2.1 誤差降低剪枝法 234
10.2.2 悲觀剪枝法 234
10.2.3 代價復(fù)雜度剪枝法 236
10.3 隨機(jī)森林 237
10.4 決策樹與隨機(jī)森林的應(yīng)用——腎病患者病情預(yù)測 239
10.4.1 分類問題的解決 239
10.4.2 預(yù)測問題的解決 246
10.5 本章小結(jié) 249
10.6 課后練習(xí) 250
第11章 KNN模型及應(yīng)用 251
11.1 KNN算法的思想 251
11.2 k值的選擇 252
11.3 相似度的度量方法 253
11.3.1 歐式距離 253
11.3.2 曼哈頓距離 254
11.3.3 余弦相似度 254
11.3.4 杰卡德相似系數(shù) 255
11.4 近鄰樣本的搜尋方法 255
11.4.1 KD樹搜尋法 256
11.4.2 球樹搜尋法 259
11.5 KNN模型的應(yīng)用——高爐發(fā)電量的預(yù)測 260
11.5.1 分類問題的解決 261
11.5.2 預(yù)測問題的解決 265
11.6 本章小結(jié) 269
11.7 課后練習(xí) 270
第12章樸素貝葉斯模型 271
12.1 樸素貝葉斯理論基礎(chǔ) 272
12.2 幾種貝葉斯模型 273
12.2.1 高斯貝葉斯分類器 273
12.2.2 高斯貝葉斯分類器的應(yīng)用——面部皮膚的判別 275
12.2.3 多項式貝葉斯分類器 278
12.2.4 多項式貝葉斯分類器的應(yīng)用——蘑菇毒性的預(yù)判 280
12.2.5 伯努利貝葉斯分類器 283
12.2.6 伯努利貝葉斯分類器的應(yīng)用——評論的情感識別 285
12.3 本章小結(jié) 289
12.4 課后練習(xí) 290
第13章 SVM模型及應(yīng)用 292
13.1 SVM簡介 293
13.1.1 距離公式的介紹 293
13.1.2 SVM的實現(xiàn)思想 294
13.2 幾種常見的SVM模型 295
13.2.1 線性可分的SVM 295
13.2.2 一個手動計算的案例 298
13.2.3 近似線性可分SVM 300
13.2.4 非線性可分SVM 303
13.2.5 幾種常用的SVM核函數(shù) 304
13.2.6 SVM的回歸預(yù)測 306
13.3 分類問題的解決——手寫字母的識別 308
13.4 預(yù)測問題的解決——受災(zāi)面積的預(yù)測 310
13.5 本章小結(jié) 314
13.6 課后練習(xí) 315
第14章 GBDT模型及應(yīng)用 316
14.1 提升樹算法 317
14.1.1 AdaBoost算法的損失函數(shù) 317
14.1.2 AdaBoost算法的操作步驟 319
14.1.3 AdaBoost算法的簡單例子 320
14.1.4 AdaBoost算法的應(yīng)用——違約客戶的識別 322
14.2 梯度提升樹算法 328
14.2.1 GBDT算法的操作步驟 328
14.2.2 GBDT分類算法 329
14.2.3 GBDT回歸算法 330
14.2.4 GBDT算法的應(yīng)用——欺詐交易的識別 331
14.3 非平衡數(shù)據(jù)的處理 334
14.4 XGBoost算法 336
14.4.1 XGBoost算法的損失函數(shù) 336
14.4.2 損失函數(shù)的演變 337
14.4.3 XGBoost算法的應(yīng)用 340
14.5 本章小結(jié) 346
14.6 課后練習(xí) 347
第15章 Kmeans聚類分析 349
15.1 Kmeans聚類 350
15.1.1 Kmeans的思想 350
15.1.2 Kmeans的原理 351
15.2 k值的確定 352
15.2.1 拐點法 352
15.2.2 輪廓系數(shù)法 355
15.2.3 間隔統(tǒng)計量法 357
15.3 Kmeans聚類的應(yīng)用 359
15.3.1 鳶尾花類別的聚合 360
15.3.2 基于NBA球員歷史參賽數(shù)據(jù)的聚類 363
15.4 Kmeans聚類的注意事項 367
15.5 本章小結(jié) 367
15.6 課后練習(xí) 368
第16章 DBSCAN與層次聚類分析 369
16.1 密度聚類簡介 370
16.1.1 密度聚類相關(guān)的概念 370
16.1.2 密度聚類的步驟 371
16.2 密度聚類與Kmeans的比較 373
16.3 層次聚類 376
16.3.1 簇間的距離度量 377
16.3.2 層次聚類的步驟 378
16.3.3 三種層次聚類的比較 380
16.4 密度聚類與層次聚類的應(yīng)用——基于各省出生率與死亡率的聚類 382
16.5 本章小結(jié) 388
16.6 課后練習(xí) 390