注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)建筑科學(xué)建筑設(shè)計(jì)從零開始學(xué)Python數(shù)據(jù)分析與挖掘

從零開始學(xué)Python數(shù)據(jù)分析與挖掘

從零開始學(xué)Python數(shù)據(jù)分析與挖掘

定 價(jià):¥79.00

作 者: 劉順祥
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302509875 出版時(shí)間: 2018-09-01 包裝: 平裝
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書以Python 3版本作為數(shù)據(jù)分析與挖掘?qū)崙?zhàn)的應(yīng)用工具,從Pyhton的基礎(chǔ)語法開始,陸續(xù)介紹有關(guān)數(shù)值計(jì)算的Numpy、數(shù)據(jù)處理的Pandas、數(shù)據(jù)可視化的Matplotlib和數(shù)據(jù)挖掘的Sklearn等內(nèi)容。全書共涵蓋15種可視化圖形以及10個(gè)常用的數(shù)據(jù)挖掘算法和實(shí)戰(zhàn)項(xiàng)目,通過本書的學(xué)習(xí),讀者可以掌握數(shù)據(jù)分析與挖掘的理論知識和實(shí)戰(zhàn)技能。 本書適于統(tǒng)計(jì)學(xué)、數(shù)學(xué)、經(jīng)濟(jì)學(xué)、金融學(xué)、管理學(xué)以及相關(guān)理工科專業(yè)的本科生、研究生使用,也能夠提高從事數(shù)據(jù)咨詢、研究或分析等人士的專業(yè)水平和技能。

作者簡介

  劉順祥, 統(tǒng)計(jì)學(xué)碩士,“數(shù)據(jù)分析1480”微信公眾號運(yùn)營者。曾就職于大數(shù)據(jù)咨詢公司,為聯(lián)想、亨氏、美麗田園、網(wǎng)魚網(wǎng)咖等企業(yè)項(xiàng)目提供服務(wù);曾在唯品會大數(shù)據(jù)部擔(dān)任數(shù)據(jù)分析師一職,負(fù)責(zé)電商支付環(huán)節(jié)的數(shù)據(jù)分析業(yè)務(wù)。

圖書目錄

第1章 數(shù)據(jù)分析與挖掘概述 1 

1.1 什么是數(shù)據(jù)分析和挖掘 1 

1.2 數(shù)據(jù)分析與挖掘的應(yīng)用領(lǐng)域 2 

1.2.1 電商領(lǐng)域——發(fā)現(xiàn)破壞規(guī)則的“害群之馬” 2 

1.2.2 交通出行領(lǐng)域——為打車平臺進(jìn)行私人訂制 3 

1.2.3 醫(yī)療健康領(lǐng)域——找到最佳醫(yī)療方案 3 

1.3 數(shù)據(jù)分析與挖掘的區(qū)別 4 

1.4 數(shù)據(jù)挖掘的流程 5 

1.4.1 明確目標(biāo) 5 

1.4.2 數(shù)據(jù)搜集 6 

1.4.3 數(shù)據(jù)清洗 6 

1.4.4 構(gòu)建模型 7 

1.4.5 模型評估 7 

1.4.6 應(yīng)用部署 8 

1.5 常用的數(shù)據(jù)分析與挖掘工具 8 

1.6 本章小結(jié) 9 

第2章 從收入的預(yù)測分析開始 10 

2.1 下載與安裝Anoconda 10 

2.1.1 基于Windows系統(tǒng)安裝 11 

2.1.2 基于Mac系統(tǒng)安裝 12 

2.1.3 基于Linux系統(tǒng)安裝 14 

2.2 基于Python的案例實(shí)戰(zhàn) 14 

2.2.1 數(shù)據(jù)的預(yù)處理 14 

2.2.2 數(shù)據(jù)的探索性分析 16 

2.2.3 數(shù)據(jù)建模 19 

2.3 本章小結(jié) 28 

第3章 Python快速入門 29 

3.1 數(shù)據(jù)結(jié)構(gòu)及方法 29 

3.1.1 列表 29 

3.1.2 元組 34 

3.1.3 字典 35 

3.2 控制流 38 

3.2.1 if分支 38 

3.2.2 for循環(huán) 39 

3.2.3 while循環(huán) 41 

3.3 字符串處理方法 43 

3.3.1 字符串的常用方法 43 

3.3.2 正則表達(dá)式 45 

3.4 自定義函數(shù) 47 

3.4.1 自定義函數(shù)語法 47 

3.4.2 自定義函數(shù)的幾種參數(shù) 49 

3.5 一個(gè)爬蟲案例 52 

3.6 本章小結(jié) 54 

第4章 Python數(shù)值計(jì)算工具——Numpy 56 

4.1 數(shù)組的創(chuàng)建與操作 56 

4.1.1 數(shù)組的創(chuàng)建 56 

4.1.2 數(shù)組元素的獲取 57 

4.1.3 數(shù)組的常用屬性 58 

4.1.4 數(shù)組的形狀處理 59 

4.2 數(shù)組的基本運(yùn)算符 62 

4.2.1 四則運(yùn)算 62 

4.2.2 比較運(yùn)算 63 

4.2.3 廣播運(yùn)算 65 

4.3 常用的數(shù)學(xué)和統(tǒng)計(jì)函數(shù) 66 

4.4 線性代數(shù)的相關(guān)計(jì)算 67 

4.4.1 矩陣乘法 68 

4.4.2 diag函數(shù)的使用 69 

4.4.3 特征根與特征向量 69 

4.4.4 多元線性回歸模型的解 70 

4.4.5 多元一次方程組的求解 70 

4.4.6 范數(shù)的計(jì)算 71 

4.5 偽隨機(jī)數(shù)的生成 71 

4.6 本章小結(jié) 74 

第5章 Python數(shù)據(jù)處理工具——Pandas 76 

5.1 序列與數(shù)據(jù)框的構(gòu)造 76 

5.1.1 構(gòu)造序列 77 

5.1.2 構(gòu)造數(shù)據(jù)框 78 

5.2 外部數(shù)據(jù)的讀取 79 

5.2.1 文本文件的讀取 79 

5.2.2 電子表格的讀取 81 

5.2.3 數(shù)據(jù)庫數(shù)據(jù)的讀取 83 

5.3 數(shù)據(jù)類型轉(zhuǎn)換及描述統(tǒng)計(jì) 85 

5.4 字符與日期數(shù)據(jù)的處理 89 

5.5 常用的數(shù)據(jù)清洗方法 93 

5.5.1 重復(fù)觀測處理 93 

5.5.2 缺失值處理 94 

5.5.3 異常值處理 97 

5.6 數(shù)據(jù)子集的獲取 99 

5.7 透視表功能 101 

5.8 表之間的合并與連接 104 

5.9 分組聚合操作 107 

5.10 本章小結(jié) 108 

第6章 Python數(shù)據(jù)可視化 110 

6.1 離散型變量的可視化 110 

6.1.1 餅圖 110 

6.1.2 條形圖 115 

6.2 數(shù)值型變量的可視化 125 

6.2.1 直方圖與核密度曲線 125 

6.2.2 箱線圖 129 

6.2.3 小提琴圖 133 

6.2.4 折線圖 135 

6.3 關(guān)系型數(shù)據(jù)的可視化 139 

6.3.1 散點(diǎn)圖 139 

6.3.2 氣泡圖 142 

6.3.3 熱力圖 144 

6.4 多個(gè)圖形的合并 146 

6.5 本章小結(jié) 148 

第7章 線性回歸預(yù)測模型 150 

7.1 一元線性回歸模型 150 

7.2 多元線性回歸模型 153 

7.2.1 回歸模型的參數(shù)求解 154 

7.2.2 回歸模型的預(yù)測 155 

7.3 回歸模型的假設(shè)檢驗(yàn) 157 

7.3.1 模型的顯著性檢驗(yàn)——F檢驗(yàn) 158 

7.3.2 回歸系數(shù)的顯著性檢驗(yàn)——t檢驗(yàn) 160 

7.4 回歸模型的診斷 162 

7.4.1 正態(tài)性檢驗(yàn) 162 

7.4.2 多重共線性檢驗(yàn) 164 

7.4.3 線性相關(guān)性檢驗(yàn) 165 

7.4.4 異常值檢驗(yàn) 167 

7.4.5 獨(dú)立性檢驗(yàn) 170 

7.4.6 方差齊性檢驗(yàn) 170 

7.5 本章小結(jié) 173 

第8章 嶺回歸與LASSO回歸模型 174 

8.1 嶺回歸模型 174 

8.1.1 參數(shù)求解 175 

8.1.2 系數(shù)求解的幾何意義 176 

8.2 嶺回歸模型的應(yīng)用 177 

8.2.1 可視化方法確定?值 177 

8.2.2 交叉驗(yàn)證法確定?值 179 

8.2.3 模型的預(yù)測 180 

8.3 LASSO回歸模型 182 

8.3.1 參數(shù)求解 182 

8.3.2 系數(shù)求解的幾何意義 183 

8.4 LASSO回歸模型的應(yīng)用 184 

8.4.1 可視化方法確定?值 184 

8.4.2 交叉驗(yàn)證法確定?值 186 

8.4.3 模型的預(yù)測 187 

8.5 本章小結(jié) 189 

第9章 Logistic回歸分類模型 190 

9.1 Logistic模型的構(gòu)建 191 

9.1.1 Logistic模型的參數(shù)求解 193 

9.1.2 Logistic模型的參數(shù)解釋 195 

9.2 分類模型的評估方法 195 

9.2.1 混淆矩陣 196 

9.2.2 ROC曲線 197 

9.2.3 K-S曲線 198 

9.3 Logistic回歸模型的應(yīng)用 200 

9.3.1 模型的構(gòu)建 200 

9.3.2 模型的預(yù)測 202 

9.3.3 模型的評估 203 

9.4 本章小結(jié) 207 

第10章 決策樹與隨機(jī)森林 208 

10.1 節(jié)點(diǎn)字段的選擇 209 

10.1.1 信息增益 210 

10.1.2 信息增益率 212 

10.1.3 基尼指數(shù) 213 

10.2 決策樹的剪枝 216 

10.2.1 誤差降低剪枝法 217 

10.2.2 悲觀剪枝法 217 

10.2.3 代價(jià)復(fù)雜度剪枝法 219 

10.3 隨機(jī)森林 220 

10.4 決策樹與隨機(jī)森林的應(yīng)用 222 

10.4.1 分類問題的解決 222 

10.4.2 預(yù)測問題的解決 229 

10.5 本章小結(jié) 231 

第11章 KNN模型的應(yīng)用 233 

11.1 KNN算法的思想 233 

11.2 最佳k值的選擇 234 

11.3 相似度的度量方法 235 

11.3.1 歐式距離 235 

11.3.2 曼哈頓距離 236 

11.3.3 余弦相似度 236 

11.3.4 杰卡德相似系數(shù) 237 

11.4 近鄰樣本的搜尋方法 238 

11.4.1 KD樹搜尋法 238 

11.4.2 球樹搜尋法 242 

11.5 KNN模型的應(yīng)用 244 

11.5.1 分類問題的解決 245 

11.5.2 預(yù)測問題的解決 248 

11.6 本章小結(jié) 251 

第12章 樸素貝葉斯模型 253 

12.1 樸素貝葉斯理論基礎(chǔ) 253 

12.2 幾種貝葉斯模型 255 

12.2.1 高斯貝葉斯分類器 255 

12.2.2 高斯貝葉斯分類器的應(yīng)用 257 

12.2.3 多項(xiàng)式貝葉斯分類器 259 

12.2.4 多項(xiàng)式貝葉斯分類器的應(yīng)用 261 

12.2.5 伯努利貝葉斯分類器 264 

12.2.6 伯努利貝葉斯分類器的應(yīng)用 266 

12.3 本章小結(jié) 271 

第13章 SVM模型的應(yīng)用 272 

13.1 SVM簡介 273 

13.1.1 距離公式的介紹 273 

13.1.2 SVM的實(shí)現(xiàn)思想 274 

13.2 幾種常見的SVM模型 276 

13.2.1 線性可分的SVM 276 

13.2.2 一個(gè)手動(dòng)計(jì)算的案例 279 

13.2.3 近似線性可分SVM 281 

13.2.4 非線性可分SVM 284 

13.2.5 幾種常用的SVM核函數(shù) 285 

13.2.6 SVM的回歸預(yù)測 287 

13.3 分類問題的解決 289 

13.4 預(yù)測問題的解決 291 

13.5 本章小結(jié) 294 

第14章 GBDT模型的應(yīng)用 296 

14.1 提升樹算法 297 

14.1.1 AdaBoost算法的損失函數(shù) 297 

14.1.2 AdaBoost算法的操作步驟 299 

14.1.3 AdaBoost算法的簡單例子 300 

14.1.4 AdaBoost算法的應(yīng)用 302 

14.2 梯度提升樹算法 308 

14.2.1 GBDT算法的操作步驟 308 

14.2.2 GBDT分類算法 309 

14.2.3 GBDT回歸算法 309 

14.2.4 GBDT算法的應(yīng)用 310 

14.3 非平衡數(shù)據(jù)的處理 313 

14.4 XGBoost算法 315 

14.4.1 XGBoost算法的損失函數(shù) 315 

14.4.2 損失函數(shù)的演變 317 

14.4.3 XGBoost算法的應(yīng)用 319 

14.5 本章小結(jié) 324 

第15章 Kmeans聚類分析 326 

15.1 Kmeans聚類 327 

15.1.1 Kmeans的思想 327 

15.1.2 Kmeans的原理 328 

15.2 最佳k值的確定 329 

15.2.1 拐點(diǎn)法 329 

15.2.2 輪廓系數(shù)法 332 

15.2.3 間隔統(tǒng)計(jì)量法 333 

15.3 Kmeans聚類的應(yīng)用 336 

15.3.1 iris數(shù)據(jù)集的聚類 336 

15.3.2 NBA球員數(shù)據(jù)集的聚類 339 

15.4 Kmeans聚類的注意事項(xiàng) 343 

15.5 本章小結(jié) 343 

第16章 DBSCAN與層次聚類分析 345 

16.1 密度聚類簡介 345 

16.1.1 密度聚類相關(guān)的概念 346 

16.1.2 密度聚類的步驟 347 

16.2 密度聚類與Kmeans的比較 349 

16.3 層次聚類 353 

16.3.1 簇間的距離度量 354 

16.3.2 層次聚類的步驟 356 

16.3.3 三種層次聚類的比較 357 

16.4 密度聚類與層次聚類的應(yīng)用 359 

16.5 本章小結(jié) 365 


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號