注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)Pandas數(shù)據(jù)分析

Pandas數(shù)據(jù)分析

Pandas數(shù)據(jù)分析

定 價(jià):¥169.00

作 者: [美]斯蒂芬妮·莫林 著,李強(qiáng) 譯
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787302631354 出版時(shí)間: 2023-06-01 包裝: 平裝-膠訂
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《Pandas數(shù)據(jù)分析》詳細(xì)闡述了與Pandas數(shù)據(jù)分析相關(guān)的基本解決方案,主要包括數(shù)據(jù)分析導(dǎo)論、使用Pandas DataFrame、使用Pandas進(jìn)行數(shù)據(jù)整理、聚合Pandas DataFrame、使用Pandas和Matplotlib可視化數(shù)據(jù)、使用Seaborn和自定義技術(shù)繪圖、金融分析、基于規(guī)則的異常檢測(cè)、Python機(jī)器學(xué)習(xí)入門、做出更好的預(yù)測(cè)、機(jī)器學(xué)習(xí)異常檢測(cè)等內(nèi)容。此外,本書(shū)還提供了相應(yīng)的示例、代碼,以幫助讀者進(jìn)一步理解相關(guān)方案的實(shí)現(xiàn)過(guò)程。 本書(shū)適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)的教材和教學(xué)參考書(shū),也可作為相關(guān)開(kāi)發(fā)人員的自學(xué)用書(shū)和參考手冊(cè)。

作者簡(jiǎn)介

  斯蒂芬妮·莫林是紐約彭博有限合伙企業(yè)(Bloomberg LP)的數(shù)據(jù)科學(xué)家和軟件工程師,負(fù)責(zé)解決信息安全方面的棘手問(wèn)題,特別是圍繞異常檢測(cè)、構(gòu)建數(shù)據(jù)收集工具和知識(shí)共享等方面的工作。她在數(shù)據(jù)科學(xué)、設(shè)計(jì)異常檢測(cè)解決方案以及在廣告技術(shù)(AdTech)和金融科技(FinTech)行業(yè)中利用R和Python的機(jī)器學(xué)習(xí)方面擁有豐富的經(jīng)驗(yàn)。她擁有哥倫比亞大學(xué)傅氏基金工程和應(yīng)用科學(xué)學(xué)院運(yùn)籌學(xué)學(xué)士學(xué)位,輔修經(jīng)濟(jì)學(xué)、創(chuàng)業(yè)與創(chuàng)新。在閑暇時(shí)間,她喜歡環(huán)游世界、發(fā)明新食譜、學(xué)習(xí)人與計(jì)算機(jī)之間使用的新語(yǔ)言。

圖書(shū)目錄

第1篇  Pandas入門
第1章  數(shù)據(jù)分析導(dǎo)論 3
1.1  章節(jié)材料 3
1.2  數(shù)據(jù)分析基礎(chǔ)知識(shí) 5
1.2.1  數(shù)據(jù)收集 6
1.2.2  數(shù)據(jù)整理 7
1.2.3  探索性數(shù)據(jù)分析 8
1.2.4  得出結(jié)論 9
1.3  統(tǒng)計(jì)基礎(chǔ)知識(shí) 10
1.3.1  采樣 11
1.3.2  描述性統(tǒng)計(jì) 12
1.3.3  集中趨勢(shì)的度量 12
1.3.4  均值 12
1.3.5  中位數(shù) 13
1.3.6  眾數(shù) 13
1.3.7  數(shù)據(jù)散布的度量 14
1.3.8  全距 14
1.3.9  方差 15
1.3.10  標(biāo)準(zhǔn)差 15
1.3.11  變異系數(shù) 16
1.3.12  四分位距 17
1.3.13  四分位離散系數(shù) 17
1.3.14  匯總數(shù)據(jù) 18
1.3.15  常見(jiàn)分布 22
1.3.16  縮放數(shù)據(jù) 24
1.3.17  量化變量之間的關(guān)系 25
1.3.18  匯總統(tǒng)計(jì)的陷阱 27
1.3.19  預(yù)測(cè) 28
1.3.20  推論統(tǒng)計(jì) 32
1.4  設(shè)置虛擬環(huán)境 35
1.4.1  虛擬環(huán)境 35
1.4.2  使用venv 36
1.4.3  Windows中的操作 37
1.4.4  Linux/macOS中的操作 37
1.4.5  使用conda 38
1.4.6  安裝所需的Python包 40
1.4.7  關(guān)于Pandas 40
1.4.8  Jupyter Notebook 41
1.4.9  啟動(dòng)JupyterLab 41
1.4.10  驗(yàn)證虛擬環(huán)境 43
1.4.11  關(guān)閉JupyterLab 45
1.5  小結(jié) 45
1.6  練習(xí) 46
1.7  延伸閱讀 47
第2章  使用Pandas DataFrame 49
2.1  章節(jié)材料 49
2.2  Pandas數(shù)據(jù)結(jié)構(gòu) 50
2.2.1  Series 55
2.2.2  Index 56
2.2.3  DataFrame 57
2.3  創(chuàng)建Pandas DataFrame 60
2.3.1  從Python對(duì)象中創(chuàng)建DataFrame 61
2.3.2  從文件中創(chuàng)建DataFrame 65
2.3.3  從數(shù)據(jù)庫(kù)中創(chuàng)建DataFrame 69
2.3.4  從API中獲取數(shù)據(jù)以創(chuàng)建DataFrame 71
2.4  檢查DataFrame對(duì)象 74
2.4.1  檢查數(shù)據(jù) 74
2.4.2  描述數(shù)據(jù) 77
2.5  抓取數(shù)據(jù)的子集 80
2.5.1  選擇列 81
2.5.2  切片 84
2.5.3  索引 86
2.5.4  過(guò)濾 88
2.6  添加和刪除數(shù)據(jù) 95
2.6.1  創(chuàng)建新數(shù)據(jù) 96
2.6.2  刪除不需要的數(shù)據(jù) 104
2.7  小結(jié) 106
2.8  練習(xí) 107
2.9  延伸閱讀 107
第2篇  使用Pandas進(jìn)行數(shù)據(jù)分析
第3章  使用Pandas進(jìn)行數(shù)據(jù)整理 111
3.1  章節(jié)材料 112
3.2  關(guān)于數(shù)據(jù)整理 113
3.2.1  數(shù)據(jù)清洗 114
3.2.2  數(shù)據(jù)轉(zhuǎn)換 114
3.2.3  寬數(shù)據(jù)格式 116
3.2.4  長(zhǎng)數(shù)據(jù)格式 118
3.2.5  數(shù)據(jù)充實(shí) 121
3.3  探索API以查找和收集溫度數(shù)據(jù) 122
3.4  清洗數(shù)據(jù) 132
3.4.1  重命名列 133
3.4.2  類型轉(zhuǎn)換 134
3.4.3  按值排序 140
3.4.4  索引排序 143
3.4.5  設(shè)置索引 144
3.4.6  重置索引 145
3.4.7  重新索引 146
3.5  重塑數(shù)據(jù) 153
3.5.1  轉(zhuǎn)置DataFrame 155
3.5.2  旋轉(zhuǎn)DataFrame 155
3.5.3  融合DataFrame 161
3.6  處理重復(fù)、缺失或無(wú)效的數(shù)據(jù) 164
3.6.1  查找有問(wèn)題的數(shù)據(jù) 164
3.6.2  處理潛在的問(wèn)題 171
3.7  小結(jié) 180
3.8  練習(xí) 180
3.9  延伸閱讀 182
第4章  聚合Pandas DataFrame 183
4.1  章節(jié)材料 183
4.2  在DataFrame上執(zhí)行數(shù)據(jù)庫(kù)風(fēng)格的操作 185
4.2.1  查詢DataFrame 186
4.2.2  合并DataFrame 187
4.3  使用DataFrame操作充實(shí)數(shù)據(jù) 197
4.3.1  算術(shù)和統(tǒng)計(jì) 198
4.3.2  分箱 200
4.3.3  應(yīng)用函數(shù) 205
4.3.4  窗口計(jì)算 207
4.3.5  滾動(dòng)窗口 207
4.3.6  擴(kuò)展窗口 210
4.3.7  指數(shù)加權(quán)移動(dòng)窗口 211
4.3.8  管道 212
4.4  聚合數(shù)據(jù) 215
4.4.1  匯總DataFrame 217
4.4.2  按組聚合 218
4.4.3  數(shù)據(jù)透視表和交叉表 224
4.5  處理時(shí)間序列數(shù)據(jù) 227
4.5.1  基于日期選擇和過(guò)濾數(shù)據(jù) 228
4.5.2  基于時(shí)間選擇和過(guò)濾數(shù)據(jù) 230
4.5.3  移動(dòng)滯后數(shù)據(jù) 234
4.5.4  差分?jǐn)?shù)據(jù) 235
4.5.5  重采樣 236
4.5.6  合并時(shí)間序列 240
4.6  小結(jié) 242
4.7  練習(xí) 243
4.8  延伸閱讀 245
第5章  使用Pandas和Matplotlib可視化數(shù)據(jù) 247
5.1  章節(jié)材料 247
5.2  Matplotlib簡(jiǎn)介 249
5.2.1  基礎(chǔ)知識(shí) 249
5.2.2  繪圖組件 255
5.2.3  其他選項(xiàng) 258
5.3  使用Pandas繪圖 260
5.3.1  隨時(shí)間演變 262
5.3.2  變量之間的關(guān)系 269
5.3.3  分布 275
5.3.4  計(jì)數(shù)和頻率 283
5.4  pandas.plotting模塊 291
5.4.1  散點(diǎn)圖矩陣 291
5.4.2  滯后圖 294
5.4.3  自相關(guān)圖 296
5.4.4  自舉圖 297
5.5  小結(jié) 298
5.6  練習(xí) 299
5.7  延伸閱讀 299
第6章  使用Seaborn和自定義技術(shù)繪圖 301
6.1  章節(jié)材料 301
6.2  使用Seaborn進(jìn)行高級(jí)繪圖 303
6.2.1  分類數(shù)據(jù) 304
6.2.2  相關(guān)性和熱圖 308
6.2.3  回歸圖 317
6.2.4  分面 321
6.3  使用Matplotlib格式化繪圖 323
6.3.1  標(biāo)題和標(biāo)簽 323
6.3.2  圖例 326
6.3.3  格式化軸 329
6.4  自定義可視化 336
6.4.1  添加參考線 336
6.4.2  區(qū)域著色 341
6.4.3  注解 344
6.4.4  顏色 346
6.4.5  顏色表 348
6.4.6  條件著色 355
6.4.7  紋理 357
6.5  小結(jié) 360
6.6  練習(xí) 360
6.7  延伸閱讀 361
第3篇  使用Pandas進(jìn)行實(shí)際應(yīng)用分析
第7章  金融分析 365
7.1  章節(jié)材料 366
7.2  構(gòu)建Python包 367
7.2.1  封裝結(jié)構(gòu) 368
7.2.2  stock_analysis包概述 369
7.2.3  UML圖 371
7.3  收集金融數(shù)據(jù) 372
7.3.1  StockReader類 373
7.3.2  從Yahoo!Finance中收集歷史數(shù)據(jù) 381
7.4  探索性數(shù)據(jù)分析 383
7.4.1  Visualizer類系列 388
7.4.2  可視化股票 394
7.4.3  可視化多個(gè)資產(chǎn) 407
7.5  金融工具的技術(shù)分析 413
7.5.1  StockAnalyzer類 414
7.5.2  AssetGroupAnalyzer類 421
7.5.3  比較資產(chǎn) 423
7.6  使用歷史數(shù)據(jù)建模 427
7.6.1  StockModeler類 427
7.6.2  時(shí)間序列分解 433
7.6.3  ARIMA 434
7.6.4  使用statsmodel進(jìn)行線性回歸 436
7.6.5  比較模型 438
7.7  小結(jié) 440
7.8  練習(xí) 441
7.9  延伸閱讀 442
第8章  基于規(guī)則的異常檢測(cè) 445
8.1  章節(jié)材料 445
8.2  模擬登錄嘗試 446
8.2.1  假設(shè) 446
8.2.2  構(gòu)建login_attempt_simulator包 447
8.2.3  輔助函數(shù) 448
8.2.4  構(gòu)建LoginAttemptSimulator類 450
8.2.5  從命令行中進(jìn)行模擬 461
8.3  探索性數(shù)據(jù)分析 467
8.3.1  讀入模擬數(shù)據(jù) 467
8.3.2  異常登錄行為的特點(diǎn) 468
8.3.3  檢查數(shù)據(jù) 469
8.3.4  比較登錄嘗試次數(shù) 470
8.3.5  比較登錄成功率 473
8.3.6  使用錯(cuò)誤率指標(biāo) 474
8.3.7  通過(guò)可視化找出異常值 476
8.4  實(shí)現(xiàn)基于規(guī)則的異常檢測(cè) 479
8.4.1  百分比差異 480
8.4.2  Tukey圍欄 485
8.4.3  Z分?jǐn)?shù) 486
8.4.4  評(píng)估性能 488
8.5  小結(jié) 493
8.6  練習(xí) 493
8.7  延伸閱讀 494
第4篇  scikit-learn和機(jī)器學(xué)習(xí)
第9章  Python機(jī)器學(xué)習(xí)入門 499
9.1  章節(jié)材料 499
9.2  機(jī)器學(xué)習(xí)概述 501
9.2.1  機(jī)器學(xué)習(xí)的類型 502
9.2.2  常見(jiàn)任務(wù) 502
9.2.3  Python中的機(jī)器學(xué)習(xí) 503
9.3  探索性數(shù)據(jù)分析 504
9.3.1  紅酒品質(zhì)數(shù)據(jù) 505
9.3.2  白葡萄酒和紅葡萄酒化學(xué)性質(zhì)數(shù)據(jù) 508
9.3.3  行星和系外行星數(shù)據(jù) 511
9.4  預(yù)處理數(shù)據(jù) 517
9.4.1  訓(xùn)練和測(cè)試集 518
9.4.2  縮放和居中數(shù)據(jù) 520
9.4.3  編碼數(shù)據(jù) 522
9.4.4  估算 525
9.4.5  附加轉(zhuǎn)換器 527
9.4.6  構(gòu)建數(shù)據(jù)管道 529
9.5  聚類 531
9.5.1  k均值 532
9.5.2  按軌道特征對(duì)行星進(jìn)行分組 532
9.5.3  使用肘點(diǎn)法確定k值 535
9.5.4  解釋質(zhì)心并可視化聚類空間 537
9.5.5  評(píng)估聚類結(jié)果 540
9.6  回歸 542
9.6.1  線性回歸 542
9.6.2  預(yù)測(cè)行星一年的長(zhǎng)度 543
9.6.3  解釋線性回歸方程 544
9.6.4  做出預(yù)測(cè) 545
9.6.5  評(píng)估回歸結(jié)果 546
9.6.6  指標(biāo) 548
9.7  分類 552
9.7.1  邏輯回歸 552
9.7.2  預(yù)測(cè)紅酒質(zhì)量 553
9.7.3  通過(guò)化學(xué)性質(zhì)確定葡萄酒類型 554
9.7.4  評(píng)估分類結(jié)果 555
9.7.5  混淆矩陣 555
9.7.6  分類指標(biāo) 559
9.7.7  準(zhǔn)確率和錯(cuò)誤率 559
9.7.8  精確率和召回率 560
9.7.9  F分?jǐn)?shù) 562
9.7.10  敏感性和特異性 563
9.7.11  ROC曲線 564
9.7.12  精確率-召回率曲線 568
9.8  小結(jié) 571
9.9  練習(xí) 572
9.10  延伸閱讀 574
第10章  做出更好的預(yù)測(cè) 577
10.1  章節(jié)材料 577
10.2  使用網(wǎng)格搜索調(diào)整超參數(shù) 580
10.2.1  拆分驗(yàn)證集 580
10.2.2  使用交叉驗(yàn)證 582
10.2.3  使用RepeatedStratifiedKFold 585
10.3  特征工程 588
10.3.1  交互項(xiàng)和多項(xiàng)式特征 589
10.3.2  降維 592
10.3.3  特征聯(lián)合 601
10.3.4  特征重要性 603
10.4  集成方法 606
10.4.1  隨機(jī)森林 608
10.4.2  梯度提升 609
10.4.3  投票 610
10.4.4  檢查分類預(yù)測(cè)置信度 612
10.5  解決類不平衡的問(wèn)題 616
10.5.1  欠采樣 618
10.5.2  過(guò)采樣 619
10.6  正則化 621
10.7  小結(jié) 623
10.8  練習(xí) 624
10.9  延伸閱讀 626
第11章  機(jī)器學(xué)習(xí)異常檢測(cè) 629
11.1  章節(jié)材料 629
11.2  探索模擬登錄嘗試數(shù)據(jù) 631
11.3  利用無(wú)監(jiān)督學(xué)習(xí)執(zhí)行異常檢測(cè) 638
11.3.1  隔離森林 639
11.3.2  局部異常因子 641
11.3.3  比較模型 643
11.4  實(shí)現(xiàn)有監(jiān)督學(xué)習(xí)的異常檢測(cè) 647
11.4.1  基線模型 649
11.4.2  虛擬分類器 649
11.4.3  樸素貝葉斯 651
11.4.4  邏輯回歸 655
11.5  將反饋循環(huán)與在線學(xué)習(xí)相結(jié)合 657
11.5.1  創(chuàng)建PartialFitPipeline子類 658
11.5.2  隨機(jī)梯度下降分類器 658
11.5.3  構(gòu)建初始模型 660
11.5.4  評(píng)估模型 661
11.5.5  更新模型 666
11.5.6  提交結(jié)果 668
11.5.7  進(jìn)一步改進(jìn) 669
11.6  小結(jié) 669
11.7  練習(xí) 670
11.8  延伸閱讀 671
第5篇  其 他 資 源
第12章  未來(lái)之路 675
12.1  數(shù)據(jù)資源 675
12.1.1  Python包 676
12.1.2  Seaborn 676
12.1.3  scikit-learn 676
12.2  搜索數(shù)據(jù) 677
12.3  API 677
12.4  網(wǎng)站 678
12.4.1  金融 678
12.4.2  官方數(shù)據(jù) 679
12.4.3  健康與經(jīng)濟(jì) 679
12.4.4  社交網(wǎng)絡(luò) 680
12.4.5  運(yùn)動(dòng) 680
12.4.6  雜項(xiàng) 681
12.5  練習(xí)使用數(shù)據(jù) 681
12.5.1  Kaggle 682
12.5.2  DataCamp 682
12.6  Python練習(xí) 682
12.7  小結(jié) 684
12.8  練習(xí) 684
12.9  延伸閱讀 685
練習(xí)答案 693
附錄A 695
數(shù)據(jù)分析工作流程 695
選擇合適的可視化結(jié)果 696
機(jī)器學(xué)習(xí)工作流程 697

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)