數(shù)據(jù)科學(xué)導(dǎo)論：Python語言（原書第3版）

定　價(jià)：￥79.00

作　者：	阿爾貝托·博斯凱蒂，盧卡·馬薩羅著，于俊偉譯譯
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：	數(shù)據(jù)科學(xué)與工程技術(shù)叢書
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787111646693	出版時(shí)間：	2020-04-01	包裝：	平裝
開本：	16開	頁數(shù)：	300	字?jǐn)?shù)：

內(nèi)容簡介

　　本書首先介紹如何設(shè)置基本的數(shù)據(jù)科學(xué)工具箱，然后帶你進(jìn)入數(shù)據(jù)改寫和預(yù)處理階段，這一部分主要是闡明所有與核心數(shù)據(jù)科學(xué)活動(dòng)相關(guān)的數(shù)據(jù)分析過程，如數(shù)據(jù)加載、轉(zhuǎn)換、修復(fù)以及數(shù)據(jù)探索和處理等。通過主要的機(jī)器學(xué)習(xí)算法、圖形分析技術(shù)，以及所有易于表現(xiàn)結(jié)果的可視化工具，實(shí)現(xiàn)對(duì)數(shù)據(jù)科學(xué)的概述。本書對(duì)上一版內(nèi)容進(jìn)行了全面拓展和更新，涵蓋新版的Jupyter Notebook、NumPy、pandas和Scikit-learn等的新改進(jìn)。此外，還介紹了深度學(xué)習(xí)（借助在Theano和Tensorflow平臺(tái)上運(yùn)行的Keras庫）、漂亮的可視化（使用Seaborn和 ggplot）和Web部署（使用bottle）等新內(nèi)容。本書行文過程以數(shù)據(jù)科學(xué)項(xiàng)目為主體，輔以整潔的代碼和簡化的示例，能幫助你理解與項(xiàng)目相關(guān)的潛在原理和實(shí)際數(shù)據(jù)集。

作者簡介

暫缺《數(shù)據(jù)科學(xué)導(dǎo)論：Python語言（原書第3版）》作者簡介

圖書目錄

譯者序
前言
作者簡介
審閱者簡介
第1章　新手上路1
1.1　數(shù)據(jù)科學(xué)與Python簡介1
1.2　Python的安裝2
1.2.1　Python 2還是Python 33
1.2.2　分步安裝4
1.2.3　安裝必要的工具包4
1.2.4　工具包升級(jí)6
1.3　科學(xué)計(jì)算發(fā)行版6
1.3.1　Anaconda7
1.3.2　使用conda安裝工具包7
1.3.3　Enthought Canopy8
1.3.4　WinPython8
1.4　虛擬環(huán)境8
1.5　核心工具包一瞥11
1.6　Jupyter簡介18
1.6.1　快速安裝與初次使用21
1.6.2　Jupyter魔術(shù)命令22
1.6.3　直接從Jupyter Notebook安裝軟件包23
1.6.4　查看新的JupyterLab環(huán)境24
1.6.5　Jupyter Notebook怎樣幫助數(shù)據(jù)科學(xué)家24
1.6.6　Jupyter的替代版本29
1.7　本書使用的數(shù)據(jù)集和代碼30
1.7.1　Scikit-learn小規(guī)模數(shù)據(jù)集30
1.7.2　MLdata.org和其他公共資源庫32
1.7.3　LIBSVM Data樣本33
1.7.4　直接從CSV或文本文件加載數(shù)據(jù)33
1.7.5　Scikit-learn樣本生成器35
1.8　小結(jié)36
第2章　數(shù)據(jù)改寫37
2.1　數(shù)據(jù)科學(xué)過程37
2.2　使用pandas進(jìn)行數(shù)據(jù)加載與預(yù)處理39
2.2.1　數(shù)據(jù)快捷加載39
2.2.2　處理問題數(shù)據(jù)41
2.2.3　處理大數(shù)據(jù)集43
2.2.4　訪問其他的數(shù)據(jù)格式46
2.2.5　合并數(shù)據(jù)48
2.2.6　數(shù)據(jù)預(yù)處理51
2.2.7　數(shù)據(jù)選擇55
2.3　使用分類數(shù)據(jù)和文本數(shù)據(jù)57
2.3.1　特殊的數(shù)據(jù)類型—文本59
2.3.2　使用Beautiful Soup抓取網(wǎng)頁64
2.4　使用Numpy進(jìn)行數(shù)據(jù)處理65
2.4.1　NmuPy中的N維數(shù)組65
2.4.2　NmuPy ndarray對(duì)象基礎(chǔ)66
2.5　創(chuàng)建Numpy數(shù)組68
2.5.1　從列表到一維數(shù)組68
2.5.2　控制內(nèi)存大小69
2.5.3　異構(gòu)列表70
2.5.4　從列表到多維數(shù)組70
2.5.5　改變數(shù)組大小71
2.5.6　利用NumPy函數(shù)生成數(shù)組73
2.5.7　直接從文件中獲得數(shù)組73
2.5.8　從pandas提取數(shù)據(jù)74
2.6　NumPy快速操作和計(jì)算75
2.6.1　矩陣運(yùn)算77
2.6.2　NumPy數(shù)組切片和索引78
2.6.3　NumPy數(shù)組堆疊80
2.6.4　使用稀疏數(shù)組81
2.7　小結(jié)83
第3章　數(shù)據(jù)科學(xué)流程84
3.1　EDA簡介84
3.2　創(chuàng)建新特征87
3.3　維數(shù)約簡89
3.3.1　協(xié)方差矩陣89
3.3.2　主成分分析90
3.3.3　一種用于大數(shù)據(jù)的PCA變型—RandomizedPCA93
3.3.4　潛在因素分析94
3.3.5　線性判別分析94
3.3.6　潛在語義分析95
3.3.7　獨(dú)立成分分析95
3.3.8　核主成分分析96
3.3.9　T-分布鄰域嵌入算法97
3.3.10　受限波爾茲曼機(jī)98
3.4　異常檢測(cè)和處理99
3.4.1　單變量異常檢測(cè)99
3.4.2　EllipticEnvelope101
3.4.3　OneClassSVM104
3.5　驗(yàn)證指標(biāo)106
3.5.1　多標(biāo)號(hào)分類107
3.5.2　二值分類109
3.5.3　回歸110
3.6　測(cè)試和驗(yàn)證110
3.7　交叉驗(yàn)證113
3.7.1　使用交叉驗(yàn)證迭代器115
3.7.2　采樣和自舉方法116
3.8　超參數(shù)優(yōu)化118
3.8.1　建立自定義評(píng)分函數(shù)120
3.8.2　減少網(wǎng)格搜索時(shí)間121
3.9　特征選擇123
3.9.1　基于方差的特征選擇123
3.9.2　單變量選擇124
3.9.3　遞歸消除125
3.9.4　穩(wěn)定性選擇與基于L1的選擇126
3.10　將所有操作包裝成工作流程127
3.10.1　特征組合和轉(zhuǎn)換鏈接128
3.10.2　構(gòu)建自定義轉(zhuǎn)換函數(shù)130
3.11　小結(jié)131
第4章　機(jī)器學(xué)習(xí)132
4.1　準(zhǔn)備工具和數(shù)據(jù)集132
4.2　線性和邏輯回歸134
4.3　樸素貝葉斯136
4.4　K近鄰137
4.5　非線性算法139
4.5.1　基于SVM的分類算法140
4.5.2　基于SVM的回歸算法141
4.5.3　調(diào)整SVM（優(yōu)化）142
4.6　組合策略144
4.6.1　基于隨機(jī)樣本的粘貼策略144
4.6.2　基于弱分類器的Bagging策略144
4.6.3　隨機(jī)子空間和隨機(jī)分片145
4.6.4　隨機(jī)森林和Extra-Trees145
4.6.5　從組合估計(jì)概率147
4.6.6　模型序列—AdaBoost148
4.6.7　梯度樹提升149
4.6.8　XGBoost150
4.6.9　LightGBM152
4.6.10　CatBoost155
4.7　處理大數(shù)據(jù)158
4.7.1　作為范例創(chuàng)建一些大數(shù)據(jù)集158
4.7.2　對(duì)容量的可擴(kuò)展性159
4.7.3　保持速度161
4.7.4　處理多樣性162
4.7.5　隨機(jī)梯度下降概述163
4.8　自然語言處理一瞥164
4.8.1　詞語分詞164
4.8.2　詞干提取165
4.8.3　詞性標(biāo)注166
4.8.4　命名實(shí)體識(shí)別166
4.8.5　停止詞167
4.8.6　一個(gè)完整的數(shù)據(jù)科學(xué)例子—文本分類168
4.9　無監(jiān)督學(xué)習(xí)概覽169
4.9.1　K均值算法169
4.9.2　基于密度的聚類技術(shù)—DBSCAN172
4.9.3　隱含狄利克雷分布173
4.10　小結(jié)177
第5章　可視化、發(fā)現(xiàn)和結(jié)果178
5.1　matplotlib基礎(chǔ)介紹178
5.1.1　曲線繪圖179
5.1.2　繪制分塊圖180
5.1.3　數(shù)據(jù)中的關(guān)系散點(diǎn)圖181
5.1.4　直方圖182
5.1.5　柱狀圖183
5.1.6　圖像可視化184
5.1.7　pandas的幾個(gè)圖形示例186
5.1.8　通過平行坐標(biāo)發(fā)現(xiàn)模式191
5.2　封裝matplotlib命令191
5.2.1　Seaborn簡介192
5.2.2　增強(qiáng)EDA性能196
5.3　高級(jí)數(shù)據(jù)學(xué)習(xí)表示200
5.3.1　學(xué)習(xí)曲線201
5.3.2　確認(rèn)曲線202
5.3.3　隨機(jī)森林的特征重要性203
5.3.4　GBT部分依賴關(guān)系圖形205
5.3.5　創(chuàng)建MA-AAS預(yù)測(cè)服務(wù)器205
5.4　小結(jié)209
第6章　社交網(wǎng)絡(luò)分析210
6.1　圖論簡介210
6.2　圖的算法215
6.2.1　節(jié)點(diǎn)中心性的類型216
6.2.2　網(wǎng)絡(luò)劃分218
6.3　圖的裝載、輸出和采樣221
6.4