注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件數(shù)據(jù)分析實(shí)戰(zhàn)

數(shù)據(jù)分析實(shí)戰(zhàn)

數(shù)據(jù)分析實(shí)戰(zhàn)

定 價(jià):¥79.00

作 者: [美] 托馬茲·卓巴斯(Tomasz Drabas) 著,刁壽鈞譯 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 數(shù)據(jù)分析與決策技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787111597797 出版時(shí)間: 2018-06-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 276 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書分為三大部分。第 一部分會(huì)講授一些實(shí)戰(zhàn)技巧,用于讀取、寫入、清洗、格式化、探索與理解數(shù)據(jù);第二部分由一些較深入的主題組成,比如分類、聚類和預(yù)測(cè)等;第三部分介紹更高深的主題,從圖論到自然語(yǔ)言處理,到離散選擇模型,再到模擬。

作者簡(jiǎn)介

  作者簡(jiǎn)介托馬茲·卓巴斯(TomaszDrabas)微軟數(shù)據(jù)科學(xué)家,致力于解決高維特征空間的問(wèn)題。他有超過(guò)13年的數(shù)據(jù)分析和數(shù)據(jù)科學(xué)經(jīng)驗(yàn):在歐洲、澳大利亞和北美洲三大洲期間,工作領(lǐng)域遍及高新技術(shù)、航空、電信、金融和咨詢。他曾擔(dān)任BeyondAnalysisAustralia的數(shù)據(jù)分析師和VodafoneHutchisonAustralia的高級(jí)數(shù)據(jù)分析師/數(shù)據(jù)科學(xué)家等。

圖書目錄

Contents目錄
推薦序
譯者序
前言
致謝
關(guān)于作者
關(guān)于審稿人
第1章準(zhǔn)備數(shù)據(jù)1
1.1導(dǎo)論1
1.2使用Python讀寫CSV/TSV文件2
1.3使用Python讀寫JSON文件6
1.4使用Python讀寫Excel文件7
1.5使用Python讀寫XML文件10
1.6使用pandas檢索HTML頁(yè)面13
1.7存儲(chǔ)并檢索關(guān)系數(shù)據(jù)庫(kù)15
1.8存儲(chǔ)并檢索MongoDB18
1.9使用OpenRefine打開并轉(zhuǎn)換數(shù)據(jù)20
1.10使用OpenRefine探索數(shù)據(jù)23
1.11排重25
1.12使用正則表達(dá)式與GREL清理數(shù)據(jù)27
1.13插補(bǔ)缺失值28
1.14將特征規(guī)范化、標(biāo)準(zhǔn)化29
1.15分級(jí)數(shù)據(jù)30
1.16編碼分類變量32
第2章探索數(shù)據(jù)34
2.1導(dǎo)論34
2.2生成描述性的統(tǒng)計(jì)數(shù)據(jù)34
2.3探索特征之間的相關(guān)性37
2.4可視化特征之間的相互作用38
2.5生成直方圖43
2.6創(chuàng)建多變量的圖表46
2.7數(shù)據(jù)取樣49
2.8將數(shù)據(jù)集拆分成訓(xùn)練集、交叉驗(yàn)證集和測(cè)試集51
第3章分類技巧53
3.1導(dǎo)論53
3.2測(cè)試并比較模型53
3.3樸素貝葉斯分類器56
3.4將邏輯回歸作為通用分類器使用58
3.5將支持向量機(jī)用作分類引擎61
3.6使用決策樹進(jìn)行分類65
3.7使用隨機(jī)森林預(yù)測(cè)訂閱者69
3.8使用神經(jīng)網(wǎng)絡(luò)對(duì)呼叫進(jìn)行分類72
第4章聚類技巧79
4.1導(dǎo)論79
4.2評(píng)估聚類方法的表現(xiàn)79
4.3用k均值算法聚類數(shù)據(jù)82
4.4為k均值算法找到最優(yōu)的聚類數(shù)84
4.5使用meanshift聚類模型發(fā)現(xiàn)聚類90
4.6使用c均值構(gòu)建模糊聚類模型91
4.7使用層次模型聚類數(shù)據(jù)93
4.8使用DBSCAN和BIRCH算法發(fā)現(xiàn)潛在的訂閱者96
第5章降維99
5.1導(dǎo)論99
5.2創(chuàng)建三維散點(diǎn)圖,顯示主成分99
5.3使用核PCA降維102
5.4用主成分分析找到關(guān)鍵因素105
5.5使用隨機(jī)PCA在數(shù)據(jù)中尋找主成分109
5.6使用線性判別分析提取有用的維度114
5.7用kNN分類模型給電話分類時(shí)使用多種降維技巧117
第6章回歸模型122
6.1導(dǎo)論122
6.2識(shí)別并解決數(shù)據(jù)中的多重共線性124
6.3構(gòu)建線性回歸模型128
6.4使用OLS預(yù)測(cè)生產(chǎn)的電量134
6.5使用CART估算發(fā)電廠生產(chǎn)的電量138
6.6將kNN模型用于回歸問(wèn)題141
6.7將隨機(jī)森林模型用于回歸分析143
6.8使用SVM預(yù)測(cè)發(fā)電廠生產(chǎn)的電量145
6.9訓(xùn)練神經(jīng)網(wǎng)絡(luò),預(yù)測(cè)發(fā)電廠生產(chǎn)的電量151
第7章時(shí)間序列技術(shù)154
7.1導(dǎo)論154
7.2在Python中如何處理日期對(duì)象155
7.3理解時(shí)間序列數(shù)據(jù)159
7.4平滑并轉(zhuǎn)換觀測(cè)值163
7.5過(guò)濾時(shí)間序列數(shù)據(jù)166
7.6移除趨勢(shì)和季節(jié)性169
7.7使用ARMA和ARIMA模型預(yù)測(cè)未來(lái)173
第8章圖181
8.1導(dǎo)論181
8.2使用NetworkX在Python中處理圖對(duì)象182
8.3使用Gephi將圖可視化190
8.4識(shí)別信用卡信息被盜的用戶200
8.5識(shí)別誰(shuí)盜竊了信用卡204
第9章自然語(yǔ)言處理207
9.1導(dǎo)論207
9.2從網(wǎng)絡(luò)讀入原始文本208
9.3標(biāo)記化和標(biāo)準(zhǔn)化212
9.4識(shí)別詞類,處理n-gram,識(shí)別命名實(shí)體218
9.5識(shí)別文章主題224
9.6識(shí)別句子結(jié)構(gòu)226
9.7根據(jù)評(píng)論給影片歸類229
第10章離散選擇模型233
10.1導(dǎo)論233
10.2準(zhǔn)備數(shù)據(jù)集以估算離散選擇模型235
10.3估算知名的多項(xiàng)Logit模型239
10.4測(cè)試來(lái)自無(wú)關(guān)選項(xiàng)的獨(dú)立性沖突244
10.5用巢式Logit模型處理IIA沖突249
10.6用混合Logit模型處理復(fù)雜的替代模式251
第11章模擬254
11.1導(dǎo)論254
11.2使用SimPy模擬加油站的加油過(guò)程255
11.3模擬電動(dòng)車耗盡電量的場(chǎng)景264
11.4判斷羊群面對(duì)群狼時(shí)是否有團(tuán)滅的風(fēng)險(xiǎn)269

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)