定 價:¥59.00
作 者: | (美)戴維·謝倫,亞諾,D.B.,梅斯曼 |
出版社: | 機(jī)械工業(yè)出版社 |
叢編項(xiàng): | |
標(biāo) 簽: | 編程語言與程序設(shè)計 計算機(jī)?網(wǎng)絡(luò) |
ISBN: | 9787111578260 | 出版時間: | 2017-09-01 | 包裝: | |
開本: | 頁數(shù): | 字?jǐn)?shù): |
目 錄
\n譯者序
前言
關(guān)于本書
關(guān)于作者
關(guān)于封面插圖
第1章 大數(shù)據(jù)世界中的數(shù)據(jù)科學(xué)1
1.1 數(shù)據(jù)科學(xué)和大數(shù)據(jù)的好處和用途2
1.2 數(shù)據(jù)種類3
1.2.1 結(jié)構(gòu)化數(shù)據(jù)3
1.2.2 非結(jié)構(gòu)化數(shù)據(jù)3
1.2.3 自然語言數(shù)據(jù)4
1.2.4 計算機(jī)數(shù)據(jù)4
1.2.5 圖類數(shù)據(jù)5
1.2.6 音頻、視頻和圖像數(shù)據(jù)5
1.2.7 流數(shù)據(jù)6
1.3 數(shù)據(jù)科學(xué)過程6
1.3.1 設(shè)置研究目標(biāo)6
1.3.2 檢索數(shù)據(jù)6
1.3.3 數(shù)據(jù)準(zhǔn)備7
1.3.4 數(shù)據(jù)探索7
1.3.5 數(shù)據(jù)建模7
1.3.6 展示與自動化7
1.4 大數(shù)據(jù)生態(tài)系統(tǒng)與數(shù)據(jù)科學(xué)7
1.4.1 分布式文件系統(tǒng)7
1.4.2 分布式編程框架9
1.4.3 數(shù)據(jù)集成框架9
1.4.4 機(jī)器學(xué)習(xí)框架9
1.4.5 NoSQL數(shù)據(jù)庫10
1.4.6 調(diào)度工具10
1.4.7 基準(zhǔn)測試工具10
1.4.8 系統(tǒng)部署11
1.4.9 服務(wù)開發(fā)11
1.4.10 安全11
1.5 Hadoop工作示例介紹11
1.6 本章小結(jié)16
第2章 數(shù)據(jù)科學(xué)過程17
2.1 數(shù)據(jù)科學(xué)過程概述17
2.2 步驟1:定義研究目標(biāo)并創(chuàng)立項(xiàng)目章程19
2.2.1 了解研究的目標(biāo)和背景20
2.2.2 創(chuàng)立項(xiàng)目章程20
2.3 步驟2:檢索數(shù)據(jù)20
2.3.1 從存儲在公司內(nèi)部的數(shù)據(jù)開始21
2.3.2 不要害怕去購買數(shù)據(jù)21
2.3.3 檢查數(shù)據(jù)質(zhì)量以預(yù)防問題發(fā)生22
2.4 步驟3:數(shù)據(jù)的清洗、整合以及轉(zhuǎn)換22
2.4.1 數(shù)據(jù)清洗22
2.4.2 盡可能早地修正錯誤27
2.4.3 從不同的數(shù)據(jù)源整合數(shù)據(jù)28
2.4.4 數(shù)據(jù)轉(zhuǎn)換30
2.5 步驟4:探索性數(shù)據(jù)分析32
2.6 步驟5:構(gòu)建模型35
2.6.1 模型與變量的選擇35
2.6.2 模型執(zhí)行36
2.6.3 模型診斷與模型比較39
2.7 步驟6:展示結(jié)果并在其上搭建應(yīng)用程序40
2.8 本章小結(jié)40
第3章 機(jī)器學(xué)習(xí)42
3.1 什么是機(jī)器學(xué)習(xí),為什么需要關(guān)注它42
3.1.1 機(jī)器學(xué)習(xí)在數(shù)據(jù)科學(xué)中的應(yīng)用43
3.1.2 機(jī)器學(xué)習(xí)在數(shù)據(jù)科學(xué)過程中的使用43
3.1.3 Python工具在機(jī)器學(xué)習(xí)中的應(yīng)用44
3.2 建模過程45
3.2.1 特征工程以及模型選取46
3.2.2 模型的訓(xùn)練47
3.2.3 模型的驗(yàn)證47
3.2.4 預(yù)測新的觀測值48
3.3 機(jī)器學(xué)習(xí)的類型48
3.3.1 有監(jiān)督學(xué)習(xí)48
3.3.2 無監(jiān)督學(xué)習(xí)53
3.4 半監(jiān)督學(xué)習(xí)60
3.5 本章小結(jié)61
第4章 單機(jī)上處理大數(shù)據(jù)63
4.1 大數(shù)據(jù)處理過程中遇到的難題63
4.2 處理巨量數(shù)據(jù)的通用技術(shù)64
4.2.1 選擇合適的算法65
4.2.2 選擇合適的數(shù)據(jù)結(jié)構(gòu)71
4.2.3 選擇合適的工具73
4.3 處理大數(shù)據(jù)集的通用編程技巧75
4.3.1 不必重復(fù)發(fā)明輪子75
4.3.2 充分利用硬件76
4.3.3 減少計算需求76
4.4 案例研究1:預(yù)測惡意URL77
4.4.1 步驟1:確立研究目標(biāo)77
4.4.2 步驟2:獲取URL數(shù)據(jù)77
4.4.3 步驟4:數(shù)據(jù)探索78
4.4.4 步驟5:建模79
4.5 案例研究2:在數(shù)據(jù)庫中建立一個推薦系統(tǒng)80
4.5.1 所需的工具及技術(shù)80
4.5.2 步驟1:研究問題82
4.5.3 步驟3:數(shù)據(jù)準(zhǔn)備82
4.5.4 步驟5:建模86
4.5.5 步驟6:展示與自動化86
4.6 本章小結(jié)88
第5章 大數(shù)據(jù)世界的第一步89
5.1 數(shù)據(jù)分布存儲和框架處理89
5.1.1 Hadoop:存儲和處理大數(shù)據(jù)集的框架90
5.1.2 Spark:取代MapReduce以獲得更好的性能92
5.2 案例研究:借貸的風(fēng)險評估93
5.2.1 步驟1:研究目標(biāo)94
5.2.2 步驟2:數(shù)據(jù)檢索95
5.2.3 步驟3:數(shù)據(jù)準(zhǔn)備98
5.2.4 步驟4(數(shù)據(jù)探索)和步驟6(報告形成)101
5.3 本章小結(jié)111
第6章 了解NoSQL112
6.1 NoSQL簡介114
6.1.1 ACID:關(guān)系型數(shù)據(jù)庫核心原則114
6.1.2 CAP理論:多節(jié)點(diǎn)數(shù)據(jù)庫的問題115
6.1.3 NoSQL數(shù)據(jù)庫的BASE原則116
6.1.4 NoSQL數(shù)據(jù)庫的種類117
6.2 案例研究:這是什么疾病123
6.2.1 步驟1:設(shè)置研究目標(biāo)124
6.2.2 步驟2和步驟3:數(shù)據(jù)檢索與數(shù)據(jù)準(zhǔn)備124
6.2.3 步驟4:數(shù)據(jù)探索131
6.2.4 再回到步驟3:為描述疾病概況做數(shù)據(jù)準(zhǔn)備137
6.2.5 再回到步驟4:為描述疾病概況做數(shù)據(jù)探索140
6.2.6 步驟6:展示與自動化140
6.3 本章小結(jié)141
第7章 圖數(shù)據(jù)庫的興起143
7.1 互聯(lián)數(shù)據(jù)及圖數(shù)據(jù)庫概述143
7.2 圖數(shù)據(jù)庫Neo4j概述146
7.3 數(shù)據(jù)互聯(lián)案例:食譜推薦引擎152
7.3.1 步驟1:設(shè)置研究目標(biāo)153
7.3.2 步驟2:數(shù)據(jù)檢索154
7.3.3 步驟3:數(shù)據(jù)準(zhǔn)備155
7.3.4 步驟4:數(shù)據(jù)探索157
7.3.5 步驟5:數(shù)據(jù)建模159
7.3.6 步驟6:數(shù)據(jù)展示162
7.4 本章小結(jié)162
第8章 文本挖掘和文本分析164
8.1 現(xiàn)實(shí)世界中的文本挖掘165
8.2 文本挖掘技術(shù)169
8.2.1 詞袋169
8.2.2 詞干提取和詞形還原170
8.2.3 決策樹分類器171
8.3 案例研究:Reddit帖子分類173
8.3.1 自然語言工具包173
8.3.2 數(shù)據(jù)科學(xué)過程綜述及第1步:研究目標(biāo)175
8.3.3 第2步:數(shù)據(jù)檢索175
8.3.4 第3步:數(shù)據(jù)準(zhǔn)備178
8.3.5 步驟4:數(shù)據(jù)探索180
8.3.6 再回到步驟3:數(shù)據(jù)準(zhǔn)備的調(diào)整182
8.3.7 步驟5:數(shù)據(jù)分析185
8.3.8 步驟6:展示與自動化188
8.4 本章小結(jié)189
第9章 面向終端用戶的數(shù)據(jù)可視化191
9.1 數(shù)據(jù)可視化選項(xiàng)192
9.2 Crossfilter—JavaScript MapReduce庫194
9.2.1 安裝195
9.2.2 利用Crossfilter篩選藥品數(shù)據(jù)集198
9.3 用dc.js創(chuàng)建一個交互式控制面板201
9.4 控制面板開發(fā)工具205
......
\n譯者序
\n\n
前言
\n\n
關(guān)于本書
\n\n
關(guān)于作者
\n\n
關(guān)于封面插圖
\n\n
第1章 大數(shù)據(jù)世界中的數(shù)據(jù)科學(xué)1
\n\n
1.1 數(shù)據(jù)科學(xué)和大數(shù)據(jù)的好處和用途2
\n\n
1.2 數(shù)據(jù)種類3
\n\n
1.2.1 結(jié)構(gòu)化數(shù)據(jù)3
\n\n
1.2.2 非結(jié)構(gòu)化數(shù)據(jù)3
\n\n
1.2.3 自然語言數(shù)據(jù)4
\n\n
1.2.4 計算機(jī)數(shù)據(jù)4
\n\n
1.2.5 圖類數(shù)據(jù)5
\n\n
1.2.6 音頻、視頻和圖像數(shù)據(jù)5
\n\n
1.2.7 流數(shù)據(jù)6
\n\n
1.3 數(shù)據(jù)科學(xué)過程6
\n\n
1.3.1 設(shè)置研究目標(biāo)6
\n\n
1.3.2 檢索數(shù)據(jù)6
\n\n
1.3.3 數(shù)據(jù)準(zhǔn)備7
\n\n
1.3.4 數(shù)據(jù)探索7
\n\n
1.3.5 數(shù)據(jù)建模7
\n\n
1.3.6 展示與自動化7
\n\n
1.4 大數(shù)據(jù)生態(tài)系統(tǒng)與數(shù)據(jù)科學(xué)7
\n\n
1.4.1 分布式文件系統(tǒng)7
\n\n
1.4.2 分布式編程框架9
\n\n
1.4.3 數(shù)據(jù)集成框架9
\n\n
1.4.4 機(jī)器學(xué)習(xí)框架9
\n\n
1.4.5 NoSQL數(shù)據(jù)庫10
\n\n
1.4.6 調(diào)度工具10
\n\n
1.4.7 基準(zhǔn)測試工具10
\n\n
1.4.8 系統(tǒng)部署11
\n\n
1.4.9 服務(wù)開發(fā)11
\n\n
1.4.10 安全11
\n\n
1.5 Hadoop工作示例介紹11
\n\n
1.6 本章小結(jié)16
\n\n
第2章 數(shù)據(jù)科學(xué)過程17
\n\n
2.1 數(shù)據(jù)科學(xué)過程概述17
\n\n
2.2 步驟1:定義研究目標(biāo)并創(chuàng)立項(xiàng)目章程19
\n\n
2.2.1 了解研究的目標(biāo)和背景20
\n\n
2.2.2 創(chuàng)立項(xiàng)目章程20
\n\n
2.3 步驟2:檢索數(shù)據(jù)20
\n\n
2.3.1 從存儲在公司內(nèi)部的數(shù)據(jù)開始21
\n\n
2.3.2 不要害怕去購買數(shù)據(jù)21
\n\n
2.3.3 檢查數(shù)據(jù)質(zhì)量以預(yù)防問題發(fā)生22
\n\n
2.4 步驟3:數(shù)據(jù)的清洗、整合以及轉(zhuǎn)換22
\n\n
2.4.1 數(shù)據(jù)清洗22
\n\n
2.4.2 盡可能早地修正錯誤27
\n\n
2.4.3 從不同的數(shù)據(jù)源整合數(shù)據(jù)28
\n\n
2.4.4 數(shù)據(jù)轉(zhuǎn)換30
\n\n
2.5 步驟4:探索性數(shù)據(jù)分析32
\n\n
2.6 步驟5:構(gòu)建模型35
\n\n
2.6.1 模型與變量的選擇35
\n\n
2.6.2 模型執(zhí)行36
\n\n
2.6.3 模型診斷與模型比較39
\n\n
2.7 步驟6:展示結(jié)果并在其上搭建應(yīng)用程序40
\n\n
2.8 本章小結(jié)40
\n\n
第3章 機(jī)器學(xué)習(xí)42
\n\n
3.1 什么是機(jī)器學(xué)習(xí),為什么需要關(guān)注它42
\n\n
3.1.1 機(jī)器學(xué)習(xí)在數(shù)據(jù)科學(xué)中的應(yīng)用43
\n\n
3.1.2 機(jī)器學(xué)習(xí)在數(shù)據(jù)科學(xué)過程中的使用43
\n\n
3.1.3 Python工具在機(jī)器學(xué)習(xí)中的應(yīng)用44
\n\n
3.2 建模過程45
\n\n
3.2.1 特征工程以及模型選取46
\n\n
3.2.2 模型的訓(xùn)練47
\n\n
3.2.3 模型的驗(yàn)證47
\n\n
3.2.4 預(yù)測新的觀測值48
\n\n
3.3 機(jī)器學(xué)習(xí)的類型48
\n\n
3.3.1 有監(jiān)督學(xué)習(xí)48
\n\n
3.3.2 無監(jiān)督學(xué)習(xí)53
\n\n
3.4 半監(jiān)督學(xué)習(xí)60
\n\n
3.5 本章小結(jié)61
\n\n
第4章 單機(jī)上處理大數(shù)據(jù)63
\n\n
4.1 大數(shù)據(jù)處理過程中遇到的難題63
\n\n
4.2 處理巨量數(shù)據(jù)的通用技術(shù)64
\n\n
4.2.1 選擇合適的算法65
\n\n
4.2.2 選擇合適的數(shù)據(jù)結(jié)構(gòu)71
\n\n
4.2.3 選擇合適的工具73
\n\n
4.3 處理大數(shù)據(jù)集的通用編程技巧75
\n\n
4.3.1 不必重復(fù)發(fā)明輪子75
\n\n
4.3.2 充分利用硬件76
\n\n
4.3.3 減少計算需求76
\n\n
4.4 案例研究1:預(yù)測惡意URL77
\n\n
4.4.1 步驟1:確立研究目標(biāo)77
\n\n
4.4.2 步驟2:獲取URL數(shù)據(jù)77
\n\n
4.4.3 步驟4:數(shù)據(jù)探索78
\n\n
4.4.4 步驟5:建模79
\n\n
4.5 案例研究2:在數(shù)據(jù)庫中建立一個推薦系統(tǒng)80
\n\n
4.5.1 所需的工具及技術(shù)80
\n\n
4.5.2 步驟1:研究問題82
\n\n
4.5.3 步驟3:數(shù)據(jù)準(zhǔn)備82
\n\n
4.5.4 步驟5:建模86
\n\n
4.5.5 步驟6:展示與自動化86
\n\n
4.6 本章小結(jié)88
\n\n
第5章 大數(shù)據(jù)世界的第一步89
\n\n
5.1 數(shù)據(jù)分布存儲和框架處理89
\n\n
5.1.1 Hadoop:存儲和處理大數(shù)據(jù)集的框架90
\n\n
5.1.2 Spark:取代MapReduce以獲得更好的性能92
\n\n
5.2 案例研究:借貸的風(fēng)險評估93
\n\n
5.2.1 步驟1:研究目標(biāo)94
\n\n
5.2.2 步驟2:數(shù)據(jù)檢索95
\n\n
5.2.3 步驟3:數(shù)據(jù)準(zhǔn)備98
\n\n
5.2.4 步驟4(數(shù)據(jù)探索)和步驟6(報告形成)101
\n\n
5.3 本章小結(jié)111
\n\n
第6章 了解NoSQL112
\n\n
6.1 NoSQL簡介114
\n\n
6.1.1 ACID:關(guān)系型數(shù)據(jù)庫核心原則114
\n\n
6.1.2 CAP理論:多節(jié)點(diǎn)數(shù)據(jù)庫的問題115
\n\n
6.1.3 NoSQL數(shù)據(jù)庫的BASE原則116
\n\n
6.1.4 NoSQL數(shù)據(jù)庫的種類117
\n\n
6.2 案例研究:這是什么疾病123
\n\n
6.2.1 步驟1:設(shè)置研究目標(biāo)124
\n\n
6.2.2 步驟2和步驟3:數(shù)據(jù)檢索與數(shù)據(jù)準(zhǔn)備124
\n\n
6.2.3 步驟4:數(shù)據(jù)探索131
\n\n
6.2.4 再回到步驟3:為描述疾病概況做數(shù)據(jù)準(zhǔn)備137
\n\n
6.2.5 再回到步驟4:為描述疾病概況做數(shù)據(jù)探索140
\n\n
6.2.6 步驟6:展示與自動化140
\n\n
6.3 本章小結(jié)141
\n\n
第7章 圖數(shù)據(jù)庫的興起143
\n\n
7.1 互聯(lián)數(shù)據(jù)及圖數(shù)據(jù)庫概述143
\n\n
7.2 圖數(shù)據(jù)庫Neo4j概述146
\n\n
7.3 數(shù)據(jù)互聯(lián)案例:食譜推薦引擎152
\n\n
7.3.1 步驟1:設(shè)置研究目標(biāo)153
\n\n
7.3.2 步驟2:數(shù)據(jù)檢索154
\n\n
7.3.3 步驟3:數(shù)據(jù)準(zhǔn)備155
\n\n
7.3.4 步驟4:數(shù)據(jù)探索157
\n\n
7.3.5 步驟5:數(shù)據(jù)建模159
\n\n
7.3.6 步驟6:數(shù)據(jù)展示162
\n\n
7.4 本章小結(jié)162
\n\n
第8章 文本挖掘和文本分析164
\n\n
8.1 現(xiàn)實(shí)世界中的文本挖掘165
\n\n
8.2 文本挖掘技術(shù)169
\n\n
8.2.1 詞袋169
\n\n
8.2.2 詞干提取和詞形還原170
\n\n
8.2.3 決策樹分類器171
\n\n
8.3 案例研究:Reddit帖子分類173
\n\n
8.3.1 自然語言工具包173
\n\n
8.3.2 數(shù)據(jù)科學(xué)過程綜述及第1步:研究目標(biāo)175
\n\n
8.3.3 第2步:數(shù)據(jù)檢索175
\n\n
8.3.4 第3步:數(shù)據(jù)準(zhǔn)備178
\n\n
8.3.5 步驟4:數(shù)據(jù)探索180
\n\n
8.3.6 再回到步驟3:數(shù)據(jù)準(zhǔn)備的調(diào)整182
\n\n
8.3.7 步驟5:數(shù)據(jù)分析185
\n\n
8.3.8 步驟6:展示與自動化188
\n\n
8.4 本章小結(jié)189
\n\n
第9章 面向終端用戶的數(shù)據(jù)可視化191
\n\n
9.1 數(shù)據(jù)可視化選項(xiàng)192
\n\n
9.2 Crossfilter—JavaScript MapReduce庫194
\n\n
9.2.1 安裝195
\n\n
9.2.2 利用Crossfilter篩選藥品數(shù)據(jù)集198
\n\n
9.3 用dc.js創(chuàng)建一個交互式控制面板201
\n\n
9.4 控制面板開發(fā)工具205
\n\n
......
\n