注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)工業(yè)技術(shù)建筑科學建筑設計Python數(shù)據(jù)科學導論

Python數(shù)據(jù)科學導論

Python數(shù)據(jù)科學導論

定 價:¥59.00

作 者: (美)戴維·謝倫,亞諾,D.B.,梅斯曼
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 編程語言與程序設計 計算機?網(wǎng)絡

ISBN: 9787111578260 出版時間: 2017-09-01 包裝:
開本: 頁數(shù): 字數(shù):  

內(nèi)容簡介

  本書涵蓋的主題非常廣泛,介紹了數(shù)據(jù)科學方方面面的知識,每一章都側(cè)重于介紹數(shù)據(jù)科學的某一方面,為讀者以后的深入學習打下基礎。具體內(nèi)容包括:第1、2章系統(tǒng)介紹大數(shù)據(jù)科學的背景知識及框架結(jié)構(gòu);第3~5章介紹機器學習相關(guān)知識;第6~9章介紹幾個比較有趣的數(shù)據(jù)科學主題。本書是學習數(shù)據(jù)科學知識的入門教材,在深入學習本書的實例前,需要掌握SQL、Python及HTML5的入門知識,了解統(tǒng)計學和機器學習相關(guān)知識。

作者簡介

暫缺《Python數(shù)據(jù)科學導論》作者簡介

圖書目錄

目  錄

\n

譯者序

前言

關(guān)于本書

關(guān)于作者

關(guān)于封面插圖

第1章 大數(shù)據(jù)世界中的數(shù)據(jù)科學1

1.1 數(shù)據(jù)科學和大數(shù)據(jù)的好處和用途2

1.2 數(shù)據(jù)種類3

1.2.1 結(jié)構(gòu)化數(shù)據(jù)3

1.2.2 非結(jié)構(gòu)化數(shù)據(jù)3

1.2.3 自然語言數(shù)據(jù)4

1.2.4 計算機數(shù)據(jù)4

1.2.5 圖類數(shù)據(jù)5

1.2.6 音頻、視頻和圖像數(shù)據(jù)5

1.2.7 流數(shù)據(jù)6

1.3 數(shù)據(jù)科學過程6

1.3.1 設置研究目標6

1.3.2 檢索數(shù)據(jù)6

1.3.3 數(shù)據(jù)準備7

1.3.4 數(shù)據(jù)探索7

1.3.5 數(shù)據(jù)建模7

1.3.6 展示與自動化7

1.4 大數(shù)據(jù)生態(tài)系統(tǒng)與數(shù)據(jù)科學7

1.4.1 分布式文件系統(tǒng)7

1.4.2 分布式編程框架9

1.4.3 數(shù)據(jù)集成框架9

1.4.4 機器學習框架9

1.4.5 NoSQL數(shù)據(jù)庫10

1.4.6 調(diào)度工具10

1.4.7 基準測試工具10

1.4.8 系統(tǒng)部署11

1.4.9 服務開發(fā)11

1.4.10 安全11

1.5 Hadoop工作示例介紹11

1.6 本章小結(jié)16

第2章 數(shù)據(jù)科學過程17

2.1 數(shù)據(jù)科學過程概述17

2.2 步驟1:定義研究目標并創(chuàng)立項目章程19

2.2.1 了解研究的目標和背景20

2.2.2 創(chuàng)立項目章程20

2.3 步驟2:檢索數(shù)據(jù)20

2.3.1 從存儲在公司內(nèi)部的數(shù)據(jù)開始21

2.3.2 不要害怕去購買數(shù)據(jù)21

2.3.3 檢查數(shù)據(jù)質(zhì)量以預防問題發(fā)生22

2.4 步驟3:數(shù)據(jù)的清洗、整合以及轉(zhuǎn)換22

2.4.1 數(shù)據(jù)清洗22

2.4.2 盡可能早地修正錯誤27

2.4.3 從不同的數(shù)據(jù)源整合數(shù)據(jù)28

2.4.4 數(shù)據(jù)轉(zhuǎn)換30

2.5 步驟4:探索性數(shù)據(jù)分析32

2.6 步驟5:構(gòu)建模型35

2.6.1 模型與變量的選擇35

2.6.2 模型執(zhí)行36

2.6.3 模型診斷與模型比較39

2.7 步驟6:展示結(jié)果并在其上搭建應用程序40

2.8 本章小結(jié)40

第3章 機器學習42

3.1 什么是機器學習,為什么需要關(guān)注它42

3.1.1 機器學習在數(shù)據(jù)科學中的應用43

3.1.2 機器學習在數(shù)據(jù)科學過程中的使用43

3.1.3 Python工具在機器學習中的應用44

3.2 建模過程45

3.2.1 特征工程以及模型選取46

3.2.2 模型的訓練47

3.2.3 模型的驗證47

3.2.4 預測新的觀測值48

3.3 機器學習的類型48

3.3.1 有監(jiān)督學習48

3.3.2 無監(jiān)督學習53

3.4 半監(jiān)督學習60

3.5 本章小結(jié)61

第4章 單機上處理大數(shù)據(jù)63

4.1 大數(shù)據(jù)處理過程中遇到的難題63

4.2 處理巨量數(shù)據(jù)的通用技術(shù)64

4.2.1 選擇合適的算法65

4.2.2 選擇合適的數(shù)據(jù)結(jié)構(gòu)71

4.2.3 選擇合適的工具73

4.3 處理大數(shù)據(jù)集的通用編程技巧75

4.3.1 不必重復發(fā)明輪子75

4.3.2 充分利用硬件76

4.3.3 減少計算需求76

4.4 案例研究1:預測惡意URL77

4.4.1 步驟1:確立研究目標77

4.4.2 步驟2:獲取URL數(shù)據(jù)77

4.4.3 步驟4:數(shù)據(jù)探索78

4.4.4 步驟5:建模79

4.5 案例研究2:在數(shù)據(jù)庫中建立一個推薦系統(tǒng)80

4.5.1 所需的工具及技術(shù)80

4.5.2 步驟1:研究問題82

4.5.3 步驟3:數(shù)據(jù)準備82

4.5.4 步驟5:建模86

4.5.5 步驟6:展示與自動化86

4.6 本章小結(jié)88

第5章 大數(shù)據(jù)世界的第一步89

5.1 數(shù)據(jù)分布存儲和框架處理89

5.1.1 Hadoop:存儲和處理大數(shù)據(jù)集的框架90

5.1.2 Spark:取代MapReduce以獲得更好的性能92

5.2 案例研究:借貸的風險評估93

5.2.1 步驟1:研究目標94

5.2.2 步驟2:數(shù)據(jù)檢索95

5.2.3 步驟3:數(shù)據(jù)準備98

5.2.4 步驟4(數(shù)據(jù)探索)和步驟6(報告形成)101

5.3 本章小結(jié)111

第6章 了解NoSQL112

6.1 NoSQL簡介114

6.1.1 ACID:關(guān)系型數(shù)據(jù)庫核心原則114

6.1.2 CAP理論:多節(jié)點數(shù)據(jù)庫的問題115

6.1.3 NoSQL數(shù)據(jù)庫的BASE原則116

6.1.4 NoSQL數(shù)據(jù)庫的種類117

6.2 案例研究:這是什么疾病123

6.2.1 步驟1:設置研究目標124

6.2.2 步驟2和步驟3:數(shù)據(jù)檢索與數(shù)據(jù)準備124

6.2.3 步驟4:數(shù)據(jù)探索131

6.2.4 再回到步驟3:為描述疾病概況做數(shù)據(jù)準備137

6.2.5 再回到步驟4:為描述疾病概況做數(shù)據(jù)探索140

6.2.6 步驟6:展示與自動化140

6.3 本章小結(jié)141

第7章 圖數(shù)據(jù)庫的興起143

7.1 互聯(lián)數(shù)據(jù)及圖數(shù)據(jù)庫概述143

7.2 圖數(shù)據(jù)庫Neo4j概述146

7.3 數(shù)據(jù)互聯(lián)案例:食譜推薦引擎152

7.3.1 步驟1:設置研究目標153

7.3.2 步驟2:數(shù)據(jù)檢索154

7.3.3 步驟3:數(shù)據(jù)準備155

7.3.4 步驟4:數(shù)據(jù)探索157

7.3.5 步驟5:數(shù)據(jù)建模159

7.3.6 步驟6:數(shù)據(jù)展示162

7.4 本章小結(jié)162

第8章 文本挖掘和文本分析164

8.1 現(xiàn)實世界中的文本挖掘165

8.2 文本挖掘技術(shù)169

8.2.1 詞袋169

8.2.2 詞干提取和詞形還原170

8.2.3 決策樹分類器171

8.3 案例研究:Reddit帖子分類173

8.3.1 自然語言工具包173

8.3.2 數(shù)據(jù)科學過程綜述及第1步:研究目標175

8.3.3 第2步:數(shù)據(jù)檢索175

8.3.4 第3步:數(shù)據(jù)準備178

8.3.5 步驟4:數(shù)據(jù)探索180

8.3.6 再回到步驟3:數(shù)據(jù)準備的調(diào)整182

8.3.7 步驟5:數(shù)據(jù)分析185

8.3.8 步驟6:展示與自動化188

8.4 本章小結(jié)189

第9章 面向終端用戶的數(shù)據(jù)可視化191

9.1 數(shù)據(jù)可視化選項192

9.2 Crossfilter—JavaScript MapReduce庫194

9.2.1 安裝195

9.2.2 利用Crossfilter篩選藥品數(shù)據(jù)集198

9.3 用dc.js創(chuàng)建一個交互式控制面板201

9.4 控制面板開發(fā)工具205

......

\n

譯者序

\n

 

\n

前言

\n

 

\n

關(guān)于本書

\n

 

\n

關(guān)于作者

\n

 

\n

關(guān)于封面插圖

\n

 

\n

第1章 大數(shù)據(jù)世界中的數(shù)據(jù)科學1

\n

 

\n

1.1 數(shù)據(jù)科學和大數(shù)據(jù)的好處和用途2

\n

 

\n

1.2 數(shù)據(jù)種類3

\n

 

\n

1.2.1 結(jié)構(gòu)化數(shù)據(jù)3

\n

 

\n

1.2.2 非結(jié)構(gòu)化數(shù)據(jù)3

\n

 

\n

1.2.3 自然語言數(shù)據(jù)4

\n

 

\n

1.2.4 計算機數(shù)據(jù)4

\n

 

\n

1.2.5 圖類數(shù)據(jù)5

\n

 

\n

1.2.6 音頻、視頻和圖像數(shù)據(jù)5

\n

 

\n

1.2.7 流數(shù)據(jù)6

\n

 

\n

1.3 數(shù)據(jù)科學過程6

\n

 

\n

1.3.1 設置研究目標6

\n

 

\n

1.3.2 檢索數(shù)據(jù)6

\n

 

\n

1.3.3 數(shù)據(jù)準備7

\n

 

\n

1.3.4 數(shù)據(jù)探索7

\n

 

\n

1.3.5 數(shù)據(jù)建模7

\n

 

\n

1.3.6 展示與自動化7

\n

 

\n

1.4 大數(shù)據(jù)生態(tài)系統(tǒng)與數(shù)據(jù)科學7

\n

 

\n

1.4.1 分布式文件系統(tǒng)7

\n

 

\n

1.4.2 分布式編程框架9

\n

 

\n

1.4.3 數(shù)據(jù)集成框架9

\n

 

\n

1.4.4 機器學習框架9

\n

 

\n

1.4.5 NoSQL數(shù)據(jù)庫10

\n

 

\n

1.4.6 調(diào)度工具10

\n

 

\n

1.4.7 基準測試工具10

\n

 

\n

1.4.8 系統(tǒng)部署11

\n

 

\n

1.4.9 服務開發(fā)11

\n

 

\n

1.4.10 安全11

\n

 

\n

1.5 Hadoop工作示例介紹11

\n

 

\n

1.6 本章小結(jié)16

\n

 

\n

第2章 數(shù)據(jù)科學過程17

\n

 

\n

2.1 數(shù)據(jù)科學過程概述17

\n

 

\n

2.2 步驟1:定義研究目標并創(chuàng)立項目章程19

\n

 

\n

2.2.1 了解研究的目標和背景20

\n

 

\n

2.2.2 創(chuàng)立項目章程20

\n

 

\n

2.3 步驟2:檢索數(shù)據(jù)20

\n

 

\n

2.3.1 從存儲在公司內(nèi)部的數(shù)據(jù)開始21

\n

 

\n

2.3.2 不要害怕去購買數(shù)據(jù)21

\n

 

\n

2.3.3 檢查數(shù)據(jù)質(zhì)量以預防問題發(fā)生22

\n

 

\n

2.4 步驟3:數(shù)據(jù)的清洗、整合以及轉(zhuǎn)換22

\n

 

\n

2.4.1 數(shù)據(jù)清洗22

\n

 

\n

2.4.2 盡可能早地修正錯誤27

\n

 

\n

2.4.3 從不同的數(shù)據(jù)源整合數(shù)據(jù)28

\n

 

\n

2.4.4 數(shù)據(jù)轉(zhuǎn)換30

\n

 

\n

2.5 步驟4:探索性數(shù)據(jù)分析32

\n

 

\n

2.6 步驟5:構(gòu)建模型35

\n

 

\n

2.6.1 模型與變量的選擇35

\n

 

\n

2.6.2 模型執(zhí)行36

\n

 

\n

2.6.3 模型診斷與模型比較39

\n

 

\n

2.7 步驟6:展示結(jié)果并在其上搭建應用程序40

\n

 

\n

2.8 本章小結(jié)40

\n

 

\n

第3章 機器學習42

\n

 

\n

3.1 什么是機器學習,為什么需要關(guān)注它42

\n

 

\n

3.1.1 機器學習在數(shù)據(jù)科學中的應用43

\n

 

\n

3.1.2 機器學習在數(shù)據(jù)科學過程中的使用43

\n

 

\n

3.1.3 Python工具在機器學習中的應用44

\n

 

\n

3.2 建模過程45

\n

 

\n

3.2.1 特征工程以及模型選取46

\n

 

\n

3.2.2 模型的訓練47

\n

 

\n

3.2.3 模型的驗證47

\n

 

\n

3.2.4 預測新的觀測值48

\n

 

\n

3.3 機器學習的類型48

\n

 

\n

3.3.1 有監(jiān)督學習48

\n

 

\n

3.3.2 無監(jiān)督學習53

\n

 

\n

3.4 半監(jiān)督學習60

\n

 

\n

3.5 本章小結(jié)61

\n

 

\n

第4章 單機上處理大數(shù)據(jù)63

\n

 

\n

4.1 大數(shù)據(jù)處理過程中遇到的難題63

\n

 

\n

4.2 處理巨量數(shù)據(jù)的通用技術(shù)64

\n

 

\n

4.2.1 選擇合適的算法65

\n

 

\n

4.2.2 選擇合適的數(shù)據(jù)結(jié)構(gòu)71

\n

 

\n

4.2.3 選擇合適的工具73

\n

 

\n

4.3 處理大數(shù)據(jù)集的通用編程技巧75

\n

 

\n

4.3.1 不必重復發(fā)明輪子75

\n

 

\n

4.3.2 充分利用硬件76

\n

 

\n

4.3.3 減少計算需求76

\n

 

\n

4.4 案例研究1:預測惡意URL77

\n

 

\n

4.4.1 步驟1:確立研究目標77

\n

 

\n

4.4.2 步驟2:獲取URL數(shù)據(jù)77

\n

 

\n

4.4.3 步驟4:數(shù)據(jù)探索78

\n

 

\n

4.4.4 步驟5:建模79

\n

 

\n

4.5 案例研究2:在數(shù)據(jù)庫中建立一個推薦系統(tǒng)80

\n

 

\n

4.5.1 所需的工具及技術(shù)80

\n

 

\n

4.5.2 步驟1:研究問題82

\n

 

\n

4.5.3 步驟3:數(shù)據(jù)準備82

\n

 

\n

4.5.4 步驟5:建模86

\n

 

\n

4.5.5 步驟6:展示與自動化86

\n

 

\n

4.6 本章小結(jié)88

\n

 

\n

第5章 大數(shù)據(jù)世界的第一步89

\n

 

\n

5.1 數(shù)據(jù)分布存儲和框架處理89

\n

 

\n

5.1.1 Hadoop:存儲和處理大數(shù)據(jù)集的框架90

\n

 

\n

5.1.2 Spark:取代MapReduce以獲得更好的性能92

\n

 

\n

5.2 案例研究:借貸的風險評估93

\n

 

\n

5.2.1 步驟1:研究目標94

\n

 

\n

5.2.2 步驟2:數(shù)據(jù)檢索95

\n

 

\n

5.2.3 步驟3:數(shù)據(jù)準備98

\n

 

\n

5.2.4 步驟4(數(shù)據(jù)探索)和步驟6(報告形成)101

\n

 

\n

5.3 本章小結(jié)111

\n

 

\n

第6章 了解NoSQL112

\n

 

\n

6.1 NoSQL簡介114

\n

 

\n

6.1.1 ACID:關(guān)系型數(shù)據(jù)庫核心原則114

\n

 

\n

6.1.2 CAP理論:多節(jié)點數(shù)據(jù)庫的問題115

\n

 

\n

6.1.3 NoSQL數(shù)據(jù)庫的BASE原則116

\n

 

\n

6.1.4 NoSQL數(shù)據(jù)庫的種類117

\n

 

\n

6.2 案例研究:這是什么疾病123

\n

 

\n

6.2.1 步驟1:設置研究目標124

\n

 

\n

6.2.2 步驟2和步驟3:數(shù)據(jù)檢索與數(shù)據(jù)準備124

\n

 

\n

6.2.3 步驟4:數(shù)據(jù)探索131

\n

 

\n

6.2.4 再回到步驟3:為描述疾病概況做數(shù)據(jù)準備137

\n

 

\n

6.2.5 再回到步驟4:為描述疾病概況做數(shù)據(jù)探索140

\n

 

\n

6.2.6 步驟6:展示與自動化140

\n

 

\n

6.3 本章小結(jié)141

\n

 

\n

第7章 圖數(shù)據(jù)庫的興起143

\n

 

\n

7.1 互聯(lián)數(shù)據(jù)及圖數(shù)據(jù)庫概述143

\n

 

\n

7.2 圖數(shù)據(jù)庫Neo4j概述146

\n

 

\n

7.3 數(shù)據(jù)互聯(lián)案例:食譜推薦引擎152

\n

 

\n

7.3.1 步驟1:設置研究目標153

\n

 

\n

7.3.2 步驟2:數(shù)據(jù)檢索154

\n

 

\n

7.3.3 步驟3:數(shù)據(jù)準備155

\n

 

\n

7.3.4 步驟4:數(shù)據(jù)探索157

\n

 

\n

7.3.5 步驟5:數(shù)據(jù)建模159

\n

 

\n

7.3.6 步驟6:數(shù)據(jù)展示162

\n

 

\n

7.4 本章小結(jié)162

\n

 

\n

第8章 文本挖掘和文本分析164

\n

 

\n

8.1 現(xiàn)實世界中的文本挖掘165

\n

 

\n

8.2 文本挖掘技術(shù)169

\n

 

\n

8.2.1 詞袋169

\n

 

\n

8.2.2 詞干提取和詞形還原170

\n

 

\n

8.2.3 決策樹分類器171

\n

 

\n

8.3 案例研究:Reddit帖子分類173

\n

 

\n

8.3.1 自然語言工具包173

\n

 

\n

8.3.2 數(shù)據(jù)科學過程綜述及第1步:研究目標175

\n

 

\n

8.3.3 第2步:數(shù)據(jù)檢索175

\n

 

\n

8.3.4 第3步:數(shù)據(jù)準備178

\n

 

\n

8.3.5 步驟4:數(shù)據(jù)探索180

\n

 

\n

8.3.6 再回到步驟3:數(shù)據(jù)準備的調(diào)整182

\n

 

\n

8.3.7 步驟5:數(shù)據(jù)分析185

\n

 

\n

8.3.8 步驟6:展示與自動化188

\n

 

\n

8.4 本章小結(jié)189

\n

 

\n

第9章 面向終端用戶的數(shù)據(jù)可視化191

\n

 

\n

9.1 數(shù)據(jù)可視化選項192

\n

 

\n

9.2 Crossfilter—JavaScript MapReduce庫194

\n

 

\n

9.2.1 安裝195

\n

 

\n

9.2.2 利用Crossfilter篩選藥品數(shù)據(jù)集198

\n

 

\n

9.3 用dc.js創(chuàng)建一個交互式控制面板201

\n

 

\n

9.4 控制面板開發(fā)工具205

\n

 

\n

...... 

\n

 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號