第1章 概論 1
1.1 什么是大數據 1
1.1.1 大數據產生的背景 1
1.1.2 大數據的概念及特征 5
1.2 大數據帶來的變革 7
1.3 大數據的價值與挑戰(zhàn) 9
1.3.1 大數據的價值 9
1.3.2 大數據時代面臨的新挑戰(zhàn) 10
1.4 大數據的相關技術 12
1.4.1 大數據存儲和管理技術 14
1.4.2 大數據分析技術 20
1.4.3 大數據處理工具與平臺 21
1.5 大數據的處理流程 22
1.5.1 數據抽取與集成 22
1.5.2 數據分析 23
1.5.3 數據解釋 23
1.5.4 大數據處理模型 24
1.6 大數據的發(fā)展機遇 28
習題 29
第2章 大數據存儲 30
2.1 大數據存儲概述 30
2.2 傳統的大數據存儲系統 30
2.3 分布式文件系統 33
2.3.1 HDFS相關概念 35
2.3.2 HDFS分布式文件系統的結構 36
2.3.3 HDFS存儲原理 37
2.3.4 HDFS數據讀/寫 41
2.4 NoSQL數據庫 43
2.4.1 NoSQL的產生 44
2.4.2 NoSQL與RDBMS 45
2.4.3 NoSQL的分類 46
2.4.4 HBase數據庫 47
2.4.5 NoSQL與NewSQL 52
習題 53
第3章 大數據處理 55
3.1 多處理器技術 55
3.2 并行計算 59
3.3 MapReduce并行計算技術 65
3.3.1 MapReduce簡介 65
3.3.2 MapReduce編程模型 68
3.3.3 Hadoop MapReduce 1 73
3.3.4 Yarn/MapReduce2 76
3.3.5 MapReduce性能調優(yōu) 79
習題 82
第4章 大數據分析 83
4.1 大數據分析概述 83
4.1.1 數據分析的原則 84
4.1.2 大數據分析的特點 84
4.1.3 大數據分析路線及流程 85
4.1.4 大數據分析技術 87
4.1.5 大數據分析的難點 90
4.2 大數據分析模型 91
4.2.1 大數據分析模型建立方法 91
4.2.2 分類分析模型 93
4.2.3 關聯分析模型 94
4.2.4 聚類分析模型 95
4.3 大數據分析算法 98
4.3.1 大數據算法概述 99
4.3.2 決策樹算法簡介 101
4.3.3 Apriori算法簡介 105
4.3.4 K-Means算法簡介 109
4.4 大數據分析應用 111
4.4.1 文本分析 111
4.4.2 情感分析 113
4.4.3 推薦系統 115
4.5 大數據分析常用工具 117
習題 119
第5章 大數據可視化 120
5.1 大數據可視化技術概述 120
5.1.1 數據可視化簡史 120
5.1.2 數據可視化的功能 122
5.1.3 大數據可視化簡介 123
5.2 大數據可視化技術基礎 126
5.2.1 數據可視化流程 126
5.2.2 數據可視化編碼 128
5.2.3 數據可視化設計 132
5.3 大數據可視化應用 134
5.3.1 文本可視化 135
5.3.2 社交網絡可視化 138
5.3.3 日志數據可視化 140
5.3.4 地理信息可視化 140
5.3.5 數據可視化交互 141
5.4 大數據可視化軟件和工具 143
5.4.1 大數據可視化軟件分類 143
5.4.2 科學可視化軟件和工具 144
5.4.3 可視化分析軟件和工具 145
5.4.4 信息可視化軟件和工具 147
習題 148
第6章 大數據應用 149
6.1 互聯網行業(yè)大數據 149
6.2 交通大數據 153
6.3 醫(yī)療大數據 159
6.4 問答系統 164
習題 169
第7章 大數據發(fā)展趨勢與展望 170
7.1 大數據安全與隱私保護 170
7.1.1 數據安全與隱私保護的現狀 170
7.1.2 大數據帶來的安全挑戰(zhàn) 171
7.1.3 大數據安全與隱私保護關鍵技術 172
7.2 大數據共享 174
7.2.1 大數據共享面臨的挑戰(zhàn) 174
7.2.2 大數據共享的措施與機制 175
7.3 數據科學 176
7.3.1 數據科學的概念 176
7.3.2 數據分析的難題 176
習題 177
參考文獻 178