注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù)分析原理與實(shí)踐

大數(shù)據(jù)分析原理與實(shí)踐

大數(shù)據(jù)分析原理與實(shí)踐

定 價(jià):¥79.00

作 者: 王宏志 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 數(shù)據(jù)科學(xué)與工程技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787111569435 出版時(shí)間: 2017-07-01 包裝: 平裝
開本: 16開 頁數(shù): 443 字?jǐn)?shù):  

內(nèi)容簡介

  本書介紹了大數(shù)據(jù)分析的多種模型、所涉及的算法和技術(shù)、實(shí)現(xiàn)大數(shù)據(jù)分析系統(tǒng)所需的工具以及大數(shù)據(jù)分析的具體應(yīng)用。本書共16章。第1章為緒論,就大數(shù)據(jù)、大數(shù)據(jù)分析等概念進(jìn)行了闡釋,并對(duì)本書內(nèi)容進(jìn)行了概述;第2~7章介紹了關(guān)聯(lián)分析模型、分類分析模型、聚類分析模型、結(jié)構(gòu)分析模型和文本分析模型;第8章介紹大數(shù)據(jù)分析的數(shù)據(jù)預(yù)處理問題;第9章介紹降維方法;第10章介紹了數(shù)據(jù)倉庫的概念、內(nèi)涵、組成、體系結(jié)構(gòu)和建立方法,還介紹了分布式數(shù)據(jù)倉庫系統(tǒng)和內(nèi)存數(shù)據(jù)倉庫系統(tǒng)。第11章介紹大數(shù)據(jù)分析算法中的回歸算法、關(guān)聯(lián)規(guī)則挖掘算法、分類算法以及聚類算法的實(shí)現(xiàn)。第12~14章介紹了三種用于實(shí)現(xiàn)大數(shù)據(jù)分析算法的平臺(tái),即并行計(jì)算平臺(tái)、流式計(jì)算平臺(tái)和大圖分析平臺(tái)。第15章和第16章介紹兩類大數(shù)據(jù)分析的具體應(yīng)用,分別講述了社會(huì)網(wǎng)絡(luò)分析和推薦系統(tǒng)。本書可作為高等院校大數(shù)據(jù)相關(guān)專業(yè)的教學(xué)用書,也可以作為從事大數(shù)據(jù)相關(guān)工作的工程技術(shù)人員的參考用書。

作者簡介

  王宏志,博士,博士生導(dǎo)師,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院副教授,中國計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員,YOCSEF黑龍江省分論壇AC。2008年7月在哈爾濱工業(yè)大學(xué)計(jì)算機(jī)軟件與理論學(xué)科獲得博士學(xué)位,博士論文獲得“中國計(jì)算機(jī)學(xué)博士論文”和“哈爾濱工業(yè)大學(xué)博士論文”。研究方向包括XML數(shù)據(jù)管理、圖數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、信息集成等。先后被評(píng)為“微軟學(xué)者”、“中國數(shù)據(jù)庫工程師”和“IBM博士英才”。曾先后擔(dān)任全國數(shù)據(jù)庫會(huì)議等多個(gè)學(xué)術(shù)會(huì)議的程序委員會(huì)委員和IEEE TKDE等多個(gè)重要國際期刊的審稿人。

圖書目錄


前言
教學(xué)建議
第1章 緒論 1
1.1 什么是大數(shù)據(jù) 1
1.2 哪里有大數(shù)據(jù) 3
1.3 什么是大數(shù)據(jù)分析 4
1.4 大數(shù)據(jù)分析的過程、技術(shù)與難點(diǎn) 5
1.5 全書概覽 8
小結(jié) 10
習(xí)題 10
第2章 大數(shù)據(jù)分析模型 11
2.1 大數(shù)據(jù)分析模型建立方法 11
2.2 基本統(tǒng)計(jì)量 13
2.2.1 全表統(tǒng)計(jì)量 14
2.2.2 皮爾森相關(guān)系數(shù) 15
2.3 推斷統(tǒng)計(jì) 16
2.3.1 參數(shù)估計(jì) 16
2.3.2 假設(shè)檢驗(yàn) 20
2.3.3 假設(shè)檢驗(yàn)的阿里云實(shí)現(xiàn) 23
小結(jié) 28
習(xí)題 28
第3章 關(guān)聯(lián)分析模型 30
3.1 回歸分析 31
3.1.1 回歸分析概述 31
3.1.2 回歸模型的拓展 35
3.1.3 回歸的阿里云實(shí)現(xiàn) 43
3.2 關(guān)聯(lián)規(guī)則分析 52
3.3 相關(guān)分析 54
小結(jié) 57
習(xí)題 58
第4章 分類分析模型 60
4.1 分類分析的定義 60
4.2 判別分析的原理和方法 61
4.2.1 距離判別法 61
4.2.2 Fisher判別法 64
4.2.3 貝葉斯判別法 67
4.3 基于機(jī)器學(xué)習(xí)分類的模型 71
4.3.1 支持向量機(jī) 72
4.3.2 邏輯回歸 74
4.3.3 決策樹與回歸樹 75
4.3.4 k近鄰 78
4.3.5 隨機(jī)森林 78
4.3.6 樸素貝葉斯 81
4.4 分類分析實(shí)例 82
4.4.1 二分類實(shí)例 82
4.4.2 多分類實(shí)例 94
小結(jié) 101
習(xí)題 102
第5章 聚類分析模型 105
5.1 聚類分析的定義 105
5.1.1 基于距離的親疏關(guān)系度量 105
5.1.2 基于相似系數(shù)的相似性度量 108
5.1.3 個(gè)體與類以及類間的親疏關(guān)系度量 110
5.1.4 變量的選擇與處理 111
5.2 聚類分析的分類 111
5.3 聚類有效性的評(píng)價(jià) 112
5.4 聚類分析方法概述 112
5.5 聚類分析的應(yīng)用 113
5.6 聚類分析的阿里云實(shí)現(xiàn) 114
小結(jié) 119
習(xí)題 119
第6章 結(jié)構(gòu)分析模型 122
6.1 最短路徑 122
6.2 鏈接排名 123
6.3 結(jié)構(gòu)計(jì)數(shù) 125
6.4 結(jié)構(gòu)聚類 126
6.5 社團(tuán)發(fā)現(xiàn) 128
6.5.1 社團(tuán)的定義 128
6.5.2 社團(tuán)的分類 128
6.5.3 社團(tuán)的用途 128
6.5.4 社團(tuán)的數(shù)學(xué)定義 128
6.5.5 基于阿里云的社團(tuán)發(fā)現(xiàn) 130
小結(jié) 132
習(xí)題 133
第7章 文本分析模型 135
7.1 文本分析模型概述 135
7.2 文本分析方法概述 136
7.2.1 SplitWord 136
7.2.2 詞頻統(tǒng)計(jì) 137
7.2.3 TFIDF 138
7.2.4 PLDA 140
7.2.5 Word2Vec 147
小結(jié) 148
習(xí)題 149
第8章 大數(shù)據(jù)分析的數(shù)據(jù)預(yù)處理 150
8.1 數(shù)據(jù)抽樣和過濾 150
8.1.1 數(shù)據(jù)抽樣 150
8.1.2 數(shù)據(jù)過濾 154
8.1.3 基于阿里云的抽樣和過濾實(shí)現(xiàn) 154
8.2 數(shù)據(jù)標(biāo)準(zhǔn)化與歸一化 157
8.3 數(shù)據(jù)清洗 159
8.3.1 數(shù)據(jù)質(zhì)量概述 159
8.3.2 缺失值填充 160
8.3.3 實(shí)體識(shí)別與真值發(fā)現(xiàn) 162
8.3.4 錯(cuò)誤發(fā)現(xiàn)與修復(fù) 169
小結(jié) 171
習(xí)題 171
第9章 降維 173
9.1 特征工程 173
9.1.1 特征工程概述 173
9.1.2 特征變換 175
9.1.3 特征選擇 178
9.1.4 特征重要性評(píng)估 183
9.2 主成分分析 191
9.2.1 什么是主成分分析 191
9.2.2 主成分分析的計(jì)算過程 192
9.2.3 基于阿里云的主成分分析 194
9.2.4 主成分的表現(xiàn)度量 195
9.3 因子分析 196
9.3.1 因子分析概述 196
9.3.2 因子分析的主要分析指標(biāo) 196
9.3.3 因子分析的計(jì)算方法 197
9.4 壓縮感知 203
9.4.1 什么是壓縮感知 203
9.4.2 壓縮感知的具體模型 204
9.5 面向神經(jīng)網(wǎng)絡(luò)的降維 205
9.5.1 面向神經(jīng)網(wǎng)絡(luò)的降維方法概述 205
9.5.2 如何利用神經(jīng)網(wǎng)絡(luò)降維 206
9.6 基于特征散列的維度縮減 207
9.6.1 特征散列方法概述 207
9.6.2 特征散列算法 207
9.7 基于Lasso算法的降維 208
9.7.1 Lasso方法簡介 208
9.7.2 Lasso方法 209
9.7.3 Lasso算法的適用情景 211
小結(jié) 211
習(xí)題 212
第10章 面向大數(shù)據(jù)的數(shù)據(jù)倉庫系統(tǒng) 214
10.1 數(shù)據(jù)倉庫概述 214
10.1.1 數(shù)據(jù)倉庫的基本概念 214
10.1.2 數(shù)據(jù)倉庫的內(nèi)涵 215
10.1.3 數(shù)據(jù)倉庫的基本組成 215
10.1.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu) 216
10.1.5 數(shù)據(jù)倉庫的建立 217
10.2 分布式數(shù)據(jù)倉庫系統(tǒng) 221
10.2.1 基于Hadoop的數(shù)據(jù)倉庫系統(tǒng) 221
10.2.2 Shark:基于Spark的數(shù)據(jù)倉庫系統(tǒng) 227
10.2.3 Mesa 228
10.3 內(nèi)存數(shù)據(jù)倉庫系統(tǒng) 231
10.3.1 SAP HANA 231
10.3.2 HyPer 234
10.4 阿里云數(shù)據(jù)倉庫簡介 236
小結(jié) 238
習(xí)題 239
第11章 大數(shù)據(jù)分析算法 240
11.1 大數(shù)據(jù)分析算法概述 240
11.2 回歸算法 242
11.3 關(guān)聯(lián)規(guī)則挖掘算法 248
11.4 分類算法 255
11.4.1 二分類算法 256
11.4.2 多分類算法 273
11.5 聚類算法 283
11.5.1 kmeans算法 283
11.5.2 CLARANS算法 291
小結(jié) 293
習(xí)題 293
第12章 大數(shù)據(jù)計(jì)算平臺(tái) 295
12.1 Spark 295
12.1.1 Spark簡介 295
12.1.2 基于Spark的大數(shù)據(jù)分析實(shí)例 296
12.2 Hyracks 299
12.2.1 Hyracks簡介 299
12.2.2 基于Hyracks的大數(shù)據(jù)分析實(shí)例 299
12.3 DPark

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)