高性能分布式計算系統(tǒng)開發(fā)與實現(xiàn)：基于Hadoop、Scalding和Spark

定　價：￥69.00

作　者：	[印度] 斯里尼瓦沙（Srinivasa K.G.）著，王宏志譯
出版社：	機械工業(yè)出版社
叢編項：	計算機科學(xué)叢書
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787111601531	出版時間：	2018-07-01	包裝：	平裝
開本：	16開	頁數(shù)：	234	字?jǐn)?shù)：

內(nèi)容簡介

　　本書分兩部分，共8章，介紹了如何使用開源工具和技術(shù)開發(fā)與實現(xiàn)大規(guī)模分布式處理系統(tǒng)，涵蓋構(gòu)建高性能分布式計算系統(tǒng)的方法和佳實踐。第一部分（第1~4章）介紹了高性能分布式計算編程的基礎(chǔ)知識，包括分布式系統(tǒng)、Hadoop入門、Spark入門、Scalding入門等；第二部分（第5~8章）給出了使用Hadoop、Spark、Scalding的案例研究，涉及數(shù)據(jù)聚類、數(shù)據(jù)分類、回歸分析、推薦系統(tǒng)等。本書適合作為高等院校計算機相關(guān)專業(yè)的教材，也適合作為軟件工程師、應(yīng)用開發(fā)人員、科研人員的參考書。

作者簡介

　　K.G.斯里尼瓦沙（K.G.Srinivasa）于2007年獲得班加羅爾大學(xué)計算機科學(xué)與工程博士學(xué)位。現(xiàn)就職于班加羅爾的M.S.拉邁阿理工學(xué)院計算機科學(xué)與工程系，任教授兼主任。他在國際會議和期刊上共發(fā)表過一百多篇研究論文，曾作為訪問學(xué)者出訪過許多大學(xué)。他是UGC、DRDO和DST資助的多個項目的首席研究員，其研究領(lǐng)域包括數(shù)據(jù)挖掘、機器學(xué)習(xí)、高性能計算和云計算。他是IEEE和ACM的高級成員。阿尼爾·庫馬爾·穆帕拉（Anil Kumar Muppalla）既是一位研究者也是一個作家。具有計算機科學(xué)和工程學(xué)學(xué)位。他是很多行業(yè)的軟件開發(fā)者和顧問。他是活躍的研究者，并在國際會議和期刊上發(fā)表諸多文章。他研究的方向包括使用Hadoop、Scalding和Spark進行應(yīng)用開發(fā)。

圖書目錄

目　　錄

譯者序

前言

作者簡介

第一部分　高性能分布式計算編程基礎(chǔ)

第1章　引言2

1.1　分布式系統(tǒng)2

1.2　分布式系統(tǒng)類型5

1.2.1　分布式嵌入式系統(tǒng)5

1.2.2　分布式信息系統(tǒng)7

1.2.3　分布式計算系統(tǒng)8

1.3　分布式計算架構(gòu)9

1.4　分布式文件系統(tǒng)10

1.4.1　分布式文件系統(tǒng)需求10

1.4.2　分布式文件系統(tǒng)架構(gòu)11

1.5　分布式系統(tǒng)面臨的挑戰(zhàn)13

1.6　分布式系統(tǒng)的發(fā)展趨勢16

1.7　高性能分布式計算系統(tǒng)示例18

參考文獻(xiàn)20

第2章　Hadoop入門22

2.1　Hadoop簡介22

2.2　Hadoop生態(tài)系統(tǒng)24

2.3　Hadoop分布式文件系統(tǒng)26

2.3.1　HDFS的特性26

2.3.2　名稱節(jié)點和數(shù)據(jù)節(jié)點27

2.3.3　文件系統(tǒng)28

2.3.4　數(shù)據(jù)復(fù)制28

2.3.5　通信30

2.3.6　數(shù)據(jù)組織30

2.4　MapReduce準(zhǔn)備工作31

2.5　安裝前的準(zhǔn)備33

2.6　單節(jié)點集群的安裝35

2.7　多節(jié)點集群的安裝38

2.8　Hadoop編程45

2.9　Hadoop流48

參考文獻(xiàn)51

第3章　Spark入門53

3.1　Spark簡介53

3.2　Spark內(nèi)部結(jié)構(gòu)54

3.3　Spark安裝58

3.3.1　安裝前的準(zhǔn)備58

3.3.2　開始使用60

3.3.3　示例：Scala應(yīng)用63

3.3.4　Python下Spark的使用65

3.3.5　示例：Python應(yīng)用67

3.4　Spark部署68

3.4.1　應(yīng)用提交68

3.4.2　單機模式70

參考文獻(xiàn)72

第4章　Scalding和Spark的內(nèi)部編程74

4.1　Scalding簡介74

4.1.1　安裝74

4.1.2　編程指南77

4.2　Spark編程指南103

參考文獻(xiàn)120

第二部分　使用Hadoop、Scalding和Spark的案例研究

第5章　案例研究Ⅰ：使用Scalding和Spark進行數(shù)據(jù)聚類122

5.1　簡介122

5.2　聚類122

5.2.1　聚類方法123

5.2.2　聚類處理125

5.2.3　K均值算法125

5.2.4　簡單的K均值示例126

5.3　實現(xiàn)128

問題142

參考文獻(xiàn)142

第6章　案例研究Ⅱ：使用Scalding和Spark進行數(shù)據(jù)分類144

6.1　分類145

6.2　概率論146

6.2.1　隨機變量146

6.2.2　分布146

6.2.3　均值和方差147

6.3　樸素貝葉斯148

6.3.1　概率模型148

6.3.2　參數(shù)估計和事件模型149

6.3.3　示例150

6.4　樸素貝葉斯分類器的實現(xiàn)152

6.4.1　Scalding實現(xiàn)153

6.4.2　結(jié)果166

問題168

參考文獻(xiàn)168

第7章　案例研究Ⅲ：使用Scalding和Spark進行回歸分析169

7.1　回歸分析的步驟169

7.2　實現(xiàn)細(xì)節(jié)172

7.2.1　線性回歸：代數(shù)方法173

7.2.2　代數(shù)方法的Scalding實現(xiàn)174

7.2.3　代數(shù)方法的Spark實現(xiàn)179

7.2.4　線性回歸：梯度下降法184

7.2.5　梯度下降法的Scalding實現(xiàn)187

7.2.6　梯度下降法的Spark實現(xiàn)195

問題198

參考文獻(xiàn)199

第8章　案例研究Ⅳ：使用Scalding和Spark實現(xiàn)推薦系統(tǒng)200

8.1　推薦系統(tǒng)200

8.1.1　目標(biāo)201

8.1.2　推薦系統(tǒng)的數(shù)據(jù)源201

8.1.3　推薦系統(tǒng)中使用的技術(shù)202

8.2　實現(xiàn)細(xì)節(jié)204

8.2.1　Spark實現(xiàn)206

8.2.2　Scalding實現(xiàn)221

問題230

參考文獻(xiàn)230

索引233