注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)程序設(shè)計(jì)綜合Spark大數(shù)據(jù)處理:技術(shù)、應(yīng)用與性能優(yōu)化

Spark大數(shù)據(jù)處理:技術(shù)、應(yīng)用與性能優(yōu)化

Spark大數(shù)據(jù)處理:技術(shù)、應(yīng)用與性能優(yōu)化

定 價(jià):¥59.00

作 者: 高彥杰 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 大數(shù)據(jù)技術(shù)叢書(shū)
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 數(shù)據(jù)庫(kù)

購(gòu)買這本書(shū)可以去


ISBN: 9787111483861 出版時(shí)間: 2014-11-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  作為一個(gè)基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架,Spark不僅很好地解決了數(shù)據(jù)的實(shí)時(shí)處理問(wèn)題,而且保證了高容錯(cuò)性和高可伸縮性。具體來(lái)講,它有如下優(yōu)勢(shì):打造全棧多計(jì)算范式的高效數(shù)據(jù)流水線輕量級(jí)快速處理易于使用,支持多語(yǔ)言與HDFS等存儲(chǔ)層兼容社區(qū)活躍度高……Spark已經(jīng)在全球范圍內(nèi)廣泛使用,無(wú)論是Intel、Yahoo!、Twitter、阿里巴巴、百度、騰訊等國(guó)際互聯(lián)網(wǎng)巨頭,還是一些尚處于成長(zhǎng)期的小公司,都在使用Spark。本書(shū)作者結(jié)合自己在微軟和IBM實(shí)踐Spark的經(jīng)歷和經(jīng)驗(yàn),編寫了這本書(shū)。站著初學(xué)者的角度,不僅系統(tǒng)、全面地講解了Spark的各項(xiàng)功能及其使用方法,而且較深入地探討了Spark的工作機(jī)制、運(yùn)行原理以及BDAS生態(tài)系統(tǒng)中的其他技術(shù),同時(shí)還有一些可供操作的案例,能讓沒(méi)有經(jīng)驗(yàn)的讀者迅速掌握Spark。更為重要的是,本書(shū)還對(duì)Spark的性能優(yōu)化進(jìn)行了探討。

作者簡(jiǎn)介

  高彥杰,畢業(yè)于中國(guó)人民大學(xué),就職于IBM,精通Hadoop相關(guān)技術(shù),較早接觸并使用Spark,對(duì)Spark應(yīng)用開(kāi)發(fā)、Spark系統(tǒng)的運(yùn)維和測(cè)試比較熟悉,深度閱讀了Spark的源代碼,了解Spark的運(yùn)行機(jī)制,擅長(zhǎng)Spark的查詢優(yōu)化。

圖書(shū)目錄

前 言
第1章 Spark簡(jiǎn)介 1
1.1 Spark是什么 1
1.2 Spark生態(tài)系統(tǒng)BDAS 4
1.3 Spark架構(gòu) 6
1.4 Spark分布式架構(gòu)與單機(jī)多核
架構(gòu)的異同 9
1.5 Spark的企業(yè)級(jí)應(yīng)用 10
1.5.1 Spark在Amazon中的應(yīng)用 11
1.5.2 Spark在Yahoo!的應(yīng)用 15
1.5.3 Spark在西班牙電信的應(yīng)用 17
1.5.4 Spark在淘寶的應(yīng)用 18
1.6 本章小結(jié) 20
第2章 Spark集群的安裝與部署 21
2.1 Spark的安裝與部署 21
2.1.1 在Linux集群上安裝與配置Spark 21
2.1.2 在Windows上安裝與配置Spark 30
2.2 Spark集群初試 33
2.3 本章小結(jié) 35
第3章 Spark計(jì)算模型 36
3.1 Spark程序模型 36
3.2 彈性分布式數(shù)據(jù)集 37
3.2.1 RDD簡(jiǎn)介 38
3.2.2 RDD與分布式共享內(nèi)存的異同 38
3.2.3 Spark的數(shù)據(jù)存儲(chǔ) 39
3.3 Spark算子分類及功能 41
3.3.1 Value型Transformation算子 42
3.3.2 Key-Value型Transformation算子 49
3.3.3 Actions算子 53
3.4 本章小結(jié) 59
第4章 Spark工作機(jī)制詳解 60
4.1 Spark應(yīng)用執(zhí)行機(jī)制 60
4.1.1 Spark執(zhí)行機(jī)制總覽 60
4.1.2 Spark應(yīng)用的概念 62
4.1.3 應(yīng)用提交與執(zhí)行方式 63
4.2 Spark調(diào)度與任務(wù)分配模塊 65
4.2.1 Spark應(yīng)用程序之間的調(diào)度 66
4.2.2 Spark應(yīng)用程序內(nèi)Job的調(diào)度 67
4.2.3 Stage和TaskSetManager調(diào)度方式 72
4.2.4 Task調(diào)度 74
4.3 Spark I/O機(jī)制 77
4.3.1 序列化 77
4.3.2 壓縮 78
4.3.3 Spark塊管理 80
4.4 Spark通信模塊 93
4.4.1 通信框架AKKA 94
4.4.2 Client、Master和Worker間的通信 95
4.5 容錯(cuò)機(jī)制 104
4.5.1 Lineage機(jī)制 104
4.5.2 Checkpoint機(jī)制 108
4.6 Shuffle機(jī)制 110
4.7 本章小結(jié) 119
第5章 Spark開(kāi)發(fā)環(huán)境配置及流程 120
5.1 Spark應(yīng)用開(kāi)發(fā)環(huán)境配置 120
5.1.1 使用Intellij開(kāi)發(fā)Spark程序 120
5.1.2 使用Eclipse開(kāi)發(fā)Spark程序 125
5.1.3 使用SBT構(gòu)建Spark程序 129
5.1.4 使用Spark Shell開(kāi)發(fā)運(yùn)行Spark程序 130
5.2 遠(yuǎn)程調(diào)試Spark程序 130
5.3 Spark編譯 132
5.4 配置Spark源碼閱讀環(huán)境 135
5.5 本章小結(jié) 135
第6章 Spark編程實(shí)戰(zhàn) 136
6.1 WordCount 136
6.2 Top K 138
6.3 中位數(shù) 140
6.4 倒排索引 141
6.5 CountOnce 143
6.6 傾斜連接 144
6.7 股票趨勢(shì)預(yù)測(cè) 146
6.8 本章小結(jié) 153
第7章 Benchmark使用詳解 154
7.1 Benchmark簡(jiǎn)介 154
7.1.1 Intel Hibench與Berkeley BigDataBench 155
7.1.2 Hadoop GridMix 157
7.1.3 Bigbench、BigDataBenchmark與TPC-DS 158
7.1.4 其他Benchmark 161
7.2 Benchmark的組成 162
7.2.1 數(shù)據(jù)集 162
7.2.2 工作負(fù)載 163
7.2.3 度量指標(biāo) 167
7.3 Benchmark的使用 168
7.3.1 使用Hibench 168
7.3.2 使用TPC-DS 170
7.3.3 使用BigDataBench 172
7.4 本章小結(jié) 176
第8章 BDAS簡(jiǎn)介 177
8.1 SQL on Spark 177
8.1.1 使用Spark SQL的原因 178
8.1.2 Spark SQL架構(gòu)分析 179
8.1.3 Shark簡(jiǎn)介 182
8.1.4 Hive on Spark 184
8.1.5 未來(lái)展望 185
8.2 Spark Streaming 185
8.2.1 Spark Streaming簡(jiǎn)介 186
8.2.2 Spark Streaming架構(gòu) 188
8.2.3 Spark Streaming原理剖析 189
8.2.4 Spark Streaming調(diào)優(yōu) 198
8.2.5 Spark Streaming 實(shí)例 198
8.3 GraphX 205
8.3.1 GraphX簡(jiǎn)介 205
8.3.2 GraphX的使用 206
8.3.3 GraphX架構(gòu) 209
8.3.4 運(yùn)行實(shí)例 211
8.4 MLlib 215
8.4.1 MLlib簡(jiǎn)介 217
8.4.2 MLlib的數(shù)據(jù)存儲(chǔ) 219
8.4.3 數(shù)據(jù)轉(zhuǎn)換為向量(向量空間模型VSM) 222
8.4.4 MLlib中的聚類和分類 223
8.4.5 算法應(yīng)用實(shí)例 228
8.4.6 利用MLlib進(jìn)行電影推薦 230
8.5 本章小結(jié) 237
第9章 Spark性能調(diào)優(yōu) 238
9.1 配置參數(shù) 238
9.2 調(diào)優(yōu)技巧 239
9.2.1 調(diào)度與分區(qū)優(yōu)化 240
9.2.2 內(nèi)存存儲(chǔ)優(yōu)化 243
9.2.3 網(wǎng)絡(luò)傳輸優(yōu)化 249
9.2.4 序列化與壓縮 251
9.2.5 其他優(yōu)化方法 253
9.3 本章小結(jié) 255

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)