注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)網(wǎng)絡(luò)與數(shù)據(jù)通信網(wǎng)絡(luò)服務(wù)Spark大數(shù)據(jù)編程實(shí)用教程

Spark大數(shù)據(jù)編程實(shí)用教程

Spark大數(shù)據(jù)編程實(shí)用教程

定 價(jià):¥109.00

作 者: 文艾
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111651000 出版時(shí)間: 2020-05-01 包裝: 平裝
開本: 16開 頁數(shù): 373 字?jǐn)?shù):  

內(nèi)容簡介

  本書是一本講解Spark基礎(chǔ)應(yīng)用及編程的實(shí)用教程,基于 Spark 2.3 版本,內(nèi)容包括 Spark 與大數(shù)據(jù)、構(gòu)建 Spark 運(yùn)行環(huán)境、開發(fā)一個(gè)Spark 程序、深入理解 Spark 程序代碼、RDD 編程、Spark SQL 結(jié)構(gòu)化數(shù)據(jù)處理、Spark Streaming、Structured Streaming、SparkR和GraphX。本書總結(jié)了Spark 學(xué)習(xí)的關(guān)鍵點(diǎn);提出了 Spark 快速學(xué)習(xí)路線圖;提供配套的 Spark前置課程學(xué)習(xí)資源鏈接,包括虛擬機(jī)、Linux 和 Shell 免費(fèi)高清視頻、《零基礎(chǔ)快速入門Scala》免費(fèi)電子書等,幫助零基礎(chǔ)讀者迅速夯實(shí)Spark基礎(chǔ)。 本書配以大量的示例、源代碼和注釋,可以幫助讀者快速、全面而又深入地掌握Spark編程技能。 本書既可作為高等院校大數(shù)據(jù)、云計(jì)算和人工智能相關(guān)專業(yè)的教材,也可以作為Spark學(xué)習(xí)者和大數(shù)據(jù)研發(fā)人員的技術(shù)參考書。

作者簡介

  文艾(艾叔):系統(tǒng)分析師,原解放軍理工大學(xué)-奇虎360聯(lián)合實(shí)驗(yàn)室技術(shù)負(fù)責(zé)人;具有多年大數(shù)據(jù)開發(fā)和運(yùn)維經(jīng)驗(yàn),帶領(lǐng)團(tuán)隊(duì)完成了與華為、中興通訊和奇虎360等公司的多個(gè)大數(shù)據(jù)類項(xiàng)目;曾受邀為中興通訊和奇虎360等公司做技術(shù)培訓(xùn),其主講的Spark課程長期排名51CTO學(xué)院大數(shù)據(jù)類(Spark分類)年銷量前列;擅長幫助初學(xué)者快速掌握Spark大數(shù)據(jù)編程技能,近年來指導(dǎo)零基礎(chǔ)本科生參加Spark類全國編程競賽,戰(zhàn)勝了多支985高校的研究生隊(duì),獲得全國總決賽二等獎(jiǎng)兩次和三等獎(jiǎng)一次;指導(dǎo)本科生完成的云計(jì)算和大數(shù)據(jù)類作品,參加科技創(chuàng)新競賽,共獲得全國特等獎(jiǎng)一次,一等獎(jiǎng)兩次;通過“艾叔編程”公眾號,以及在網(wǎng)易云課堂上開設(shè)的一系列免費(fèi)視頻課程,至今已幫助8萬多名學(xué)習(xí)者入門編程,并獲得好評。

圖書目錄

目    錄

前言

 

第1章  Spark與大數(shù)據(jù) 1

1.1  大數(shù)據(jù)開發(fā)基礎(chǔ) 1

1.1.1  什么是大數(shù)據(jù) 1

1.1.2  大數(shù)據(jù)開發(fā)的通用步驟 2

1.1.3  大數(shù)據(jù)開發(fā)技術(shù) 4

1.2  初識Spark 10

1.2.1  Spark是什么 10

1.2.2  Spark的技術(shù)特點(diǎn) 11

1.3  Spark技術(shù)棧 12

1.4  Spark重要組件 13

1.4.1  Spark Core 13

1.4.2  Spark SQL 14

1.4.3  GraphX 15

1.4.4  流數(shù)據(jù)處理 16

1.4.5  SparkR 17

1.4.6  MLlib/ML 18

1.4.7  Spark交互工具 18

1.5  Spark和Scala 19

1.5.1  Scala語言簡介 19

1.5.2  為什么用Scala開發(fā)Spark框架 20

1.5.3  為什么用Scala開發(fā)Spark程序 20

1.5.4  Scala開發(fā)Spark程序所涉及的技術(shù) 20

1.5.5  Scala語言基礎(chǔ) 21

1.6  如何快速掌握Spark 21

1.6.1  Spark學(xué)習(xí)的痛點(diǎn) 21

1.6.2  Spark快速學(xué)習(xí)路線圖 22

1.6.3  Spark學(xué)習(xí)中的關(guān)鍵點(diǎn) 23

1.6.4  利用本書相關(guān)資源高效學(xué)習(xí)Spark 23

1.6.5  本書所使用的軟件和版本 25

1.7  練習(xí) 25

第2章  構(gòu)建Spark運(yùn)行環(huán)境 26

2.1  Spark程序運(yùn)行時(shí)架構(gòu) 26

2.2  構(gòu)建Spark大數(shù)據(jù)運(yùn)行環(huán)境 28

2.2.1  構(gòu)建HDFS 28

2.2.2  構(gòu)建Yarn 30

2.2.3  構(gòu)建Spark集群 31

2.3  運(yùn)行Spark程序(Local方式) 31

2.4  運(yùn)行Spark程序(分布式方式) 32

2.4.1  Spark on Yarn 32

2.4.2  Spark on Standalone 36

2.5  Spark程序在spark-shell上運(yùn)行 41

2.6  使用Web UI監(jiān)控Spark程序運(yùn)行 43

2.7  擴(kuò)展集群節(jié)點(diǎn) 48

2.8  練習(xí) 49

第3章  開發(fā)第一個(gè)Spark程序 51

3.1  在命令行模式下開發(fā)Spark程序 51

3.1.1  構(gòu)建Scala程序編譯環(huán)境 51

3.1.2  使用Vim編寫Spark程序 53

3.1.3  使用命令編譯、打包Spark程序 54

3.1.4  運(yùn)行Spark程序 56

3.1.5  使用java命令運(yùn)行Spark程序 57

3.1.6  Spark程序編譯、運(yùn)行、部署的關(guān)鍵點(diǎn) 58

3.2  使用IDEA開發(fā)Spark程序 58

3.2.1  IDEA安裝和基本使用 59

3.2.2  使用IDEA編輯Spark代碼 60

3.2.3  IDEA編譯、打包 62

3.2.4  IDEA遠(yuǎn)程提交Spark程序 63

3.3  練習(xí) 64

第4章  深入理解Spark程序代碼 66

4.1  Spark程序代碼結(jié)構(gòu) 66

4.2  Spark程序代碼的核心概念 68

4.2.1  RDD 68

4.2.2  Application 68

4.2.3  Job 69

4.2.4  DAG 70

4.2.5  Stage 72

4.2.6  Task 76

4.2.7  Application、Job、Stage和Task的并行粒度和并行條件 77

4.3  Spark程序代碼執(zhí)行過程 77

4.4  練習(xí) 85

第5章  RDD編程 86

5.1  RDD核心概念 86

5.1.1  Transformation的基本概念 87

5.1.2  Action的基本概念 88

5.1.3  Partition的基本概念 88

5.2  創(chuàng)建RDD 89

5.3  RDD Partition 93

5.4  Transformation操作 107

5.5  Action操作 130

5.6  RDD的cache/persist和checkpoint操作 136

5.7  練習(xí) 140

第6章  Spark SQL結(jié)構(gòu)化數(shù)據(jù)處理 142

6.1  Spark SQL的核心概念 142

6.2  Spark SQL數(shù)據(jù)處理概述 147

6.3  構(gòu)建Spark SQL運(yùn)行環(huán)境 150

6.4  DataFrame/Dataset快速上手 157

6.5  DataFrame/Dataset與數(shù)據(jù)源的轉(zhuǎn)換 165

6.6  DataFrame/Dataset常用API 198

6.7  SQL操作 223

6.8  練習(xí) 234

第7章  Spark Streaming 236

7.1  Spark Streaming基礎(chǔ) 236

7.2  編寫一個(gè)Spark Streaming程序 241

7.3  Spark Streaming Web UI的使用 244

7.4  多路流數(shù)據(jù)合并處理示例 250

7.5  DStream Transformation操作 255

7.6  DStream Output 操作 262

7.7  練習(xí) 264

第8章  Structured Streaming 265

8.1  Structured Streaming基礎(chǔ) 265

8.2  Structured Streaming接入Text File數(shù)據(jù)源 268

8.3  Structured Streaming接入Rate數(shù)據(jù)源 273

8.4  使用Schema解析JSON格式數(shù)據(jù)源 274

8.5  使用DataFrame/Dataset處理流數(shù)據(jù) 277

8.6  Structured Streaming Window操作 282

8.7  Structured Streaming Watermarking操作 288

8.8  Structured Streaming JOIN操作 290

8.9  練習(xí) 304

第9章  SparkR 305

9.1  SparkR基礎(chǔ) 305

9.2  構(gòu)建SparkR程序開發(fā)和運(yùn)行環(huán)境 307

9.3  SparkR代碼的執(zhí)行方式 308

9.4  SparkR的基本使用 314

9.5  SparkR機(jī)器學(xué)習(xí)算子 323

9.6  利用SparkR實(shí)現(xiàn)單詞統(tǒng)計(jì)和圖形輸出 326

9.7  練習(xí) 329

第10章  GraphX 330

10.1  GraphX基礎(chǔ) 330

10.2  GraphX的基本數(shù)據(jù)結(jié)構(gòu) 335

10.3  GraphX實(shí)現(xiàn)最短路徑算法——SGDSP 354

10.4  GraphX Pregel的原理及使用 361

10.5  GraphX Pregel實(shí)現(xiàn)最短路徑算法——SGPSP 366

10.6  練習(xí) 370

參考文獻(xiàn) 372


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號