注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Spark:大數(shù)據(jù)集群計算的生產(chǎn)實踐

Spark:大數(shù)據(jù)集群計算的生產(chǎn)實踐

Spark:大數(shù)據(jù)集群計算的生產(chǎn)實踐

定 價:¥65.00

作 者: [美] Ilya,Ganelin(伊利亞-甘列林) 等 著;李剛 譯
出版社: 電子工業(yè)出版社
叢編項:
標(biāo) 簽: 工業(yè)技術(shù) 自動化技術(shù)

ISBN: 9787121313646 出版時間: 2017-05-01 包裝: 平裝
開本: 16開 頁數(shù): 220 字?jǐn)?shù):  

內(nèi)容簡介

  本書針對spark從驗證性環(huán)境遷移到實際生產(chǎn)環(huán)境時會遇到的各種問題給出了實際的幫助,涵蓋了開發(fā)及維護(hù)生產(chǎn)級Spark應(yīng)用的各種方法、組件與有用實踐。全書分為6章,第1 ~ 2章幫助讀者深入理解Spark的內(nèi)部機(jī)制以及它們在生產(chǎn)流程中的含義;第3章和第5章闡述了針對配置參數(shù)的法則和權(quán)衡方案,用來調(diào)優(yōu)Spark,改善性能,獲得高可用性和容錯性;第4章專門討論Spark應(yīng)用中的安全問題;第6章則全面介紹生產(chǎn)流,以及把一個應(yīng)用遷移到一個生產(chǎn)工作流中時所需要的各種組件,同時對Spark生態(tài)系統(tǒng)進(jìn)行了梳理。

作者簡介

  Ilya Ganelin是一名數(shù)據(jù)工程師,Apache Spark核心組件的活躍貢獻(xiàn)者以及Apache Apex的提交者(committer)。Ema Orhian 是一位對伸縮性算法充滿激情的大數(shù)據(jù)工程師。她活躍于大數(shù)據(jù)社區(qū),組織會議,在會上發(fā)表演講,積極投身于開源項目。Kai Sasaki 是一位日本軟件工程師,對分布式計算和機(jī)器學(xué)習(xí)很感興趣。Kai一直是Spark的貢獻(xiàn)者,開發(fā)了不少M(fèi)Llib和ML庫。Brennon York既是一名特技飛行員,也是一位計算機(jī)科學(xué)家。他的愛好是分布式計算、可擴(kuò)展架構(gòu)以及編程語言。自2014年以來,他就是Apache Spark的核心貢獻(xiàn)者。李剛,曾在IBM工作近20年,在數(shù)據(jù)中心IT建設(shè)、優(yōu)化及管理領(lǐng)域有深入的研究和豐富的經(jīng)驗。在IBM期間負(fù)責(zé)IBM系統(tǒng)服務(wù)相關(guān)解決方案的開發(fā)與管理,其中包含數(shù)據(jù)中心基礎(chǔ)設(shè)施與IT技術(shù)瓶體、數(shù)據(jù)中心高可用性管理暨災(zāi)難恢復(fù),以及企業(yè)IT戰(zhàn)略及IT架構(gòu)優(yōu)化等相關(guān)領(lǐng)域。

圖書目錄

第1 章 成功運(yùn)行Spark job / 1
安裝所需組件 / 2
原生安裝Spark Standalone 集群 /3
分布式計算的發(fā)展史/ 3
步入云時代 /5
理解資源管理/6
使用各種類型的存儲格式 /9
文本文件/11
Sequence 文件/13
Avro 文件/ 13
Parquet 文件 /13
監(jiān)控和度量的意義/ 14
Spark UI/ 14
Spark Standalone UI/ 17
Metrics REST API / 17
Metrics System / 18
外部監(jiān)控工具 / 18
總結(jié) /19
第2 章 集群管理 /21
背景知識/ 23
Spark 組件 / 26
Driver / 27
workers 與executors /28
配置 / 30
Spark Standalone/33
架構(gòu) / 34
單節(jié)點設(shè)置場景 / 34
多節(jié)點設(shè)置 / 36
YARN / 36
架構(gòu) / 38
動態(tài)資源分配 /41
場景 /43
Mesos/ 45
安裝/46
架構(gòu) / 47
動態(tài)資源分配/ 49
基本安裝場景 / 50
比較 / 52
總結(jié) /56
第3 章 性能調(diào)優(yōu) /59
Spark 執(zhí)行模型/ 60
分區(qū) /62
控制并行度/62
分區(qū)器/64
shuffle 數(shù)據(jù) /65
shuffle 與數(shù)據(jù)分區(qū) / 67
算子與shuffle / 70
shuffle 并不總是壞事 /75
序列化 / 75
Kryo 注冊器 / 77
Spark 緩存 / 77
SparkSQL 緩存 / 81
內(nèi)存管理 /82
垃圾回收 / 83
共享變量 / 84
廣播變量 / 85
累加器 /87
數(shù)據(jù)局部性 / 90
總結(jié) / 91
第4 章 安全/ 93
架構(gòu)/ 94
Security Manager/ 94
設(shè)定配置 / 95
ACL / 97
配置 / 97
提交job / 98
Web UI/ 99
網(wǎng)絡(luò)安全 / 107
加密/ 108
事件日志 /113
Kerberos/114
Apache Sentry./114
總結(jié) /115
第5 章 容錯或job 執(zhí)行/ 117
Spark job 的生命周期 /118
Spark master /119
Spark driver/ 122
Spark worker /124
job 生命周期 /124
job 調(diào)度 /125
應(yīng)用程序內(nèi)部調(diào)度 / 125
用外部工具進(jìn)行調(diào)度 / 133
容錯 /135
內(nèi)部容錯與外部容錯 / 136
SLA/ 137
RDD / 138
Batch vs Streaming / 145
測試策略 / 148
推薦配置/ 155
總結(jié) / 158
第6 章 超越Spark /159
數(shù)據(jù)倉庫 /159
SparkSQL CLI/161
Thrift JDBC/ODBC 服務(wù)器 / 162
Hive on Spark/ 162
機(jī)器學(xué)習(xí) / 164
DataFrame / 165
MLlib 和ML / 167
Mahout on Spark / 174
Hivemall On Spark/ 175
外部的框架 / 176
Spark Package / 177
XGBoost/ 179
spark-jobserver / 179
未來的工作 /182
與參數(shù)服務(wù)器集成 / 184
深度學(xué)習(xí) / 192
Spark 在企業(yè)中的應(yīng)用 / 200
用Spark 及Kafka 收集用戶活動日志 / 200
用Spark 做實時推薦/ 202
Twitter Bots 的實時分類 / 204
總結(jié) / 205

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號