數據館員的Spark簡明手冊

定　價：￥28.00

作　者：	顧立平，馬景源
出版社：	科學技術文獻出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

京東 (￥28.00)

ISBN：	9787518930159	出版時間：	2017-10-01	包裝：
開本：	32開	頁數：	83	字數：

內容簡介

　　《數據館員的Spark簡明手冊》旨在協助初級數據館員們能夠迅速了解Spark方面的知識、用途及整體概貌，作為進一步實踐操作之前的入門基礎讀物?！稊祿^員的Spark簡明手冊》力求簡單、通俗、易懂，以讀者能夠快速把握重點為主，從而開展項目、課題、實驗和研究。本手冊旨在知識模塊化，有了整體概述，可以方便讀者與其他解決方案進行比較，在實踐中遇到問題可以盡快發(fā)現需要深入鉆研的部分?！稊祿^員的Spark簡明手冊》包括8章。第1章概述Spark的發(fā)展背景、計算框架及機器學習等。第2章描述Spark的安裝與運行。第3章概述Scala編程實現的方式。第4章概述Spark編程模型和解析。第5章進入到Spark數據挖掘的應用。第6章考慮大數據實時計算的問題，進行方案比較，突出Spark的特點。第7章闡明進一步優(yōu)化Spark的方式。第8章概述Spark SQL來闡明如何在Spark上使用人們比較熟悉的SQL數據庫語言的方式。

作者簡介

　　顧立平（Alan Ku），博士、教授。在中國科學院文獻情報中心從事開放獲取、著作權、數據權益的政策研究與建議；在中國科學院大學經濟與管理學院講授信息用戶與服務研究。學術理念和工作信念是：好做事（態(tài)度）、做好事（方向）、做事好（目標）。

圖書目錄

第1章 Spark生態(tài)介紹
1．1 MapReduce、Storm和Spark模型比較
1．2 Spark產生背景
1．3 Spark的內存計算框架
1．4 Spark Strearning：流式計算框架
1．5 Spark SQL
1．6 Spark MLlib：機器學習
1．7 Spark GraphX和取代Bagel的理由
1．8 BlinkDB
1．9 SparkR
第2章 Spark的安裝與運行
2．1 Spark的安裝
2．1．1 Spark的源碼編譯方式
2．1．2 Spark Standalone安裝
2．1．3 Spark應用程序部署工具spark-submit
2．1．4 Spark的高可用性部署
2．2 Spark的運行架構
2．2．1 基本術語
2．2．2 運行架構
2．2．3 Spark on Standalone的運行過程
2．2．4 Spark on YARN的運行過程
2．3 Spark的運行
2．3．1 Spark on Standalone
2．3．2 Spark on YARN
2．3．3 Standalone與YARN模式優(yōu)缺點比較
第3章 Spark的scala編程
3．1 Scala開發(fā)環(huán)境搭建
3．2 Scala開發(fā)Spark應用程序
3．3 編程實現
3．3．1 使用Java編程
3．3．2 使用Python編程
第4章 spark的編程模型和解析
4．1 SpaEk的編程模型
4．2 RDD的特點、操作、依賴關系
4．3 Spark應用程序的配置
4．4 Spark的架構
4．5 Spark的容錯機制
4．6 數據的本地性
4．7 緩存策略介紹
4．8 寬依賴和窄依賴
第5章 Spark數據挖掘
5．1 MLlib
5．2 GraphX
5．2．1 GraphX原理
5．2．2 Table Operator和Graph Operator的區(qū)別
5．2．3 Vertices、Edges和Triplets介紹
5．2．4 GraphX圖構造者
5．3 SparkR
5．3．1 SparkR原理
5．3．2 如何運行SparkR
第6章 Spark Strearning
6．1 Spark Strearning與Storm的區(qū)別
6．2 Kafka的部署
6．3 Kafka與Spark Strearning的整合
6．4 Spark Strearning原理
6．4．1 Spark流式處理架構
6．4．2 DStream的特點
6．4．3 Dstream的操作和RDD的區(qū)別
6．4．4 無狀態(tài)轉換操作與有狀態(tài)轉換操作
6．4．5 優(yōu)化Spark Strearning
6．5 Strearning的容錯機制
6．6 Strearning在YARN模式下的注意事項
第7章 Spark優(yōu)化
7．1 序列化優(yōu)化——Knro
7．2 Spark參數優(yōu)化
7．3 Spark任務的均勻分布策略
7．4 Partition key傾斜的解決方案
7．5 Spark任務的監(jiān)控
7．6 GC的優(yōu)化
7．7 Spark Streaming吞吐量優(yōu)化
7．8 Spark RDD使用內存的優(yōu)化策略
第8章 SQL on Spark
8．1 BDAS數據分析軟件棧
8．2 Spark SQL工具
8．3 Spark SQL原理
8．4 Spark SQL編程