Apache Spark源碼剖析

定　價(jià)：￥68.00

作　者：	許鵬著
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	程序設(shè)計(jì) 計(jì)算機(jī)/網(wǎng)絡(luò)

購買這本書可以去

ISBN：	9787121254208	出版時(shí)間：	2015-03-01	包裝：
開本：		頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡介

　　本書以Spark 1.02版本源碼為切入點(diǎn)，著力于探尋Spark所要解決的主要問題及其解決辦法，通過一系列精心設(shè)計(jì)的小實(shí)驗(yàn)來分析每一步背后的處理邏輯。本書第3～5章詳細(xì)介紹了Spark Core中作業(yè)的提交與執(zhí)行，對容錯(cuò)處理也進(jìn)行了詳細(xì)分析，有助讀者深刻把握Spark實(shí)現(xiàn)機(jī)理。第6～9章對Spark Lib庫進(jìn)行了初步的探索。在對源碼有了一定的分析之后，讀者可盡快掌握Spark技術(shù)。

作者簡介

　　許鵬長期致力于電信領(lǐng)域和互聯(lián)網(wǎng)的軟件研發(fā)，在數(shù)據(jù)處理方面積累了大量經(jīng)驗(yàn)，對系統(tǒng)的可擴(kuò)展性、可靠性方面進(jìn)行過深入學(xué)習(xí)和研究。因此，累積了大量的源碼閱讀和分析的技巧與方法。目前在杭州同盾科技擔(dān)任大數(shù)據(jù)平臺架構(gòu)師一職。對于Linux內(nèi)核，作者也曾進(jìn)行過深入的分析。

圖書目錄

第一部分Spark概述1 第1章初識Spark 3 1.1 大數(shù)據(jù)和Spark 3 1.1.1 大數(shù)據(jù)的由來4 1.1.2 大數(shù)據(jù)的分析4 1.1.3 Hadoop 5 1.1.4 Spark簡介6 1.2 與Spark的第一次親密接觸7 1.2.1 環(huán)境準(zhǔn)備7 1.2.2 下載安裝Spark 8 1.2.3 Spark下的WordCount 8 第二部分Spark核心概念13 第2章Spark整體框架 15 2.1 編程模型15 2.1.1 RDD 17 2.1.2 Operation 17 2.2 運(yùn)行框架18 2.2.1 作業(yè)提交18 2.2.2 集群的節(jié)點(diǎn)構(gòu)成18 2.2.3 容錯(cuò)處理19 2.2.4 為什么是Scala 19 2.3 源碼閱讀環(huán)境準(zhǔn)備19 2.3.1 源碼下載及編譯19 2.3.2 源碼目錄結(jié)構(gòu)21 2.3.3 源碼閱讀工具21 2.3.4 本章小結(jié)22 第3章SparkContext初始化 23 3.1 spark-shell 23 3.2 SparkContext的初始化綜述27 3.3 Spark Repl綜述30 3.3.1 Scala Repl執(zhí)行過程31 3.3.2 Spark Repl 32 第4章Spark作業(yè)提交 33 4.1 作業(yè)提交33 4.2 作業(yè)執(zhí)行38 4.2.1 依賴性分析及Stage劃分39 4.2.2 Actor Model和Akka 46 4.2.3 任務(wù)的創(chuàng)建和分發(fā)47 4.2.4 任務(wù)執(zhí)行53 4.2.5 Checkpoint和Cache 62 4.2.6 WebUI和Metrics 62 4.3 存儲機(jī)制71 4.3.1 Shuffle結(jié)果的寫入和讀取71 4.3.2 Memory Store 80 4.3.3 存儲子模塊啟動過程分析81 4.3.4 數(shù)據(jù)寫入過程分析82 4.3.5 數(shù)據(jù)讀取過程分析84 4.3.6 TachyonStore 88 第5章部署方式分析 91 5.1 部署模型91 5.2 單機(jī)模式local 92 5.3 偽集群部署local-cluster 93 5.4 原生集群Standalone Cluster 95 5.4.1 啟動Master 96 5.4.2 啟動Worker 97 5.4.3 運(yùn)行spark-shell 102 5.4.4 容錯(cuò)性分析106 5.5 Spark On YARN 112 5.5.1 YARN的編程模型112 5.5.2 YARN中的作業(yè)提交112 5.5.3 Spark On YARN實(shí)現(xiàn)詳解113 5.5.4 SparkPi on YARN 122 第三部分Spark Lib 129 第6章Spark Streaming 131 6.1 Spark Streaming整體架構(gòu)131 6.1.1 DStream 132 6.1.2 編程接口133 6.1.3 Streaming WordCount 134 6.2 Spark Streaming執(zhí)行過程135 6.2.1 StreamingContext初始化過程136 6.2.2 數(shù)據(jù)接收141 6.2.3 數(shù)據(jù)處理146 6.2.4 BlockRDD 155 6.3 窗口操作158 6.4 容錯(cuò)性分析159 6.5 Spark Streaming vs. Storm 165 6.5.1 Storm簡介165 6.5.2 Storm和Spark Streaming對比168 6.6 應(yīng)用舉例168 6.6.1 搭建Kafka Cluster 168 6.6.2 KafkaWordCount 169 第7章SQL 173 7.1 SQL語句的通用執(zhí)行過程分析175 7.2 SQL On Spark的實(shí)現(xiàn)分析178 7.2.1 SqlParser 178 7.2.2 Analyzer 184 7.2.3 Optimizer 191 7.2.4 SparkPlan 192 7.3 Parquet 文件和JSON數(shù)據(jù)集196 7.4 Hive簡介197 7.4.1 Hive 架構(gòu)197 7.4.2 HiveQL On MapReduce執(zhí)行過程分析199 7.5 HiveQL On Spark詳解200 7.5.1 Hive On Spark環(huán)境搭建206 7.5.2 編譯支持Hadoop 2.x的Spark 211 7.5.3 運(yùn)行Hive On Spark測試用例213 第8章GraphX 215 8.1 GraphX簡介215 8.1.1 主要特點(diǎn)216 8.1.2 版本演化216 8.1.3 應(yīng)用場景217 8.2 分布式圖計(jì)算處理技術(shù)介紹218 8.2.1 屬性圖218 8.2.2 圖數(shù)據(jù)的存儲與分割219 8.3 Pregel計(jì)算模型220 8.3.1 BSP 220 8.3.2 像頂點(diǎn)一樣思考220 8.4 GraphX圖計(jì)算框架實(shí)現(xiàn)分析223 8.4.1 基本概念223 8.4.2 圖的加載與構(gòu)建226 8.4.3 圖數(shù)據(jù)存儲與分割227 8.4.4 操作接口228 8.4.5 Pregel在GraphX中的源碼實(shí)現(xiàn)230 8.5 PageRank 235 8.5.1 什么是PageRank 235 8.5.2 PageRank核心思想235 第9章MLLib 239 9.1 線性回歸239 9.1.1 數(shù)據(jù)和估計(jì)240 9.1.2 線性回歸參數(shù)求解方法240 9.1.3 正則化245 9.2 線性回歸的代碼實(shí)現(xiàn)246 9.2.1 簡單示例246 9.2.2 入口函數(shù)train 247 9.2.3 最優(yōu)化算法optimizer 249 9.2.4 權(quán)重更新update 256 9.2.5 結(jié)果預(yù)測predict 257 9.3 分類算法257 9.3.1 邏輯回歸258 9.3.2 支持向量機(jī)260 9.4 擬牛頓法261 9.4.1 數(shù)學(xué)原理261 9.4.2 代碼實(shí)現(xiàn)265 9.5 MLLib與其他應(yīng)用模塊間的整合268 第四部分附錄271 附錄A Spark源碼調(diào)試 273 附錄B 源碼閱讀技巧 283