注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Spark大數(shù)據(jù)分析:核心概念、技術(shù)及實(shí)踐

Spark大數(shù)據(jù)分析:核心概念、技術(shù)及實(shí)踐

Spark大數(shù)據(jù)分析:核心概念、技術(shù)及實(shí)踐

定 價:¥69.00

作 者: [美] 穆罕默德·古勒 著;趙斌 馬景 陳冠誠 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 大數(shù)據(jù)技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787111565611 出版時間: 2017-05-01 包裝: 平裝
開本: 16開 頁數(shù): 249 字?jǐn)?shù):  

內(nèi)容簡介

  本書是關(guān)于大數(shù)據(jù)和Spark的一個簡明手冊。它將助你學(xué)習(xí)如何用Spark來完成很多大數(shù)據(jù)分析任務(wù),其中覆蓋了高效利用Spark所需要知道的重要主題:如何使用SparkShell進(jìn)行交互式數(shù)據(jù)分析、如何編寫Spark應(yīng)用、如何在Spark中對大規(guī)模數(shù)據(jù)進(jìn)行交互分析、如何使用SparkStreaming處理高速數(shù)據(jù)流、如何使用Spark進(jìn)行機(jī)器學(xué)習(xí)、如何使用Spark進(jìn)行圖處理、如何使用集群管理員部署Spark、如何監(jiān)控Spark應(yīng)用等。本書還對其他配合Spark一起使用的大數(shù)據(jù)技術(shù)進(jìn)行了介紹,包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本書也對機(jī)器學(xué)習(xí)和圖的概念進(jìn)行了介紹。

作者簡介

暫缺《Spark大數(shù)據(jù)分析:核心概念、技術(shù)及實(shí)踐》作者簡介

圖書目錄

Contents 目  錄
譯者序
前言
致謝
第1章 大數(shù)據(jù)技術(shù)一覽1
1.1 Hadoop2
1.1.1 HDFS3
1.1.2 MapReduce5
1.1.3 Hive5
1.2 數(shù)據(jù)序列化6
1.2.1 Avro6
1.2.2 Thrift6
1.2.3 Protocol Buffers7
1.2.4 SequenceFile7
1.3 列存儲7
1.3.1 RCFile8
1.3.2 ORC8
1.3.3 Parquet9
1.4 消息系統(tǒng)9
1.4.1 Kafka10
1.4.2 ZeroMQ11
1.5 NoSQL12
1.5.1 Cassandra13
1.5.2 HBase13
1.6 分布式SQL查詢引擎14
1.6.1 Impala14
1.6.2 Presto14
1.6.3 Apache Drill15
1.7 總結(jié)15
第2章 Scala編程16
2.1 函數(shù)式編程16
2.1.1 函數(shù)17
2.1.2 不可變數(shù)據(jù)結(jié)構(gòu)18
2.1.3 一切皆表達(dá)式19
2.2 Scala基礎(chǔ)19
2.2.1 起步20
2.2.2 基礎(chǔ)類型20
2.2.3 變量21
2.2.4 函數(shù)21
2.2.5 類24
2.2.6 單例24
2.2.7 樣本類25
2.2.8 模式匹配25
2.2.9 操作符26
2.2.10 特質(zhì)26
2.2.11 元組27
2.2.12 Option類型27
2.2.13 集合28
2.3 一個單獨(dú)的Scala應(yīng)用程序32
2.4 總結(jié)32
第3章 Spark Core33
3.1 概述33
3.1.1 主要特點(diǎn)33
3.1.2 理想的應(yīng)用程序36
3.2 總體架構(gòu)37
3.2.1 worker37
3.2.2 集群管理員38
3.2.3 驅(qū)動程序38
3.2.4 執(zhí)行者38
3.2.5 任務(wù)38
3.3 應(yīng)用運(yùn)行38
3.3.1 術(shù)語38
3.3.2 應(yīng)用運(yùn)行過程39
3.4 數(shù)據(jù)源39
3.5 API40
3.5.1 SparkContext40
3.5.2 RDD41
3.5.3 創(chuàng)建RDD42
3.5.4 RDD操作43
3.5.5 保存RDD52
3.6 惰性操作53
3.7 緩存54
3.7.1 RDD的緩存方法55
3.7.2 RDD緩存是可容錯的56
3.7.3 緩存內(nèi)存管理56
3.8 Spark作業(yè)56
3.9 共享變量57
3.9.1 廣播變量57
3.9.2 累加器58
3.10 總結(jié)59
第4章 使用Spark shell進(jìn)行交互式數(shù)據(jù)分析60
4.1 起步60
4.1.1 下載60
4.1.2 解壓61
4.1.3 運(yùn)行61
4.2 REPL命令62
4.3 把Spark shell當(dāng)成Scala shell使用62
4.4 數(shù)值分析63
4.5 日志分析64
4.6 總結(jié)68
第5章 編寫Spark應(yīng)用69
5.1 Spark中的Hello World69
5.2 編譯并運(yùn)行應(yīng)用72
5.2.1 sbt72
5.2.2 編譯代碼73
5.2.3 運(yùn)行應(yīng)用73
5.3 監(jiān)控應(yīng)用75
5.4 調(diào)試應(yīng)用75
5.5 總結(jié)76
第6章 Spark Streaming77
6.1 Spark Streaming簡介78
6.1.1 Spark Streaming是一個Spark類庫78
6.1.2 總體架構(gòu)78
6.1.3 數(shù)據(jù)流來源78
6.1.4 接收器79
6.1.5 目的地79
6.2 API79
6.2.1 StreamingContext80
6.2.2 Spark Streaming應(yīng)用基本結(jié)構(gòu)82
6.2.3 DStream82
6.2.4 創(chuàng)建DStream83
6.2.5 處理數(shù)據(jù)流84
6.2.6 輸出操作88
6.2.7 窗口操作91
6.3 一個完整的Spark Streaming應(yīng)用93
6.4 總結(jié)98
第7章 Spark SQL99
7.1 Spark SQL簡介99
7.1.1 和其他Spark庫集成100
7.1.2 可用性100
7.1.3 數(shù)據(jù)源100
7.1.4 數(shù)據(jù)處理接口100
7.1.5 與Hive的互操作性101
7.2 性能101
7.2.1 磁盤I/O101
7.2.2 分區(qū)102
7.2.3 列存儲102
7.2.4 內(nèi)存中的列式緩存102
7.2.5 行跳過102
7.2.6 謂詞下推102
7.2.7 查詢優(yōu)化103
7.3 應(yīng)用104
7.3.1 ETL104
7.3.2 數(shù)據(jù)可視化104
7.3.3 分布式JDBC/ODBC SQL查詢引擎105
7.3.4 數(shù)據(jù)倉庫105
7.4 API106
7.4.1 關(guān)鍵抽象106
7.4.2 創(chuàng)建DataFrame109
7.4.3 在程序中使用SQL/HiveQL處理數(shù)據(jù)114
7.4.4 使用DataFrame API處理數(shù)據(jù)115
7.4.5 保存DataFrame131
7.5 內(nèi)置函數(shù)133
7.5.1 聚合操作134
7.5.2 集合操作134
7.5.3 日期/時間134
7.5.4 數(shù)學(xué)135
7.5.5 字符串135
7.5.6 窗口135
7.6 UDF和UDAF135
7.7 一個交互式分析的例子135
7.8 使用Spark SQL JDBC服務(wù)器進(jìn)行交互式分析142
7.9 總結(jié)145
第8章 使用Spark進(jìn)行機(jī)器學(xué)習(xí)146
8.1 機(jī)器學(xué)習(xí)簡介146
8.1.1 特征147
8.1.2 標(biāo)簽147
8.1.3 模型148
8.1.4 訓(xùn)練數(shù)據(jù)148
8.1.5 測試數(shù)據(jù)149
8.1.6 機(jī)器學(xué)習(xí)應(yīng)用149
8.1.7 機(jī)器學(xué)習(xí)算法151
8.1.8 超參數(shù)160
8.1.9 模型評價160
8.1.10 機(jī)器學(xué)習(xí)的主要步驟162
8.2 Spark機(jī)器學(xué)習(xí)庫162
8.3 MLlib概覽163
8.3.1 與其他Spark庫集成163
8.3.2 統(tǒng)計(jì)工具163
8.3.3 機(jī)器學(xué)習(xí)算法163
8.4 MLlib API164
8.4.1 數(shù)據(jù)類型164
8.4.2 算法和模型166
8.4.3 模型評價181
8.5 MLlib示例應(yīng)用184
8.5.1 數(shù)據(jù)集184
8.5.2 目標(biāo)184
8.5.3 代碼184
8.6 Spark ML186
8.6.1 ML數(shù)據(jù)集187
8.6.2 Transformer187
8.6.3 Estimator187
8.6.4 Pipeline188
8.6.5 PipelineModel188
8.6.6 Evaluator188
8.6.7 網(wǎng)格搜索189
8.6.8 CrossValidator189
8.7 Spark ML示例應(yīng)用189
8.7.1 數(shù)據(jù)集190
8.7.2 目標(biāo)190
8.7.3 代碼190
8.8 總結(jié)195
第9章 使用Spark進(jìn)行圖處理196
9.1 圖簡介196
9.1.1 無向圖197
9.1.2 有向圖197
9.1.3 有向多邊圖197
9.1.4 屬性圖197
9.2 GraphX簡介198
9.3 GraphX API199
9.3.1 數(shù)據(jù)抽象199
9.3.2 創(chuàng)建圖200
9.3.3 圖屬性202
9.3.4 圖操作符204
9.4 總結(jié)217
第10章 集群管理員218

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號