Spark大數(shù)據(jù)分析技術(shù)與實戰(zhàn)

定　價：￥59.00

作　者：	經(jīng)管之家著
出版社：	電子工業(yè)出版社
叢編項：	CDA數(shù)據(jù)分析師系列叢書
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787121319037	出版時間：	2017-06-01	包裝：	平裝
開本：	16開	頁數(shù)：	232	字?jǐn)?shù)：

內(nèi)容簡介

　　Spark作為下一代大數(shù)據(jù)處理引擎，經(jīng)過短短幾年的飛躍式發(fā)展，正在以燎原之勢席卷業(yè)界，現(xiàn)已成為大數(shù)據(jù)產(chǎn)業(yè)中的一股中堅力量。本書著重講解了Spark內(nèi)核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念與理論框架，并提供了相應(yīng)的示例與解析。全書共分8章，其中前4章介紹Spark內(nèi)核，主要包括Spark簡介、集群部署、工作原理、核心概念與操作等；后4章分別介紹Spark內(nèi)核上的核心組件，每章系統(tǒng)地介紹Spark的一個組件，并附以相應(yīng)的案例分析。本書適合作為高等院校計算機(jī)相關(guān)專業(yè)的研究生學(xué)習(xí)參考資料，也適合大數(shù)據(jù)技術(shù)初學(xué)者閱讀，還適合于所有愿意對大數(shù)據(jù)技術(shù)有所了解并想要將大數(shù)據(jù)技術(shù)應(yīng)用于本職工作的讀者閱讀。

作者簡介

　　經(jīng)管之家（www.jg.com.cn）：原人大經(jīng)濟(jì)論壇，于2003年成立，致力于推動經(jīng)管學(xué)科的進(jìn)步，傳播優(yōu)秀教育資源，目前已經(jīng)發(fā)展成為國內(nèi)優(yōu)秀的經(jīng)濟(jì)、管理、金融、統(tǒng)計類的在線教育和咨詢網(wǎng)站，也是國內(nèi)活躍和具影響力的經(jīng)管類網(wǎng)絡(luò)社區(qū)。經(jīng)管之家從2006年起在國內(nèi)開展數(shù)據(jù)分析培訓(xùn)，累計培訓(xùn)學(xué)員數(shù)萬人。在大數(shù)據(jù)的趨勢背景下，創(chuàng)新“CDA數(shù)據(jù)分析師”品牌，致力于為社會各界數(shù)據(jù)分析愛好者提供優(yōu)質(zhì)、科學(xué)、系統(tǒng)的數(shù)據(jù)分析教育。截至2016年3月已成功舉辦40多期系統(tǒng)培訓(xùn)，培訓(xùn)學(xué)員達(dá)3千余名；CDA認(rèn)證考試已成功舉辦三屆，報考人數(shù)上千人；中國數(shù)據(jù)分析師俱樂部（CDA CLUB），每周線下免費沙龍活動，已舉力40多期，累積會員2千余名；中國數(shù)據(jù)分析師行業(yè)峰會（CDA　Summit），一年兩屆，參會人數(shù)皆達(dá)2千余名，在大數(shù)據(jù)領(lǐng)域影響力超前?！癈DA數(shù)據(jù)分析師”隊伍在業(yè)界不斷壯大，對數(shù)據(jù)分析人才產(chǎn)業(yè)起到了巨大的推動作用。

圖書目錄

第1章 Spark導(dǎo)論\t1
1．1 Spark的發(fā)展\t2
1．2 什么是Spark\t3
1．3 Spark主要特征\t3
1．3．1 快速\t3
1．3．2 簡潔易用\t5
1．3．3 通用\t6
1．3．4 多種運行模式\t8
第2章 Spark集群部署\t9
2．1 運行環(huán)境說明\t9
2．1．1 軟硬件環(huán)境\t9
2．1．2 集群網(wǎng)絡(luò)環(huán)境\t10
2．2 安裝VMware Workstation 11\t10
2．3 安裝CentOS 6\t16
2．4 安裝Hadoop\t21
2．4．1 克隆并啟動虛擬機(jī)\t21
2．4．2 網(wǎng)絡(luò)基本配置\t24
2．4．3 安裝JDK\t27
2．4．4 免密鑰登錄配置\t28
2．4．5 Hadoop配置\t29
2．4．6 配置從節(jié)點\t33
2．4．7 配置系統(tǒng)文件\t33
2．4．8 啟動Hadoop集群\t33
2．5 安裝Scala\t35
2．6 安裝Spark\t36
2．6．1 下載并解壓Spark安裝包\t36
2．6．2 配置Spark-env．sh\t37
2．6．3 配置Spark-defaults．conf\t37
2．6．4 配置Slaves\t38
2．6．5 配置環(huán)境變量\t38
2．6．6 發(fā)送至Slave1、Slave2\t39
2．7 啟動Spark\t39
第3章 RDD編程\t42
3．1 RDD定義\t42
3．2 RDD的特性\t43
3．2．1 分區(qū)\t43
3．2．2 依賴\t44
3．2．3 計算\t45
3．2．4 分區(qū)函數(shù)\t45
3．2．5 優(yōu)先位置\t46
3．3 創(chuàng)建操作\t46
3．3．1 基于集合的創(chuàng)建操作\t47
3．3．2 基于外部存儲的創(chuàng)建操作\t47
3．4 常見執(zhí)行操作\t49
3．5 常見轉(zhuǎn)換操作\t49
3．5．1 一元轉(zhuǎn)換操作\t50
3．5．2 二元轉(zhuǎn)換操作\t53
3．6 持久化操作\t56
3．7 存儲操作\t58
第4章 Spark調(diào)度管理與應(yīng)用程序開發(fā)\t59
4．1 Spark調(diào)度管理基本概念\t59
4．2 作業(yè)調(diào)度流程\t60
4．2．1 作業(yè)的生成與提交\t61
4．2．2 階段的劃分\t62
4．2．3 調(diào)度階段的提交\t62
4．2．4 任務(wù)的提交與執(zhí)行\(zhòng)t62
4．3 基于IntelliJ IDEA構(gòu)建Spark應(yīng)用程序\t64
4．3．1 安裝IntelliJ IDEA\t64
4．3．2 創(chuàng)建Spark應(yīng)用程序\t70
4．3．3 集群模式運行Spark應(yīng)用程序\t81
第5章 GraphX\t87
5．1 GraphX概述\t87
5．2 GraphX基本原理\t89
5．2．1 圖計算模型處理流程\t89
5．2．2 GraphX定義\t90
5．2．3 GraphX的特點\t90
5．3 GraphX設(shè)計與實現(xiàn)\t91
5．3．1 彈性分布式屬性圖\t91
5．3．2 圖的數(shù)據(jù)模型\t92
5．3．3 圖的存儲模型\t94
5．3．4 GraphX模型框架\t97
5．4 GraphX操作\t97
5．4．1 創(chuàng)建圖\t97
5．4．2 基本屬性操作\t100
5．4．3 結(jié)構(gòu)操作\t102
5．4．4 轉(zhuǎn)換操作\t103
5．4．5 連接操作\t105
5．4．6 聚合操作\t106
5．5 GraphX案例解析\t107
5．5．1 PageRank算法與案例解析\t107
5．5．2 Triangle Count算法與案例解析\t110
第6章 Spark SQL\t113
6．1 Spark SQL概述\t113
6．2 Spark SQL邏輯架構(gòu)\t116
6．2．1 SQL執(zhí)行流程\t116
6．2．2 Catalyst\t117
6．3 Spark SQL CLI\t117
6．3．1 硬軟件環(huán)境\t117
6．3．2 集群環(huán)境\t118
6．3．3 結(jié)合Hive\t118
6．3．4 啟動Hive\t118
6．4 DataFrame編程模型\t119
6．4．1 DataFrame簡介\t119
6．4．2 創(chuàng)建DataFrames\t120
6．4．3 保存DataFrames\t126
6．5 DataFrame常見操作\t127
6．5．1 數(shù)據(jù)展示\t127
6．5．2 常用列操作\t128
6．5．3 過濾\t131
6．5．4 排序\t132
6．5．5 其他常見操作\t134
6．6 基于Hive的學(xué)生信息管理系統(tǒng)的SQL查詢案例與解析\t137
6．6．1 Spark SQL整合Hive\t137
6．6．2 構(gòu)建數(shù)據(jù)倉庫\t138
6．6．3 加載數(shù)據(jù)\t141
6．6．4 查詢數(shù)據(jù)\t142
第7章 Spark Streaming\t146
7．1 Spark Streaming概述\t146
7．2 Spark Streaming基礎(chǔ)概念\t147
7．2．1 批處理時間間隔\t147
7．2．2 窗口時間間隔\t148
7．2．3 滑動時間間隔\t148
7．3 DStream基本概念\t149
7．4 DStream的基本操作\t150
7．4．1 無狀態(tài)轉(zhuǎn)換操作\t150
7．4．2 有狀態(tài)轉(zhuǎn)換操作\t152
7．4．3 輸出操作\t153
7．4．4 持久化操作\t154
7．5 數(shù)據(jù)源\t154
7．5．1 基礎(chǔ)數(shù)據(jù)源\t154
7．5．2 高級數(shù)據(jù)源\t155
7．6 Spark Streaming編程模式與案例分析\t156
7．6．1 Spark Streaming編程模式\t156
7．6．2 文本文件數(shù)據(jù)處理案例（一）\t157
7．6．3 文本文件數(shù)據(jù)處理案例（二）\t160
7．6．4 網(wǎng)絡(luò)數(shù)據(jù)處理案例（一）\t164
7．6．5 網(wǎng)絡(luò)數(shù)據(jù)處理案例（二）\t171
7．6．6 stateful應(yīng)用案例\t175
7．6．7 window應(yīng)用案例\t180
7．7 性能考量\t185
7．7．1 運行時間優(yōu)化\t185
7．7．2 內(nèi)存使用與垃圾回收\t186
第8章 Spark MLlib\t187
8．1 Spark MLlib概述\t187
8．1．1 機(jī)器學(xué)習(xí)介紹\t187
8．1．2 Spark MLlib簡介\t189
8．2 MLlib向量與矩陣\t190
8．2．1 MLlib向量\t190
8．2．2 MLlib矩陣\t192
8．3 Spark MLlib分類算法\t196
8．3．1 貝葉斯分類算法\t197
8．3．2 支持向量機(jī)算法\t201
8．3．3 決策樹算法\t204
8．4 MLlib線性回歸算法\t208
8．5 MLlib聚類算法\t212
8．6 MLlib協(xié)同過濾\t215