Spark實(shí)戰(zhàn)

定　價(jià)：￥99.00

作　者：	（克羅地亞）彼得·澤斯維奇
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買(mǎi)這本書(shū)可以去

ISBN：	9787111617488	出版時(shí)間：	2019-09-01	包裝：
開(kāi)本：		頁(yè)數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　本書(shū)介紹了Spark應(yīng)用程序及更高級(jí)應(yīng)用的工作流程，主要從使用角度進(jìn)行了描述，每個(gè)具體內(nèi)容都有對(duì)應(yīng)的代碼。本書(shū)涵蓋了Apache Spark和它豐富的API，構(gòu)成Spark的組件（包括Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX），在Spark standalone、 Hadoop YARN以及 Mesos clusters上運(yùn)行Spark應(yīng)用程序的部署和安裝。通過(guò)對(duì)應(yīng)的實(shí)例全面、詳細(xì)地介紹了整個(gè)Spark實(shí)戰(zhàn)開(kāi)發(fā)的流程。*后，還介紹了Spark的高級(jí)應(yīng)用，包括Spark流應(yīng)用程序及可擴(kuò)展和快速的機(jī)器學(xué)習(xí)框架H2O。 \n本書(shū)可以作為高等院校計(jì)算機(jī)、軟件工程、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)等專業(yè)的大數(shù)據(jù)課程材料，可用于指導(dǎo)Spark編程實(shí)踐，也可供相關(guān)技術(shù)人員參考使用。

作者簡(jiǎn)介

暫缺《Spark實(shí)戰(zhàn)》作者簡(jiǎn)介

圖書(shū)目錄

目錄 \n
譯者序 \n
致謝 \n
前言 \n
關(guān)于本書(shū) \n
關(guān)于作者 \n
關(guān)于封面 \n
第1部分第1步 \n
第1章 Apache Spark介紹 \n
1.1什么是Spark \n
1.1.1 Spark革命 \n
1.1.2 MapReduce的缺點(diǎn) \n
1.1.3 Spark帶來(lái)了什么有價(jià)值的東西 \n
1.2 Spark組件 \n
1.2.1 Spark核心 \n
1.2.2 Spark SQL \n
1.2.3 Spark Streaming \n
1.2.4 Spark MLlib \n
1.2.5 Spark GraphX \n
1.3 Spark程序流 \n
1.4 Spark生態(tài)系統(tǒng) \n
1.5 建立spark-in-action 虛擬機(jī) \n
1.5.1下載啟動(dòng)虛擬機(jī) \n
1.5.2 停止虛擬機(jī) \n
1.6總結(jié) \n
第2章 Spark基礎(chǔ) \n
2.1使用spark-in-action虛擬機(jī) \n
2.1.1 復(fù)制Spark in Action GitHub存儲(chǔ)庫(kù) \n
2.1.2 找到j(luò)ava \n
2.1.3 用虛擬機(jī)的Hadoop安裝 \n
2.1.4 檢查虛擬機(jī)的Spark安裝 \n
2.2用Spark shell（殼）編寫(xiě)第一個(gè)Spark程序 \n
2.2.1 啟動(dòng)Spark shell \n
2.2.2 第一個(gè)Spark代碼示例 \n
2.2.3 彈性分布式數(shù)據(jù)集的概念 \n
2.3基礎(chǔ)RDD行為和轉(zhuǎn)換 \n
2.3.1 使用用map轉(zhuǎn)換 \n
2.3.2 使用distinct和flatMap 轉(zhuǎn)換 \n
2.3.3 使用sample、take和takeSample操作獲取RDD的元素 \n
2.4 Double RDD功能 \n
2.4.1 Double RDD基本統(tǒng)計(jì) \n
2.4.2 使用直方圖可視化數(shù)據(jù)分布 \n
2.4.3 近似求和與平均值 \n
2.5 總結(jié) \n
第3章編寫(xiě)Spark應(yīng)用程序 \n
3.1在Eclipse上生成一個(gè)新的Spark項(xiàng)目 \n
3.2開(kāi)發(fā)應(yīng)用程序 \n
3.2.1 準(zhǔn)備 GitHub 檔案數(shù)據(jù) \n
3.2.2 加載 JSON \n
3.2.3 從Eclipse運(yùn)行應(yīng)用 \n
3.2.4 數(shù)據(jù)匯總 \n
3.2.5 排除非公司員工 \n
3.2.6 廣播變量 \n
3.2.7 使用整個(gè)數(shù)據(jù)集 \n
3.3提交應(yīng)用程序 \n
3.3.1 建立uberjar \n
3.3.2 調(diào)整應(yīng)用程序 \n
3.3.3 使用spark-submit \n
3.4 總結(jié) \n
第4章深入Spark API \n
4.1使用鍵值對(duì)RDD \n
4.1.1 創(chuàng)建鍵值對(duì)RDD \n
4.1.2 鍵值對(duì)RDD的基本功能 \n
4.2了解數(shù)據(jù)分區(qū)和減少數(shù)據(jù)混排 \n
4.2.1 使用spark數(shù)據(jù)分區(qū)器 \n
4.2.2 了解和避免不必要的數(shù)據(jù)混排 \n
4.2.3 RDD重新分區(qū) \n
4.2.4 在分區(qū)中映射數(shù)據(jù) \n
4.3 連接、排序、分組數(shù)據(jù) \n
4.3.1 連接數(shù)據(jù) \n
4.3.2 數(shù)據(jù)排序 \n
4.3.3 數(shù)據(jù)分組 \n
4.4 理解RDD依賴 \n
4.4.1 RDD依賴和Spark執(zhí)行 \n
4.4.2 Spark階段和任務(wù) \n
4.4.3 使用檢查點(diǎn)保存Spark譜系 \n
4.5 使用累加器和廣播變量與spark執(zhí)行器進(jìn)行溝通 \n
4.5.1 使用累加器從執(zhí)行器獲取數(shù)據(jù) \n
4.5.2 使用廣播變量將數(shù)據(jù)發(fā)送數(shù)據(jù)到執(zhí)行器 \n
4.6總結(jié) \n
第二部分認(rèn)識(shí)Spark家族 \n
第5章 Spark SQL查詢 \n
5.1使用DataFrames \n
5.1.1 從RDD創(chuàng)建DataFrames \n
5.1.2 DataFrame API 基礎(chǔ)知識(shí) \n
5.1.3 用SQL函數(shù)執(zhí)行數(shù)據(jù)計(jì)算 \n
5.1.4 使用缺失值 \n
5.1.5 將DataFrames轉(zhuǎn)換為RDD \n
5.1.6 分組和連接數(shù)據(jù) \n
5.1.7 執(zhí)行連接 \n
5.2超越DataFrames：引入DataSet \n
5.3使用SQL命令 \n
5.3.1 表目錄和Hive metastore \n
5.3.2 執(zhí)行SQL查詢 \n
5.3.3 通過(guò)Thrift服務(wù)器連接到Spark SQL \n
5.4保存并加載DataFrame 數(shù)據(jù) \n
5.4.1 內(nèi)置數(shù)據(jù)源 \n
5.4.2 保存數(shù)據(jù) \n
5.4.3 加載數(shù)據(jù) \n
5.5 Catalyst 優(yōu)化器 \n
5.6 Tungsten性能改進(jìn) \n
5.7總結(jié) \n
第6章使用Spark Streaming提取數(shù)據(jù) \n
6.1編寫(xiě)Spark Streaming應(yīng)用程序 \n
6.1.1 介紹示例程序 \n
6.1.2 創(chuàng)建流上下文 \n
6.1.3 創(chuàng)建離散流 \n
6.1.4 使用離散流 \n
6.1.5 把結(jié)果保存到文檔 \n
6.1.6 啟動(dòng)和停止流計(jì)算 \n
6.1.7 隨著保存計(jì)算狀態(tài) \n
6.1.8 使用窗口操作進(jìn)行限制計(jì)算 \n
6.1.9 檢查其他內(nèi)置輸入流 \n
6.2使用外部數(shù)據(jù)源 \n
6.2.1 設(shè)置kafka \n
6.2.2 使用kafka更改流應(yīng)用程序 \n
6.3 Spark Streaming任務(wù)的性能 \n
6.3.1 獲得良好的性能 \n
6.3.2 實(shí)現(xiàn)容錯(cuò) \n
6.4結(jié)構(gòu)化流 \n
6.4.1 創(chuàng)建流式DataFrame \n
6.4.2 輸出流數(shù)據(jù) \n
6.4.3 檢查流執(zhí)行 \n
6.4.4 結(jié)構(gòu)化流的未來(lái)方向 \n
6.5總結(jié) \n
第7章使用MLlib變聰明 \n
7.1機(jī)器學(xué)習(xí)簡(jiǎn)介 \n
7.1.1 機(jī)器學(xué)習(xí)的定義 \n
7.1.2 機(jī)器學(xué)習(xí)算法分類(lèi) \n
7.1.3 使用Spark進(jìn)行機(jī)器學(xué)習(xí) \n
7.2 Spark中的線性代數(shù) \n
7.2.1 本地向量與矩陣實(shí)現(xiàn) \n
7.2.2 分布式矩陣 \n
7.3線性回歸 \n
7.3.1 有關(guān)線性回歸 \n
7.3.2 簡(jiǎn)單的線性回歸 \n
7.3.3 將模型擴(kuò)展到多元線性回歸 \n
7.4分析和準(zhǔn)備數(shù)據(jù) \n
7.4.1 分析數(shù)據(jù)分布 \n
7.4.2 分析列余弦相似性 \n
7.4.3 協(xié)方差矩陣的計(jì)算 \n
7.4.4 轉(zhuǎn)化為標(biāo)記點(diǎn) \n
7.4.5 拆分?jǐn)?shù)據(jù) \n
7.4.6 特征縮放和平均歸一化 \n
7.5擬合和使用線性回歸模型 \n
7.5.1 預(yù)測(cè)目標(biāo)值 \n
7.5.2 評(píng)估模型性能 \n
7.5.3 解釋模型參數(shù) \n
7.5.4 加載和保存模型 \n
7.6調(diào)整算法 \n
7.6.1 找到正確的步長(zhǎng)和迭代次數(shù) \n
7.6.2 添加高階多項(xiàng)式 \n
7.6.3 偏差-方差權(quán)衡和模型復(fù)雜度 \n
7.6.4 繪制殘差圖 \n
7.6.5 利用正則化避免過(guò)度擬合 \n
7.6.6 k折交叉驗(yàn)證 \n
7.7優(yōu)化線性回歸 \n
7.7.1 小批量隨機(jī)梯度下降 \n
7.7.2 LBFGS優(yōu)化 \n
7.8總結(jié) \n
八、ML：分類(lèi)和聚類(lèi) \n
8.1 Spark ML 圖書(shū)館 \n
8.1.1 估計(jì)器，變壓器和評(píng)估器 \n
8.1.2 ML參數(shù) \n
8.1.3 ML管道 \n
8.2邏輯回歸 \n
8.2.1 二元邏輯回歸模型 \n
8.2.2準(zhǔn)備數(shù)據(jù)在Spark中使用邏輯回歸 \n
8.2.3 訓(xùn)練模型 \n
8.2.4 評(píng)估分類(lèi)模型 \n
8.2.5 執(zhí)行k折交叉驗(yàn)證 \n
8.2.6 多類(lèi)邏輯回歸 \n
8.3決策樹(shù)和隨機(jī)森林 \n
8.3.1 決策樹(shù) \n
8.3.2 隨機(jī)森林 \n
8.4使用k均值聚類(lèi) \n
8.4.1 k均值聚類(lèi) \n
8.5總結(jié) \n
第9章使用GraphX連接點(diǎn) \n
9.1 Spark圖處理 \n
9.1.1 使用GraphX API構(gòu)造圖 \n
9.1.2 轉(zhuǎn)換圖 \n
9.2圖算法 \n
9.2.1 數(shù)據(jù)集的介紹 \n
9.2.2 最短路徑算法 \n
9.2.3 頁(yè)面排名 \n
9.2.4 連通分量 \n
9.2.5 強(qiáng)連通分量 \n
9.3實(shí)現(xiàn)A *搜索算法 \n
9.3.1 了解A *搜索算法 \n
9.3.2 實(shí)現(xiàn)A *搜索算法 \n
9.3.3 測(cè)試實(shí)現(xiàn) \n
9.4總結(jié) \n
第3部分 Spark ops \n
第10章運(yùn)行Spark \n
10.1 Spark的運(yùn)行時(shí)架構(gòu)概述 \n
10.1.1 Spark運(yùn)行組件 \n
10.1.2 Spark集群類(lèi)型 \n
10.2作業(yè)與資源調(diào)度 \n
10.2.1 集群資源調(diào)度 \n
10.2.2 Spark作業(yè)調(diào)度 \n
10.2.3 數(shù)據(jù)局部性考慮 \n
10.2.4 Spark內(nèi)存調(diào)度 \n
10.3配置Spark \n
10.3.1 Spark配置文件 \n
10.3.2 命令行參數(shù) \n
10.3.3 系統(tǒng)環(huán)境變量 \n
10.3.4 譯編程方式設(shè)置配置 \n
10.3.5 master參數(shù) \n
10.3.6 查看所有配置的參數(shù) \n
10.4 Spark Web UI （網(wǎng)絡(luò)用戶界面） \n
10.4.1 Jobs（作業(yè)）頁(yè)面 \n
10.4.2 Stages（階段）頁(yè)面 \n
10.4.3 Storage（存儲(chǔ)）頁(yè)面 \n
10.4.4 Environment（環(huán)境）頁(yè)面 \n
10.4.5 Executors（執(zhí)行器）頁(yè)面 \n
10.5在本地機(jī)器運(yùn)行Spark \n
10.5.1 本地模式 \n
10.5.2 本地集群模式 \n
10.6總結(jié) \n
第11章在Spark獨(dú)立集群上運(yùn)行 \n
11.1 Spark Standalone集群組件 \n
11.1.1 啟動(dòng)Stanalone集群 \n
11.1.2 用shell腳本啟動(dòng)群集 \n
11.1.3 手動(dòng)啟動(dòng)集群 \n
11.1.4 查看Spark進(jìn)程 \n
11.1.5 Standalone master高可用性和恢復(fù) \n
11.3 Standalone集群網(wǎng)絡(luò)用戶界面 \n
11.4 在3Standalone集群中運(yùn)行應(yīng)用程序 \n
11.4.1 驅(qū)動(dòng)器的位置 \n
11.4.2 指定執(zhí)行器的數(shù)量 \n
11.4.3 指定額外的類(lèi)路徑和文件 \n
11.4.4 終止應(yīng)用程序 \n
11.4.5 應(yīng)用程序自動(dòng)重啟 \n
11.5 Spark歷史記錄服務(wù)器和事件日志記錄 \n
11.6 在Amazon EC2上運(yùn)行 \n
11.6.1 先決條件 \n
11.6.2 創(chuàng)建一個(gè)E2C獨(dú)立集群 \n
11.6.3 使用E2C集群 \n
11.6.4 銷(xiāo)毀集群 \n
11.7 總結(jié) \n
第12章在YARN and Mesos運(yùn)行 \n
12.1 在YARN上運(yùn)行Spark \n
12.1.1 YARN架構(gòu) \n
12.1.2 安裝配置啟動(dòng)YARN \n
12.1.3 YARN中的資源調(diào)度 \n
12.1.4 向YARN提交Spark應(yīng)用程序 \n
12.1.5 在YARN上配置Spark \n
12.1.6 為Spark工作配置資源 \n
12.1.7 YARN UI \n
12.1.8 在YARN上尋找日志 \n
12.1.9 安全注意事項(xiàng) \n
12.1.10 動(dòng)態(tài)資源分配 \n
12.2在Mesos上運(yùn)行Spark \n
12.2.1 Mesos架構(gòu) \n
12.2.2 安裝配置Mesos \n
12.2.3 Mesos Web UI \n
12.2.4 Mesos資源調(diào)度 \n
12.2.5 向Mesos提交Spark應(yīng)用程序 \n
12.2.6 使用 Docker運(yùn)行Spark \n
12.3總結(jié) \n
第4部分協(xié)同使用 \n
第13章實(shí)例學(xué)習(xí)：實(shí)時(shí)儀表盤(pán) \n
13.1了解用例 \n
13.1.1 概況 \n
13.1.2 了解應(yīng)用程序組件 \n
13.2 運(yùn)行應(yīng)用程序 \n
13.2.1 在spark-in-action VM中運(yùn)行應(yīng)用程序 \n
13.2.2 手動(dòng)啟動(dòng)應(yīng)用程序 \n
13.3 理解源代碼 \n
13.3.1 KafkaLogsSimulator項(xiàng)目 \n
13.3.2 Streaming Log Analyzer項(xiàng)目 \n
13.3.3 Web統(tǒng)計(jì)信息顯示板項(xiàng)目 \n
13.3.4 建設(shè)項(xiàng)目 \n
13.4總結(jié) \n
第14章 H20深入學(xué)習(xí)Spark \n
14.1什么是深入學(xué)習(xí) \n
14.2 在Spark中使用H2O和 \n
14.2.1 什么是H2O \n
14.4.2 在Spark中啟動(dòng)Sparkling Water \n
14.4.3 啟動(dòng)H2O集群 \n
14.4.4 訪問(wèn)Flow UI \n
14.3 使用H2O的深度學(xué)習(xí)進(jìn)行回歸 \n
14.4.3 將數(shù)據(jù)加載到H2O框架中 \n
14.4.4 使用Flow UI構(gòu)建和評(píng)估深度學(xué)習(xí)模型 \n
14.4.5 使用Sparkling Water API構(gòu)建和評(píng)估深度學(xué)習(xí)模型 \n
14.4使用H2O的深度學(xué)習(xí)進(jìn)行分類(lèi) \n
14.4.1 加載和拆分?jǐn)?shù)據(jù) \n
14.4.2 通過(guò)Flow UI 建造模型 \n
14.4.3 通過(guò)Sparkling Water API建造模型 \n
14.4.4 停止H2O集群 \n
14.5總結(jié) \n
附錄A 安裝Apache Spark \n
附錄B 了解MapReduce \n
附錄C 線性代數(shù)基礎(chǔ)