注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù)技術(shù)基礎(chǔ):基于Hadoop與Spark

大數(shù)據(jù)技術(shù)基礎(chǔ):基于Hadoop與Spark

大數(shù)據(jù)技術(shù)基礎(chǔ):基于Hadoop與Spark

定 價:¥49.80

作 者: 羅福強,李瑤,陳虹君 著
出版社: 人民郵電出版社
叢編項:
標 簽: 暫缺

ISBN: 9787115454102 出版時間: 2017-05-01 包裝: 平裝
開本: 16開 頁數(shù): 292 字數(shù):  

內(nèi)容簡介

  本書主要內(nèi)容包括:第一章 大數(shù)據(jù)技術(shù)概述、第二章 Hadoop平臺的安裝與配置、第三章\tHadoop分布式文件系統(tǒng)、第四章\tHDFS API編程、第五章 Hadoop分布式計算框架、第六章 MapReduce API編程、第七章 MapReduce 高級編程、第八章 Spark概述、第九章 Spark Streaming編程、第十章 Spark SQL編程。

作者簡介

  羅福強,副教授,暢銷教材作者。其編寫的《Visual C#.NET程序設(shè)計教程》教材,累計銷售數(shù)萬冊。

圖書目錄

第1章 大數(shù)據(jù)技術(shù)概述 1
1.1 大數(shù)據(jù)技術(shù)的發(fā)展背景 1
1.1.1 大數(shù)據(jù)技術(shù)的發(fā)展過程 2
1.1.2 大數(shù)據(jù)技術(shù)的影響 3
1.1.3 大數(shù)據(jù)發(fā)展的重大事件 5
1.2 大數(shù)據(jù)的概念、特征及意義 7
1.2.1 什么是大數(shù)據(jù) 7
1.2.2 大數(shù)據(jù)的特征 8
1.2.3 大數(shù)據(jù)來自哪兒 9
1.2.4 大數(shù)據(jù)的挑戰(zhàn) 10
1.2.5 研究大數(shù)據(jù)的意義 12
1.3 大數(shù)據(jù)的存儲與計算模式 13
1.3.1 大數(shù)據(jù)的存儲模式 13
1.3.2 大數(shù)據(jù)的計算模式 16
1.4 大數(shù)據(jù)的典型應(yīng)用 18
1.4.1 智慧醫(yī)療的應(yīng)用 19
1.4.2 智慧農(nóng)業(yè)的應(yīng)用 20
1.4.3 金融行業(yè)的應(yīng)用 21
1.4.4 零售行業(yè)的應(yīng)用 24
1.4.5 電子商務(wù)行業(yè)的應(yīng)用 24
1.4.6 電子政務(wù)的應(yīng)用 24
1.5 初識Hadoop大數(shù)據(jù)平臺 26
1.5.1 Hadoop的發(fā)展過程 26
1.5.2 Hadoop的優(yōu)勢 27
1.5.3 Hadoop的生態(tài)系統(tǒng) 28
1.5.4 Hadoop的版本 29
1.6 習題 32
第2章 Hadoop平臺的安裝與配置 33
2.1 安裝準備 33
2.1.1 硬件要求 33
2.1.2 安裝Linux 34
2.1.3 安裝Java 36
2.2 Hadoop的集群安裝 38
2.2.1 Hadoop的運行模式 38
2.2.2 Linux系統(tǒng)設(shè)置 39
2.2.3 SSH的安裝 41
2.2.4 Hadoop的安裝 42
2.2.5 Hadoop的配置 42
2.2.6 Hadoop的測試 49
2.3 Hadoop開發(fā)平臺的安裝 51
2.3.1 Eclipse的安裝 51
2.3.2 下載hadoop-eclipse-plugin插件 53
2.3.3 在Eclipse中配置Hadoop 53
2.4 習題 55
2.5 實訓 55
第3章 Hadoop分布式文件系統(tǒng) 57
3.1 HDFS概述 57
3.1.1 HDFS簡介 57
3.1.2 HDFS的基本概念 58
3.1.3 HDFS的特點 59
3.2 HDFS的體系結(jié)構(gòu) 61
3.2.1 HDFS設(shè)計目標 61
3.2.2 HDFS的結(jié)構(gòu)模型 61
3.2.3 HDFS文件的讀寫 63
3.2.4 HDFS的數(shù)據(jù)組織機制 63
3.2.5 HDFS的高可用性機制 66
3.3 HDFS Shell操作 68
3.3.1 Shell命令介紹 68
3.3.2 HDFS Shell幫助 68
3.3.3 文件操作命令 69
3.3.4 跨文件系統(tǒng)的交互操作命令 73
3.3.5 權(quán)限管理操作 74
3.4 習題 76
3.5 實訓 77
第4章 HDFS API編程 78
4.1 HDFS API概述 78
4.1.1 HDFS API簡介 78
4.1.2 HDFS Java API的一般用法 82
4.2 HDFS Java API客戶端編程 85
4.2.1 目錄與文件的創(chuàng)建 85
4.2.2 文件上傳與下載 87
4.2.3 數(shù)據(jù)流與文件讀寫操作 89
4.2.4 目錄與文件的重命名 93
4.2.5 目錄和文件的刪除 94
4.2.6 文件系統(tǒng)的狀態(tài)信息顯示 95
4.3 HDFS應(yīng)用舉例——云盤系統(tǒng)的實現(xiàn) 99
4.3.1 云盤系統(tǒng)分析 99
4.3.2 云盤系統(tǒng)設(shè)計 99
4.3.3 云盤系統(tǒng)實現(xiàn) 100
4.4 習題 104
4.5 實訓 104
第5章 Hadoop分布式計算框架 106
5.1 MapReduce概述 106
5.1.1 為什么需要MapReduce 106
5.1.2 MapReduce的優(yōu)勢 110
5.1.3 MapReduce的基本概念 111
5.1.4 MapReduce框架 112
5.1.5 MapReduce發(fā)展 114
5.2 YARN運行機制 118
5.2.1 YARN組成結(jié)構(gòu) 118
5.2.2 YARN通信協(xié)議 120
5.2.3 YARN工作流程 121
5.3 數(shù)據(jù)的混洗處理 123
5.3.1 map端 124
5.3.2 reduce端 125
5.4 作業(yè)的調(diào)度 125
5.4.1 FIFO調(diào)度器 126
5.4.2 Capacity調(diào)度器 126
5.4.3 Fair調(diào)度器 127
5.4.4 調(diào)度器的比較 128
5.5 任務(wù)的執(zhí)行 129
5.5.1 推測執(zhí)行 129
5.5.2 JVM重用 130
5.5.3 跳過壞記錄 130
5.6 失敗處理機制 130
5.6.1 任務(wù)運行失敗 130
5.6.2 ApplicationMaster運行失敗 131
5.6.3 NodeManager運行失敗 131
5.6.4 ResourceManager運行失敗 132
5.6.5 日志文件 133
5.7 MapReduce示例演示——WordCount 133
5.8 習題 136
第6章 MapReduce API編程 137
6.1 MapReduce API概述 137
6.1.1 MapReduce API簡介 137
6.1.2 MapReduce API編程思路 140
6.2 MapReduce的數(shù)據(jù)類型 146
6.2.1 序列化 146
6.2.2 Writable接口 146
6.2.3 Writable類 148
6.3 MapReduce的輸入 153
6.3.1 輸入分片 153
6.3.2 文件輸入 154
6.3.3 文本輸入 156
6.3.4 二進制輸入 157
6.3.5 多個輸入 158
6.3.6 數(shù)據(jù)庫輸入 159
6.4 MapReduce的輸出 159
6.4.1 文本輸出 160
6.4.2 二進制輸出 160
6.4.3 多個輸出 160
6.4.4 延遲輸出 161
6.4.5 數(shù)據(jù)庫輸出 161
6.5 MapReduce的任務(wù) 161
6.5.1 map任務(wù) 162
6.5.2 combine任務(wù) 163
6.5.3 partition任務(wù) 164
6.5.4 reduce任務(wù) 164
6.5.5 任務(wù)的配置與執(zhí)行 165
6.6 MapReduce應(yīng)用舉例——倒排索引 168
6.6.1 功能介紹 168
6.6.2 準備數(shù)據(jù) 169
6.6.3 分析與設(shè)計 170
6.6.4 MapReduce編碼實現(xiàn) 171
6.6.5 測試結(jié)果 173
6.7 習題 174
6.8 實訓 175
第7章 MapReduce 高級編程 177
7.1 自定義數(shù)據(jù)類型 177
7.2 自定義輸入 輸出 183
7.2.1 RecordReader與RecordWriter 183
7.2.2 自定義輸入 188
7.2.3 自定義輸出 192
7.3 自定義Combiner Partitioner 194
7.3.1 自定義Combiner 194
7.3.2 自定義Partitioner 197
7.4 組合式計算作業(yè) 200
7.4.1 迭代式計算 200
7.4.2 依賴關(guān)系組合式計算 201
7.4.3 鏈式計算 202
7.5 MapReduce的特性 203
7.5.1 計數(shù)器 203
7.5.2 連接 210
7.6 MapReduce應(yīng)用舉例——成績分析
系統(tǒng)的實現(xiàn) 215
7.6.1 成績分析系統(tǒng)解析 215
7.6.2 成績分析系統(tǒng)功能設(shè)計 216
7.6.3 成績分析系統(tǒng)實現(xiàn) 216
7.7 習題 225
7.8 實訓 225
第8章 Spark概述 226
8.1 環(huán)境搭建 226
8.1.1 Scala的下載和安裝 227
8.1.2 Spark的下載與安裝 228
8.2 Spark簡介 231
8.2.1 Spark的發(fā)展 231
8.2.2 Spark的特點 232
8.2.3 Spark與Hadoop的關(guān)系 233
8.2.4 Spark的企業(yè)應(yīng)用 234
8.3 Spark大數(shù)據(jù)技術(shù)框架 235
8.3.1 Spark技術(shù)體系 235
8.3.2 四大組件概述 237
8.4 Spark 2.0 使用體驗 238
8.4.1 Spark入口 238
8.4.2 第一個Spark程序 239
8.5 Spark的數(shù)據(jù)模型 242
8.5.1 RDD介紹 242
8.5.2 RDD的處理過程 243
8.5.3 Transformation算子與使用 243
8.5.4 Action算子與使用 251
8.5.5 RDD分區(qū) 253
8.5.6 RDD的依賴關(guān)系 253
8.5.7 RDD的容錯支持 254
8.6 Spark任務(wù)調(diào)度 255
8.6.1 Spark應(yīng)用程序部署 255
8.6.2 Spark任務(wù)的調(diào)度機制 255
8.7 習題 256
8.8 實訓 257
第9章 Spark Streaming編程 258
9.1 Spark Streaming介紹 258
9.2 Spark Streaming工作機制 259
9.3 Spark的DStream流 262
9.3.1 DStream轉(zhuǎn)換 262
9.3.2 Window操作 263
9.3.3 DStream輸出 264
9.3.4 持久化與序列化 265
9.3.5 設(shè)置檢測點 266
9.4 Spark Streaming案例 267
9.5 集群處理與性能 270
9.6 習題 272
9.7 實訓 272
第10章 Spark SQL編程 273
10.1 Spark SQL概述 273
10.2 DataFrame 275
10.2.1 DataSet與DataFrame 275
10.2.2 反射機制獲取RDD內(nèi)
的Schema 276
10.2.3 編程接口指定Schema 277
10.3 數(shù)據(jù)源 278
10.3.1 一般load save方法 278
10.3.2 Parquet數(shù)據(jù)集 279
10.3.3 JSON數(shù)據(jù)集 280
10.3.4 JDBC數(shù)據(jù)集 281
10.3.5 DataFrame的案例 282
10.4 Spark Streaming與Spark SQL
綜合案例 285
10.5 習題 290
10.6 實訓 291
參考文獻 292

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號