注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫Spark入門與大數(shù)據(jù)分析實(shí)戰(zhàn)

Spark入門與大數(shù)據(jù)分析實(shí)戰(zhàn)

Spark入門與大數(shù)據(jù)分析實(shí)戰(zhàn)

定 價(jià):¥79.00

作 者: 遲殿委 李超
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302637981 出版時(shí)間: 2023-07-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《Spark入門與大數(shù)據(jù)分析實(shí)戰(zhàn)》基于Spark 3.3.1框架展開,系統(tǒng)介紹Spark生態(tài)系統(tǒng)各組件的操作,以及相應(yīng)的大數(shù)據(jù)分析方法?!禨park入門與大數(shù)據(jù)分析實(shí)戰(zhàn)》各章節(jié)均提供豐富的示例及其詳細(xì)的操作步驟,并配套示例源碼、PPT課件和教學(xué)大綱?!禨park入門與大數(shù)據(jù)分析實(shí)戰(zhàn)》共分11章,內(nèi)容包括Scala編程基礎(chǔ)、Spark框架全生態(tài)體驗(yàn)、Spark RDD、Spark SQL、Kafka、Spark Streaming、Spark ML、Spark GraphX、Redis等技術(shù)框架和應(yīng)用,并通過廣告點(diǎn)擊實(shí)時(shí)大數(shù)據(jù)分析和電影影評(píng)大數(shù)據(jù)分析兩個(gè)綜合項(xiàng)目進(jìn)行實(shí)戰(zhàn)提升?!禨park入門與大數(shù)據(jù)分析實(shí)戰(zhàn)》適合Spark框架初學(xué)者,既可以作為大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)應(yīng)用開發(fā)工程師的查詢手冊(cè),也可以作為高等院?;蚋呗毟邔S?jì)算機(jī)技術(shù)、軟件工程、數(shù)據(jù)科學(xué)與大數(shù)據(jù)科學(xué)、智能科學(xué)與技術(shù)、人工智能等專業(yè)大數(shù)據(jù)課程的教材。

作者簡(jiǎn)介

  遲殿委,計(jì)算機(jī)軟件與理論專業(yè)碩士,系統(tǒng)架構(gòu)設(shè)計(jì)師。有多年企業(yè)軟件研發(fā)經(jīng)驗(yàn)和豐富的JavaEE、大數(shù)據(jù)技術(shù)培訓(xùn)經(jīng)驗(yàn),熟練掌握J(rèn)avaEE與大數(shù)據(jù)全棧技術(shù)框架,擅長JavaEE系統(tǒng)架構(gòu)設(shè)計(jì)、大數(shù)據(jù)分析與挖掘。著有圖書《Hive入門與大數(shù)據(jù)分析實(shí)戰(zhàn)》《Hadoop大數(shù)據(jù)分析技術(shù)》《Hadoop Spark大數(shù)據(jù)分析實(shí)戰(zhàn)》《Spring Boot企業(yè)級(jí)開發(fā)實(shí)戰(zhàn)(視頻教學(xué)版)》《深入淺出Java編程》《Spring Boot Spring Cloud微服務(wù)開發(fā)》。

圖書目錄

第1章  Spark開發(fā)之Scala編程基礎(chǔ) 1
1.1  開發(fā)環(huán)境搭建 1
1.2  基礎(chǔ)語法 4
1.3  函數(shù) 7
1.4  控制語句 9
1.5  函數(shù)式編程 12
1.6  模式匹配 17
1.7  類和對(duì)象 18
1.8  異常處理 22
1.9  Trait(特征) 23
1.10  文件I/O 24
第2章  Spark框架全生態(tài)體驗(yàn) 26
2.1  Spark概述 26
2.1.1  關(guān)于Spark 26
2.1.2  Spark的基本概念 27
2.1.3  Spark集群模式 28
2.2  Linux環(huán)境搭建 33
2.2.1  VirtualBox虛擬機(jī)安裝 33
2.2.2  安裝Linux操作系統(tǒng) 35
2.2.3  SSH工具與使用 42
2.2.4  Linux統(tǒng)一設(shè)置 43
2.3  Hadoop安裝與配置 45
2.3.1  Hadoop安裝環(huán)境準(zhǔn)備 45
2.3.2  Hadoop偽分布式安裝 49
2.3.3  Hadoop完全分布式環(huán)境搭建 55
2.4  Spark安裝與配置 60
2.4.1  本地模式安裝 61
2.4.2  偽分布模式安裝 63
2.4.3  完全分布模式安裝 66
2.4.4  Spark on YARN 68
2.5  spark-submit 72
2.5.1  使用spark-submit提交 72
2.5.2  spark-submit參數(shù)說明 73
2.6  DataFrame 75
2.6.1  DataFrame概述 75
2.6.2  DataFrame的基礎(chǔ)應(yīng)用 77
2.7  Spark SQL 82
2.7.1  快速示例 83
2.7.2  read和write 87
2.8  Spark Streaming 89
2.9  共享變量 92
2.9.1  廣播變量 92
2.9.2  累加器 93
第3章  Spark RDD彈性分布式數(shù)據(jù)集 94
3.1  什么是RDD 94
3.2  RDD的主要屬性 95
3.3  RDD的特點(diǎn) 96
3.3.1  彈性 96
3.3.2  分區(qū) 96
3.3.3  只讀 96
3.3.4  依賴(血緣) 96
3.3.5  緩存 98
3.3.6  checkpoint 99
3.4  RDD的創(chuàng)建與處理過程 99
3.4.1  RDD的創(chuàng)建 99
3.4.2  RDD的處理過程 99
3.4.3  RDD的算子 100
3.4.4  常見的轉(zhuǎn)換算子 100
3.4.5  常見的行動(dòng)算子 105
第4章  Spark SQL結(jié)構(gòu)化數(shù)據(jù)文件處理 109
4.1  Spark SQL概述 109
4.1.1  什么是Spark SQL 109
4.1.2  Spark SQL的特點(diǎn) 110
4.1.3  什么是DataFrame 111
4.1.4  什么是DataSet 112
4.2  Spark SQL 編程 112
4.2.1  SparkSession 112
4.2.2  使用DataFrame進(jìn)行編程 113
4.2.3  使用DataSet進(jìn)行編程 118
4.2.4  DataFrame和DataSet之間的交互 120
4.2.5  使用IDEA創(chuàng)建Spark SQL程序 120
4.2.6  自定義Spark SQL函數(shù) 121
4.3  Spark SQL數(shù)據(jù)源 122
4.3.1  通用加載和保存函數(shù) 122
4.3.2  加載JSON文件 123
4.3.3  讀取Parquet文件 124
4.3.4  JDBC 124
第5章  Kafka實(shí)戰(zhàn) 127
5.1  Kafka的特點(diǎn) 128
5.2  Kafka術(shù)語 129
5.3  Kafka單機(jī)部署 130
5.4  Kafka集群部署 137
第6章  Spark Streaming實(shí)時(shí)計(jì)算 142
6.1  Spark Streaming概述 142
6.1.1  Spark Streaming是什么 142
6.1.2  Spark Streaming特點(diǎn) 143
6.1.3  Spark Streaming架構(gòu) 144
6.2  DStream入門 144
6.2.1  WordCount案例 145
6.2.2  WordCount案例解析 146
6.3  DStream創(chuàng)建 147
6.3.1  RDD隊(duì)列 147
6.3.2  自定義數(shù)據(jù)源 148
6.3.3  Kafka 數(shù)據(jù)源 150
6.4  DStream實(shí)戰(zhàn) 151
6.4.1  從端口讀取數(shù)據(jù) 151
6.4.2  FileStream 151
6.4.3  窗口函數(shù) 153
6.4.4  updateStateByKey 154
6.5  Structured Streaming 157
6.5.1  概述 157
6.5.2  快速示例 157
第7章  Spark ML機(jī)器學(xué)習(xí) 161
7.1  機(jī)器學(xué)習(xí) 161
7.2  Spark ML 163
7.3  典型機(jī)器學(xué)習(xí)流程介紹 163
7.3.1  提出問題 163
7.3.2  假設(shè)函數(shù) 164
7.3.3  損失函數(shù) 165
7.3.4  訓(xùn)練模型確定參數(shù) 166
7.4  經(jīng)典算法模型實(shí)戰(zhàn) 166
7.4.1  聚類算法實(shí)戰(zhàn) 166
7.4.2  回歸算法實(shí)戰(zhàn) 170
7.4.3  協(xié)同過濾算法實(shí)戰(zhàn) 172
7.4.4  分類算法實(shí)戰(zhàn) 178
第8章  Spark GraphX圖計(jì)算 183
8.1  Spark GraphX 183
8.2  Spark GraphX的抽象 184
8.3  Spark GraphX圖的構(gòu)建 185
8.4  Spark GraphX圖的計(jì)算模式 187
8.5  GraphX 3個(gè)主要算法實(shí)戰(zhàn) 189
8.6  GraphX綜合應(yīng)用項(xiàng)目實(shí)戰(zhàn) 192
第9章  Redis數(shù)據(jù)庫入門 200
9.1  Redis環(huán)境安裝 200
9.1.1  簡(jiǎn)介 200
9.1.2  安裝 201
9.1.3  Java客戶端 202
9.2  Redis常見數(shù)據(jù)類型 202
9.2.1  key 202
9.2.2  string類型 204
9.2.3  list 205
9.2.4  set 206
9.2.5  sorted set 208
9.2.6  hash 209
9.3  Redis排序 210
9.4  Redis事務(wù) 213
9.5  Redis發(fā)布訂閱及示例 216
9.6  Redis持久化 219
第10章  廣告點(diǎn)擊實(shí)時(shí)大數(shù)據(jù)分析項(xiàng)目實(shí)戰(zhàn) 221
10.1  項(xiàng)目環(huán)境準(zhǔn)備 221
10.2  數(shù)據(jù)生成模塊 226
10.3  從Kafka讀取數(shù)據(jù) 230
10.3.1  bean類AdsInfo 230
10.3.2  工具類MyKafkaUtil 230
10.3.3  從Kafka消費(fèi)數(shù)據(jù) 231
10.4  數(shù)據(jù)統(tǒng)計(jì)實(shí)現(xiàn) 233
10.4.1  每天每地區(qū)熱門廣告點(diǎn)擊率Top3 233
10.4.2  最近1小時(shí)內(nèi)廣告點(diǎn)擊量實(shí)時(shí)統(tǒng)計(jì) 234
第11章  電影影評(píng)大數(shù)據(jù)分析項(xiàng)目實(shí)戰(zhàn) 237
11.1  項(xiàng)目介紹 237
11.2  項(xiàng)目實(shí)現(xiàn) 238
11.2.1  公共代碼開發(fā) 241
11.2.2  平均評(píng)分最高的前10部電影 244
11.2.3  電影類別及其平均評(píng)分 247
11.2.4  評(píng)分次數(shù)最多的前10部電影 249

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)