注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書教育/教材/教輔教材職業(yè)技術培訓教材大數(shù)據(jù)平臺技術實例教程

大數(shù)據(jù)平臺技術實例教程

大數(shù)據(jù)平臺技術實例教程

定 價:¥59.00

作 者: 鄭嘯
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121453816 出版時間: 2022-12-01 包裝: 平塑勒
開本: 頁數(shù): 字數(shù):  

內(nèi)容簡介

  本書通過大量實例介紹大數(shù)據(jù)平臺技術,分4篇。大數(shù)據(jù)存儲篇包括第1~3章,內(nèi)容包括大數(shù)據(jù)技術概述、數(shù)據(jù)采集和大數(shù)據(jù)、大數(shù)據(jù)框架的安裝和配置;大數(shù)據(jù)管理篇包括第4~7章,內(nèi)容包括HDFS、Hadoop分布式計算模型、分布式協(xié)調服務ZooKeeper、Hadoop的集群資源管理系統(tǒng)YARN;大數(shù)據(jù)分析篇包括第8~10章,內(nèi)容包括數(shù)據(jù)庫MySQL和數(shù)據(jù)倉庫Hive、NoSQL數(shù)據(jù)庫HBase、基于內(nèi)存的分布式計算框架Spark;大數(shù)據(jù)應用篇包括第11、12章,內(nèi)容包括數(shù)據(jù)可視化、大數(shù)據(jù)應用綜合案例。 本書可作為高等學校數(shù)據(jù)科學與大數(shù)據(jù)技術、計算機科學與技術、人工智能等理工類專業(yè)大數(shù)據(jù)平臺技術課程的教材,也可供廣大計算機愛好者及軟件開發(fā)人員參考。

作者簡介

  鄭嘯,安徽工業(yè)大學教授,博士畢業(yè)于東南大學計算機應用技術專業(yè),碩士生導師,安徽省高等學校優(yōu)秀中青年骨干教師。主攻方向為計算機網(wǎng)絡、工業(yè)互聯(lián)網(wǎng)、云計算與服務計算、數(shù)據(jù)隱私保護。

圖書目錄

目錄
第1篇 大數(shù)據(jù)存儲篇

第1章 大數(shù)據(jù)技術概述 1
1.1 大數(shù)據(jù)源起和應用 1
1.2 大數(shù)據(jù)技術框架 2
1.3 大數(shù)據(jù)就業(yè)崗位 5
1.4 大數(shù)據(jù)的特點 8
1.5 大數(shù)據(jù)的深遠影響 9
1.6 大數(shù)據(jù)的意義和發(fā)展目標 9
1.7 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)、
人工智能的關系 10
1.8 教材在線資源及使用說明 12
1.9 本章思維導圖 14
1.10 習題 14
第2章 數(shù)據(jù)采集和大數(shù)據(jù) 15
2.1 數(shù)據(jù)采集和ETL 15
2.2 網(wǎng)絡爬蟲 15
2.2.1 通用網(wǎng)絡爬蟲與聚焦網(wǎng)絡
爬蟲 16
2.2.2 網(wǎng)絡爬蟲的工作過程 16
2.3 Python常用開發(fā)工具簡介 16
2.3.1 Python開發(fā)環(huán)境搭建 17
2.3.2 開發(fā)工具PyCharm 17
2.3.3 開發(fā)工具Jupyter Notebook 17
2.4 Python語言簡介 18
2.4.1 Python常見的數(shù)據(jù)類型 18
2.4.2 NumPy庫 22
2.5 基于Python的網(wǎng)絡爬蟲應用
實例 25
2.5.1 Urllib庫介紹 25
2.5.2 數(shù)據(jù)采集和ETL實例 28
2.6 本章思維導圖 32
2.7 習題 32
第3章 大數(shù)據(jù)框架的安裝和配置 33
3.1 大數(shù)據(jù)框架配置環(huán)境 33
3.2 Linux操作系統(tǒng)介紹 34
3.2.1 Linux的發(fā)展歷史 34
3.2.2 Linux版本特點 35
3.2.3 Linux版本選擇 36
3.3 Linux終端常見命令 37
3.3.1 基本命令 37
3.3.2 目錄操作命令 38
3.3.3 文件操作命令 41
3.3.4 系統(tǒng)工作命令 51
3.3.5 其他常見命令 54
3.4 虛擬機的使用 57
3.5 遠程登錄工具配置 57
3.6 Hadoop偽分布式安裝和使用 58
3.6.1 環(huán)境配置 58
3.6.2 配置SSH免密登錄 58
3.6.3 配置JDK 58
3.6.4 Hadoop偽分布式配置 59
3.6.5 運行WordCount實例 60
3.7 本章思維導圖 61
3.8 習題 62


第2篇 大數(shù)據(jù)管理篇

第4章 HDFS 63
4.1 引言 63
4.2 HDFS基礎知識 64
4.2.1 HDFS的特點 65
4.2.2 HDFS的優(yōu)缺點 65
4.2.3 HDFS的核心概念 66
4.2.4 HDFS執(zhí)行流程 66
4.3 HDFS的常用Shell命令 68
4.4 Hadoop中HDFS的Web管理
界面 72
4.5 基于Java API的HDFS操作 73
4.5.1 實驗環(huán)境配置 74
4.5.2 案例實現(xiàn) 76
4.6 本章思維導圖 78
4.7 習題 78
第5章 Hadoop分布式計算模型 79
5.1 完全分布式環(huán)境配置 79
5.2 完全分布式配置步驟 80
5.3 MapReduce計算模型 83
5.4 Mapper-Reducer實例 84
5.4.1 實驗準備 84
5.4.2 案例實現(xiàn) 84
5.5 本章思維導圖 89
5.6 習題 89
第6章 分布式協(xié)調服務ZooKeeper 90
6.1 高可靠性大數(shù)據(jù)框架配置 90
6.2 ZooKeeper簡介 91
6.3 ZooKeeper的常用命令 92
6.4 ZooKeeper的安裝與運行 93
6.5 本章思維導圖 95
6.6 習題 95
第7章 Hadoop的集群資源管理系統(tǒng)
YARN 96
7.1 Hadoop資源管理配置 96
7.2 YARN簡介 97
7.3 YARN的工作流程 98
7.4 YARN的安裝與運行 99
7.5 本章思維導圖 100
7.6 習題 101
第3篇 大數(shù)據(jù)分析篇

第8章 數(shù)據(jù)庫MySQL和數(shù)據(jù)倉庫
Hive 102
8.1 基于Hive的大數(shù)據(jù)分析
配置 102
8.2 Hive的意義和應用 103
8.3 Hive和數(shù)據(jù)庫的異同 104
8.4 Hive的架構模式及其執(zhí)行 106
8.5 MySQL的安裝和使用 108
8.5.1 MySQL數(shù)據(jù)庫簡介 108
8.5.2 安裝MySQL 109
8.5.3 MySQL的基本操作 109
8.6 Hive的安裝 114
8.7 Hive表的操作 114
8.7.1 內(nèi)部表和外部表 114
8.7.2 Hive表的操作 115
8.8 典型內(nèi)置函數(shù)與自定義函數(shù) 118
8.8.1 空值轉換函數(shù)nvl 118
8.8.2 case when和sum函數(shù)的綜合
應用 119
8.8.3 UDAF聚合函數(shù)concat 121
8.8.4 UDTF炸裂函數(shù)explode 123
8.8.5 窗口函數(shù) 124
8.8.6 自定義函數(shù)實例 127
8.9 本章思維導圖 131
8.10 習題 131
第9章 NoSQL數(shù)據(jù)庫HBase 132
9.1 大數(shù)據(jù)框架的數(shù)據(jù)庫存儲
配置 132
9.2 NoSQL概念和分類 133
9.3 HBase數(shù)據(jù)庫 134
9.3.1 HBase數(shù)據(jù)模型 135
9.3.2 HBase體系架構及組件 136
9.4 HBase的安裝 137
9.4.1 偽分布式 137
9.4.2 完全分布式 137
9.4.3 HBase的啟動和關閉 138
9.4.4 HBase的網(wǎng)頁端 139
9.5 HBase的Shell操作 141
9.6 基于Java API訪問HBase
實例 146
9.6.1 準備工作 146
9.6.2 Eclipse環(huán)境下編程 146
9.7 HBase綜合實例 150
9.8 本章思維導圖 157
9.9 習題 157
第10章 基于內(nèi)存的分布式計算
框架Spark 158
10.1 基于Spark的大數(shù)據(jù)分析框架
配置 158
10.2 Spark基礎知識 159
10.2.1 Spark的特點 159
10.2.2 Spark和Hadoop的比較 160
10.2.3 RDD的概念 161
10.2.4 Spark的運行機制 161
10.2.5 Spark的運行模式 163
10.3 Spark的安裝和使用 164
10.3.1 Spark安裝 164
10.3.2 Python 3和Jupyter安裝 165
10.3.3 啟動PySpark 166
10.4 Spark的常用操作 168
10.5 Spark SQL的應用 174
10.6 Spark綜合應用實例 178
10.7 Spark的機器學習 179
10.7.1 MLlib 179
10.7.2 Scala語言 180
10.7.3 MLlib的機器學習算法 181
10.7.4 Spark的機器學習流程 183
10.8 本章思維導圖 194
10.9 習題 194
第4篇 大數(shù)據(jù)應用篇

第11章 數(shù)據(jù)可視化 195
11.1 可視化分析展示配置 195
11.2 數(shù)據(jù)可視化概述 195
11.3 數(shù)據(jù)可視化繪圖 197
11.3.1 繪制折線圖 197
11.3.2 繪制柱狀圖 198
11.3.3 繪制直方圖 199
11.3.4 繪制散點圖 200
11.3.5 繪制餅圖 201
11.3.6 繪制極坐標圖 202
11.3.7 繪制雷達圖 203
11.3.8 繪制熱力圖 205
11.3.9 繪制3D圖 206
11.4 綜合實例—鳶尾花數(shù)據(jù)集的
可視化分析 207
11.4.1 實驗環(huán)境搭建 207
11.4.2 數(shù)據(jù)集介紹 208
11.4.3 數(shù)據(jù)可視化 208
11.5 本章思維導圖 217
11.6 習題 217
第12章 大數(shù)據(jù)應用綜合案例 218
12.1 醫(yī)療大數(shù)據(jù)應用框架配置 218
12.2 案例概述 218
12.2.1 背景和意義 218
12.2.2 預備知識 220
12.2.3 技術方案 223
12.3 準備數(shù)據(jù)和開發(fā)環(huán)境配置 224
12.3.1 實驗環(huán)境安裝簡述 224
12.3.2 Sqoop的安裝和使用 225
12.3.3 數(shù)據(jù)集介紹 225
12.4 數(shù)據(jù)探索性分析 226
12.5 數(shù)據(jù)遷移 235
12.6 數(shù)據(jù)預處理 239
12.7 數(shù)據(jù)建模與訓練 241
12.8 模型評估 244
12.8.1 特征重要性 244
12.8.2 混淆矩陣 245
12.8.3 評估指標 245
12.8.4 ROC曲線 247
12.9 本章思維導圖 248
12.10 習題 248
附錄A 教材實驗 249
實驗1:基于Python的數(shù)據(jù)抓取和
清洗 249
實驗2:基于Linux的Hadoop偽
分布式安裝和操作 250
實驗3:分布式Hadoop的配置和
使用 252
實驗4:基于數(shù)據(jù)倉庫Hive的數(shù)據(jù)
分析 253
實驗5:NoSQL數(shù)據(jù)庫HBase
使用 255
實驗6:基于分布式Spark框架的
編程 256
實驗7:綜合案例設計與實現(xiàn) 258
參考文獻 260

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號