注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)大數(shù)據(jù)技術(shù)入門(第2版)

大數(shù)據(jù)技術(shù)入門(第2版)

大數(shù)據(jù)技術(shù)入門(第2版)

定 價(jià):¥79.00

作 者: 楊正洪 著
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302547969 出版時(shí)間: 2020-02-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 387 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  目前國(guó)內(nèi)大數(shù)據(jù)市場(chǎng)繼續(xù)保持高速的發(fā)展態(tài)勢(shì),作者在與地方政府、證券金融公司的項(xiàng)目合作中發(fā)現(xiàn),他們對(duì)大數(shù)據(jù)技術(shù)很感興趣,并希望從大數(shù)據(jù)技術(shù)、采集、存儲(chǔ)、訪問、安全、分析與開發(fā)等方面得到指導(dǎo)和幫助。因此編寫了這本大數(shù)據(jù)技術(shù)的入門書。 本書共12章,以Hadoop和Spark框架為線索,比較全面地介紹了Hadoop技術(shù)、Spark技術(shù)、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)訪問、大數(shù)據(jù)采集、大數(shù)據(jù)管理、大數(shù)據(jù)分析、大數(shù)據(jù)開發(fā)、大數(shù)據(jù)環(huán)境自動(dòng)化部署(Docker和K8s)等內(nèi)容。 本書適合大數(shù)據(jù)技術(shù)初學(xué)者,政府、金融機(jī)構(gòu)的大數(shù)據(jù)應(yīng)用決策和技術(shù)人員、IT經(jīng)理、CTO、CIO等快速學(xué)習(xí)大數(shù)據(jù)技術(shù)。本書也可以作為高等院校和培訓(xùn)學(xué)校相關(guān)專業(yè)的培訓(xùn)教材。

作者簡(jiǎn)介

  楊正洪,畢業(yè)于美國(guó)State University of New York at Stony Brook,在美國(guó)硅谷從事AI和大數(shù)據(jù)相關(guān)研發(fā)工作 10 多年,華中科技大學(xué)和中國(guó)地質(zhì)大學(xué)客座教授,湖北省 2013 年海外引進(jìn)人才,擁有多項(xiàng)國(guó)家專利。參與了大數(shù)據(jù)和人工智能的國(guó)家標(biāo)準(zhǔn)的制定,在 2016 年參與了公安部主導(dǎo)的“信息安全技術(shù):大數(shù)據(jù)平臺(tái)安全管理產(chǎn)品安全技術(shù)要求”的國(guó)家標(biāo)準(zhǔn)制定。作者還是中關(guān)村海外智庫(kù)專家顧問和住建部中規(guī)院專家顧問,擔(dān)任了在美上市公司 CTO、北京某國(guó)企 CIO 和上海某國(guó)企高級(jí)副總裁等職。多年從事人工智能與大數(shù)據(jù)技術(shù)的工作,出版了《智慧城市》等多本書籍。

圖書目錄

目 錄
第1章 大數(shù)據(jù)時(shí)代 1
1.1 什么是大數(shù)據(jù) 1
1.1.1 四大特征 2
1.1.2 數(shù)據(jù)監(jiān)管(Data Governance) 3
1.1.3 數(shù)據(jù)質(zhì)量 4
1.1.4 大數(shù)據(jù)分析 4
1.1.5 大數(shù)據(jù)平臺(tái)架構(gòu) 5
1.2 大數(shù)據(jù)與云計(jì)算的關(guān)系 6
1.2.1 云計(jì)算產(chǎn)品概述 6
1.2.2 虛擬服務(wù)器 7
1.2.3 云存儲(chǔ) 11
1.3 Hadoop和云平臺(tái)的應(yīng)用實(shí)例 12
1.3.1 云平臺(tái)層面配置 12
1.3.2 大數(shù)據(jù)平臺(tái)層面配置 14
1.4 數(shù)據(jù)湖(Data Lake) 16
1.5 企業(yè)如何走向大數(shù)據(jù) 17
1.5.1 業(yè)務(wù)價(jià)值維度 18
1.5.2 數(shù)據(jù)維度 18
1.5.3 現(xiàn)有IT環(huán)境和成本維度 19
1.5.4 數(shù)據(jù)治理維度 20
第2章 大數(shù)據(jù)軟件框架 21
2.1 Hadoop框架 21
2.1.1 HDFS(分布式文件系統(tǒng)) 22
2.1.2 MapReduce(分布式計(jì)算框架) 23
2.1.3 YARN(集群資源管理器) 28
2.2 Spark(內(nèi)存計(jì)算框架) 30
2.2.1 Spark SQL 31
2.2.2 Spark Streaming 32
2.3 實(shí)時(shí)流處理框架 34
2.4 云端消息隊(duì)列 34
2.5 框架的選擇 35
2.6 Hadoop發(fā)行版 36
2.7 Mac上安裝Hadoop 37
2.7.1 在Mac上安裝Hadoop 37
2.7.2 安裝MySQL和Hive 41
2.8 Linux上安裝Hadoop 44
2.8.1 配置Java環(huán)境 45
2.8.2 安裝ntp和Python 47
2.8.3 安裝和配置openssl 47
2.8.4 配置SSH無密碼訪問 47
2.8.5 安裝Ambari和HDP 48
2.8.6 啟動(dòng)和停止服務(wù) 52
2.9 AWS云平臺(tái)上安裝Hadoop 54
第3章 大數(shù)據(jù)集群 57
3.1 集群實(shí)例分析 57
3.2 YARN 67
3.2.1 架構(gòu)組成 68
3.2.2 YARN執(zhí)行流程 71
3.3 資源的調(diào)度器 75
3.3.1 Capacity Scheduler 76
3.3.2 Fair Scheduler 78
3.3.3 資源調(diào)度實(shí)例分析 81
3.3.4 內(nèi)存和CPU資源調(diào)度 84
3.4 深入研究Resource Manager 88
3.5 集群配置文件總覽 91
3.5.1 yarn-site.xml 91
3.5.2 mapred-site.xml 94
3.6 自動(dòng)伸縮(Auto Scaling)集群 97
3.7 遷移Hadoop集群 97
3.8 增加Instance 99
第4章 大數(shù)據(jù)存儲(chǔ):文件系統(tǒng)和云存儲(chǔ) 100
4.1 HDFS shell命令 100
4.2 配置HDFS 102
4.2.1 配置文件 102
4.2.2 多節(jié)點(diǎn)配置 103
4.3 HDFS API編程 104
4.3.1 讀取HDFS文件內(nèi)容 105
4.3.2 寫HDFS文件內(nèi)容 108
4.3.3 WebHDFS 108
4.4 HDFS API總結(jié) 110
4.4.1 Configuration類 110
4.4.2 FileSystem抽象類 111
4.4.3 Path類 111
4.4.4 FSDataInputStream類 111
4.4.5 FSDataOutputStream類 112
4.4.6 IOUtils類 112
4.4.7 FileStatus類 112
4.4.8 FsShell類 112
4.4.9 ChecksumFileSystem抽象類 112
4.4.10 其他的HDFS API實(shí)例 113
4.4.11 綜合實(shí)例 115
4.5 HDFS文件格式 118
4.5.1 SequenceFile 118
4.5.2 TextFile(文本格式) 118
4.5.3 RCFile 118
4.5.4 Avro 120
4.6 云存儲(chǔ)S3 120
4.6.1 S3基本概念 121
4.6.2 S3管理控制臺(tái) 122
4.6.3 S3 CLI 126
4.6.4 S3 SDK 127
4.6.5 分區(qū) 129
4.6.6 與EBS的比較 129
4.6.7 與Glacier的比較 129
第5章 大數(shù)據(jù)存儲(chǔ):數(shù)據(jù)庫(kù) 130
5.1 NoSQL 130
5.2 HBase概述 131
5.2.1 HBase表結(jié)構(gòu) 132
5.2.2 HBase系統(tǒng)架構(gòu) 135
5.2.3 啟動(dòng)并操作HBase數(shù)據(jù)庫(kù) 136
5.2.4 HBase Shell工具 139
5.3 HBase編程 142
5.3.1 增刪改查API 142
5.3.2 過濾器 146
5.3.3 計(jì)數(shù)器 149
5.3.4 原子操作 149
5.3.5 管理API 149
5.4 其他NoSQL數(shù)據(jù)庫(kù) 151
5.4.1 Cassandra 151
5.4.2 Impala 151
5.4.3 DynamoDB 151
5.4.4 Redshift 151
5.5 云數(shù)據(jù)庫(kù) 152
5.5.1 什么是RDS 152
5.5.2 創(chuàng)建云數(shù)據(jù)庫(kù) 152
5.5.3 查看云數(shù)據(jù)庫(kù)信息 156
5.5.4 何時(shí)使用云端數(shù)據(jù)庫(kù) 159
第6章 大數(shù)據(jù)訪問:SQL引擎層 160
6.1 Phoenix 161
6.1.1 安裝和配置Phoenix 161
6.1.2 在Eclipse上開發(fā)Phoenix程序 165
6.1.3 Phoenix SQL工具 169
6.1.4 Phoenix SQL語法 170
6.2 Hive 171
6.2.1 Hive架構(gòu) 172
6.2.2 安裝Hive 173
6.2.3 Hive CLI 175
6.2.4 Hive數(shù)據(jù)類型 175
6.2.5 Hive文件格式 177
6.2.6 Hive表定義 179
6.2.7 Hive加載數(shù)據(jù) 183
6.2.8 Hive查詢數(shù)據(jù) 184
6.2.9 Hive UDF 186
6.2.10 Hive視圖 188
6.2.11 HiveServer2 189
6.2.12 hive-site.xml需要的配置 195
6.2.13 HBase集成 200
6.2.14 XML和JSON數(shù)據(jù) 200
6.2.15 使用TEZ 201
6.2.16 Hive MetaStore 203
6.2.17 綜合示例 204
6.3 Pig 206
6.3.1 Pig語法 207
6.3.2 Pig和Hive的使用場(chǎng)景之比較 210
6.4 ElasticSearch(全文搜索引擎) 211
6.4.1 全文索引的基礎(chǔ)知識(shí) 211
6.4.2 安裝和配置ElasticSearch 213
6.4.3 ElasticSearch API 215
6.5 Presto 217
第7章 大數(shù)據(jù)采集和導(dǎo)入 218
7.1 Flume 220
7.1.1 Flume架構(gòu) 220
7.1.2 Flume事件 221
7.1.3 Flume源 221
7.1.4 Flume攔截器(Interceptor) 222
7.1.5 Flume通道選擇器(Channel Selector) 223
7.1.6 Flume通道 224
7.1.7 Flume接收器 225
7.1.8 負(fù)載均衡和單點(diǎn)失敗 226
7.1.9 Flume監(jiān)控管理 227
7.1.10 Flume實(shí)例 227
7.2 Kafka 229
7.2.1 Kafka架構(gòu) 229
7.2.2 Kafka與JMS的異同 230
7.2.3 Kafka性能考慮 231
7.2.4 消息傳送機(jī)制 231
7.2.5 Kafka和Flume的比較 232
7.3 Sqoop 232
7.3.1 從數(shù)據(jù)庫(kù)導(dǎo)入HDFS 233
7.3.2 增量導(dǎo)入 235
7.3.3 將數(shù)據(jù)從Oracle導(dǎo)入Hive 235
7.3.4 將數(shù)據(jù)從Oracle導(dǎo)入HBase 235
7.3.5 導(dǎo)入所有表 236
7.3.6 從HDFS導(dǎo)出數(shù)據(jù) 236
7.3.7 數(shù)據(jù)驗(yàn)證 237
7.3.8 其他Sqoop功能 237
7.4 Storm 238
7.4.1 Storm基本概念 238
7.4.2 Spout 240
7.4.3 Bolt 241
7.4.4 拓?fù)浣Y(jié)構(gòu) 243
7.4.5 Storm總結(jié) 244
7.5 Amazon Kinesis 245
7.6 其他工具 246
7.6.1 Embulk 246
7.6.2 Fluentd 247
第8章 大數(shù)據(jù)安全管控 250
8.1 數(shù)據(jù)主權(quán)和合規(guī)性 250
8.2 云端安全 251
8.2.1 身份驗(yàn)證和訪問權(quán)限 251
8.2.2 角色 253
8.2.3 虛擬網(wǎng)絡(luò) 254
8.2.4 安全組 255
8.3 云端監(jiān)控 256
8.3.1 跟蹤和審計(jì) 256
8.3.2 監(jiān)控 257
8.3.3 基于Datadog的監(jiān)控 259
8.4 云端備份和恢復(fù) 262
8.5 大數(shù)據(jù)安全 262
8.5.1 Kerberos 263
8.5.2 Apache Ranger 263
8.5.3 應(yīng)用端安全 267

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)