注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)Hadoop構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐

Hadoop構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐

Hadoop構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐

定 價(jià):¥89.00

作 者: 王雪迎 著
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302469803 出版時(shí)間: 2017-06-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 434 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書講述在流行的大數(shù)據(jù)分布式存儲(chǔ)和計(jì)算平臺(tái)Hadoop上設(shè)計(jì)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù),將傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)建模與SQL開發(fā)的簡(jiǎn)單性與大數(shù)據(jù)技術(shù)相結(jié)合,快速、高效地建立可擴(kuò)展的數(shù)據(jù)倉(cāng)庫(kù)及其應(yīng)用系統(tǒng)?!”緯鴥?nèi)容包括數(shù)據(jù)倉(cāng)庫(kù)、Hadoop及其生態(tài)圈的相關(guān)概念,使用Sqoop從關(guān)系數(shù)據(jù)庫(kù)全量或增量抽取數(shù)據(jù),使用HIVE進(jìn)行數(shù)據(jù)轉(zhuǎn)換和裝載處理,使用Oozie調(diào)度作業(yè)周期性執(zhí)行,使用Impala進(jìn)行快速聯(lián)機(jī)數(shù)據(jù)分析,使用Hue將數(shù)據(jù)可視化,以及數(shù)據(jù)倉(cāng)庫(kù)中的漸變維(SCD)、代理鍵、角色扮演維度、層次維度、退化維度、無事實(shí)的事實(shí)表、遲到的事實(shí)、累積的度量等常見問題在Hadoop上的處理等?!”緯m合數(shù)據(jù)庫(kù)管理員、大數(shù)據(jù)技術(shù)人員、Hadoop技術(shù)人員、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)人員,也適合高等院校和培訓(xùn)機(jī)構(gòu)相關(guān)專業(yè)的師生教學(xué)參考。

作者簡(jiǎn)介

  王雪迎 ,畢業(yè)于中國(guó)地質(zhì)大學(xué)計(jì)算機(jī)專業(yè),高級(jí)工程師,擁有20年數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)相關(guān)技術(shù)經(jīng)驗(yàn)。曾先后供職于北京現(xiàn)代商業(yè)信息技術(shù)有限公司、北京在線九州信息技術(shù)服務(wù)有限公司、華北計(jì)算技術(shù)研究所、北京優(yōu)貝在線網(wǎng)絡(luò)科技有限公司,擔(dān)任DBA、數(shù)據(jù)架構(gòu)師等職位。

圖書目錄

第1章 數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介
1.1 什么是數(shù)據(jù)倉(cāng)庫(kù) 1
1.1.1 數(shù)據(jù)倉(cāng)庫(kù)的定義 1
1.1.2 建立數(shù)據(jù)倉(cāng)庫(kù)的原因 3
1.2 操作型系統(tǒng)與分析型系統(tǒng) 5
1.2.1 操作型系統(tǒng) 5
1.2.2 分析型系統(tǒng) 8
1.2.3 操作型系統(tǒng)和分析型系統(tǒng)對(duì)比 9
1.3 數(shù)據(jù)倉(cāng)庫(kù)架構(gòu) 10
1.3.1 基本架構(gòu) 10
1.3.2 主要數(shù)據(jù)倉(cāng)庫(kù)架構(gòu) 12
1.3.3 操作數(shù)據(jù)存儲(chǔ) 16
1.4 抽取-轉(zhuǎn)換-裝載 17
1.4.1 數(shù)據(jù)抽取 17
1.4.2 數(shù)據(jù)轉(zhuǎn)換 19
1.4.3 數(shù)據(jù)裝載 20
1.4.4 開發(fā)ETL系統(tǒng)的方法 21
1.4.5 常見ETL工具 21
1.5 數(shù)據(jù)倉(cāng)庫(kù)需求 22
1.5.1 基本需求 22
1.5.2 數(shù)據(jù)需求 23
1.6 小結(jié) 24
第2章 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)基礎(chǔ)
2.1 關(guān)系數(shù)據(jù)模型 25
2.1.1 關(guān)系數(shù)據(jù)模型中的結(jié)構(gòu) 25
2.1.2 關(guān)系完整性 28
2.1.3 規(guī)范化 30
2.1.4 關(guān)系數(shù)據(jù)模型與數(shù)據(jù)倉(cāng)庫(kù) 33
2.2 維度數(shù)據(jù)模型 34
2.2.1 維度數(shù)據(jù)模型建模過程 35
2.2.2 維度規(guī)范化 36
2.2.3 維度數(shù)據(jù)模型的特點(diǎn) 37
2.2.4 星型模式 38
2.2.5 雪花模式 40
2.3 Data Vault模型 42
2.3.1 Data Vault模型簡(jiǎn)介 42
2.3.2 Data Vault模型的組成部分 43
2.3.3 Data Vault模型的特點(diǎn) 44
2.3.4 Data Vault模型的構(gòu)建 44
2.3.5 Data Vault模型實(shí)例 46
2.4 數(shù)據(jù)集市 49
2.4.1 數(shù)據(jù)集市的概念 50
2.4.2 數(shù)據(jù)集市與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別 50
2.4.3 數(shù)據(jù)集市設(shè)計(jì) 50
2.5 數(shù)據(jù)倉(cāng)庫(kù)實(shí)施步驟 51
2.6 小結(jié) 54
第3章 Hadoop生態(tài)圈與數(shù)據(jù)倉(cāng)庫(kù)
3.1 大數(shù)據(jù)定義 55
3.2 Hadoop簡(jiǎn)介 56
3.2.1 Hadoop的構(gòu)成 57
3.2.2 Hadoop的主要特點(diǎn) 58
3.2.3 Hadoop架構(gòu) 58
3.3 Hadoop基本組件 59
3.3.1 HDFS 60
3.3.2 MapReduce 65
3.3.3 YARN 72
3.4 Hadoop生態(tài)圈的其他組件 77
3.5 Hadoop與數(shù)據(jù)倉(cāng)庫(kù) 81
3.5.1 關(guān)系數(shù)據(jù)庫(kù)的可擴(kuò)展性瓶頸 82
3.5.2 CAP理論 84
3.5.3 Hadoop數(shù)據(jù)倉(cāng)庫(kù)工具 85
3.6 小結(jié) 88
第4章 安裝Hadoop
4.1 Hadoop主要發(fā)行版本 89
4.1.1 Cloudera Distribution for Hadoop(CDH) 89
4.1.2 Hortonworks Data Platform(HDP) 90
4.1.3 MapR Hadoop 90
4.2 安裝Apache Hadoop 91
4.2.1 安裝環(huán)境 91
4.2.2 安裝前準(zhǔn)備 92
4.2.3 安裝配置Hadoop 93
4.2.4 安裝后配置 97
4.2.5 初始化及運(yùn)行 97
4.3 配置HDFS Federation 99
4.4 離線安裝CDH及其所需的服務(wù) 104
4.4.1 CDH安裝概述 104
4.4.2 安裝環(huán)境 106
4.4.3 安裝配置 106
4.4.4 Cloudera Manager許可證管理 114
4.5 小結(jié) 115
第5章 Kettle與Hadoop
5.1 Kettle概述 117
5.2 Kettle連接Hadoop 119
5.2.1 連接HDFS 119
5.2.2 連接Hive 124
5.3 導(dǎo)出導(dǎo)入Hadoop集群數(shù)據(jù) 128
5.3.1 把數(shù)據(jù)從HDFS抽取到RDBMS 128
5.3.2 向Hive表導(dǎo)入數(shù)據(jù) 132
5.4 執(zhí)行Hive的HiveQL語句 134
5.5 MapReduce轉(zhuǎn)換示例 135
5.6 Kettle提交Spark作業(yè) 143
5.6.1 安裝Spark 143
5.6.2 配置Kettle向Spark集群提交作業(yè) 146
5.7 小結(jié) 149
第6章 建立數(shù)據(jù)倉(cāng)庫(kù)示例模型
6.1 業(yè)務(wù)場(chǎng)景 150
6.2 Hive相關(guān)配置 152
6.2.1 選擇文件格式 152
6.2.2 支持行級(jí)更新 159
6.2.3 Hive事務(wù)支持的限制 164
6.3 Hive表分類 164
6.4 向Hive表裝載數(shù)據(jù) 169
6.5 建立數(shù)據(jù)庫(kù)表 174
6.6 裝載日期維度數(shù)據(jù) 179
6.7 小結(jié) 180
第7章 數(shù)據(jù)抽取
7.1 邏輯數(shù)據(jù)映射 182
7.2 數(shù)據(jù)抽取方式 185
7.3 導(dǎo)出成文本文件 191
7.4 分布式查詢 196
7.5 使用Sqoop抽取數(shù)據(jù) 200
7.5.1 Sqoop簡(jiǎn)介 200
7.5.2 CDH 5.7.0中的Sqoop 203
7.5.3 使用Sqoop抽取數(shù)據(jù) 203
7.5.4 Sqoop優(yōu)化 207
7.6 小結(jié) 208
第8章 數(shù)據(jù)轉(zhuǎn)換與裝載
8.1 數(shù)據(jù)清洗 210
8.2 Hive簡(jiǎn)介 214
8.2.1 Hive的體系結(jié)構(gòu) 215
8.2.2 Hive的工作流程 216
8.2.3 Hive服務(wù)器 218
8.2.4 Hive客戶端 221
8.3 初始裝載 231
8.4 定期裝載 236
8.5 Hive優(yōu)化 246
8.6 小結(jié) 254
第9章 定期自動(dòng)執(zhí)行ETL作業(yè)
9.1 crontab 256
9.2 Oozie簡(jiǎn)介 260
9.2.1 Oozie的體系結(jié)構(gòu) 260
9.2.2 CDH 5.7.0中的Oozie 262
9.3 建立定期裝載工作流 262
9.4 建立協(xié)調(diào)器作業(yè)定期自動(dòng)執(zhí)行工作流 271
9.5 Oozie優(yōu)化 275
9.6 小結(jié) 276
第10章 維度表技術(shù)
10.1 增加列 278
10.2 維度子集 285
10.3 角色扮演維度 292
10.4 層次維度 298
10.4.1 固定深度的層次 299
10.4.2 遞歸 302
10.4.3 多路徑層次 310
10.4.4 參差不齊的層次 312
10.5 退化維度 313
10.6 雜項(xiàng)維度 316
10.7 維度合并 323
10.8 分段維度 329
10.9 小結(jié) 335
第11章 事實(shí)表技術(shù)
11.1 事實(shí)表概述 336
11.2 周期快照 337
11.3 累積快照 343
11.4 無事實(shí)的事實(shí)表 349
11.5 遲到的事實(shí) 354
11.6 累積度量 360
11.7 小結(jié) 366
第12章 聯(lián)機(jī)分析處理
12.1 聯(lián)機(jī)分析處理簡(jiǎn)介 367
12.1.1 概念 367
12.1.2 分類 368
12.1.3 性能 371
12.2 Impala簡(jiǎn)介 371
12.3 Hive、SparkSQL、Impala比較 377
12.3.1 Spark SQL簡(jiǎn)介 377
12.3.2 Hive、Spark SQL、Impala比較 379
12.3.3 Hive、Spark SQL、Impala性能對(duì)比 382
12.4 聯(lián)機(jī)分析處理實(shí)例 387
12.5 Apache Kylin與OLAP 399
12.5.1 Apache Kylin架構(gòu) 399
12.5.2 Apache Kylin安裝 401
12.6 小結(jié) 407
第13章 數(shù)據(jù)可視化
13.1 數(shù)據(jù)可視化簡(jiǎn)介 408
13.2 Hue簡(jiǎn)介 410
13.2.1 Hue功能快速預(yù)覽 411
13.2.2 配置元數(shù)據(jù)存儲(chǔ) 412
13.3 Zeppelin簡(jiǎn)介 415
13.3.1 Zeppelin架構(gòu) 415
13.3.2 Zeppelin安裝配置 416
13.3.3 在Zeppelin中添加MySQL翻譯器 421
13.4 Hue、Zeppelin比較 425
13.5 數(shù)據(jù)可視化實(shí)例 426
13.6 小結(jié) 434

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)