定 價(jià):¥98.00
作 者: | 王雪迎 著 |
出版社: | 清華大學(xué)出版社 |
叢編項(xiàng): | |
標(biāo) 簽: | 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 數(shù)據(jù)庫(kù) |
ISBN: | 9787302498025 | 出版時(shí)間: | 2018-03-01 | 包裝: | 平裝 |
開(kāi)本: | 16開(kāi) | 頁(yè)數(shù): | 578 | 字?jǐn)?shù): |
目 錄
*部分 HAWQ技術(shù)解析
第1章 HAWQ概述 3
1.1 SQL-on-Hadoop 3
1.1.1 對(duì)SQL-on-Hadoop的期待 3
1.1.2 SQL-on-Hadoop的實(shí)現(xiàn)方式 4
1.2 HAWQ簡(jiǎn)介 6
1.2.1 歷史與現(xiàn)狀 7
1.2.2 功能特性 7
1.3 HAWQ系統(tǒng)架構(gòu) 9
1.3.1 系統(tǒng)架構(gòu) 10
1.3.2 內(nèi)部架構(gòu) 11
1.4 為什么選擇HAWQ 12
1.4.1 常用SQL-on-Hadoop產(chǎn)品的不足 12
1.4.2 HAWQ的可行性 13
1.4.3 適合DBA的解決方案 18
1.5 小結(jié) 18
第2章 HAWQ安裝部署 19
2.1 安裝規(guī)劃 19
2.1.1 選擇安裝介質(zhì) 19
2.1.2 選擇HAWQ版本 20
2.1.3 確認(rèn)Ambari與HDP的版本兼容性 20
2.2 安裝前準(zhǔn)備 21
2.2.1 確認(rèn)*小系統(tǒng)需求 21
2.2.2 準(zhǔn)備系統(tǒng)安裝環(huán)境 22
2.2.3 建立本地Repository 24
2.3 安裝Ambari 25
2.4 安裝HDP集群 27
2.5 安裝HAWQ 29
2.6 啟動(dòng)與停止HAWQ 34
2.6.1 基本概念 34
2.6.2 操作環(huán)境 34
2.6.3 基本操作 36
2.7 小結(jié) 40
第3章 連接管理 41
3.1 配置客戶端身份認(rèn)證 41
3.2 管理角色與權(quán)限 45
3.2.1 HAWQ中的角色與權(quán)限 45
3.2.2 管理角色及其成員 46
3.2.3 管理對(duì)象權(quán)限 48
3.2.4 口令加密 49
3.3 psql連接HAWQ 50
3.4 Kettle連接HAWQ 52
3.5 連接常見(jiàn)問(wèn)題 55
3.6 小結(jié) 56
第4章 數(shù)據(jù)庫(kù)對(duì)象管理 57
4.1 創(chuàng)建和管理數(shù)據(jù)庫(kù) 57
4.2 創(chuàng)建和管理表空間 61
4.3 創(chuàng)建和管理模式 65
4.4 創(chuàng)建和管理表 72
4.4.1 創(chuàng)建表 72
4.4.2 刪除表 74
4.4.3 查看表對(duì)應(yīng)的HDFS文件 74
4.5 創(chuàng)建和管理視圖 76
4.6 管理其他對(duì)象 77
4.7 小結(jié) 78
第5章 分區(qū)表 79
5.1 HAWQ中的分區(qū)表 79
5.2 確定分區(qū)策略 80
5.3 創(chuàng)建分區(qū)表 81
5.3.1 范圍分區(qū)與列表分區(qū) 81
5.3.2 多級(jí)分區(qū) 86
5.3.3 對(duì)已存在的非分區(qū)表進(jìn)行分區(qū) 86
5.4 分區(qū)消除 87
5.5 分區(qū)表維護(hù) 91
5.6 小結(jié) 98
第6章 存儲(chǔ)管理 99
6.1 數(shù)據(jù)存儲(chǔ)選項(xiàng) 99
6.2 數(shù)據(jù)分布策略 103
6.2.1 數(shù)據(jù)分布策略概述 103
6.2.2 選擇數(shù)據(jù)分布策略 104
6.2.3 數(shù)據(jù)分布用法 108
6.3 從已有的表創(chuàng)建新表 111
6.4 小結(jié) 117
第7章 資源管理 118
7.1 HAWQ資源管理概述 118
7.1.1 全局資源管理 118
7.1.2 HAWQ資源隊(duì)列 119
7.1.3 資源管理器配置原則 119
7.2 配置獨(dú)立資源管理器 120
7.3 整合YARN 123
7.4 管理資源隊(duì)列 129
7.5 查詢資源管理器狀態(tài) 134
7.6 小結(jié) 137
第8章 數(shù)據(jù)管理 138
8.1 基本數(shù)據(jù)操作 138
8.2 數(shù)據(jù)裝載與卸載 141
8.2.1 gpfdist協(xié)議及其外部表 141
8.2.2 基于Web的外部表 148
8.2.3 使用外部表裝載數(shù)據(jù) 151
8.2.4 外部表錯(cuò)誤處理 151
8.2.5 使用hawq load裝載數(shù)據(jù) 152
8.2.6 使用COPY復(fù)制數(shù)據(jù) 155
8.2.7 卸載數(shù)據(jù) 157
8.2.8 hawq register 159
8.2.9 格式化數(shù)據(jù)文件 159
8.3 數(shù)據(jù)庫(kù)統(tǒng)計(jì) 163
8.3.1 系統(tǒng)統(tǒng)計(jì) 163
8.3.2 統(tǒng)計(jì)配置 166
8.4 PXF 168
8.4.1 安裝配置PXF 168
8.4.2 PXF profile 168
8.4.3 訪問(wèn)HDFS文件 170
8.4.4 訪問(wèn)Hive數(shù)據(jù) 174
8.4.5 訪問(wèn)JSON數(shù)據(jù) 186
8.4.6 向HDFS中寫(xiě)入數(shù)據(jù) 190
8.5 小結(jié) 194
第9章 過(guò)程語(yǔ)言 195
9.1 HAWQ內(nèi)建SQL語(yǔ)言 195
9.2 PL/pgSQL函數(shù) 197
9.3 給HAWQ內(nèi)部函數(shù)起別名 198
9.4 表函數(shù) 198
9.5 參數(shù)個(gè)數(shù)可變的函數(shù) 201
9.6 多態(tài)類型 202
9.7 UDF管理 205
9.8 UDF實(shí)例——遞歸樹(shù)形遍歷 207
9.9 小結(jié) 214
第10章 查詢優(yōu)化 215
10.1 HAWQ的查詢處理流程 215
10.2 GPORCA查詢優(yōu)化器 217
10.2.1 GPORCA的改進(jìn) 218
10.2.2 啟用GPORCA 224
10.2.3 使用GPORCA需要考慮的問(wèn)題 225
10.2.4 GPORCA的限制 227
10.3 性能優(yōu)化 228
10.4 查詢剖析 232
10.5 小結(jié) 238
第11章 高可用性 239
11.1 備份與恢復(fù) 239
11.1.1 備份方法 239
11.1.2 備份與恢復(fù)示例 242
11.2 高可用性 247
11.2.1 HAWQ高可用簡(jiǎn)介 247
11.2.2 Master節(jié)點(diǎn)鏡像 248
11.2.3 HAWQ文件空間與HDFS高可用 251
11.2.4 HAWQ容錯(cuò)服務(wù) 260
11.3 小結(jié) 262
第二部分 HAWQ實(shí)戰(zhàn)演練
第12章 建立數(shù)據(jù)倉(cāng)庫(kù)示例模型 265
12.1 業(yè)務(wù)場(chǎng)景 265
12.2 數(shù)據(jù)倉(cāng)庫(kù)架構(gòu) 267
12.3 實(shí)驗(yàn)環(huán)境 268
12.4 HAWQ相關(guān)配置 269
12.5 創(chuàng)建示例數(shù)據(jù)庫(kù) 273
12.5.1 在hdp4上的MySQL中創(chuàng)建源庫(kù)對(duì)象并生成測(cè)試數(shù)據(jù) 273
12.5.2 創(chuàng)建目標(biāo)庫(kù)對(duì)象 275
12.5.3 裝載日期維度數(shù)據(jù) 283
12.6 小結(jié) 284
第13章 初始ETL 285
13.1 用Sqoop初始數(shù)據(jù)抽取 285
13.1.1 覆蓋導(dǎo)入 286
13.1.2 增量導(dǎo)入 286
13.1.3 建立初始抽取腳本 287
13.2 向HAWQ初始裝載數(shù)據(jù) 288
13.2.1 數(shù)據(jù)源映射 288
13.2.2 確定SCD處理方法 288
13.2.3 實(shí)現(xiàn)代理鍵 289
13.2.4 建立初始裝載腳本 289
13.3 建立初始ETL腳本 291
13.4 小結(jié) 293
第14章 定期ETL 294
14.1 變化數(shù)據(jù)捕獲 294
14.2 創(chuàng)建維度表版本視圖 296
14.3 創(chuàng)建時(shí)間戳表 297
14.4 用Sqoop定期數(shù)據(jù)抽取 298
14.5 建立定期裝載HAWQ函數(shù) 298
14.6 建立定期ETL腳本 303
14.7 測(cè)試 303
14.7.1 準(zhǔn)備測(cè)試數(shù)據(jù) 303
14.7.2 執(zhí)行定期ETL腳本 304
14.7.3 確認(rèn)ETL過(guò)程正確執(zhí)行 305
14.8 動(dòng)態(tài)分區(qū)滾動(dòng) 307
14.9 準(zhǔn)實(shí)時(shí)數(shù)據(jù)抽取 309
14.10 小結(jié) 317
第15章 自動(dòng)調(diào)度執(zhí)行ETL作業(yè) 318
15.1 Oozie簡(jiǎn)介 318
15.2 建立工作流前的準(zhǔn)備 320
15.3 用Oozie建立定期ETL工作流 324
15.4 Falcon簡(jiǎn)介 328
15.5 用Falcon process調(diào)度Oozie工作流 329
15.6 小結(jié) 332
第16章 維度表技術(shù) 333
16.1 增加列 333
16.2 維度子集 342
16.3 角色扮演維度 348
16.4 層次維度 354
16.4.1 固定深度的層次 355
16.4.2 多路徑層次 357
16.4.3 參差不齊的層次 359
16.5 退化維度 361
16.6 雜項(xiàng)維度 366
16.7 維度合并 374
16.8 分段維度 380
16.9 小結(jié) 386
第17章 事實(shí)表技術(shù) 387
17.1 周期快照 388
17.2 累積快照 394
17.3 無(wú)事實(shí)的事實(shí)表 404
17.4 遲到的事實(shí) 409
17.5 累積度量 416
17.6 小結(jié) 422
第18章 聯(lián)機(jī)分析處理 423
18.1 聯(lián)機(jī)分析處理簡(jiǎn)介 423
18.1.1 概念 423
18.1.2 分類 424
18.1.3 性能 426
18.2 聯(lián)機(jī)分析處理實(shí)例 427
18.2.1 銷(xiāo)售訂單 427
18.2.2 行列轉(zhuǎn)置 433
18.3 交互查詢與圖形化顯示 440
18.3.1 Zeppelin簡(jiǎn)介 440
18.3.2 使用Zeppelin執(zhí)行HAWQ查詢 441
18.4 小結(jié) 448
第三部分 HAWQ數(shù)據(jù)挖掘
第19章 整合HAWQ與MADlib 451
19.1 MADlib簡(jiǎn)介 452
19.2 安裝與卸載MADlib 455
19.3 MADlib基礎(chǔ) 458
19.3.1 向量 458
19.3.2 矩陣 469
19.4 小結(jié) 484
第20章 奇異值分解 485
20.1 奇異值分解簡(jiǎn)介 485
20.2 MADlib奇異值分解函數(shù) 486
20.3 奇異值分解實(shí)現(xiàn)推薦算法 489
20.4 小結(jié) 501
第21章 主成分分析 502
21.1 主成分分析簡(jiǎn)介 502
21.2 MADlib的PCA相關(guān)函數(shù) 504
21.3 PCA應(yīng)用示例 509
21.4 小結(jié) 513
第22章 關(guān)聯(lián)規(guī)則方法 514
22.1 關(guān)聯(lián)規(guī)則簡(jiǎn)介 514
22.2 Apriori算法 517
22.2.1 Apriori算法基本思想 517
22.2.2 Apriori算法步驟 518
22.3 MADlib的Apriori算法函數(shù) 518
22.4 Apriori應(yīng)用示例 519
22.5 小結(jié) 524
第23章 聚類方法 525
23.1 聚類方法簡(jiǎn)介 525
23.2 k-means方法 526
23.2.1 基本思想 527
23.2.2 原理與步驟 527
23.2.3 k-means算法 527
23.3 MADlib的k-means相關(guān)函數(shù) 529
23.4 k-means應(yīng)用示例 532
23.5 小結(jié) 537
第24章 回歸方法 538
24.1 回歸方法簡(jiǎn)介 538
24.2 Logistic回歸 539
24.3 MADlib的Logistic回歸相關(guān)函數(shù) 539
24.4 Logistic回歸示例 542
24.5 小結(jié) 546
第25章 分類方法 547
25.1 分類方法簡(jiǎn)介 547
25.2 決策樹(shù) 549
25.2.1 決策樹(shù)的基本概念 549
25.2.2 決策樹(shù)的構(gòu)建步驟 549
25.3 MADlib的決策樹(shù)相關(guān)函數(shù) 551
25.4 決策樹(shù)示例 555
25.5 小結(jié) 561
第26章 圖算法 562
26.1 圖算法簡(jiǎn)介 562
26.2 單源*短路徑 565
26.3 MADlib的單源*短路徑相關(guān)函數(shù) 566
26.4 單源*短路徑示例 567
26.5 小結(jié) 569
第27章 模型驗(yàn)證 570
27.1 交叉驗(yàn)證簡(jiǎn)介 570
27.2 MADlib的交叉驗(yàn)證相關(guān)函數(shù) 573
27.3 交叉驗(yàn)證示例 575
27.4 小結(jié) 578