注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)HAWQ數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)崙?zhàn)

HAWQ數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)崙?zhàn)

HAWQ數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)崙?zhàn)

定 價(jià):¥98.00

作 者: 王雪迎 著
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 數(shù)據(jù)庫(kù)

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787302498025 出版時(shí)間: 2018-03-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 578 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  Apache HAWQ是一個(gè)SQL-on-Hadoop產(chǎn)品,它非常適合用于Hadoop平臺(tái)上快速構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。HAWQ具有大規(guī)模并行處理、完善的SQL兼容性、支持存儲(chǔ)過(guò)程和事務(wù)、出色的性能表現(xiàn)等特性,還可與開(kāi)源數(shù)據(jù)挖掘庫(kù)MADlib輕松整合,從而使用SQL就能進(jìn)行數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。 《HAWQ數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)崙?zhàn)》內(nèi)容分技術(shù)解析、實(shí)戰(zhàn)演練與數(shù)據(jù)挖掘三個(gè)部分共27章。技術(shù)解析部分說(shuō)明HAWQ的基礎(chǔ)架構(gòu)與功能特性,包括安裝、連接、對(duì)象與資源管理、查詢優(yōu)化、備份恢復(fù)、高可用性等。實(shí)戰(zhàn)演練部分用一個(gè)完整的示例,說(shuō)明如何使用HAWQ取代傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù),包括ETL處理、自動(dòng)調(diào)度系統(tǒng)、維度表與事實(shí)表技術(shù)、OLAP與數(shù)據(jù)的圖形化表示等。數(shù)據(jù)挖掘部分用實(shí)例說(shuō)明HAWQ與MADlib整合,實(shí)現(xiàn)降維、協(xié)同過(guò)濾、關(guān)聯(lián)規(guī)則、回歸、聚類、分類等常見(jiàn)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)方法?!禜AWQ數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)崙?zhàn)》適合數(shù)據(jù)庫(kù)管理員、大數(shù)據(jù)技術(shù)人員、Hadoop技術(shù)人員、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)人員,也適合高等院校和培訓(xùn)機(jī)構(gòu)相關(guān)專業(yè)的師生教學(xué)參考。

作者簡(jiǎn)介

  王雪迎 ,王雪迎 ,畢業(yè)于中國(guó)地質(zhì)大學(xué)計(jì)算機(jī)專業(yè),高級(jí)工程師,從事數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)相關(guān)技術(shù)工作20年。先后供職于北京現(xiàn)代商業(yè)信息技術(shù)有限公司、北京在線九州信息技術(shù)服務(wù)有限公司、華北計(jì)算技術(shù)研究所、北京優(yōu)貝在線網(wǎng)絡(luò)科技有限公司,擔(dān)任DBA、數(shù)據(jù)架構(gòu)師等職位。著有圖書(shū)《Hadoop數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐》。

圖書(shū)目錄

目 錄

*部分 HAWQ技術(shù)解析

第1章 HAWQ概述 3

1.1 SQL-on-Hadoop 3

1.1.1 對(duì)SQL-on-Hadoop的期待 3

1.1.2 SQL-on-Hadoop的實(shí)現(xiàn)方式 4

1.2 HAWQ簡(jiǎn)介 6

1.2.1 歷史與現(xiàn)狀 7

1.2.2 功能特性 7

1.3 HAWQ系統(tǒng)架構(gòu) 9

1.3.1 系統(tǒng)架構(gòu) 10

1.3.2 內(nèi)部架構(gòu) 11

1.4 為什么選擇HAWQ 12

1.4.1 常用SQL-on-Hadoop產(chǎn)品的不足 12

1.4.2 HAWQ的可行性 13

1.4.3 適合DBA的解決方案 18

1.5 小結(jié) 18

第2章 HAWQ安裝部署 19

2.1 安裝規(guī)劃 19

2.1.1 選擇安裝介質(zhì) 19

2.1.2 選擇HAWQ版本 20

2.1.3 確認(rèn)Ambari與HDP的版本兼容性 20

2.2 安裝前準(zhǔn)備 21

2.2.1 確認(rèn)*小系統(tǒng)需求 21

2.2.2 準(zhǔn)備系統(tǒng)安裝環(huán)境 22

2.2.3 建立本地Repository 24

2.3 安裝Ambari 25

2.4 安裝HDP集群 27

2.5 安裝HAWQ 29

2.6 啟動(dòng)與停止HAWQ 34

2.6.1 基本概念 34

2.6.2 操作環(huán)境 34

2.6.3 基本操作 36

2.7 小結(jié) 40

第3章 連接管理 41

3.1 配置客戶端身份認(rèn)證 41

3.2 管理角色與權(quán)限 45

3.2.1 HAWQ中的角色與權(quán)限 45

3.2.2 管理角色及其成員 46

3.2.3 管理對(duì)象權(quán)限 48

3.2.4 口令加密 49

3.3 psql連接HAWQ 50

3.4 Kettle連接HAWQ 52

3.5 連接常見(jiàn)問(wèn)題 55

3.6 小結(jié) 56

第4章 數(shù)據(jù)庫(kù)對(duì)象管理 57

4.1 創(chuàng)建和管理數(shù)據(jù)庫(kù) 57

4.2 創(chuàng)建和管理表空間 61

4.3 創(chuàng)建和管理模式 65

4.4 創(chuàng)建和管理表 72

4.4.1 創(chuàng)建表 72

4.4.2 刪除表 74

4.4.3 查看表對(duì)應(yīng)的HDFS文件 74

4.5 創(chuàng)建和管理視圖 76

4.6 管理其他對(duì)象 77

4.7 小結(jié) 78

第5章 分區(qū)表 79

5.1 HAWQ中的分區(qū)表 79

5.2 確定分區(qū)策略 80

5.3 創(chuàng)建分區(qū)表 81

5.3.1 范圍分區(qū)與列表分區(qū) 81

5.3.2 多級(jí)分區(qū) 86

5.3.3 對(duì)已存在的非分區(qū)表進(jìn)行分區(qū) 86

5.4 分區(qū)消除 87

5.5 分區(qū)表維護(hù) 91

5.6 小結(jié) 98

第6章 存儲(chǔ)管理 99

6.1 數(shù)據(jù)存儲(chǔ)選項(xiàng) 99

6.2 數(shù)據(jù)分布策略 103

6.2.1 數(shù)據(jù)分布策略概述 103

6.2.2 選擇數(shù)據(jù)分布策略 104

6.2.3 數(shù)據(jù)分布用法 108

6.3 從已有的表創(chuàng)建新表 111

6.4 小結(jié) 117

第7章 資源管理 118

7.1 HAWQ資源管理概述 118

7.1.1 全局資源管理 118

7.1.2 HAWQ資源隊(duì)列 119

7.1.3 資源管理器配置原則 119

7.2 配置獨(dú)立資源管理器 120

7.3 整合YARN 123

7.4 管理資源隊(duì)列 129

7.5 查詢資源管理器狀態(tài) 134

7.6 小結(jié) 137

第8章 數(shù)據(jù)管理 138

8.1 基本數(shù)據(jù)操作 138

8.2 數(shù)據(jù)裝載與卸載 141

8.2.1 gpfdist協(xié)議及其外部表 141

8.2.2 基于Web的外部表 148

8.2.3 使用外部表裝載數(shù)據(jù) 151

8.2.4 外部表錯(cuò)誤處理 151

8.2.5 使用hawq load裝載數(shù)據(jù) 152

8.2.6 使用COPY復(fù)制數(shù)據(jù) 155

8.2.7 卸載數(shù)據(jù) 157

8.2.8 hawq register 159

8.2.9 格式化數(shù)據(jù)文件 159

8.3 數(shù)據(jù)庫(kù)統(tǒng)計(jì) 163

8.3.1 系統(tǒng)統(tǒng)計(jì) 163

8.3.2 統(tǒng)計(jì)配置 166

8.4 PXF 168

8.4.1 安裝配置PXF 168

8.4.2 PXF profile 168

8.4.3 訪問(wèn)HDFS文件 170

8.4.4 訪問(wèn)Hive數(shù)據(jù) 174

8.4.5 訪問(wèn)JSON數(shù)據(jù) 186

8.4.6 向HDFS中寫(xiě)入數(shù)據(jù) 190

8.5 小結(jié) 194

第9章 過(guò)程語(yǔ)言 195

9.1 HAWQ內(nèi)建SQL語(yǔ)言 195

9.2 PL/pgSQL函數(shù) 197

9.3 給HAWQ內(nèi)部函數(shù)起別名 198

9.4 表函數(shù) 198

9.5 參數(shù)個(gè)數(shù)可變的函數(shù) 201

9.6 多態(tài)類型 202

9.7 UDF管理 205

9.8 UDF實(shí)例——遞歸樹(shù)形遍歷 207

9.9 小結(jié) 214

第10章 查詢優(yōu)化 215

10.1 HAWQ的查詢處理流程 215

10.2 GPORCA查詢優(yōu)化器 217

10.2.1 GPORCA的改進(jìn) 218

10.2.2 啟用GPORCA 224

10.2.3 使用GPORCA需要考慮的問(wèn)題 225

10.2.4 GPORCA的限制 227

10.3 性能優(yōu)化 228

10.4 查詢剖析 232

10.5 小結(jié) 238

第11章 高可用性 239

11.1 備份與恢復(fù) 239

11.1.1 備份方法 239

11.1.2 備份與恢復(fù)示例 242

11.2 高可用性 247

11.2.1 HAWQ高可用簡(jiǎn)介 247

11.2.2 Master節(jié)點(diǎn)鏡像 248

11.2.3 HAWQ文件空間與HDFS高可用 251

11.2.4 HAWQ容錯(cuò)服務(wù) 260

11.3 小結(jié) 262

第二部分 HAWQ實(shí)戰(zhàn)演練

第12章 建立數(shù)據(jù)倉(cāng)庫(kù)示例模型 265

12.1 業(yè)務(wù)場(chǎng)景 265

12.2 數(shù)據(jù)倉(cāng)庫(kù)架構(gòu) 267

12.3 實(shí)驗(yàn)環(huán)境 268

12.4 HAWQ相關(guān)配置 269

12.5 創(chuàng)建示例數(shù)據(jù)庫(kù) 273

12.5.1 在hdp4上的MySQL中創(chuàng)建源庫(kù)對(duì)象并生成測(cè)試數(shù)據(jù) 273

12.5.2 創(chuàng)建目標(biāo)庫(kù)對(duì)象 275

12.5.3 裝載日期維度數(shù)據(jù) 283

12.6 小結(jié) 284

第13章 初始ETL 285

13.1 用Sqoop初始數(shù)據(jù)抽取 285

13.1.1 覆蓋導(dǎo)入 286

13.1.2 增量導(dǎo)入 286

13.1.3 建立初始抽取腳本 287

13.2 向HAWQ初始裝載數(shù)據(jù) 288

13.2.1 數(shù)據(jù)源映射 288

13.2.2 確定SCD處理方法 288

13.2.3 實(shí)現(xiàn)代理鍵 289

13.2.4 建立初始裝載腳本 289

13.3 建立初始ETL腳本 291

13.4 小結(jié) 293

第14章 定期ETL 294

14.1 變化數(shù)據(jù)捕獲 294

14.2 創(chuàng)建維度表版本視圖 296

14.3 創(chuàng)建時(shí)間戳表 297

14.4 用Sqoop定期數(shù)據(jù)抽取 298

14.5 建立定期裝載HAWQ函數(shù) 298

14.6 建立定期ETL腳本 303

14.7 測(cè)試 303

14.7.1 準(zhǔn)備測(cè)試數(shù)據(jù) 303

14.7.2 執(zhí)行定期ETL腳本 304

14.7.3 確認(rèn)ETL過(guò)程正確執(zhí)行 305

14.8 動(dòng)態(tài)分區(qū)滾動(dòng) 307

14.9 準(zhǔn)實(shí)時(shí)數(shù)據(jù)抽取 309

14.10 小結(jié) 317

第15章 自動(dòng)調(diào)度執(zhí)行ETL作業(yè) 318

15.1 Oozie簡(jiǎn)介 318

15.2 建立工作流前的準(zhǔn)備 320

15.3 用Oozie建立定期ETL工作流 324

15.4 Falcon簡(jiǎn)介 328

15.5 用Falcon process調(diào)度Oozie工作流 329

15.6 小結(jié) 332

第16章 維度表技術(shù) 333

16.1 增加列 333

16.2 維度子集 342

16.3 角色扮演維度 348

16.4 層次維度 354

16.4.1 固定深度的層次 355

16.4.2 多路徑層次 357

16.4.3 參差不齊的層次 359

16.5 退化維度 361

16.6 雜項(xiàng)維度 366

16.7 維度合并 374

16.8 分段維度 380

16.9 小結(jié) 386

第17章 事實(shí)表技術(shù) 387

17.1 周期快照 388

17.2 累積快照 394

17.3 無(wú)事實(shí)的事實(shí)表 404

17.4 遲到的事實(shí) 409

17.5 累積度量 416

17.6 小結(jié) 422

第18章 聯(lián)機(jī)分析處理 423

18.1 聯(lián)機(jī)分析處理簡(jiǎn)介 423

18.1.1 概念 423

18.1.2 分類 424

18.1.3 性能 426

18.2 聯(lián)機(jī)分析處理實(shí)例 427

18.2.1 銷(xiāo)售訂單 427

18.2.2 行列轉(zhuǎn)置 433

18.3 交互查詢與圖形化顯示 440

18.3.1 Zeppelin簡(jiǎn)介 440

18.3.2 使用Zeppelin執(zhí)行HAWQ查詢 441

18.4 小結(jié) 448

第三部分 HAWQ數(shù)據(jù)挖掘

第19章 整合HAWQ與MADlib 451

19.1 MADlib簡(jiǎn)介 452

19.2 安裝與卸載MADlib 455

19.3 MADlib基礎(chǔ) 458

19.3.1 向量 458

19.3.2 矩陣 469

19.4 小結(jié) 484

第20章 奇異值分解 485

20.1 奇異值分解簡(jiǎn)介 485

20.2 MADlib奇異值分解函數(shù) 486

20.3 奇異值分解實(shí)現(xiàn)推薦算法 489

20.4 小結(jié) 501

第21章 主成分分析 502

21.1 主成分分析簡(jiǎn)介 502

21.2 MADlib的PCA相關(guān)函數(shù) 504

21.3 PCA應(yīng)用示例 509

21.4 小結(jié) 513

第22章 關(guān)聯(lián)規(guī)則方法 514

22.1 關(guān)聯(lián)規(guī)則簡(jiǎn)介 514

22.2 Apriori算法 517

22.2.1 Apriori算法基本思想 517

22.2.2 Apriori算法步驟 518

22.3 MADlib的Apriori算法函數(shù) 518

22.4 Apriori應(yīng)用示例 519

22.5 小結(jié) 524

第23章 聚類方法 525

23.1 聚類方法簡(jiǎn)介 525

23.2 k-means方法 526

23.2.1 基本思想 527

23.2.2 原理與步驟 527

23.2.3 k-means算法 527

23.3 MADlib的k-means相關(guān)函數(shù) 529

23.4 k-means應(yīng)用示例 532

23.5 小結(jié) 537

第24章 回歸方法 538

24.1 回歸方法簡(jiǎn)介 538

24.2 Logistic回歸 539

24.3 MADlib的Logistic回歸相關(guān)函數(shù) 539

24.4 Logistic回歸示例 542

24.5 小結(jié) 546

第25章 分類方法 547

25.1 分類方法簡(jiǎn)介 547

25.2 決策樹(shù) 549

25.2.1 決策樹(shù)的基本概念 549

25.2.2 決策樹(shù)的構(gòu)建步驟 549

25.3 MADlib的決策樹(shù)相關(guān)函數(shù) 551

25.4 決策樹(shù)示例 555

25.5 小結(jié) 561

第26章 圖算法 562

26.1 圖算法簡(jiǎn)介 562

26.2 單源*短路徑 565

26.3 MADlib的單源*短路徑相關(guān)函數(shù) 566

26.4 單源*短路徑示例 567

26.5 小結(jié) 569

第27章 模型驗(yàn)證 570

27.1 交叉驗(yàn)證簡(jiǎn)介 570

27.2 MADlib的交叉驗(yàn)證相關(guān)函數(shù) 573

27.3 交叉驗(yàn)證示例 575

27.4 小結(jié) 578

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)