注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)Hive實(shí)戰(zhàn)

Hive實(shí)戰(zhàn)

Hive實(shí)戰(zhàn)

定 價(jià):¥69.00

作 者: 斯科特·肖(Scott Shaw),安德烈亞斯·弗朗索瓦·弗穆?tīng)柖鳎ˋndreas,F(xiàn)ran·ois,Vermeulen),安庫(kù)爾·古普塔(Ankur ... 著,唐富年 譯
出版社: 人民郵電出版社
叢編項(xiàng): 圖靈程序設(shè)計(jì)叢書(shū)
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787115493910 出版時(shí)間: 2018-11-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 238 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  Hive“出身名門(mén)”,是最初由Facebook公司開(kāi)發(fā)的數(shù)據(jù)倉(cāng)庫(kù)工具。它簡(jiǎn)單且容易上手,是深入學(xué)習(xí)Hadoop技術(shù)的一個(gè)很好的切入點(diǎn)。本書(shū)由數(shù)據(jù)庫(kù)專家和大數(shù)據(jù)專家共同撰寫(xiě),具體內(nèi)容包括:Hive的安裝和配置,其核心組件和架構(gòu),Hive數(shù)據(jù)操作語(yǔ)言,如何加載、查詢和分析數(shù)據(jù),Hive的性能調(diào)優(yōu)以及安全性,等等。本書(shū)旨在為讀者打牢基礎(chǔ),從而踏上專業(yè)的大數(shù)據(jù)處理之旅。

作者簡(jiǎn)介

  斯科特·肖(Scott Shaw)Hortonworks公司解決方案工程師,曾為微軟公司的商業(yè)智能項(xiàng)目擔(dān)任顧問(wèn),擁有近20年的數(shù)據(jù)管理經(jīng)驗(yàn)。作為演講者和培訓(xùn)師,他致力于普及分布式計(jì)算、大數(shù)據(jù)概念、商業(yè)智能、Hive和Hadoop。安德烈亞斯·弗朗索瓦·弗穆?tīng)柖鳎ˋndreas Fran?ois Vermeulen)集數(shù)據(jù)科學(xué)家、數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)師、博士研究員、企業(yè)顧問(wèn)等角色于一身,曾獲“英國(guó)數(shù)據(jù)科學(xué)技術(shù)先鋒”稱號(hào),廣泛涉足數(shù)據(jù)工程、商業(yè)智能、云架構(gòu)、深度學(xué)習(xí)等多個(gè)領(lǐng)域。安庫(kù)爾·古普塔(Ankur Gupta)Hortonworks公司解決方案工程師,曾在Oracle公司擔(dān)任顧問(wèn),有多年從事數(shù)據(jù)架構(gòu)師和Oracle數(shù)據(jù)庫(kù)管理員的經(jīng)驗(yàn),著有Oracle GoldenGate 11g Complete Cookbook。戴維·杰魯姆加德(David Kjerrumgaard)Streamlio公司解決方案架構(gòu)主管,曾是Hortonworks公司的系統(tǒng)架構(gòu)師和數(shù)據(jù)流實(shí)踐主管,擁有Certified Developer for Apache Hadoop認(rèn)證,精通Hive、Kafka、Spark、Storm等技術(shù)。

圖書(shū)目錄

第 1章 為Hive打好基礎(chǔ):Hadoop 1
1.1 一只小象出生了 2
1.2 Hadoop的結(jié)構(gòu) 3
1.3 數(shù)據(jù)冗余 6
1.3.1 傳統(tǒng)的高可用性 6
1.3.2 Hadoop的高可用性 9
1.4 MapReduce處理 12
1.4.1 超越MapReduce 16
1.4.2 YARN和現(xiàn)代數(shù)據(jù)架構(gòu) 17
1.4.3 Hadoop 和開(kāi)源社區(qū) 19
1.4.4 我們身在何處 22
第 2 章 Hive 簡(jiǎn)介 24
2.1 Hadoop 發(fā)行版 25
2.2 集群架構(gòu) 27
2.3 Hive 的安裝 30
2.4 探尋你的方式 32
2.5 Hive CLI 35
第3 章 Hive架構(gòu) 37
3.1 Hive組件 37
3.2 HCatalog 38
3.3 HiveServer2 40
3.4 客戶端工具 42
3.5 執(zhí)行引擎:Tez 46
第4 章 Hive表DDL 48
4.1 schema-on-read 48
4.2 Hive數(shù)據(jù)模型 49
4.2.1 模式/數(shù)據(jù)庫(kù) 49
4.2.2 為什么使用多個(gè)模式/數(shù)據(jù)庫(kù) 49
4.2.3 創(chuàng)建數(shù)據(jù)庫(kù) 49
4.2.4 更改數(shù)據(jù)庫(kù) 50
4.2.5 刪除數(shù)據(jù)庫(kù) 50
4.2.6 列出數(shù)據(jù)庫(kù) 51
4.3 Hive中的數(shù)據(jù)類型 51
4.3.1 基本數(shù)據(jù)類型 51
4.3.2 選擇數(shù)據(jù)類型 51
4.3.3 復(fù)雜數(shù)據(jù)類型 52
4.4 表 53
4.4.1 創(chuàng)建表 53
4.4.2 列出表 54
4.4.3 內(nèi)部表/外部表 54
4.4.4 內(nèi)部表/受控表 55
4.4.5 內(nèi)部表/外部表示例 55
4.4.6 表的屬性 59
4.4.7 生成已有表的CREATE TABLE命令 60
4.4.8 分區(qū)和分桶 61
4.4.9 分區(qū)注意事項(xiàng) 63
4.4.10 對(duì)日期列進(jìn)行高效分區(qū) 63
4.4.11 分桶的注意事項(xiàng) 65
4.4.12 更改表 66
4.4.13 ORC文件格式 67
4.4.14 更改表分區(qū) 68
4.4.15 修改列 72
4.4.16 刪除表/分區(qū) 72
4.4.17 保護(hù)表/分區(qū) 73
4.4.18 其他CREATE TABLE命令選項(xiàng) 73
第5 章 數(shù)據(jù)操作語(yǔ)言 75
5.1 將數(shù)據(jù)裝載到表中 75
5.1.1 使用存儲(chǔ)在HDFS中的文件裝載數(shù)據(jù) 75
5.1.2 使用查詢裝載數(shù)據(jù) 77
5.1.3 將查詢到的數(shù)據(jù)寫(xiě)入文件系統(tǒng) 80
5.1.4 直接向表插入值 81
5.1.5 直接更新表中數(shù)據(jù) 83
5.1.6 在表中直接刪除數(shù)據(jù) 84
5.1.7 創(chuàng)建結(jié)構(gòu)相同的表 85
5.2 連接 86
5.2.1 使用等值連接來(lái)整合表 86
5.2.2 使用外連接 87
5.2.3 使用左半連接 89
5.2.4 用單次MapReduce實(shí)現(xiàn)連接 90
5.2.5 最后使用最大的表 91
5.2.6 事務(wù)處理 92
5.2.7 ACID是什么,以及為什么要用到它 92
5.2.8 Hive配置 92
第6章 將數(shù)據(jù)裝載到Hive 94
6.1 裝載數(shù)據(jù)之前的設(shè)計(jì)注意事項(xiàng) 94
6.2 將數(shù)據(jù)裝載到HDFS 95
6.2.1 Ambari 文件視圖 95
6.2.2 Hadoop命令行 97
6.2.3 HDFS的NFS Gateway 97
6.2.4 Sqoop 98
6.2.5 Apache NiFi 101
6.3 用Hive 訪問(wèn)數(shù)據(jù) 105
6.3.1 外部表 105
6.3.2 LOAD DATA語(yǔ)句 106
6.4 在Hive中裝載增量變更數(shù)據(jù) 107
6.5 Hive流處理 107
6.6 小結(jié) 108
第7章 查詢半結(jié)構(gòu)化數(shù)據(jù) 109
7.1 點(diǎn)擊流數(shù)據(jù) 111
7.1.1 攝取數(shù)據(jù) 113
7.1.2 創(chuàng)建模式 116
7.1.3 裝載數(shù)據(jù) 116
7.1.4 查詢數(shù)據(jù) 116
7.2 攝取JSON數(shù)據(jù) 119
7.2.1 使用UDF查詢JSON 121
7.2.2 使用SerDe訪問(wèn)JSON 122
第8章 Hive分析 125
8.1 構(gòu)建分析模型 125
8.1.1 使用太陽(yáng)模型獲取需求 125
8.1.2 將太陽(yáng)模型轉(zhuǎn)換為星型模式 129
8.1.3 構(gòu)建數(shù)據(jù)倉(cāng)庫(kù) 137
8.2 評(píng)估分析模型 . 140
8.2.1 評(píng)估太陽(yáng)模型 140
8.2.2 評(píng)估聚合結(jié)果 142
8.2.3 評(píng)估數(shù)據(jù)集市 143
8.3 掌握數(shù)據(jù)倉(cāng)庫(kù)管理 144
8.3.1 必備條件 144
8.3.2 檢索數(shù)據(jù)庫(kù) 144
8.3.3 評(píng)估數(shù)據(jù)庫(kù) 147
8.3.4 過(guò)程數(shù)據(jù)庫(kù) 160
8.3.5 轉(zhuǎn)換數(shù)據(jù)庫(kù) 185
8.3.6 你掌握了什么 192
8.3.7 組織數(shù)據(jù)庫(kù) 192
8.3.8 報(bào)表數(shù)據(jù)庫(kù) 196
8.3.9 示例報(bào)表 197
8.4 高級(jí)分析 199
8.5 接下來(lái)學(xué)什么 199
第9章 Hive性能調(diào)優(yōu) 200
9.1 Hive性能檢查表 200
9.2 執(zhí)行引擎 201
9.2.1 MapReduce 201
9.2.2 Tez 201
9.3 存儲(chǔ)格式 203
9.3.1 ORC格式 203
9.3.2 Parquet格式 205
9.4 矢量化查詢執(zhí)行 206
9.5 查詢執(zhí)行計(jì)劃 206
9.5.1 基于代價(jià)的優(yōu)化 208
9.5.2 執(zhí)行計(jì)劃 210
9.5.3 性能檢查表小結(jié) 212
第 10章 Hive的安全性 213
10.1 數(shù)據(jù)安全性的幾個(gè)方面 213
10.1.1 身份認(rèn)證 214
10.1.2 授權(quán) 214
10.1.3 管理 214
10.1.4 審計(jì) 214
10.1.5 數(shù)據(jù)保護(hù) 214
10.2 Hadoop的安全性 215
10.3 Hive的安全性 215
10.3.1 默認(rèn)授權(quán)模式 215
10.3.2 基于存儲(chǔ)的授權(quán)模式 216
10.3.3 基于SQL標(biāo)準(zhǔn)的授權(quán)模式 217
10.3.4 管理通過(guò)SQL進(jìn)行的訪問(wèn) 218
10.4 使用Ranger進(jìn)行Hive授權(quán) 219
10.4.1 訪問(wèn)Ranger用戶界面 220
10.4.2 創(chuàng)建Ranger策略 220
10.4.3 使用Ranger審計(jì) 222
第 11章 Hive的未來(lái) 224
11.1 LLAP 224
11.2 Hive-on-Spark 225
11.3 Hive:ACID 和MERGE 225
11.4 可調(diào)隔離等級(jí) 225
11.5 ROLAP/基于立方體的分析 226
11.6 HiveServer2的發(fā)展 226
11.7 面向不同工作負(fù)載的多個(gè)HiveServer2實(shí)例 226
附錄A 建立大數(shù)據(jù)團(tuán)隊(duì) 227
附錄B Hive函數(shù) 231

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)