開源大數(shù)據(jù)分析引擎Impala實戰(zhàn)

定　價：￥59.00

作　者：	賈傳青
出版社：	清華大學(xué)出版社
叢編項：
標(biāo)　簽：	計算機/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)庫

購買這本書可以去

ISBN：	9787302390022	出版時間：	2015-03-01	包裝：
開本：		頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡介

　　Impala是 Cloudera公司主導(dǎo)開發(fā)的新型查詢系統(tǒng)，它提供 SQL語義，能查詢存儲在 Hadoop的 HDFS和 HBase中的 PB級大數(shù)據(jù)。Impala 1.0版比原來基于 MapReduce的 Hive SQL查詢速度提升 3～90倍，因此， Impala有可能完全取代 Hive。作者基于自己在本職工作中應(yīng)用 Impala的實踐和心得編寫了《開源大數(shù)據(jù)分析引擎Impala實戰(zhàn)》。《開源大數(shù)據(jù)分析引擎Impala實戰(zhàn)》共分 10章，全面介紹開源大數(shù)據(jù)分析引擎 Impala的技術(shù)背景、安裝與配置、架構(gòu)、操作方法、性能優(yōu)化，以及最富技術(shù)含量的應(yīng)用設(shè)計原則和應(yīng)用案例?！堕_源大數(shù)據(jù)分析引擎Impala實戰(zhàn)》緊扣目前計算技術(shù)發(fā)展熱點，適合所有大數(shù)據(jù)分析人員、大數(shù)據(jù)開發(fā)人員和大數(shù)據(jù)管理人員參考使用。

作者簡介

暫缺《開源大數(shù)據(jù)分析引擎Impala實戰(zhàn)》作者簡介

圖書目錄

第1章 Impala概述、安裝與配置
1.1 Impala概述
1.2 Cloudera Manager安裝準(zhǔn)備
1.3 CM及 CDH安裝
1.4 Hive安裝
1.5 Impala安裝
第2章 Impala入門示例
2.1 數(shù)據(jù)加載
2.2 數(shù)據(jù)查詢
2.3 分區(qū)表
2.4 外部分區(qū)表
2.5 笛卡爾連接
2.6 更新元數(shù)據(jù)
第3章 Impala概念及架構(gòu)
3.1 Impala服務(wù)器組件
3.1.1 Impala Daemon
3.1.2 Impala Statestore
3.1.3 Impala Catalog
3.2 Impala應(yīng)用編程
3.2.1 Impala SQL方言
3.2.2 Impala編程接口概述
3.3 與Hadoop生態(tài)系統(tǒng)集成
3.3.1 與Hive集成
3.3.2 與HDFS集成
3.3.3 使用HBase
第4章 SQL語句
4.1 注釋
4.2 數(shù)據(jù)類型
4.2.1 BIGINT
4.2.2 BOOLEAN
4.2.3 DOUBLE
4.2.4 FLOAT
4.2.5 INT
4.2.6 REAL
4.2.7 SMALLINT
4.2.8 STRING
4.2.9 TIMESTAMP
4.2.10 TINYINT
4.3 常量
4.3.1 數(shù)值常量
4.3.2 字符串常量
4.3.3 布爾常量
4.3.4 時間戳常量
4.3.5 NULL
4.4 SQL操作符
4.4.1 BETWEEN操作符
4.4.2 比較操作符
4.4.3 IN操作符
4.4.4 IS NULL操作符
4.4.5 LIKE操作符
4.4.6 REGEXP操作符
4.5 模式對象和對象名稱
4.5.1 別名
4.5.2 標(biāo)示符
4.5.3 數(shù)據(jù)庫
4.5.4 表
4.5.5 視圖
4.5.6 函數(shù)
4.6 SQL語句
4.6.1 ALTER TABLE
4.6.2 ALTER VIEW
4.6.3 COMPUTE STATS
4.6.4 CREATE DATABASE
4.6.5 CREATE FUNCTION
4.6.6 CREATE TABLE
4.6.7 CREATE VIEW
4.6.8 DESCRIBE
4.6.9 DROP DATABASE
4.6.10 DROP FUNCTION
4.6.11 DROP TABLE
4.6.12 DROP VIEW
4.6.13 EXPLAIN
4.6.14 INSERT
4.6.15 INVALIDATE METADATA
4.6.16 LOAD DATA
4.6.17 REFRESH
4.6.18 SELECT
4.6.19 SHOW
4.6.20 USE
4.7 內(nèi)嵌函數(shù)
4.7.1 數(shù)學(xué)函數(shù)
4.7.2 類型轉(zhuǎn)換函數(shù)
4.7.3 時間和日期函數(shù)
4.7.4 條件函數(shù)
4.7.5 字符串函數(shù)
4.7.6 特殊函數(shù)
4.8 聚集函數(shù)
4.8.1 AVG
4.8.2 COUNT
4.8.3 GROUP_CONCAT
4.8.4 MAX
4.8.5 MIN
4.8.6 NDV
4.8.7 SUM
4.9 用戶自定義函數(shù)UDF
4.9.1 UDF概念
4.9.2 安裝UDF開發(fā)包
4.9.3 編寫UDF
4.9.4 編寫UDAF
4.9.5 編譯和部署UDF
4.9.6 UDF性能
4.9.7 創(chuàng)建和使用UDF示例
4.9.8 UDF安全
4.9.9 Impala UDF的限制
4.10 Impala SQL &Hive QL
4.11 將 SQL移植到Impala上
第5章 Impala shell
5.1 命令行選項
5.2 連接到Impalad
5.3 運行命令
5.4 命令參考
5.5 查詢參數(shù)設(shè)置
第6章 Impala管理
6.1 準(zhǔn)入控制和查詢隊列
6.1.1 準(zhǔn)入控制概述
6.1.2 準(zhǔn)入控制和YARN
6.1.3 并發(fā)查詢限制
6.1.4 準(zhǔn)入控制和Impala客戶端協(xié)同工作
6.1.5 配置準(zhǔn)入控制
6.1.6 使用準(zhǔn)入控制指導(dǎo)原則
6.2 使用YARN資源管理(CDH5)
6.2.1 Llama進程
6.2.2 檢查計算的資源和實際使用的資源
6.2.3 資源限制如何生效
6.2.4 啟用Impala資源管理
6.2.5 資源管理相關(guān)impala-shell參數(shù)
6.2.6 Impala資源管理的限制
6.3 為進程，查詢，會話設(shè)定超時限制
6.4 通過代理實現(xiàn)Impala高可用性
6.5 管理磁盤空間
第7章 Impala存儲
7.1 文件格式選擇
7.2 Text
7.2.1 查詢性能
7.2.2 創(chuàng)建文本表
7.2.3 數(shù)據(jù)文件
7.2.4 加載數(shù)據(jù)
7.2.5 LZO壓縮
7.3 Parquet
7.3.1 創(chuàng)建Parquet表
7.3.2 加載數(shù)據(jù)
7.3.3 查詢性能
7.3.4 Snappy/Gzip壓縮
7.3.5 與其他組件交換 Parquet數(shù)據(jù)文件
7.3.6 Parquet數(shù)據(jù)文件組織方式
7.4 Avro
7.4.1 創(chuàng)建Avro表
7.4.2 使用Hive創(chuàng)建的Avro表
7.4.3 通過JSON指定Avro模式
7.4.4 啟用壓縮
7.4.5 模式進化
7.5 RCFile
7.5.1 創(chuàng)建RCFile表和加載數(shù)據(jù)
7.5.2 啟用壓縮
7.6 SequenceFile
7.6.1 創(chuàng)建和加載數(shù)據(jù)
7.6.2 啟用壓縮
7.7 HBase
7.7.1 支持的 Hbase列類型
7.7.2 性能問題
7.7.3 適用場景
7.7.4 數(shù)據(jù)加載
7.7.5 啟用壓縮
7.7.6 限制
7.7.7 示例
第8章 Impala分區(qū)
8.1 分區(qū)技術(shù)適用場合
8.2 分區(qū)表相關(guān) SQL語句
8.3 分區(qū)修剪
8.4 分區(qū)鍵列
8.5 使用不同的文件格式
第9章 Impala性能優(yōu)化
9.1 最佳實踐
9.2 連接查詢優(yōu)化
9.3 使用統(tǒng)計信息
9.4 基準(zhǔn)測試
9.5 控制資源使用
9.6 性能測試
9.7 使用 EXPLAIN信息
9.8 使用 PROFILE信息
第10章 Impala設(shè)計原則與應(yīng)用案例
10.1 設(shè)計原則
10.2 應(yīng)用案例