注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)家庭與辦公軟件Apache Drill學(xué)習(xí)手冊

Apache Drill學(xué)習(xí)手冊

Apache Drill學(xué)習(xí)手冊

定 價:¥88.00

作 者: 查爾斯吉弗(Charles Givre),保羅羅杰斯(Paul Rogers) 著
出版社: 中國電力出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787519843984 出版時間: 2020-05-01 包裝: 平裝
開本: 16開 頁數(shù): 356 字?jǐn)?shù):  

內(nèi)容簡介

  主要內(nèi)容 ·使用Drill來清洗、準(zhǔn)備和匯總原始數(shù)據(jù)供后期分析使用。 ·對日志文件、Parquet文件、JSON和其他復(fù)雜的數(shù)據(jù)文件進行查詢。 ·使用標(biāo)準(zhǔn)SQL對Hadoop、關(guān)系型數(shù)據(jù)庫、MongoDB和Kafka進行查詢。 ·通過各種編程語言訪問Drill。 ·使用Drill分析各種結(jié)構(gòu)復(fù)雜或存在二義性的數(shù)據(jù)。 ·通過自定義函數(shù)擴展Drill的功能,完成復(fù)雜的分析任務(wù)。 ·為網(wǎng)絡(luò)安全、圖片元數(shù)據(jù)或機器學(xué)習(xí)數(shù)據(jù)提供分析能力。

作者簡介

  Charles Givre是Apache Drill的PMC成員,他是德意志銀行中央安全辦公室的首席數(shù)據(jù)科學(xué)家。他致力于培養(yǎng)數(shù)據(jù)科學(xué)家并教授數(shù)據(jù)分析技能,為此他還合伙創(chuàng)辦自己的培訓(xùn)公司GTK Cyber。他在全球各種會議和高校教授上述主題的內(nèi)容。 Paul Rogers是Apache Drill的PMC成員,他專注于Drill的執(zhí)行引擎開發(fā),同時也是一位數(shù)據(jù)庫和BI方面的軟件架構(gòu)師。他曾經(jīng)在Cloudera、MapR、Oracle、Actuate和Informix工作。

圖書目錄

目錄
前言 1
第1 章 Apache Drill 入門 7
什么是Apache Drill 8
Drill 用途廣泛 8
Drill 非常易用 10
有關(guān)Drill 的性能 11
大數(shù)據(jù)簡史 11
大數(shù)據(jù)生態(tài)中的Drill 13
Drill 與類似工具的比較 13
第2 章 安裝與運行 15
準(zhǔn)備系統(tǒng)環(huán)境 16
Windows 環(huán)境下的特殊配置 16
在Windows 上安裝Drill 18
在Windows 上啟動Drill 18
在macOS 或Linux 上安裝嵌入模式的Drill 19
在macOS 或Linux 上以嵌入模式運行Drill 20
在macOS 或 Linux 上安裝分布式模式的Drill 21
為Drill 準(zhǔn)備集群環(huán)境 22
啟動分布式模式的Drill 23
連接集群 23
小結(jié) 24
第3 章 Apache Drill 概述 25
Apache Hadoop 生態(tài) 25
Drill 是一個低延遲的查詢引擎 26
使用HDFS 進行分布式數(shù)據(jù)處理 27
Drill 系統(tǒng)結(jié)構(gòu) 27
Drill 操作概覽 28
Drill 是一個查詢引擎,不是數(shù)據(jù)庫 29
Drill 操作概述 30
Drill 組件 30
SQL 會話狀態(tài) 30
編譯查詢語句 31
查詢語句執(zhí)行 36
低延遲特性38
小結(jié) 41
第4 章 查詢包含分隔符的數(shù)據(jù) 42
通過Drill 查詢數(shù)據(jù)的幾種方式 42
其他操作接口 43
Drill SQL 查詢格式 44
選擇數(shù)據(jù)源44
定義工作區(qū)46
指定默認(rèn)數(shù)據(jù)源 47
在查詢中訪問列 49
帶表頭并包含分隔符的數(shù)據(jù) 51
Table 函數(shù) 53
查詢目錄中的數(shù)據(jù) 53
理解Drill 的數(shù)據(jù)類型 55
使用字符串處理函數(shù)清洗和準(zhǔn)備數(shù)據(jù) 57
復(fù)雜數(shù)據(jù)轉(zhuǎn)換函數(shù) 59
操作Drill 中的日期和時間 60
把字符串轉(zhuǎn)換為日期 61
對日期進行重新格式化 63
日期計算與操作 63
Drill 中的日期時間函數(shù) 64
創(chuàng)建視圖 65
使用Drill 進行數(shù)據(jù)分析 66
通過聚合函數(shù)對數(shù)據(jù)進行統(tǒng)計 68
查詢包含分隔符數(shù)據(jù)的常見問題 75
列名中的空格 75
列名中的非法字符 76
字段名中的保留字 76
小結(jié) 77
第5 章 分析復(fù)合與嵌套數(shù)據(jù) 78
數(shù)組與Map 78
Drill 中的數(shù)組 79
在Drill 中訪問Map(鍵– 值對) 81
查詢嵌套數(shù)據(jù) 83
使用Drill 分析日志文件 91
配置Drill 讀取httpd Web 服務(wù)器的日志 91
查詢Web 服務(wù)器日志 92
用Drill 對其他類型的日志進行分析 97
小結(jié) 100
第6 章 把Drill 連接到數(shù)據(jù)源 101
查詢多種數(shù)據(jù)源 102
配置新的存儲插件 102
用Drill 連接關(guān)系型數(shù)據(jù)庫 103
通過Drill 查詢Hadoop 數(shù)據(jù) 108
用Drill 連接并查詢HBase 108
用Drill 查詢Hive 數(shù)據(jù) 110
連接Kafka 查詢流數(shù)據(jù) 113
提高Kafka 查詢的性能 115
連接并查詢Kudu 115
用Drill 連接并查詢MongoDB 數(shù)據(jù) 116
把Drill 連接到云存儲 116
用Drill 從OpenTSDB 查詢時間序列數(shù)據(jù) 121
小結(jié) 122
第7 章 連接Drill 123
理解Drill 的接口 123
JDBC 與Drill 124
ODBC 與Drill 125
Drill 的REST 接口 127
使用Python 連接Drill 128
使用drillpy 對Drill 發(fā)起查詢 129
使用pydrill 連接Drill 130
其他通過Python 連接Drill 的方法 131
用R 語言連接Drill 133
使用sergeant 在R 中查詢Drill 133
通過Java 連接Drill 135
在PHP 中查詢Drill 136
使用連接器137
在PHP 中執(zhí)行Drill 查詢 137
在PHP 中操作Drill 138
使用Nodejs 查詢Drill 139
在BI 工具中使用Drill 作為數(shù)據(jù)源 139
使用Apache Zeppelin 和Drill 分析數(shù)據(jù) 139
使用Apache Superset 分析數(shù)據(jù) 145
小結(jié) 151
第8 章 用Drill 完成數(shù)據(jù)工程工作 152
讀時Schema 152
SQL 關(guān)系模型 153
數(shù)據(jù)生命周期:數(shù)據(jù)探索到生產(chǎn) 154
Schema 推導(dǎo) 155
數(shù)據(jù)源推導(dǎo) 155
存儲插件 156
存儲配置 156
工作區(qū) 157
查詢目錄 159
默認(rèn)Schema 159
文件類型推導(dǎo) 160
格式插件與格式配置 160
格式推導(dǎo) 161
文件格式變種 162
Schema 推導(dǎo)概述163
分布式掃描 165
帶分隔符數(shù)據(jù)的Schema 推導(dǎo) 167
CSV 文件處理小結(jié) 173
JSON 文件的Schema 推導(dǎo) 175
二義性數(shù)值Schema 178
在文件間保證Schema 一致 184
JSON 對象 186
Drill 中的JSON 列表 189
JSON 小結(jié) 193
在Drill 中使用Parquet 文件格式 194
Parquet 中的Schema 進化 195
分區(qū)數(shù)據(jù)目錄 195
定義表工作區(qū) 198
處理生產(chǎn)環(huán)境中的查詢 199
捕捉Schema 映射視圖 199
在腳本中運行復(fù)雜查詢 200
小結(jié) 201
第9 章 在生產(chǎn)環(huán)境部署Drill 202
安裝Drill 202
前置需求 203
生產(chǎn)環(huán)境安裝 204
配置ZooKeeper 205
內(nèi)存配置 206
配置日志 208
測試安裝是否成功 209
分發(fā)Drill 可執(zhí)行文件和配置 210
啟動Drill 集群 211
配置存儲 212
使用Apache Hadoop HDFS 213
使用Amazon S3 214
準(zhǔn)入控制 217
其他配置 219
用戶自定義函數(shù)與自定義插件 219
安全 220
日志級別 220
控制CPU 使用 222
監(jiān)控 223
監(jiān)控Drill 的進程 224
監(jiān)控JMX 指標(biāo) 224
監(jiān)控查詢 225
其他部署選項 225
MapR 安裝程序 226
Drill-on-YRAN 226
Docker 226
小結(jié) 227
第10 章 搭建開發(fā)環(huán)境 228
安裝Maven 228
創(chuàng)建Drill 的編譯環(huán)境 229
設(shè)置Git 并獲取源代碼 229
從代碼編譯Drill 230
安裝IDE 231
小結(jié) 231
第11 章 編寫用戶自定義函數(shù) 232
用例:找出合法的信用卡號碼 232
Drill 中的用戶自定義函數(shù)是怎么工作的 234
Drill 的簡單UDF 結(jié)構(gòu) 234
pomxml 文件 235
函數(shù)文件 236
簡單函數(shù)API 240
完整的代碼241
構(gòu)建與安裝UDF 243
靜態(tài)安裝UDF 243
動態(tài)安裝UDF 243
復(fù)合函數(shù):返回Map 或數(shù)組的UDF 244
例子:解析User Agent 元數(shù)據(jù) 245
ComplexWriter 對象 246
編寫聚合UDF 248
聚合函數(shù)API 249
聚合UDF 示例:肯德爾秩相關(guān)系數(shù) 249
小結(jié) 252
第12 章 編寫格式插件 253
正則表達式格式插件 253
基于Easy 框架創(chuàng)建格式插件 255
創(chuàng)建Maven 的pomxml 文件 256
創(chuàng)建插件包258
Drill 模塊配置 258
格式插件配置 259
注意事項 259
創(chuàng)建正則表達式格式插件配置類 260
版權(quán)聲明頭與代碼格式 262
測試配置 262
解決配置問題 263
排查問題 264
創(chuàng)建格式插件類 264
創(chuàng)建測試文件 267
配置RAT 267
高效調(diào)試 267
創(chuàng)建單元測試 268
Drill 是如何找到插件的 270
記錄讀取器 270
測試讀取器的殼 273
日志 274
出錯處理 274
初始化 275
解析正則表達式 276
定義列名 276
投影 277
記錄列投影映射 278
空投影 278
全投影 279
部分投影 279
打開文件 281
記錄批 282
Drill 的列存結(jié)構(gòu) 282
定義向量 283
讀取數(shù)據(jù) 284
把數(shù)據(jù)放入向量 285
釋放資源 286
測試讀取器 286
測試通配符場景 286
測試顯式投影 288
測試空投影288
擴展 288
其他細節(jié) 290
文件塊 290
默認(rèn)格式配置 290
下一步 292
生產(chǎn)版本 292
給Drill 貢獻代碼:使用Pull Request 292
維護你的分支 293
創(chuàng)建插件項目 293
小結(jié) 294
第13 章 特殊用法 296
查找在特定區(qū)域拍攝的照片 296
分析Excel 文件 297
pomxml 文件 298
Excel 自定義記錄讀取器 299
使用Excel 格式插件 303
用Drill 分析網(wǎng)絡(luò)數(shù)據(jù)包(PCAP 文件) 304
查詢PCAP 數(shù)據(jù)文件的例子 304
使用Drill 分析Twitter 數(shù)據(jù) 308
在機器學(xué)習(xí)流程中使用Drill 309
通過Drill 進行預(yù)測 310
建立與序列化模型 310
編寫UDF 封裝類 311
通過UDF 進行預(yù)測 313
小結(jié) 313
附錄A Drill 函數(shù)列表 315
附錄B Drill 格式化字符串 331

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號