注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡家庭與辦公軟件大數(shù)據(jù)離線分析

大數(shù)據(jù)離線分析

大數(shù)據(jù)離線分析

定 價:¥35.00

作 者: 傅德謙,趙向兵,張林濤,劉鳴濤 著
出版社: 清華大學出版社
叢編項: 高等院校數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)系列規(guī)劃教材
標 簽: 暫缺

ISBN: 9787302483298 出版時間: 2017-08-01 包裝: 平裝
開本: 16開 頁數(shù): 169 字數(shù):  

內(nèi)容簡介

  本書基于開源Hadoop大數(shù)據(jù)生態(tài)圈的主流離線分析工具Hive和Pig,通過技術(shù)講解和案例實戰(zhàn)相結(jié)合的方式,介紹了海量數(shù)據(jù)離線分析的技術(shù)方法。本書內(nèi)容主要包括Hive數(shù)據(jù)庫表、基于HiveQL的常規(guī)操作、視圖、索引和Pig等數(shù)據(jù)處理分析和基礎工具知識,Hive函數(shù)、Pig Latin編程、ETL工具Sqoop和工作流引擎Oozie等相關高級技術(shù),以及實際項目案例。本書既可供學習大數(shù)據(jù)離線分析技術(shù)的本科和高職高專學生作為教材,也可供從事數(shù)據(jù)分析相關工作的技術(shù)人員作為參考資料。

作者簡介

暫缺《大數(shù)據(jù)離線分析》作者簡介

圖書目錄

緒論001
第1章走進Hive003
1.1Hive簡介003
1.1.1Hive發(fā)展史003
1.1.2體系結(jié)構(gòu)004
1.2Hive的安裝部署005
1.2.1安裝配置Hive005
1.2.2啟動Hive008
1.3Hive命令009
1.3.1Hive命令行選項009
1.3.2CLI命令行界面010
1.3.3Hive中CLI命令的快速編輯011
1.3.4Hive中的腳本011
1.3.5dfs命令的執(zhí)行013
1.4數(shù)據(jù)類型和文件格式014
1.4.1基本數(shù)據(jù)類型014
1.4.2集合數(shù)據(jù)類型015
1.4.3文本文件數(shù)據(jù)編碼016
本章小結(jié)018
習題018
第2章HiveQL數(shù)據(jù)定義020
2.1數(shù)據(jù)庫的創(chuàng)建與查詢020
2.2數(shù)據(jù)庫的修改與刪除021
2.3創(chuàng)建表022
2.3.1管理表023
2.3.2外部表023
2.3.3查看表結(jié)構(gòu)024
2.4修改表025
2.5刪除表026大數(shù)據(jù)
離線分析
目錄
2.6分區(qū)表027
2.6.1外部分區(qū)表028
2.6.2自定義表的存儲格式030
2.6.3增加、修改和刪除分區(qū)表031
2.7桶表031
本章小結(jié)032
習題033
第3章HiveQL數(shù)據(jù)操作034
3.1數(shù)據(jù)加載與導出034
3.1.1數(shù)據(jù)加載034
3.1.2數(shù)據(jù)導出036
3.2數(shù)據(jù)查詢037
3.2.1SELECT ... FROM語句037
3.2.2WHERE語句040
3.2.3GROUP BY語句與HAVING語句042
3.2.4JOIN語句043
3.2.5ORDER BY語句和SORT BY語句046
3.2.6CLUSTER BY語句047
3.2.7UNION ALL語句048
3.3抽樣查詢048
3.3.1數(shù)據(jù)塊抽樣049
3.3.2分桶表的輸入裁剪049
本章小結(jié)051
習題051
第4章HiveQL視圖和索引052
4.1視圖052
4.1.1創(chuàng)建視圖052
4.1.2顯示視圖053
4.1.3刪除視圖054
4.2索引054
4.2.1創(chuàng)建索引055
4.2.2重建索引055
4.2.3顯示索引056
4.2.4刪除索引056
本章小結(jié)057
習題057
第5章Hive的函數(shù)058
5.1函數(shù)簡介058
5.1.1發(fā)現(xiàn)和描述函數(shù)058
5.1.2調(diào)用函數(shù)059
5.1.3標準函數(shù)059
5.1.4聚合函數(shù)061
5.1.5表生成函數(shù)067
5.2用戶自定義函數(shù)UDF068
5.3用戶自定義聚合函數(shù)UDAF072
5.4用戶自定義表生成函數(shù)UDTF074
5.5UDF的標注075
5.5.1定數(shù)性標注(deterministic)076
5.5.2狀態(tài)性標注(stateful)076
5.5.3唯一性標注(distinctLike)076
本章小結(jié)076
習題077
第6章認識Pig078
6.1初識Pig078
6.1.1Pig是什么078
6.1.2Pig的應用場景078
6.1.3Pig的設計思想079
6.1.4Pig的發(fā)展簡史080
6.2安裝、運行Pig080
6.2.1安裝Pig080
6.2.2運行Pig081
本章小結(jié)082
習題082
第7章Pig基礎084
7.1命令行工具Grunt084
7.1.1輸入Pig Latin腳本084
7.1.2使用HDFS命令085
7.1.3控制Pig087
7.2Pig數(shù)據(jù)類型088
7.2.1基本類型088
7.2.2復雜類型089
7.2.3NULL值089
7.2.4類型轉(zhuǎn)換090
本章小結(jié)092
習題092
第8章Pig Latin編程093
8.1Pig Latin介紹093
8.1.1基礎知識093
8.1.2輸入和輸出094
8.2關系操作095
8.2.1foreach語句096
8.2.2filter語句096
8.2.3group語句097
8.2.4order語句097
8.2.5distinct語句098
8.2.6join語句098
8.2.7limit語句098
8.2.8sample語句099
8.2.9parallel語句099
8.3用戶自定義函數(shù)UDF101
8.3.1注冊UDF102
8.3.2define命令和UDF103
8.3.3調(diào)用Java函數(shù)104
8.4開發(fā)工具104
8.4.1describe104
8.4.2explain105
8.4.3illustrate107
8.4.4Pig統(tǒng)計信息109
8.4.5M/R作業(yè)狀態(tài)信息111
8.4.6調(diào)試技巧112
本章小結(jié)113
習題113
第9章數(shù)據(jù)ETL工具Sqoop115
9.1安裝Sqoop115
9.2數(shù)據(jù)導入117
9.2.1導入實例118
9.2.2導入數(shù)據(jù)的使用119
9.2.3數(shù)據(jù)導入代碼生成120
9.3數(shù)據(jù)導出121
9.3.1導出實例121
9.3.2導出和SequenceFile123
本章小結(jié)123
習題124
第10章Hadoop工作流引擎Oozie125
10.1Oozie是什么125
10.2Oozie的安裝125
10.3Oozie的編寫與運行131
10.3.1Workflow組件131
10.3.2Coordinator組件133
10.3.3Bundle組件134
10.3.4作業(yè)的部署與執(zhí)行134
10.3.5向作業(yè)傳遞參數(shù)136
10.4Oozie控制臺136
10.4.1控制臺界面136
10.4.2獲取作業(yè)信息137
10.5Oozie的高級特性139
10.5.1自定義Oozie Workflow139
10.5.2使用Oozie JavaAPI141
本章小結(jié)143
習題143
第11章離線計算實例145
11.1微博歷史數(shù)據(jù)分析145
11.1.1數(shù)據(jù)結(jié)構(gòu)145
11.1.2需求分析146
11.1.3需求實現(xiàn)146
11.2電商銷售數(shù)據(jù)分析160
11.2.1數(shù)據(jù)結(jié)構(gòu)160
11.2.2需求分析161
11.2.3需求實現(xiàn)161
本章小結(jié)169
參考文獻

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號