注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書工具書計算機工具書Cloudera Hadoop大數(shù)據(jù)平臺實戰(zhàn)指南

Cloudera Hadoop大數(shù)據(jù)平臺實戰(zhàn)指南

Cloudera Hadoop大數(shù)據(jù)平臺實戰(zhàn)指南

定 價:¥59.00

作 者: 宋立桓,陳建平
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787302517535 出版時間: 2019-01-01 包裝: 平裝
開本: 16開 頁數(shù): 240 字數(shù):  

內(nèi)容簡介

  對于入門和學習大數(shù)據(jù)技術(shù)的讀者來說,大數(shù)據(jù)技術(shù)的生態(tài)圈和知識體系過于龐大,可能還沒有開始學習就已經(jīng)陷入眾多的陌生名詞和泛泛的概念中。本書的切入點明確而清晰,從Hadoop 生態(tài)系統(tǒng)的明星 Cloudera 入手,逐步引出各類大數(shù)據(jù)基礎(chǔ)和核心應(yīng)用框架。 本書分為18章,系統(tǒng)介紹Hadoop 生態(tài)系統(tǒng)大數(shù)據(jù)相關(guān)的知識,包括大數(shù)據(jù)概述、Cloudera Hadoop平臺的安裝部署、HDFS分布式文件系統(tǒng)、MapReduce計算框架、資源管理調(diào)度框架YARN 、Hive數(shù)據(jù)倉庫、數(shù)據(jù)遷移工具Sqoop、分布式數(shù)據(jù)庫HBase、ZooKeeper分布式協(xié)調(diào)服務(wù)、準實時分析系統(tǒng)Impala、日志采集工具Flume、分布式消息系統(tǒng)Kafka、ETL工具Kettle、Spark計算框架等內(nèi)容,最后給出兩個綜合實操案例,以鞏固前面所學的知識點。 本書既適合Hadoop初學者、大數(shù)據(jù)技術(shù)工程師和大數(shù)據(jù)技術(shù)愛好者自學使用,亦可作為高等院校和培訓機構(gòu)大數(shù)據(jù)相關(guān)課程的培訓用書。

作者簡介

  宋立桓,連續(xù)十屆微軟有價值專家MVP、系統(tǒng)集成高級項目經(jīng)理、大數(shù)據(jù)與云計算培訓講師、微軟技術(shù)大會動手實驗講師,有20年的工作經(jīng)驗,曾服務(wù)于微軟擔任合作伙伴技術(shù)顧問。目前在騰訊,擔任騰訊云解決方案架構(gòu)師。陳建平,曾擔任IBM(上海)高級數(shù)據(jù)分析經(jīng)理,資深技術(shù)講師,10年相關(guān)項目經(jīng)歷,長期從事大數(shù)據(jù)相關(guān)研究分析工作。

圖書目錄

目   錄
第1章  大數(shù)據(jù)概述    1
1.1  大數(shù)據(jù)時代的數(shù)據(jù)特點    1
1.2  大數(shù)據(jù)時代的發(fā)展趨勢——數(shù)據(jù)將成為資產(chǎn)    2
1.3  大數(shù)據(jù)時代處理數(shù)據(jù)理念的改變    3
1.3.1  要全體不要抽樣    3
1.3.2  要效率不要精確    3
1.3.3  要相關(guān)不要因果    4
1.4  大數(shù)據(jù)時代的關(guān)鍵技術(shù)    5
1.5  大數(shù)據(jù)時代的典型應(yīng)用案例    5
1.5.1  塔吉特超市精準營銷案例    5
1.5.2  谷歌流感趨勢案例    6
1.5.3  證券行業(yè)案例    6
1.5.4  某運營商大數(shù)據(jù)平臺案例    7
1.6  Hadoop概述和介紹    7
1.6.1  Hadoop 發(fā)展歷史和應(yīng)用現(xiàn)狀    7
1.6.2  Hadoop 的特點    8
1.6.3  Hadoop 的生態(tài)系統(tǒng)    8
第2章  Cloudera大數(shù)據(jù)平臺介紹    10
2.1  Cloudera簡介    10
2.2  Cloudera的Hadoop發(fā)行版CDH簡介    11
2.2.1  CDH概述    11
2.2.2  CDH和Apache Hadoop對比    12
2.3  Cloudera Manager大數(shù)據(jù)管理平臺介紹    12
2.3.1  Cloudera Manager概述和整體架構(gòu)    12
2.3.2  Cloudera Manager的基本核心功能    14
2.3.3  Cloudera Manager的高級功能    18
2.4  Cloudera平臺參考部署架構(gòu)    19
2.4.1  Cloudera的軟件體系結(jié)構(gòu)    19
2.4.2  群集硬件規(guī)劃配置    19
2.4.3  Hadoop集群角色分配    21
2.4.4  網(wǎng)絡(luò)拓撲    23
第3章  Cloudera Manager及CDH離線安裝部署    25
3.1  安裝前的準備工作    25
3.2  Cloudera Manager及CDH安裝    30
3.3  添加其他大數(shù)據(jù)組件    35
第4章  分布式文件系統(tǒng)HDFS    37
4.1  HDFS簡介    37
4.2  HDFS體系結(jié)構(gòu)    38
4.2.1  HDFS 架構(gòu)概述    38
4.2.2  HDFS命名空間管理    38
4.2.3  NameNode    39
4.2.4  SecondaryNameNode    39
4.3  HDFS 2.0新特性    41
4.3.1  HDFS HA    41
4.3.2  HDFS Federation    42
4.4  HDFS操作常用shell命令    43
4.4.1  HDFS目錄操作和文件處理命令    43
4.4.2  HDFS的Web管理界面    44
4.4.3  dfsadmin管理維護命令    45
4.4.4  namenode命令    47
4.5  Java編程操作HDFS實踐    47
4.6  HDFS 的參數(shù)配置和規(guī)劃    49
4.7  使用Cloudera Manager啟用HDFS HA    51
4.7.1  HDFS HA高可用配置    51
4.7.2  HDFS HA高可用功能測試    54
第5章  分布式計算框架MapReduce    57
5.1  MapReduce概述    57
5.2  MapReduce原理介紹    58
5.2.1  工作流程概述    58
5.2.2  MapReduce框架的優(yōu)勢    58
5.2.3  MapReduce執(zhí)行過程    59
5.3  MapReduce編程——單詞示例解析    59
5.4  MapReduce應(yīng)用開發(fā)    60
5.4.1  配置MapReduce開發(fā)環(huán)境    60
5.4.2  編寫和運行MapReduce程序    61
第6章  資源管理調(diào)度框架YARN    65
6.1  YARN產(chǎn)生背景    65
6.2  YARN框架介紹    66
6.3  YARN工作原理    67
6.4  YARN框架和MapReduce1.0框架對比    69
6.5  CDH集群的YARN參數(shù)調(diào)整    69
第7章  數(shù)據(jù)倉庫Hive    72
7.1  Hive簡介    72
7.2  Hive體系架構(gòu)和應(yīng)用場景    73
7.2.1  Hive體系架構(gòu)    73
7.2.2  Hive應(yīng)用場景    74
7.3  Hive的數(shù)據(jù)模型    75
7.3.1  內(nèi)部表    75
7.3.2  外部表    75
7.3.3  分區(qū)表    75
7.3.4  桶    75
7.4  Hive實戰(zhàn)操作    76
7.4.1  Hive內(nèi)部表操作    77
7.4.2  Hive外部表操作    77
7.4.3  Hive分區(qū)表操作    79
7.4.4  桶表    80
7.4.5  Hive應(yīng)用實例WordCount    82
7.4.6  UDF    84
7.5  基于Hive的應(yīng)用案例    86
第8章  數(shù)據(jù)遷移工具Sqoop    88
8.1  Sqoop概述    88
8.2  Sqoop工作原理    89
8.3  Sqoop版本和架構(gòu)    91
8.4  Sqoop實戰(zhàn)操作    93
第9章  分布式數(shù)據(jù)庫HBase    100
9.1  HBase概述    100
9.2  HBase數(shù)據(jù)模型    101
9.3  HBase生態(tài)地位和系統(tǒng)架構(gòu)    101
9.3.1  HBase的生態(tài)地位解析    101
9.3.2  HBase系統(tǒng)架構(gòu)    102
9.4  HBase運行機制    103
9.4.1  Region    103
9.4.2  Region Server工作原理    103
9.4.3  Store工作原理    104
9.5  HBase操作實戰(zhàn)    104
9.5.1  HBase常用shell命令    104
9.5.2  HBase編程實踐    107
9.5.3  HBase參數(shù)調(diào)優(yōu)的案例分享    109
第10章  分布式協(xié)調(diào)服務(wù)ZooKeeper    111
10.1  ZooKeeper的特點    111
10.2  ZooKeeper的工作原理    112
10.2.1  基本架構(gòu)    112
10.2.2  ZooKeeper實現(xiàn)分布式Leader節(jié)點選舉    112
10.2.3  ZooKeeper配置文件重點參數(shù)詳解    112
10.3  ZooKeeper典型應(yīng)用場景    115
10.3.1  ZooKeeper實現(xiàn)HDFS的NameNode高可用HA    115
10.3.2  ZooKeeper實現(xiàn)HBase的HMaster高可用    116
10.3.3  ZooKeeper在Storm集群中的協(xié)調(diào)者作用    116
第11章  準實時分析系統(tǒng)Impala    118
11.1  Impala概述    118
11.2  Impala組件構(gòu)成    119
11.3  Impala系統(tǒng)架構(gòu)    119
11.4  Impala的查詢處理流程    120
11.5  Impala和Hive的關(guān)系和對比    121
11.6  Impala安裝    122
11.7  Impala入門實戰(zhàn)操作    124
第12章  日志采集工具Flume    128
12.1  Flume概述    128
12.2  Flume體系結(jié)構(gòu)    129
12.2.1  Flume外部結(jié)構(gòu)    129
12.2.2  Flume的Event事件概念    130
12.2.3  Flume的Agent    130
12.3  Flume安裝和集成    131
12.3.1  搭建Flume環(huán)境    131
12.3.2  Kafka與Flume集成    132
12.4  Flume操作實例介紹    132
12.4.1  例子概述    132
12.4.2  步:配置數(shù)據(jù)流向    132
12.4.3  第二步:啟動服務(wù)    133
12.4.4  第三步:新建空數(shù)據(jù)文件    133
12.4.5  第四步:運行flume-ng命令    133
12.4.6  第五步:運行命令腳本    134
12.4.7  后一步:測試結(jié)果    134
第13章  分布式消息系統(tǒng)Kafka    135
13.1  Kafka架構(gòu)設(shè)計    135
13.1.1  基本架構(gòu)    135
13.1.2  基本概念    136
13.1.3  Kafka主要特點    136
13.2  Kafka原理解析    137
13.2.1  主要的設(shè)計理念    137
13.2.2  ZooKeeper在Kafka的作用    137
13.2.3  Kafka在ZooKeeper的執(zhí)行流程    137
13.3  Kafka安裝和部署    138
13.3.1  CDH5完美集成Kafka    138
13.3.2  Kafka部署模式和配置    139
13.4  Java操作Kafka消息處理實例    141
13.4.1  例子概述    141
13.4.2  步:新建工程    141
13.4.3  第二步:編寫代碼    141
13.4.4  第三步:運行發(fā)送數(shù)據(jù)程序    142
13.4.5  后一步:運行接收數(shù)據(jù)程序    143
13.5  Kafka與HDFS的集成    143
13.5.1  與HDFS集成介紹    143
13.5.2  與HDFS集成實例    144
13.5.3  步:編寫代碼——發(fā)送數(shù)據(jù)    144
13.5.4  第二步:編寫代碼——接收數(shù)據(jù)    145
13.5.5  第三步:導(dǎo)出文件    146
13.5.6  第四步:上傳文件    146
13.5.7  第五步:運行程序——發(fā)送數(shù)據(jù)    146
13.5.8  第六步:運行程序——接收數(shù)據(jù)    147
13.5.9  后一步:查看執(zhí)行結(jié)果    147
第14章  大數(shù)據(jù)ETL工具Kettle    148
14.1  ETL原理    148
14.1.1  ETL簡介    148
14.1.2  ETL在數(shù)據(jù)倉庫中的作用    149
14.2  Kettle簡介    149
14.3  Kettle完整案例實戰(zhàn)    150
14.3.1  案例介紹    150
14.3.2  終效果    150
14.3.3  表說明    150
14.3.4  步:準備數(shù)據(jù)庫數(shù)據(jù)    151
14.3.5  第二步:新建轉(zhuǎn)換    152
14.3.6  第三步:新建數(shù)據(jù)庫連接    153
14.3.7  第四步:拖動表輸入組件    153
14.3.8  第五步:設(shè)置屬性——order表    154
14.3.9  第六步:設(shè)置屬性——user表    155
14.3.10  第七步:拖動流查詢并設(shè)置屬性——流查詢    155
14.3.11  第八步:設(shè)置屬性——product表    156
14.3.12  第九步:連接組件    156
14.3.13  第十步:設(shè)置屬性——文本輸出    156
14.3.14  后一步:運行程序并查看結(jié)果    157
14.4  Kettle調(diào)度和命令    158
14.4.1  通過頁面調(diào)度    158
14.4.2  通過腳本調(diào)度    159
14.5  Kettle使用原則    161
第15章  大規(guī)模數(shù)據(jù)處理計算引擎Spark    162
15.1  Spark簡介    162
15.1.1  使用背景    162
15.1.2  Spark特點    163
15.2  Spark架構(gòu)設(shè)計    163
15.2.1  Spark整體架構(gòu)    163
15.2.2  關(guān)鍵運算組件    164
15.2.3  RDD介紹    164
15.2.4  RDD操作    165
15.2.5  RDD依賴關(guān)系    166
15.2.6  RDD源碼詳解    167
15.2.7  Scheduler    168
15.2.8  Storage    168
15.2.9  Shuffle    169
15.3  Spark編程實例    170
15.3.1  實例概述    170
15.3.2  步:編輯數(shù)據(jù)文件    170
15.3.3  第二步:編寫程序    171
15.3.4  第三步:上傳JAR文件    171
15.3.5  第四步:遠程執(zhí)行程序    172
15.3.6  后一步:查看結(jié)果    172
15.4  Spark SQL實戰(zhàn)    173
15.4.1  例子概述    173
15.4.2  步:編輯數(shù)據(jù)文件    173
15.4.3  第二步:編寫代碼    174
15.4.4  第三步:上傳文件到服務(wù)器    174
15.4.5  第四步:遠程執(zhí)行程序    174
15.4.6  后一步:查看結(jié)果    175
15.5  Spark Streaming實戰(zhàn)    175
15.5.1  例子概述    175
15.5.2  步:編寫代碼    175
15.5.3  第二步:上傳文件到服務(wù)器    176
15.5.4  第三步:遠程執(zhí)行程序    177
15.5.5  第四步:上傳數(shù)據(jù)    177
15.5.6  后一步:查看結(jié)果    177
15.6  Spark MLlib實戰(zhàn)    178
15.6.1  例子步驟    178
15.6.2  步:編寫代碼    178
15.6.3  第二步:上傳文件到服務(wù)器    179
15.6.4  第三步:遠程執(zhí)行程序    179
15.6.5  第四步:上傳數(shù)據(jù)    180
15.6.6  后一步:查看結(jié)果    180
第16章  大數(shù)據(jù)全棧式開發(fā)語言Python    182
16.1  Python簡介    182
16.2  Python安裝和配置    183
16.2.1  Anaconda介紹    183
16.2.2  Anaconda下載    183
16.2.3  Anaconda安裝    184
16.2.4  Anaconda包管理    185
16.2.5  PyCharm下載    185
16.2.6  PyCharm安裝    185
16.2.7  PyCharm使用    187
16.3  Python入門    190
16.3.1  例子概述    190
16.3.2  步:新建Python文件    190
16.3.3  第二步:設(shè)置字體大小    191
16.3.4  第三步:編寫代碼    191
16.3.5  第四步:執(zhí)行程序    192
16.3.6  后一步:改變輸入    192
16.4  Python數(shù)據(jù)科學庫pandas入門    193
16.4.1  例子概述    193
16.4.2  pandas包介紹    194
16.4.3  步:打開Jupyter Notebook    194
16.4.4  第二步:導(dǎo)入包    194
16.4.5  第三步:定義數(shù)據(jù)集    195
16.4.6  第四步:過濾數(shù)據(jù)    195
16.4.7  后一步:獲取數(shù)據(jù)    196
16.5  Python繪圖庫matplotlib入門    197
16.5.1  例子概述    197
16.5.2  步:新建一個Python文件    197
16.5.3  第二步:引入畫圖包    197
16.5.4  第三步:組織數(shù)據(jù)    198
16.5.5  第四步:畫圖    198
16.5.6  后一步:查看結(jié)果    199
第17章  大數(shù)據(jù)實戰(zhàn)案例:實時數(shù)據(jù)流處理項目    200
17.1  項目背景介紹    200
17.2  業(yè)務(wù)需求分析    200
17.3  項目技術(shù)架構(gòu)    201
17.4  項目技術(shù)組成    202
17.5  項目實施步驟    202
17.5.1  步:運用Kafka產(chǎn)生數(shù)據(jù)    202
17.5.2  第二步:運用Spark接收數(shù)據(jù)    208
17.5.3  第三步:安裝Redis軟件    211
17.5.4  第四步:準備程序運行環(huán)境    214
17.5.5  第五步:遠程執(zhí)行Spark程序    216
17.5.6  第六步:編寫Python實現(xiàn)可視化    218
17.5.7  后一步:執(zhí)行Python程序    221
17.6  項目總結(jié)    222
第18章  大數(shù)據(jù)實戰(zhàn)案例:用戶日志綜合分析項目    223
18.1  項目背景介紹    223
18.2  項目設(shè)計目的    223
18.3  項目技術(shù)架構(gòu)和組成    224
18.4  項目實施步驟    225
18.4.1  步:本地數(shù)據(jù)FTP到Linux環(huán)境    225
18.4.2  第二步:Linux數(shù)據(jù)上傳到HDFS    225
18.4.3  第三步:使用Hive訪問HDFS數(shù)據(jù)    226
18.4.4  第四步:使用Kettle把數(shù)據(jù)導(dǎo)入HBase    228
18.4.5  第五步:使用Sqoop把數(shù)據(jù)導(dǎo)入MySQL    234
18.4.6  第六步:編寫Python程序?qū)崿F(xiàn)可視化    236
18.4.7  后一步:執(zhí)行Python程序    238

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號