注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件自己動(dòng)手做大數(shù)據(jù)系統(tǒng)(第2版)

自己動(dòng)手做大數(shù)據(jù)系統(tǒng)(第2版)

自己動(dòng)手做大數(shù)據(jù)系統(tǒng)(第2版)

定 價(jià):¥79.00

作 者: 劉未昕 張粵磊 張魁 吳茂貴 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787121382024 出版時(shí)間: 2020-04-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 356 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)在第1版的基礎(chǔ)上,介紹大數(shù)據(jù)的時(shí)代背景及應(yīng)用方案、常用的離線大數(shù)據(jù)和流式大數(shù)據(jù)組件,以及基于云平臺(tái)的容器級(jí)數(shù)據(jù)平臺(tái)搭建。書(shū)中以離線大數(shù)據(jù)和流式大數(shù)據(jù)兩個(gè)具體示例,貫穿本書(shū)的第二、三部分內(nèi)容,對(duì)組件之間的協(xié)同工作關(guān)系進(jìn)行剖析。書(shū)中的代碼部分基本上使用Python編寫(xiě),用戶可以下載參考。如果你是一位在校學(xué)生、Python編程愛(ài)好者或是想轉(zhuǎn)行從事大數(shù)據(jù)工作的在職IT人員,閱讀本書(shū)必有所收獲!

作者簡(jiǎn)介

  ·劉未昕· 從事IT研發(fā)和項(xiàng)目管理工作十余年。使用多種主流程序設(shè)計(jì)語(yǔ)言,深耕于大數(shù)據(jù)應(yīng)用及人工智能技術(shù),多年從事金融、數(shù)據(jù)倉(cāng)庫(kù)、智慧醫(yī)療等領(lǐng)域的研發(fā)工作。5年以上IT行業(yè)授課、培訓(xùn)經(jīng)驗(yàn),并在多所高校擔(dān)任外聘講師。 ·張粵磊· 平安壹錢(qián)包前大數(shù)據(jù)架構(gòu)師。業(yè)內(nèi)知名大數(shù)據(jù)專(zhuān)家,多本大數(shù)據(jù)暢銷(xiāo)書(shū)的作者。2016年以來(lái),其每年都以高級(jí)專(zhuān)家和咨詢(xún)顧問(wèn)的身份深入?yún)⑴c大數(shù)據(jù)、人工智能技術(shù)在行業(yè)的落地應(yīng)用工作。至今已完成企業(yè)培訓(xùn)數(shù)百場(chǎng),培訓(xùn)學(xué)員數(shù)萬(wàn)名,在數(shù)據(jù)人才實(shí)戰(zhàn)型、場(chǎng)景型培訓(xùn)培養(yǎng)方面具有豐富的實(shí)踐經(jīng)驗(yàn)。 ·張魁· 虛擬化工程師,OpenStack架構(gòu)師,蘇州某高校云平臺(tái)架構(gòu)師,十余年Linux系統(tǒng)運(yùn)維實(shí)踐及虛擬化開(kāi)發(fā)經(jīng)驗(yàn),4年Linux系統(tǒng)補(bǔ)丁開(kāi)發(fā)經(jīng)驗(yàn)。先后在美企擔(dān)任虛擬化應(yīng)用運(yùn)維、服務(wù)器集群開(kāi)發(fā)運(yùn)維工程師或系統(tǒng)開(kāi)發(fā)架構(gòu)師,高校信息中心云平臺(tái)架構(gòu)師,主要關(guān)注OpenStack、Docker及分布式存儲(chǔ)等。 ·吳茂貴· 運(yùn)籌學(xué)與控制論專(zhuān)業(yè)研究生學(xué)歷。畢業(yè)后主要參與數(shù)據(jù)倉(cāng)庫(kù)、商務(wù)智能等方面的項(xiàng)目,期間做過(guò)數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)挖掘等工作,行業(yè)涉及金融、物流、制造業(yè)等。近期主要做復(fù)雜數(shù)據(jù)存儲(chǔ)、清理、轉(zhuǎn)換等工作,同時(shí)在大數(shù)據(jù)方面也很有興趣并投入大量時(shí)間和精力,且將持續(xù)為之。

圖書(shū)目錄

第一部分 大數(shù)據(jù)概述
第1章 大數(shù)據(jù)的時(shí)代背景及應(yīng)用落地 2
1.1 大數(shù)據(jù)與“云大物區(qū)智”的關(guān)聯(lián) 2
1.2 大數(shù)據(jù)平臺(tái)的應(yīng)用優(yōu)勢(shì) 4
1.3 大數(shù)據(jù)平臺(tái)的技術(shù)架構(gòu)選型和產(chǎn)品對(duì)比 4
第2章 大數(shù)據(jù)系統(tǒng)的安裝及配置 7
2.1 服務(wù)器及操作系統(tǒng)的準(zhǔn)備 7
2.2 JDK、PYTHON和SCALA 8
2.3 HADOOP 12
2.3.1 安裝環(huán)境的確認(rèn)及文件準(zhǔn)備 16
2.3.2 配置環(huán)境變量及無(wú)密碼傳輸 16
2.3.3 配置Hadoop的對(duì)應(yīng)參數(shù) 18
2.3.4 啟動(dòng)并驗(yàn)證Hadoop 20
2.4 SQOOP 20
2.4.1 Sqoop安裝文件的準(zhǔn)備 22
2.4.2 Sqoop的安裝及配置 23
2.4.3 Sqoop運(yùn)行驗(yàn)證 24
2.5 HIVE 25
2.5.1 安裝文件的準(zhǔn)備 26
2.5.2 配置環(huán)境變量和安裝MySQL 26
2.5.3 配置Hive參數(shù) 26
2.5.4 驗(yàn)證Hive的相關(guān)服務(wù) 29
2.6 ZOOKEEPER和HBASE 29
2.6.1 ZooKeeper安裝文件的準(zhǔn)備 30
2.6.2 ZooKeeper的安裝及配置 30
2.6.3 ZooKeeper運(yùn)行驗(yàn)證 31
2.6.4 HBase安裝文件的準(zhǔn)備 31
2.6.5 HBase的安裝及配置 31
2.6.6 HBase運(yùn)行驗(yàn)證 32
2.7 FLUME 33
2.8 KAFKA 35
2.9 SPARK 37
2.9.1 Spark安裝文件的準(zhǔn)備 38
2.9.2 Spark的安裝及配置 38
2.9.3 Spark運(yùn)行驗(yàn)證 39
2.10 FLINK 39
2.11 開(kāi)源大數(shù)據(jù)系統(tǒng)各組件的組合 40
2.12 CDH 41
2.13 FUSIONINSIGHT 42
2.14 小結(jié) 44
第二部分 離線大數(shù)據(jù)處理
第3章 使用PYTHON爬蟲(chóng)獲取數(shù)據(jù) 47
3.1 PYTHON爬蟲(chóng)模塊的安裝 47
3.1.1 requests模塊的安裝及驗(yàn)證 47
3.1.2 Beautiful Soup模塊的安裝及驗(yàn)證 47
3.2 抓取并解析JSON數(shù)據(jù) 49
3.2.1 利用Fiddler找出所抓取的網(wǎng)址 49
3.2.2 解析JSON對(duì)象 51
3.3 抓取并解析HTML中的數(shù)據(jù) 52
3.3.1 使用Beautiful Soup提取網(wǎng)頁(yè)內(nèi)容 52
3.3.2 保存抓取內(nèi)容 53
3.3.3 不同爬蟲(chóng)模塊所適用的場(chǎng)景 55
3.4 使用PYTHON提取文章的關(guān)鍵字 55
3.4.1 中文分詞和關(guān)鍵字的提取 55
3.4.2 Python的中文分詞模塊jieba 56
3.4.3 使用自定義詞典和停用詞 57
3.4.4 提取文章的關(guān)鍵字 58
3.5 小結(jié) 60
第4章 HIVE在大數(shù)據(jù)中的角色 61
4.1 HIVE的核心概念及配置使用 61
4.1.1 Hive在大數(shù)據(jù)生態(tài)系統(tǒng)中的作用 61
4.1.2 Hive的幾種使用方法 62
4.1.3 使用Tez引擎替代MapReduce 65
4.2 概要設(shè)計(jì)和物理模型的創(chuàng)建 68
4.2.1 使用Hive要解決哪些問(wèn)題 68
4.2.2 數(shù)據(jù)庫(kù)的概要設(shè)計(jì) 68
4.2.3 物理模型的定義及創(chuàng)建表 73
4.3 加載爬蟲(chóng)數(shù)據(jù) 79
4.4 數(shù)據(jù)的合并、去重和轉(zhuǎn)換 80
4.4.1 數(shù)據(jù)的合并 80
4.4.2 利用臨時(shí)表去掉重復(fù)的數(shù)據(jù) 81
4.4.3 使用Hive內(nèi)置函數(shù)轉(zhuǎn)換數(shù)據(jù) 83
4.5 使用UDF實(shí)現(xiàn)數(shù)據(jù)的轉(zhuǎn)換 84
4.5.1 用戶自定義函數(shù)的實(shí)現(xiàn)原理 84
4.5.2 利用Python實(shí)現(xiàn)UDF 84
4.5.3 數(shù)據(jù)進(jìn)入rpt表 87
4.6 使用PYTHON操作HIVE 89
4.6.1 安裝impyla模塊 89
4.6.2 使用Python讀取數(shù)據(jù)示例 89
4.7 ETL數(shù)據(jù)調(diào)度和數(shù)據(jù)治理 90
4.7.1 數(shù)據(jù)處理的自動(dòng)化 90
4.7.2 數(shù)據(jù)治理 95
4.8 小結(jié) 96
第5章 使用HBASE實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ) 97
5.1 非關(guān)系型數(shù)據(jù)庫(kù)及HBASE 97
5.2 HBASE的幾個(gè)核心概念 98
5.3 HBASE數(shù)據(jù)操作命令 99
5.3.1 HBase客戶端 99
5.3.2 創(chuàng)建表及插入數(shù)據(jù) 100
5.3.3 按照行鍵值檢索 102
5.3.4 掃描檢索 102
5.3.5 刪除表和數(shù)據(jù) 104
5.4 使用PYTHON操作HBASE 107
5.4.1 啟動(dòng)HBase Thrift Server 107
5.4.2 安裝happybase模塊 107
5.4.3 插入數(shù)據(jù)及刪除數(shù)據(jù) 107
5.4.4 組合查詢(xún)代碼示例 109
5.5 把HIVE數(shù)據(jù)導(dǎo)入HBASE 110
5.6 用HIVE外部表讀取HBASE數(shù)據(jù) 111
5.7 小結(jié) 112
第6章 SPARK數(shù)據(jù)分析引擎 113
6.1 SPARK簡(jiǎn)介 113
6.2 SPARK集群的配置及啟動(dòng) 114
6.2.1 Spark集群的安裝與配置 115
6.2.2 作業(yè)提交方式 116
6.2.3 操作界面的啟動(dòng)類(lèi)型 117
6.2.4 三類(lèi)Web監(jiān)控界面 119
6.3 調(diào)用HIVE數(shù)據(jù) 121
6.3.1 使用beeline客戶端 121
6.3.2 使用HiveContext對(duì)象 122
6.3.3 使用Spark SQL 123
6.3.4 使用JDBC 123
6.4 調(diào)用HBASE數(shù)據(jù) 123
6.4.1 設(shè)定環(huán)境變量 123
6.4.2 讀數(shù)據(jù)示例 124
6.5 使用PYSPARK進(jìn)行數(shù)據(jù)分析 126
6.5.1 將RDD轉(zhuǎn)換為DataFrame 127
6.5.2 Spark SQL等值連接 129
6.5.3 使用matplotlib繪制直方圖 129
6.6 小結(jié) 130
第7章 使用FLASK實(shí)現(xiàn)數(shù)據(jù)展示 131
7.1 FLASK框架簡(jiǎn)介及站點(diǎn)搭建流程 131
7.2 FLASK微框架的特性 132
7.3 使用MVC模式搭建項(xiàng)目框架 133
7.3.1 訪問(wèn)地址 133
7.3.2 MVC模式簡(jiǎn)介 133
7.3.3 項(xiàng)目目錄結(jié)構(gòu) 134
7.4 檢索及加載新聞數(shù)據(jù) 135
7.4.1 模型層的開(kāi)發(fā) 135
7.4.2 模型層的單元測(cè)試 136
7.4.3 控制器層的開(kāi)發(fā) 138
7.4.4 控制器層的單元測(cè)試 139
7.4.5 視圖層的開(kāi)發(fā) 140
7.5 小結(jié) 141
第二部分技術(shù)點(diǎn)總結(jié) 141
第三部分 流式大數(shù)據(jù)處理
第8章 使用FLUME獲取網(wǎng)站訪問(wèn)日志 145
8.1 FLUME的安裝及數(shù)據(jù)流模型 145
8.1.1 Flume簡(jiǎn)介及安裝 145
8.1.2 Flume的數(shù)據(jù)流模型 146
8.2 核心組件的配合使用 146
8.2.1 6種核心組件 146
8.2.2 配置文件 147
8.2.3 flume-ng命令 148
8.3 各種數(shù)據(jù)組合的流動(dòng)方式 150
8.3.1 將日志收集至文件 150
8.3.2 Sink的多路復(fù)用 152
8.3.3 使用Avro作為數(shù)據(jù)源 154
8.3.4 Channel的多路復(fù)用 155
8.4 APACHE服務(wù)器的日志格式 158
8.5 合并兩個(gè)網(wǎng)站的日志 160
8.6 小結(jié) 162
第9章 KAFKA的安裝、配置及其與FLUME的整合 163
9.1 KAFKA的特性及安裝、配置 163
9.1.1 Kafka的特性和適用場(chǎng)合 163
9.1.2 安裝、配置Kafka 164
9.2 幾種術(shù)語(yǔ) 166
9.3 BROKER的使用方法 167
9.3.1 單節(jié)點(diǎn)單Broker 168
9.3.2 單節(jié)點(diǎn)多Broker 169
9.3.3 分布式Broker 172
9.3.4 分區(qū)及偏移量 174
9.3.5 分區(qū)選擇策略 176
9.4 分布式生產(chǎn)者/消費(fèi)者 176
9.4.1 兩個(gè)生產(chǎn)者 176
9.4.2 消費(fèi)者組 177
9.5 KAFKA CONNECTOR 180
9.5.1 File Source 181
9.5.2 File Sink 182
9.6 KAFKA和FLUME的整合 183
9.6.1 給Flume提供數(shù)據(jù) 183
9.6.2 從Flume中獲取數(shù)據(jù) 184
9.7 使用PYTHON連接KAFKA 186
9.8 小結(jié) 187
第10章 REDIS數(shù)據(jù)庫(kù)簡(jiǎn)介 188
10.1 REDIS的特點(diǎn)及適用場(chǎng)景 188
10.2 REDIS的安裝及命令行使用方法 188
10.2.1 Redis的安裝及啟動(dòng) 188
10.2.2 命令行客戶端 189
10.2.3 5種數(shù)據(jù)類(lèi)型 190
10.2.4 字符串命令 191
10.3 使用PYTHON操作REDIS 193
10.4 使用JAVA操作REDIS 194
10.5 小結(jié) 195
第11章 FLINK簡(jiǎn)介及其與KAFKA的整合 196
11.1 FLINK概述及其與SPARK的區(qū)別 196
11.2 FLINK的架構(gòu)、特性及工作流程 196
11.3 FLINK的安裝 199
11.3.1 單節(jié)點(diǎn)的安裝 199
11.3.2 集群的安裝 201
11.3.3 利用ZooKeeper實(shí)現(xiàn)Flink的高可用性 203
11.4 FLINK的作業(yè)提交方式 205
11.4.1 以Standalone方式運(yùn)行 205
11.4.2 利用YARN Session運(yùn)行 207
11.4.3 利用Python調(diào)用Flink服務(wù) 212
11.4.4 使用REST API查看狀態(tài) 213
11.5 FLINK-KAFKA CONNECTOR 214
11.5.1 Flink為Kafka提供數(shù)據(jù) 215
11.5.2 Flink從Kafka接收數(shù)據(jù) 219
11.6 使用FLINK統(tǒng)計(jì)PAGEVIEW 221
11.6.1 Flink開(kāi)發(fā)的一般步驟 221
11.6.2 Flink DataStream API 221
11.6.3 將數(shù)據(jù)落地至Redis和HBase 227
11.7 小結(jié) 235
第12章 網(wǎng)站頁(yè)面訪問(wèn)量的動(dòng)態(tài)展示 236
12.1 百度的ECHARTS圖表功能簡(jiǎn)介 236
12.2 頁(yè)面訪問(wèn)量的動(dòng)態(tài)統(tǒng)計(jì) 238
12.2.1 模型層的開(kāi)發(fā) 239
12.2.2 控制器層的開(kāi)發(fā) 242
12.2.3 視圖層的開(kāi)發(fā) 242
12.3 生成詞云圖和占比餅圖 245
12.3.1 詞云圖模型層的開(kāi)發(fā) 245
12.3.2 詞云圖控制器層的開(kāi)發(fā) 248
12.3.3 詞云圖視圖層的開(kāi)發(fā) 249
12.3.4 關(guān)鍵字餅圖的模型層開(kāi)發(fā) 249
12.3.5 關(guān)鍵字餅圖的控制器層開(kāi)發(fā) 250
12.3.6 關(guān)鍵字餅圖的視圖層開(kāi)發(fā) 251
12.4 訪問(wèn)日志檢索 252
12.5 小結(jié) 253
第三部分技術(shù)點(diǎn)總結(jié) 253
第四部分 云平臺(tái)搭建
第13章 搭建基于云平臺(tái)的容器級(jí)數(shù)據(jù)系統(tǒng) 256
13.1 云平臺(tái) 256
13.1.1 云平臺(tái)架構(gòu) 256
13.1.2 云平臺(tái)的搭建及部署 259
13.1.3 云平臺(tái)的高級(jí)配置 303
13.2 基于云平臺(tái)的容器集群 309
13.2.1 Magnum 309
13.2.2 Docker Swarm 311
13.2.3 Mesos和Marathon的結(jié)合 316
13.2.4 Kubernetes 323
13.3 基于容器的大數(shù)據(jù)系統(tǒng) 331
13.4 小結(jié) 339

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)