注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)企業(yè)級(jí)大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn):用戶(hù)搜索行為分析系統(tǒng)從0到1

企業(yè)級(jí)大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn):用戶(hù)搜索行為分析系統(tǒng)從0到1

企業(yè)級(jí)大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn):用戶(hù)搜索行為分析系統(tǒng)從0到1

定 價(jià):¥89.00

作 者: 張偉洋
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787302630906 出版時(shí)間: 2023-06-01 包裝: 平裝-膠訂
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《企業(yè)級(jí)大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn):用戶(hù)搜索行為分析系統(tǒng)從0到1》基于真實(shí)業(yè)務(wù)場(chǎng)景,以項(xiàng)目導(dǎo)向?yàn)橹骶€(xiàn),從0到1全面介紹“企業(yè)級(jí)大數(shù)據(jù)用戶(hù)搜索行為分析系統(tǒng)”的搭建過(guò)程。全書(shū)共6章,第1章講解項(xiàng)目需求與架構(gòu)設(shè)計(jì),詳細(xì)闡述項(xiàng)目數(shù)據(jù)流與系統(tǒng)架構(gòu);第2章介紹大數(shù)據(jù)項(xiàng)目開(kāi)發(fā)環(huán)境配置,手把手帶領(lǐng)讀者配置操作系統(tǒng)、Hadoop集群與相關(guān)工具,為后續(xù)項(xiàng)目實(shí)施打下基礎(chǔ);第3~5章逐步實(shí)現(xiàn)項(xiàng)目需求,第3章講解“用戶(hù)行為數(shù)據(jù)采集模塊”的開(kāi)發(fā),第4章講解“用戶(hù)行為數(shù)據(jù)離線(xiàn)分析模塊”的開(kāi)發(fā),第5章講解“用戶(hù)行為數(shù)據(jù)實(shí)時(shí)分析模塊”的開(kāi)發(fā),這3章采用項(xiàng)目導(dǎo)向的方式,讓讀者參與實(shí)際開(kāi)發(fā)過(guò)程;第6章講解“數(shù)據(jù)可視化模塊”的開(kāi)發(fā),并整合各模塊,測(cè)試數(shù)據(jù)流轉(zhuǎn),完成項(xiàng)目的開(kāi)發(fā)與部署。 《企業(yè)級(jí)大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn):用戶(hù)搜索行為分析系統(tǒng)從0到1》項(xiàng)目源自真實(shí)業(yè)務(wù)場(chǎng)景,目的是使讀者通過(guò)實(shí)際項(xiàng)目來(lái)理解理論知識(shí)并提高實(shí)踐能力。本書(shū)適合缺乏大數(shù)據(jù)項(xiàng)目經(jīng)驗(yàn)的從業(yè)者閱讀,也適合作為高等院校大數(shù)據(jù)專(zhuān)業(yè)的教學(xué)用書(shū)。

作者簡(jiǎn)介

  張偉洋,從業(yè)近10年,大數(shù)據(jù)領(lǐng)域資深專(zhuān)家,擁有多年知名互聯(lián)網(wǎng)公司軟件研發(fā)經(jīng)驗(yàn),曾在互聯(lián)網(wǎng)旅游公司任軟件研發(fā)事業(yè)部經(jīng)理。目前從事大數(shù)據(jù)項(xiàng)目講師工作,先后多次為各大高校舉行大數(shù)據(jù)專(zhuān)題講座,對(duì)Hadoop及周邊大數(shù)據(jù)框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有著深入的研究。已出版《Flink大數(shù)據(jù)分析實(shí)戰(zhàn)》《Hadoop 3.x大數(shù)據(jù)實(shí)戰(zhàn)》等圖書(shū)。

圖書(shū)目錄

第 1 章  項(xiàng)目需求描述 1
1.1  項(xiàng)目需求 1
1.2  項(xiàng)目數(shù)據(jù)流設(shè)計(jì) 2
1.3  項(xiàng)目架構(gòu)設(shè)計(jì) 3
1.4  集群角色規(guī)劃 6
1.5  項(xiàng)目開(kāi)發(fā)環(huán)境介紹 7
第 2 章  項(xiàng)目開(kāi)發(fā)環(huán)境準(zhǔn)備 9
2.1  VMware中安裝CentOS 7操作系統(tǒng) 9
2.1.1  下載CentOS 7鏡像文件 10
2.1.2  VMware新建虛擬機(jī) 12
2.1.3  安裝CentOS 7 16
2.1.4  啟動(dòng)CentOS 7 21
2.1.5  打開(kāi)Shell終端 22
2.2  Linux系統(tǒng)環(huán)境配置 22
2.2.1  新建用戶(hù) 23
2.2.2  修改用戶(hù)權(quán)限 23
2.2.3  關(guān)閉防火墻 24
2.2.4  設(shè)置固定IP 24
2.2.5  修改主機(jī)名 28
2.2.6  新建資源目錄 28
2.3  安裝JDK 29
2.4  克隆虛擬機(jī) 30
2.5  配置主機(jī)IP映射 33
2.6  配置集群各節(jié)點(diǎn)SSH無(wú)密鑰登錄 34
2.6.1  SSH無(wú)密鑰登錄原理 34
2.6.2  SSH無(wú)密鑰登錄操作步驟 35
2.7  搭建Hadoop分布式集群 36
2.7.1  搭建思路 37
2.7.2  搭建Hadoop集群 37
2.8  動(dòng)手練習(xí) 45
第 3 章  用戶(hù)行為數(shù)據(jù)采集模塊開(kāi)發(fā) 46
3.1  用戶(hù)行為數(shù)據(jù)來(lái)源 47
3.1.1  構(gòu)建測(cè)試數(shù)據(jù) 47
3.1.2  數(shù)據(jù)預(yù)處理 48
3.2  使用Flume采集用戶(hù)行為數(shù)據(jù) 48
3.2.1  Flume采集架構(gòu) 49
3.2.2  Flume組件 51
3.2.3  Flume的安裝與測(cè)試 52
3.2.4  配置Flume多節(jié)點(diǎn)數(shù)據(jù)采集 55
3.3  使用Kafka中轉(zhuǎn)用戶(hù)行為數(shù)據(jù) 57
3.3.1  ZooKeeper集群的搭建 58
3.3.2  ZooKeeper集群的啟動(dòng)與連接 60
3.3.3  Kafka集群的搭建 61
3.3.4  Kafka集群的啟動(dòng)與查看 63
3.3.5  Kafka主題操作 64
3.4  Flume數(shù)據(jù)實(shí)時(shí)寫(xiě)入Kafka 67
3.4.1  數(shù)據(jù)流架構(gòu) 67
3.4.2  配置centos03節(jié)點(diǎn)的Flume 67
3.4.3  啟動(dòng)Flume 68
3.4.4  測(cè)試數(shù)據(jù)流轉(zhuǎn) 69
3.5  使用HBase存儲(chǔ)用戶(hù)行為數(shù)據(jù) 69
3.5.1  HBase集群的架構(gòu) 70
3.5.2  HBase集群的搭建 73
3.5.3  HBase集群的啟動(dòng)、查看與停止 75
3.5.4  測(cè)試HBase數(shù)據(jù)表操作 77
3.5.5  創(chuàng)建HBase用戶(hù)行為表結(jié)構(gòu) 80
3.6  Flume數(shù)據(jù)實(shí)時(shí)寫(xiě)入HBase 81
3.6.1  數(shù)據(jù)流架構(gòu) 81
3.6.2  配置centos03節(jié)點(diǎn)的Flume 81
3.6.3  Flume寫(xiě)入HBase原理分析 83
3.6.4  用戶(hù)行為日志匹配測(cè)試 84
3.6.5  啟動(dòng)Flume 85
3.6.6  測(cè)試數(shù)據(jù)流轉(zhuǎn) 86
3.7  動(dòng)手練習(xí) 87
第 4 章  用戶(hù)行為數(shù)據(jù)離線(xiàn)分析模塊開(kāi)發(fā) 88
4.1  Hive安裝 88
4.1.1  Hive內(nèi)嵌模式安裝 89
4.1.2  Hive本地模式安裝 92
4.1.3  Hive遠(yuǎn)程模式安裝 94
4.2  Hive數(shù)據(jù)庫(kù)操作 97
4.2.1  創(chuàng)建數(shù)據(jù)庫(kù) 97
4.2.2  修改數(shù)據(jù)庫(kù) 97
4.2.3  選擇數(shù)據(jù)庫(kù) 99
4.2.4  刪除數(shù)據(jù)庫(kù) 99
4.2.5  顯示數(shù)據(jù)庫(kù) 99
4.3  Hive表操作 100
4.3.1  內(nèi)部表操作 101
4.3.2  外部表操作 105
4.4  Hive離線(xiàn)分析用戶(hù)行為數(shù)據(jù) 107
4.4.1  創(chuàng)建用戶(hù)行為表并導(dǎo)入數(shù)據(jù) 107
4.4.2  統(tǒng)計(jì)前10個(gè)訪問(wèn)量最高的用戶(hù)ID及訪問(wèn)數(shù)量 108
4.4.3  分析鏈接排名與用戶(hù)點(diǎn)擊的相關(guān)性 109
4.4.4  分析一天中上網(wǎng)用戶(hù)最多的時(shí)間段 109
4.4.5  查詢(xún)用戶(hù)訪問(wèn)最多的前10個(gè)網(wǎng)站域名 110
4.5  Hive集成HBase分析用戶(hù)行為數(shù)據(jù) 110
4.5.1  Hive集成HBase的原理 111
4.5.2  Hive集成HBase的配置 111
4.5.3  Hive分析HBase用戶(hù)行為表數(shù)據(jù) 112
4.6  Spark集群的搭建 114
4.6.1  應(yīng)用提交方式 114
4.6.2  搭建集群 116
4.7  Spark應(yīng)用程序的提交 118
4.7.1  spark-submit工具的使用 118
4.7.2  執(zhí)行Spark圓周率程序 119
4.7.3  Spark Shell的啟動(dòng) 120
4.8  Spark RDD算子運(yùn)算 121
4.8.1  Spark RDD特性 121
4.8.2  創(chuàng)建RDD 123
4.8.3  轉(zhuǎn)換算子運(yùn)算 124
4.8.4  行動(dòng)算子運(yùn)算 130
4.9  使用IntelliJ IDEA創(chuàng)建Scala項(xiàng)目 131
4.9.1  在IDEA中安裝Scala插件 132
4.9.2  創(chuàng)建Scala項(xiàng)目 133
4.10  Spark WordCount項(xiàng)目的創(chuàng)建與運(yùn)行 134
4.10.1  創(chuàng)建Maven管理的Spark項(xiàng)目 135
4.10.2  編寫(xiě)WordCount程序 137
4.10.3  提交WordCount程序到集群 138
4.10.4  查看Spark WebUI 139
4.10.5  查看程序執(zhí)行結(jié)果 141
4.11  Spark RDD讀寫(xiě)HBase 141
4.11.1  讀取HBase表數(shù)據(jù) 142
4.11.2  寫(xiě)入HBase表數(shù)據(jù) 144
4.12  使用Spark SQL實(shí)現(xiàn)單詞計(jì)數(shù) 151
4.12.1  Spark SQL編程特性 151
4.12.2  Spark SQL的基本使用 153
4.12.3  Spark SQL實(shí)現(xiàn)單詞計(jì)數(shù) 155
4.13  Spark SQL數(shù)據(jù)源操作 159
4.13.1  基本操作 159
4.13.2  Parquet文件 164
4.13.3  JSON數(shù)據(jù)集 166
4.13.4  Hive表 167
4.13.5  JDBC 169
4.14  Spark SQL與Hive整合分析 170
4.14.1  整合Hive 171
4.14.2  操作Hive 173
4.15  Spark SQL整合MySQL存儲(chǔ)分析結(jié)果 175
4.15.1  MySQL數(shù)據(jù)準(zhǔn)備 175
4.15.2  讀取MySQL表數(shù)據(jù) 176
4.15.3  寫(xiě)入結(jié)果數(shù)據(jù)到MySQL表 177
4.16  Spark SQL熱點(diǎn)搜索詞統(tǒng)計(jì) 179
4.16.1  開(kāi)窗函數(shù)的使用 179
4.16.2  熱點(diǎn)搜索詞統(tǒng)計(jì)實(shí)現(xiàn) 181
4.17  Spark SQL搜索引擎每日UV統(tǒng)計(jì) 184
4.17.1  內(nèi)置函數(shù)的使用 184
4.17.2  搜索引擎每日UV統(tǒng)計(jì)實(shí)現(xiàn) 186
4.18  動(dòng)手練習(xí) 187
第 5 章  用戶(hù)行為數(shù)據(jù)實(shí)時(shí)分析模塊開(kāi)發(fā) 189
5.1  Spark Streaming程序編寫(xiě) 189
5.1.1  Spark Streaming工作原理 189
5.1.2  輸入DStream和Receiver 191
5.1.3  第一個(gè)Spark Streaming程序 191
5.2  Spark Streaming數(shù)據(jù)源 193
5.2.1  基本數(shù)據(jù)源 193
5.2.2  高級(jí)數(shù)據(jù)源 195
5.2.3  自定義數(shù)據(jù)源 196
5.3  DStream操作 199
5.3.1  無(wú)狀態(tài)操作 199
5.3.2  狀態(tài)操作 200
5.3.3  窗口操作 202
5.3.4  輸出操作 203
5.3.5  緩存及持久化 205
5.3.6  檢查點(diǎn) 205
5.4  Spark Streaming按批次累加單詞數(shù)量 207
5.4.1  編寫(xiě)應(yīng)用程序 207
5.4.2  運(yùn)行應(yīng)用程序 209
5.4.3  查看Spark WebUI 210
5.5  Spark Streaming整合Kafka計(jì)算實(shí)時(shí)單詞數(shù)量 211
5.5.1  整合原理 212
5.5.2  編寫(xiě)應(yīng)用程序 213
5.5.3  運(yùn)行應(yīng)用程序 216
5.6  Structured Streaming快速實(shí)時(shí)單詞計(jì)數(shù) 217
5.7  Structured Streaming編程模型 220
5.8  Structured Streaming查詢(xún)輸出 221
5.8.1  輸出模式 222
5.8.2  外部存儲(chǔ)系統(tǒng)與檢查點(diǎn) 223
5.9  Structured Streaming窗口操作 224
5.9.1  事件時(shí)間 225
5.9.2  窗口聚合單詞計(jì)數(shù) 226
5.9.3  延遲數(shù)據(jù)和水印 229
5.10  Structured Streaming消費(fèi)Kafka數(shù)據(jù)實(shí)現(xiàn)單詞計(jì)數(shù) 232
5.11  Structured Streaming輸出計(jì)算結(jié)果到MySQL 235
5.11.1  MySQL建庫(kù)、建表 235
5.11.2  Structured Streaming應(yīng)用程序的編寫(xiě) 236
5.11.3  打包與提交Structured Streaming應(yīng)用程序 239
5.12  動(dòng)手練習(xí) 242
第 6 章  數(shù)據(jù)可視化模塊開(kāi)發(fā) 244
6.1  IDEA搭建基于SpringBoot的Web項(xiàng)目 244
6.1.1  創(chuàng)建Maven項(xiàng)目 245
6.1.2  項(xiàng)目集成SpringBoot 246
6.2  WebSocket數(shù)據(jù)實(shí)時(shí)推送 249
6.2.1  WebSocket推送原理 249
6.2.2  項(xiàng)目集成WebSocket 249
6.2.3  創(chuàng)建JDBC查詢(xún)工具類(lèi) 250
6.2.4  創(chuàng)建WebSocket服務(wù)處理類(lèi) 251
6.3  使用ECharts進(jìn)行前端視圖展示 253
6.4  多框架整合實(shí)時(shí)分析用戶(hù)行為日志數(shù)據(jù)流 258
6.4.1  項(xiàng)目實(shí)時(shí)處理工作流程 258
6.4.2  模擬實(shí)時(shí)產(chǎn)生用戶(hù)行為數(shù)據(jù) 259
6.4.3  集群數(shù)據(jù)流轉(zhuǎn) 261
6.5  動(dòng)手練習(xí) 264
 
 
 
 

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)