注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)數(shù)據(jù)庫Hadoop+Spark+Python大數(shù)據(jù)處理從算法到實戰(zhàn)

Hadoop+Spark+Python大數(shù)據(jù)處理從算法到實戰(zhàn)

Hadoop+Spark+Python大數(shù)據(jù)處理從算法到實戰(zhàn)

定 價:¥99.00

作 者: 朱春旭 著
出版社: 北京大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787301321447 出版時間: 2021-06-01 包裝: 平裝
開本: 16開 頁數(shù): 448 字數(shù):  

內(nèi)容簡介

  本書圍繞新基建的云計算、大數(shù)據(jù)及人工智能進行介紹,分為以下五個部分。 部分介紹大數(shù)據(jù)的概念與特點,以及典型的產(chǎn)業(yè)應用場景;第二部分介紹目前云計算中的一個重要的研究與應用領(lǐng)域—容器云,包含應用容器引擎Docker與容器編排工具Kubernetes;第三部分是大數(shù)據(jù)分析的基礎(chǔ),也是大數(shù)據(jù)分析技術(shù)的重點,包含Hadoop、HBase、Hive、Spark的環(huán)境搭建及開發(fā)流程;第四部分是機器學習相關(guān)算法的應用,包含scikit-learn、SparkML、TensorFlow工具的使用;第五部分,以實例介紹如何使用Spark機器學習庫中的協(xié)同過濾算法,來實現(xiàn)一個基于Web的推薦系,以及介紹如何使用OpenCV與TensorFlow構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)基于Web的人臉識別。 本書輕理論,重實踐,適合有一定編程基礎(chǔ),且對云計算、大數(shù)據(jù)、機器學習、人工智能感興趣,希望投身到新基建這一偉大事業(yè)的讀者學習。同時,本書還可作為廣大院校相關(guān)專業(yè)的教材和培訓參考用書。

作者簡介

  朱春旭,高級軟件工程師,長期為軟件開發(fā)公司、政府機構(gòu)培訓大數(shù)據(jù)開發(fā)與應用課程,提供大數(shù)據(jù)技術(shù)咨詢與問題解決方案,對Python、大數(shù)據(jù)分析相關(guān)領(lǐng)域有深入研究。著有《Python編程完全自學教程》《Python數(shù)據(jù)分析與大數(shù)據(jù)處理從入門到精通》,培訓學員10000 。

圖書目錄

第1篇 入門篇
第 1 章 初識大數(shù)據(jù) 002
1.2 如何處理與分析大數(shù)據(jù) 004
1.3 大數(shù)據(jù)的產(chǎn)業(yè)應用 008
第2篇 準備篇
第 2 章 萬丈高樓平地起,使用 Docker 作地基 011
2.1 初識 Docker 011
2.2 搭建 Docker 運行環(huán)境 016
2.3 Docker 操作鏡像 029
2.4 Docker 操作容器 036
2.5 Docker 私有倉庫 045
2.6 Docker Compose 編排容器046
2.7 Portainer 可視化工具 053
2.8 實訓:構(gòu)建 Nginx 鏡像并創(chuàng)建容器 055
第 3 章  團隊合作好,使用 Kubernetes 來協(xié)調(diào) 057
3.1 初識 Kubernetes057
3.2 搭建集群 063
3.4 Kubernetes Dashboard 管理工具 079
3.5 實訓:在集群中部署 Nginx 服務器集群 084
第3篇 技法篇
第 4 章  筑高樓,需利器,使用 Hadoop 做核心 088
4.1 Hadoop 簡介 088
4.2 HDFS 分布式文件系統(tǒng) 092
4.3 任務調(diào)度與資源管理器 YARN 097
4.4 MapReduce 分布式計算框架104
4.5 Hadoop 環(huán)境搭建 113
4.6 Hadoop 常用操作命令 127
4.7 實訓:在容器中部署 Hadoop集群 130
第 5 章  空間要靈活,使用 HBase 來管理 136
5.1 初識 HBase 136
5.2 HBase 環(huán)境搭建144
5.3 HBase Shell 操作 152
5.4 HBase Thrift 編程接口 160
5.5 Region 的拆分與合并 162
5.6 實訓:構(gòu)建訂單管理表 165
第 6 章  數(shù)據(jù)需要規(guī)劃,使用 Hive 建倉庫169
6.1 初識 Hive 169
6.2 Hive 環(huán)境搭建 171
6.3 Hive 數(shù)據(jù)庫與表 176
6.4 表的類型 183
6.5 分桶查詢與排序 188
6.6 Sqoop 數(shù)據(jù)的導入導出 190
6.7 Hive Thrift 編程接口192
6.8 實訓:構(gòu)建訂單分析數(shù)據(jù)倉庫 193
第 7 章  處理要夠快,使用 Spark 196
7.1 Spark 概述 196
7.2 Spark 核心原理 199
7.3 Spark 環(huán)境搭建 202
7.4 提交 Spark 應用 206
7.5 實訓:在容器中部署 Spark集群 209
第 8 章  數(shù)據(jù)無結(jié)構(gòu),使用 RDD 212
8.1 RDD 設(shè)計原理 212
8.2 RDD 編程 216
8.3 鍵值對 RDD 224
8.4 讀寫文件 230
8.5 集成 HBase 232
8.6 編程進階 234
8.7 實訓:分析商品銷售情況 240
第 9 章  數(shù)據(jù)有結(jié)構(gòu),使用 SQL 語句 245
9.1 Spark SQL 概述 245
9.2 創(chuàng)建 DataFrame 對象 249
9.3 DataFrame 常用的 API 254
9.4 保存 DataFrame 262
9.5 實訓:分析公司銷售業(yè)績 264
第 10 章  Spark 流式計算編程 268
10.1 流計算簡介 268
10.2 Discretized Stream 271
10.3 Structured Streaming 278
10.4 實訓:實時統(tǒng)計貸款金額 293
第4篇 算法篇
第 11 章  發(fā)掘數(shù)據(jù)價值,使用機器學習技術(shù)297
11.1 什么是機器學習 297
11.2 scikit-learn 機器學習庫303
11.3 Spark 機器學習庫 308
11.4 實訓:簡單的情感分析 310
第 12 章  處理分類問題313
12.1 分類問題概述 313
12.2 決策樹 .315
12.3 隨機森林 320
12.4 Logistic 回歸 325
12.5 支持向量機 329
12.6 貝葉斯 334
12.7 實訓:判斷用戶是否購買該商品 337
第 13 章  處理回歸問題 340
13.1 回歸問題概述 340
13.2 線性回歸與多項式回歸 342
13.3 決策樹回歸 347
13.4 實訓:預測房價 352
第 14 章  處理聚類問題 355
14.1 聚類問題概述 355
14.2 基于劃分聚類 356
14.3 基于模型聚類 359
14.4 實訓:對客戶進行聚類 363
第 15 章  關(guān)聯(lián)規(guī)則與協(xié)同過濾 365
15.1 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘 365
15.2 協(xié)同過濾 368
15.3 實訓:使用 Spark ALS 推薦菜單 371
第 16 章  建立智能應用 374
16.1 構(gòu)建簡單模型 374
16.2 自定義模型和自定義層 384
16.3 回調(diào) 386
16.4 保存與恢復模型 388
16.5 識別手寫字 391
16.6 實訓:貓狗識別 394
第5篇 實戰(zhàn)篇
第 17 章  綜合實戰(zhàn):猜你喜歡401
17.1 項目背景與解決方案介紹 401
17.2 數(shù)據(jù)庫設(shè)計 403
17.3 推薦模型 404
17.4 前端網(wǎng)站 406
第 18 章  綜合實戰(zhàn):人臉識別416
18.1 項目背景與解決方案介紹 416
18.2 圖像采集 418
18.3 訓練模型與識別人臉 422

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號