注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)大數(shù)據(jù)技術(shù)入門(Hadoop+Spark)

大數(shù)據(jù)技術(shù)入門(Hadoop+Spark)

大數(shù)據(jù)技術(shù)入門(Hadoop+Spark)

定 價(jià):¥49.90

作 者: 于海浩 劉志坤 主編,韓詠 孫栩 副主編
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書可以去


ISBN: 9787302591818 出版時(shí)間: 2022-01-01 包裝: 平裝-膠訂
開本: 16開 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書基礎(chǔ)理論、應(yīng)用開發(fā)以及實(shí)際案例相結(jié)合,圍繞Hadoop、Spark生態(tài)圈循序漸進(jìn)地介紹關(guān)于大數(shù)據(jù)技術(shù)領(lǐng)域中的基礎(chǔ)知識(shí)、應(yīng)用開發(fā)技術(shù)和基于Spark的常見機(jī)器學(xué)習(xí)算法,后以兩個(gè)實(shí)戰(zhàn)案例全面、系統(tǒng)地應(yīng)用了本書介紹的基礎(chǔ)知識(shí)和應(yīng)用開發(fā)方法。全書共14章,分別為大數(shù)據(jù)概述、Hadoop簡(jiǎn)介及安裝部署、HDFS、MapReduce計(jì)算框架、Hive數(shù)據(jù)倉(cāng)庫(kù)、HBase分布式數(shù)據(jù)庫(kù)、Spark基礎(chǔ)、Spark RDD彈性分布式數(shù)據(jù)集、Spark SQL、Spark Streaming實(shí)時(shí)計(jì)算框架、Spark Streaming與Flume、Kafka的整合、Spark MLlib 機(jī)器學(xué)習(xí)、實(shí)戰(zhàn)案例——分布式優(yōu)惠券后臺(tái)應(yīng)用系統(tǒng)和實(shí)戰(zhàn)案例——新聞話題實(shí)時(shí)統(tǒng)計(jì)分析系統(tǒng),書中的每個(gè)知識(shí)點(diǎn)都有相應(yīng)的實(shí)現(xiàn)代碼和實(shí)例。 本書主要面向廣大從事大數(shù)據(jù)分析、應(yīng)用開發(fā)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的專業(yè)人員以及從事高校信息技術(shù)專業(yè)的教師和高等院校的在讀學(xué)生及相關(guān)領(lǐng)域的廣大科研人員。

作者簡(jiǎn)介

  于海浩,男,1974年1月生,高級(jí)工程師,黑龍江工程學(xué)院計(jì)算機(jī)學(xué)院教師,主講大數(shù)據(jù)實(shí)踐和人工智能課程,研究方向?yàn)榇髷?shù)據(jù)處理與挖掘,深度學(xué)習(xí)。主持或參與國(guó)家、省部級(jí)、廳局級(jí)項(xiàng)目6項(xiàng)。以作者發(fā)表論文10余篇,作為高級(jí)項(xiàng)目經(jīng)理和企業(yè)管理者組織了黑龍江省電力營(yíng)銷系統(tǒng)、地下管廊運(yùn)維監(jiān)管平臺(tái)、智慧城管、城鎮(zhèn)職工醫(yī)療系統(tǒng)的項(xiàng)目管理工作,有任企業(yè)技術(shù)總監(jiān)的職務(wù)經(jīng)歷。

圖書目錄

第1章大數(shù)據(jù)概述
1.1大數(shù)據(jù)的研究背景
1.2大數(shù)據(jù)的定義及其技術(shù)特點(diǎn)
1.2.1大數(shù)據(jù)的定義
1.2.2大數(shù)據(jù)的基本特點(diǎn)
1.2.3典型的大數(shù)據(jù)處理需求與計(jì)算特征
1.3大數(shù)據(jù)處理的主要技術(shù)特點(diǎn)與難點(diǎn)
1.4研究大數(shù)據(jù)的意義
1.5本章小結(jié)
第2章Hadoop簡(jiǎn)介及安裝部署
2.1Hadoop簡(jiǎn)介及生態(tài)體系
2.2Hadoop集群架構(gòu)
2.3Hadoop集群運(yùn)行環(huán)境搭建
2.3.1Hadoop安裝配置過(guò)程
2.3.2驗(yàn)證Hadoop的安裝
2.4本章小結(jié)
第3章HDFS
3.1相關(guān)基本概念
3.2HDFS存儲(chǔ)架構(gòu)
3.2.1HDFS寫入流程
3.2.2HDFS讀取流程
3.3HDFS的優(yōu)點(diǎn)與缺點(diǎn)
3.3.1HDFS的優(yōu)點(diǎn)
3.3.2HDFS的缺點(diǎn)
3.4HDFS Shell常用命令
3.5HDFS的Java API
3.6本章小結(jié)
第4章MapReduce計(jì)算框架
4.1MapReduce核心思想
4.2MapReduce的工作原理
4.3MapReduce的運(yùn)行機(jī)制
4.4MapReduce數(shù)據(jù)本地化
4.5MapReduce編程
4.5.1MapReduce運(yùn)行模式
4.5.2MapReduce編程組件與數(shù)據(jù)類型
4.6MapReduce編程示例
4.6.1單詞計(jì)數(shù)
4.6.2倒排索引
4.7本章小結(jié)
 
 
第5章Hive數(shù)據(jù)倉(cāng)庫(kù)
5.1Hive概述
5.1.1Hive簡(jiǎn)介
5.1.2Hive的架構(gòu)
5.1.3Hive的優(yōu)缺點(diǎn)
5.2Hive的安裝
5.2.1安裝MySQL
5.2.2安裝Hive
5.3Hive數(shù)據(jù)庫(kù)相關(guān)操作
5.3.1Hive的數(shù)據(jù)類型
5.3.2Hive基礎(chǔ)SQL語(yǔ)法
5.4本章小結(jié)
第6章HBase分布式數(shù)據(jù)庫(kù)
6.1HBase概述
6.1.1HBase的架構(gòu)
6.1.2HBase的特點(diǎn)
6.1.3HBase數(shù)據(jù)存儲(chǔ)方式
6.1.4HBase尋址機(jī)制
6.2HBase的安裝
6.3HBase數(shù)據(jù)模型
6.4HBase的Shell操作
6.5HBase常用的Java API及示例程序
6.5.1HBase常用的Java API
6.5.2程序示例
6.6本章小結(jié)
第7章Spark基礎(chǔ)
7.1Spark概述
7.1.1Spark的主要特點(diǎn)
7.1.2Spark生態(tài)系統(tǒng)
7.1.3Spark相對(duì)于Hadoop MapReduce的優(yōu)勢(shì)
7.2Spark的安裝
7.2.1Spark的部署方式
7.2.2Spark的安裝
7.3Spark運(yùn)行架構(gòu)與原理
7.4Spark運(yùn)行流程
7.5本章小結(jié)
第8章Spark RDD彈性分布式數(shù)據(jù)集
8.1RDD的設(shè)計(jì)與運(yùn)行原理
8.1.1RDD的概念
8.1.2RDD的分區(qū)
8.1.3RDD的依賴關(guān)系
8.1.4RDD在Spark中的運(yùn)行流程
8.1.5RDD容錯(cuò)機(jī)制
8.2RDD API編程
8.2.1RDD的創(chuàng)建
8.2.2RDD的操作
8.3程序示例: 倒排索引
8.4本章小結(jié)
第9章Spark SQL
9.1Spark SQL概述
9.1.1Spark SQL簡(jiǎn)介
9.1.2Spark SQL的架構(gòu) 
9.2DataFrame
9.2.1DataFrame簡(jiǎn)介
9.2.2DataFrame的創(chuàng)建
9.2.3DataFrame的常用操作
9.3Dataset
9.4Spark SQL編程
9.4.1DataFrame操作
9.4.2Spark SQL 讀寫MySQL數(shù)據(jù)庫(kù)
9.4.3Spark SQL 讀寫Hive
9.5本章小結(jié)
第10章 Spark Streaming實(shí)時(shí)計(jì)算框架
10.1Spark Streaming概述
10.1.1流數(shù)據(jù)和流計(jì)算
10.1.2Spark Streaming簡(jiǎn)介
10.1.3DStream簡(jiǎn)介
10.2DStream編程
10.2.1DStream轉(zhuǎn)換操作
10.2.2DStream輸出操作相關(guān)的方法
10.3DStream編程示例
10.3.1DStream編程基本步驟——文件流
10.3.2無(wú)狀態(tài)轉(zhuǎn)換操作
10.3.3有狀態(tài)轉(zhuǎn)換操作
10.3.4輸出操作
10.4本章小結(jié)
第11章Spark Streaming與Flume、Kafka的整合
11.1Flume簡(jiǎn)介及安裝
11.1.1Flume簡(jiǎn)介
11.1.2Flume的安裝
11.2Kafka簡(jiǎn)介及安裝
11.2.1Kafka簡(jiǎn)介
11.2.2Kafka的安裝
11.3Flume與Kafka的區(qū)別和側(cè)重點(diǎn)
11.4Spark Streaming與Flume、Kafka的整合與開發(fā)
11.5本章小結(jié)
第12章Spark MLlib機(jī)器學(xué)習(xí)
12.1機(jī)器學(xué)習(xí)的概念
12.1.1機(jī)器學(xué)習(xí)的定義
12.1.2機(jī)器學(xué)習(xí)的分類
12.2MLlib簡(jiǎn)介
12.3Spark MLlib的數(shù)據(jù)類型
12.3.1本地向量
12.3.2標(biāo)注點(diǎn)
12.3.3本地矩陣
12.4Spark MLlib機(jī)器學(xué)習(xí)示例
12.4.1特征抽取——TFIDF
12.4.2分類與回歸——線性回歸
12.4.3分類與回歸——邏輯回歸
12.4.4協(xié)同過(guò)濾——電影推薦
12.5本章小結(jié)
第13章實(shí)戰(zhàn)案例——分布式優(yōu)惠券后臺(tái)應(yīng)用系統(tǒng) 
13.1系統(tǒng)簡(jiǎn)介
13.2整體架構(gòu)
13.3表結(jié)構(gòu)設(shè)計(jì)
13.4系統(tǒng)實(shí)現(xiàn)
13.4.1商戶投放子系統(tǒng)
13.4.2用戶消費(fèi)子系統(tǒng)
13.5系統(tǒng)運(yùn)行測(cè)試
13.5.1啟動(dòng)系統(tǒng)
13.5.2商戶投放子系統(tǒng)測(cè)試
13.5.3用戶消費(fèi)子系統(tǒng)測(cè)試
13.6本章小結(jié)
第14章實(shí)戰(zhàn)案例——新聞話題實(shí)時(shí)統(tǒng)計(jì)分析系統(tǒng)
14.1系統(tǒng)簡(jiǎn)介
14.2系統(tǒng)總體架構(gòu)
14.3表結(jié)構(gòu)設(shè)計(jì)
14.4系統(tǒng)實(shí)現(xiàn)
14.4.1模擬日志生成程序
14.4.2Flume配置
14.4.3配置Kafka
14.4.4Spark Streaming開發(fā)
14.4.5WebSocket和前端界面開發(fā)
14.5系統(tǒng)運(yùn)行測(cè)試
14.6本章小結(jié)
參考文獻(xiàn)
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)