注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)教育/教材/教輔教材研究生/本科/??平滩?/a>大數(shù)據(jù)原理及實(shí)踐

大數(shù)據(jù)原理及實(shí)踐

大數(shù)據(jù)原理及實(shí)踐

定 價(jià):¥39.00

作 者: 張曉燕,王筱莉,李躍文,謝妍曦 主編
出版社: 上海財(cái)經(jīng)大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787564239091 出版時(shí)間: 2023-03-01 包裝:
開(kāi)本: 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《大數(shù)據(jù)原理及實(shí)踐》分為八章。首章介紹Hadoop生態(tài)系統(tǒng)及其發(fā)展歷程。大家可以通過(guò)此章內(nèi)容了解到Hadoop是一個(gè)開(kāi)放的生態(tài)系統(tǒng),里面有很多項(xiàng)目組成,包括數(shù)據(jù)采集類的項(xiàng)目、數(shù)據(jù)處理類的項(xiàng)目和數(shù)據(jù)可視化類的項(xiàng)目等;第二章介紹Hadoop的核心組件,包括HDFS、MapReduce和Yarn,通過(guò)此章的學(xué)習(xí)。大家可以了解到Hadoop三大核心組件的基本組成及運(yùn)行原理;第三章介紹Hadoop集群環(huán)境的搭建?!洞髷?shù)據(jù)原理及實(shí)踐》選用Cloudera版本(Cloudera's Distribution Including Apache Hadoop,CDH)作為集群安裝,在介紹集群安裝之前普及一些Linux常用的命令,為安裝做技術(shù)鋪墊;第四章主要介紹Hadoop生態(tài)系統(tǒng)中非常常用、非常實(shí)用又簡(jiǎn)單易用的Hive組件,介紹其原理及安裝方法;第五章主要介紹Hive的使用,了解Hive中DDL和DML語(yǔ)法知識(shí)(通過(guò)前面五章的學(xué)習(xí)。大家可以獨(dú)立搭建Hadoop集群,并上傳文件到HDFS中,并且利用MapReduce或者Hive對(duì)數(shù)據(jù)文件進(jìn)行統(tǒng)計(jì)分析);第六章進(jìn)入Hadoop生態(tài)系統(tǒng)中內(nèi)存計(jì)算的學(xué)習(xí),選用Spark組件,著重介紹Spark的內(nèi)存計(jì)算的原理及運(yùn)行模式;第七章介紹Spark的編程及SparkSQL的使用。通過(guò)這兩部分的學(xué)習(xí),大家可以完成Spark的安裝部署,了解Spark的適用場(chǎng)合,學(xué)會(huì)Spark編程和SparkSQL對(duì)數(shù)據(jù)進(jìn)行分析;第八章為SparkMLLib的內(nèi)容。通過(guò)這一章的學(xué)習(xí),大家可以利用SparkMLLib完成較復(fù)雜的一些數(shù)據(jù)分析,例如分類、聚類和關(guān)聯(lián)分析等。通過(guò)《大數(shù)據(jù)原理及實(shí)踐》的學(xué)習(xí),大家可以從零基礎(chǔ)開(kāi)始了解大數(shù)據(jù)平臺(tái),能夠完成利用相關(guān)組件進(jìn)行簡(jiǎn)單或復(fù)雜的數(shù)據(jù)分析的任務(wù)。

作者簡(jiǎn)介

暫缺《大數(shù)據(jù)原理及實(shí)踐》作者簡(jiǎn)介

圖書(shū)目錄

第1章 Hadoop生態(tài)系統(tǒng)簡(jiǎn)介/001

1.1 大數(shù)據(jù)發(fā)展/001

1.2 Hadoop平臺(tái)介紹/006

1.3 相關(guān)的公司/009

1.4 Hadoop生態(tài)系統(tǒng)/011

第2章 Hadoop核心組件及其基本原理/014

2.1 HDFS基本原理/014

2.2 MapReduce分布式計(jì)算框架/022

2.3 Yarn介紹/029

第3章 Hadoop環(huán)境搭建/033

3.1 Linux基礎(chǔ)/033

3.2 Linux的文件系統(tǒng)結(jié)構(gòu)/036

3.3 文件類型/038

3.4 Linux基本操作命令/039

3.5 Linux下常用的工具軟件/047

3.6 Hadoop環(huán)境搭建/051

第4章 Hive基本原理及安裝部署/063

4.1 Hive基本原理/063

4.2 Hive的數(shù)據(jù)存儲(chǔ)/064

4.3 Hive的安裝部署/066

第5章 Hive的基本操作/070

5.1 Hive的DDL(data define language)操作/070

5.2 Hive的DML(data managed language)操作/076

5.3 Hive shell 參數(shù)/093

第6章 Spark基礎(chǔ)知識(shí)/095

6.1 Spark原理/095

6.2 Spark架構(gòu)及生態(tài)/098

6.3 Spark運(yùn)行流程及特點(diǎn)/100

6.4 Spark運(yùn)行模式/108

第7章 Spark RDD編程/114

7.1 RDD設(shè)計(jì)與運(yùn)行原理/114

7.2 RDD基本操作/122

7.3 Spark SQL簡(jiǎn)介/132

第8章 基于MLLIB機(jī)器學(xué)習(xí)/140

8.1 概述/140

8.2 Spark分類和預(yù)測(cè)/142

8.3 決策樹(shù)算法/145

8.4 樸素貝葉斯算法/152

8.5 回歸分析與預(yù)測(cè)技術(shù)/157

8.6 聚類分析/167

大數(shù)據(jù)原理及實(shí)踐

8.7 k-means聚類算法簡(jiǎn)介/172

8.8 DBSCAN聚類算法簡(jiǎn)介/179

8.9 關(guān)聯(lián)規(guī)則分析簡(jiǎn)介/185

8.10 Apriori算法和FP Tree算法簡(jiǎn)介/188

參考文獻(xiàn)/200


本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)