注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Spark大數(shù)據(jù)處理:原理、算法與實(shí)例

Spark大數(shù)據(jù)處理:原理、算法與實(shí)例

Spark大數(shù)據(jù)處理:原理、算法與實(shí)例

定 價(jià):¥49.00

作 者: 劉軍,林文輝,方澄 著
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302449959 出版時(shí)間: 2016-09-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 199 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書以時(shí)下流行的Hadoop所存在的缺陷為出發(fā)點(diǎn),深入淺出地介紹了下一代大數(shù)據(jù)處理核心技術(shù)Spark的優(yōu)勢(shì)和必要性,并以簡(jiǎn)潔的指引步驟展示了如何在10分鐘內(nèi)建立一個(gè)Spark大數(shù)據(jù)處理環(huán)境。在此基礎(chǔ)上,本書以圖文并茂和豐富的示例代碼講解的形式系統(tǒng)性地揭示了Spark的運(yùn)行原理、算子使用、算法設(shè)計(jì)和優(yōu)化手段,為讀者提供了一個(gè)快速由淺入深掌握Spark基礎(chǔ)能力和高級(jí)技巧的參考書籍。本書共六章,涉及的主題主要包括大數(shù)據(jù)處理技術(shù)從Hadoop發(fā)展到Spark的必然性、快速體驗(yàn)Spark的指引、Spark架構(gòu)和原理、RDD算子使用方法和示例、Spark算法設(shè)計(jì)實(shí)例、Spark程序優(yōu)化方法。本書適合需要使用Spark進(jìn)行大數(shù)據(jù)處理的程序員、架構(gòu)師和產(chǎn)品經(jīng)理作為技術(shù)參考和培訓(xùn)資料,亦可作為高校研究生和本科生教材。

作者簡(jiǎn)介

  劉軍,男,1976年生人,博士,副教授,碩士生導(dǎo)師,北京郵電大學(xué)數(shù)據(jù)科學(xué)中心主任。2003年至2007年任職于IBM中國(guó)研究院,擔(dān)任高級(jí)研究員及部門經(jīng)理,建立IBM中國(guó)研究院電信融合網(wǎng)絡(luò)管理研究方向,主持研發(fā)Websphere及Tivoli電信產(chǎn)品線中多項(xiàng)關(guān)鍵技術(shù),期間發(fā)表多篇國(guó)際會(huì)議及刊物論文,并申請(qǐng)獲得多項(xiàng)美國(guó)專利。2007年至2012年創(chuàng)辦歡城(北京)科技有限公司,開創(chuàng)中國(guó)無端網(wǎng)絡(luò)游戲產(chǎn)業(yè),并擔(dān)任中國(guó)軟件協(xié)會(huì)網(wǎng)頁(yè)游戲?qū)I(yè)委員會(huì)委員。公司產(chǎn)品多次榮獲國(guó)內(nèi)互聯(lián)網(wǎng)業(yè)界獎(jiǎng)項(xiàng),2008年獲中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)“十分具運(yùn)營(yíng)價(jià)值Webgame”獎(jiǎng)項(xiàng),2012年至今在北京郵電大學(xué)信息與通信工程學(xué)院任教,研究方向?yàn)殡娦偶盎ヂ?lián)網(wǎng)大數(shù)據(jù)分析、高速數(shù)據(jù)流挖掘算法,并牽頭組建北京郵電大學(xué)數(shù)據(jù)科學(xué)中心。開設(shè)研究生課程《海量數(shù)據(jù)處理中的云計(jì)算》,發(fā)表大數(shù)據(jù)分析相關(guān)SCI/EI檢索論文十余篇,并獨(dú)著《Hadoop大數(shù)據(jù)處理》一書,該書被哈工大、中南大學(xué)等多所高校的相關(guān)課程作為教材使用。

圖書目錄

第1章從Hadoop到Spark
1.1Hadoop——大數(shù)據(jù)時(shí)代的火種
1.1.1大數(shù)據(jù)的由來
1.1.2Google解決大數(shù)據(jù)計(jì)算問題的方法
1.1.3Hadoop的由來與發(fā)展
1.2Hadoop的局限性
1.2.1Hadoop運(yùn)行機(jī)制
1.2.2Hadoop的性能問題
1.2.3針對(duì)Hadoop的改進(jìn)
1.3大數(shù)據(jù)技術(shù)新星——Spark
1.3.1Spark的出現(xiàn)與發(fā)展
1.3.2Spark協(xié)議族
1.3.3Spark的應(yīng)用及優(yōu)勢(shì)
第2章體驗(yàn)Spark
2.1安裝和使用Spark
2.1.1安裝Spark
2.1.2了解Spark目錄結(jié)構(gòu)
2.1.3使用Spark Shell
2.2編寫和運(yùn)行Spark程序
2.2.1安裝Scala插件
2.2.2編寫Spark程序
2.2.3運(yùn)行Spark程序
2.3Spark Web UI
2.3.1訪問實(shí)時(shí)Web UI
2.3.2從實(shí)時(shí)UI查看作業(yè)信息
第3章Spark原理
3.1Spark工作原理
3.2Spark架構(gòu)及運(yùn)行機(jī)制
3.2.1Spark系統(tǒng)架構(gòu)與節(jié)點(diǎn)角色
3.2.2Spark作業(yè)執(zhí)行過程
3.2.3應(yīng)用初始化
3.2.4構(gòu)建RDD有向無環(huán)圖
3.2.5RDD有向無環(huán)圖拆分
3.2.6Task調(diào)度
3.2.7Task執(zhí)行
第4章RDD算子
4.1創(chuàng)建算子
4.1.1基于集合類型數(shù)據(jù)創(chuàng)建RDD
4.1.2基于外部數(shù)據(jù)創(chuàng)建RDD
4.2變換算子
4.2.1對(duì)Value型RDD進(jìn)行變換
4.2.2對(duì)Key/ Value型RDD進(jìn)行變換
4.3行動(dòng)算子
4.3.1數(shù)據(jù)運(yùn)算類行動(dòng)算子
4.3.2存儲(chǔ)型行動(dòng)算子
4.4緩存算子
第5章Spark算法設(shè)計(jì)
5.1過濾
5.2去重計(jì)數(shù)
5.3相關(guān)計(jì)數(shù)
5.4相關(guān)系數(shù)
5.5數(shù)據(jù)聯(lián)結(jié)
5.6TopK
5.7Kmeans
5.8關(guān)聯(lián)規(guī)則挖掘
5.9kNN
5.10樸素貝葉斯分類
第6章善用Spark
6.1合理分配資源
6.2控制并行度
6.3利用持久化
6.4選擇恰當(dāng)?shù)乃阕?br />6.5利用共享變量
6.5.1累加器變量
6.5.2廣播變量
6.6利用序列化技術(shù)
6.7關(guān)注數(shù)據(jù)本地性
6.8內(nèi)存優(yōu)化策略
6.9集成外部工具
參考文獻(xiàn)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)