注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)家庭與辦公軟件云計算環(huán)境下Spark大數(shù)據(jù)處理技術(shù)與實踐

云計算環(huán)境下Spark大數(shù)據(jù)處理技術(shù)與實踐

云計算環(huán)境下Spark大數(shù)據(jù)處理技術(shù)與實踐

定 價:¥69.00

作 者: 鄧立國,佟強 著
出版社: 清華大學出版社
叢編項:
標 簽: >計算機/網(wǎng)絡(luò) >數(shù)據(jù)庫 >數(shù)據(jù)庫理論

購買這本書可以去


ISBN: 9787302479710 出版時間: 2017-09-01 包裝: 平裝
開本: 16開 頁數(shù): 343 字數(shù):  

內(nèi)容簡介

  本書圍繞互聯(lián)網(wǎng)重大的技術(shù)革命:云計算、大數(shù)據(jù)進行闡述。云計算環(huán)境下大數(shù)據(jù)處理構(gòu)建是國民經(jīng)濟發(fā)展的信息基礎(chǔ)設(shè)施,發(fā)展自主的云計算核心技術(shù),擁有自己的信息基礎(chǔ)設(shè)施,當前正處于重要的機遇期。 本書重點在大數(shù)據(jù)與云計算的融合,給出了大數(shù)據(jù)與云計算的一些基本概念,并以Spark為開發(fā)工具,全面講述云環(huán)境下的Spark大數(shù)據(jù)技術(shù)部署與典型案例算法實現(xiàn),最后介紹了國內(nèi)經(jīng)典Spark大數(shù)據(jù)與云計算融合的架構(gòu)與算法。 本書適合云計算環(huán)境下Spark大數(shù)據(jù)技術(shù)人員、Spark MLlib機器學習技術(shù)人員,也適合高等院校和培訓機構(gòu)相關(guān)專業(yè)的師生教學參考。

作者簡介

  鄧立國,東北大學計算機應(yīng)用博士畢業(yè)。2005年開始在沈陽師范大學軟件學院、教育技術(shù)學院任教,主要研究方向:數(shù)據(jù)挖掘、知識工程、大數(shù)據(jù)處理、云計算、分布式計算等。以第1作者發(fā)表學術(shù)論文30多篇(26篇EI),主編教材 1 部,主持科研課題6項,經(jīng)費10余萬元,多次獲得校級科研優(yōu)秀獎,作為九三社員提出的智慧城市提案被市政府采納,研究成果被教育廳等單位采用。

圖書目錄

第1章 大數(shù)據(jù)處理概述 1
1.1 大數(shù)據(jù)處理技術(shù)概述 1
1.1.1 什么是大數(shù)據(jù) 1
1.1.2 大數(shù)據(jù)來源 2
1.1.3 大數(shù)據(jù)應(yīng)用價值 3
1.1.4 大數(shù)據(jù)技術(shù)特點和研究內(nèi)容 4
1.1.5 大數(shù)據(jù)計算與系統(tǒng) 5
1.2 數(shù)據(jù)挖掘及其相關(guān)領(lǐng)域應(yīng)用 9
1.2.1 數(shù)據(jù)挖掘概述 9
1.2.2 數(shù)據(jù)挖掘與機器學習 11
1.2.3 數(shù)據(jù)挖掘與數(shù)據(jù)庫 11
1.2.4 數(shù)據(jù)挖掘與統(tǒng)計學 12
1.2.5 數(shù)據(jù)挖掘與決策支持 12
1.2.6 數(shù)據(jù)挖掘與云計算 13
1.3 大數(shù)據(jù)應(yīng)用 13
1.3.1 大數(shù)據(jù)應(yīng)用案例 13
1.3.2 大數(shù)據(jù)應(yīng)用場景 14
1.3.3 大數(shù)據(jù)應(yīng)用平臺方案案例 21
1.4 并行計算簡介 23
1.5 Hadoop介紹 24
1.6 本章小結(jié) 26
第2章 云計算時代 27
2.1 云計算概述 27
2.1.1 云計算概念 27
2.1.2 云計算發(fā)展簡史 28
2.1.3 云計算實現(xiàn)機制 30
2.1.4 云計算服務(wù)形式 31
2.1.5 云計算時代的數(shù)據(jù)庫NoSQL 32
2.2 云計算發(fā)展動力源泉 34
2.3 云計算技術(shù)分析 34
2.3.1 編程模式 34
2.3.2 海量數(shù)據(jù)云存儲技術(shù) 37
2.3.3 海量數(shù)據(jù)管理技術(shù) 38
2.3.4 虛擬化技術(shù) 39
2.3.5 分布式計算 41
2.3.6 云監(jiān)測技術(shù) 41
2.4 并行計算與云計算關(guān)系 43
2.4.1 并行計算與云計算 44
2.4.2 MapReduce 45
2.5 云計算發(fā)展優(yōu)勢 51
2.6 向云實現(xiàn)遷移 53
2.7 本章小結(jié) 55
第3章 大數(shù)據(jù)與云計算關(guān)系 56
3.1 云計算與大數(shù)據(jù)關(guān)系 56
3.2 大數(shù)據(jù)與云計算的融合是認識世界的新工具 57
3.3 大數(shù)據(jù)隱私保護是大數(shù)據(jù)云快速發(fā)展和運用的重要前提 59
3.3.1 云計算的安全隱私 60
3.3.2 大數(shù)據(jù)的安全隱私 60
3.4 大數(shù)據(jù)成就云計算價值 62
3.5 數(shù)據(jù)向云計算遷移 63
3.6 大數(shù)據(jù)清洗 64
3.7 云計算時代的數(shù)據(jù)集成技術(shù) 66
3.8 云推薦 67
3.9 本章小結(jié) 68
第4章 Spark大數(shù)據(jù)處理基礎(chǔ) 69
4.1 Spark大數(shù)據(jù)處理技術(shù) 69
4.1.1 Spark系統(tǒng)概述 69
4.1.2 Spark生態(tài)系統(tǒng)BDAS(伯利克分析棧) 70
4.1.3 Spark的用武之地 71
4.1.4 Spark大數(shù)據(jù)處理框架 72
4.1.5 Spark運行模式分類及術(shù)語 73
4.2 Spark 2.0.0安裝配置 74
4.2.1 在Linux集群上安裝與配置Spark 74
4.2.2 Spark Shell 81
4.2.3 Spark RDD 88
4.2.4 Shark(Hive on Spark大型的數(shù)據(jù)倉庫系統(tǒng)) 91
4.3 Spark配置 92
4.3.1 環(huán)境變量 92
4.3.2 系統(tǒng)屬性 93
4.3.3 配置日志 95
4.3.4 Spark 硬件配置 95
4.4 Spark模式部署概述 96
4.5 Spark Streaming實時計算框架 98
4.6 Spark SQL 查詢、DataFrames分布式數(shù)據(jù)集和Datasets API 101
4.7 Spark起始點 102
4.7.1 SparkSession 102
4.7.2 SQLContext 103
4.7.3 創(chuàng)建DataFrame 104
4.7.4 無類型的Dataset操作(aka DataFrame Operations) 105
4.7.5 編程執(zhí)行SQL查詢語句 111
4.7.6 創(chuàng)建Dataset 112
4.7.7 和RDD互操作 115
4.8 Spark數(shù)據(jù)源 125
4.8.1 通用加載/保存函數(shù) 125
4.8.2 Parquet文件 127
4.8.3 JSON數(shù)據(jù)集 135
4.8.4 Hive表 136
4.8.5 用JDBC連接其他數(shù)據(jù)庫 143
4.9 Spark性能調(diào)優(yōu) 144
4.10 分布式SQL引擎 145
4.11 本章小結(jié) 146
第5章 Spark MLlib機器學習算法實現(xiàn) 147
5.1 Spark MLlib基礎(chǔ) 147
5.1.1 機器學習 148
5.1.2 機器學習分類 148
5.1.3 機器學習常見算法 149
5.1.4 Spark MLlib機器學習庫 152
5.1.5 基于Spark常用的算法舉例分析 156
5.2 Spark MLlib矩陣向量 159
5.2.1 Breeze創(chuàng)建函數(shù) 159
5.2.2 Breeze元素訪問 161
5.2.3 Breeze元素操作 162
5.2.4 Breeze數(shù)值計算函數(shù) 165
5.2.5 Breeze求和函數(shù) 166
5.2.6 Breeze布爾函數(shù) 167
5.2.7 Breeze線性代數(shù)函數(shù) 168
5.2.8 Breeze取整函數(shù) 169
5.2.9 Breeze三角函數(shù) 170
5.2.10 BLAS向量運算 170
5.3 Spark MLlib線性回歸算法 171
5.3.1 線性回歸算法理論基礎(chǔ) 171
5.3.2 線性回歸算法 172
5.3.3 Spark MLlib Linear Regression源碼分析 174
5.4 Spark MLlib邏輯回歸算法 183
5.4.1 邏輯回歸算法 184
5.4.2 Spark MLlib Logistic Regression源碼分析 186
5.5 Spark MLlib樸素貝葉斯分類算法 199
5.5.1 樸素貝葉斯分類算法 200
5.5.2 樸素貝葉斯Spark MLlib源碼 203
5.6 Spark MLlib決策樹算法 217
5.6.1 決策樹算法 217
5.6.2 決策樹實例 220
5.7 Spark MLlib KMeans聚類算法 227
5.7.1 KMeans聚類算法 227
5.7.2 Spark MLlib KMeans源碼分析 228
5.7.3 MLlib KMeans實例 235
5.8 Spark MLlib FPGrowth關(guān)聯(lián)規(guī)則算法 236
5.8.1 基本概念 236
5.8.2 FPGrowth算法 237
5.8.3 Spark MLlib FPGrowth源碼分析 241
5.9 Spark MLlib協(xié)同過濾推薦算法 244
5.9.1 協(xié)同過濾概念 244
5.9.2 相似度度量 245
5.9.3 協(xié)同過濾算法按照數(shù)據(jù)使用分類 246
5.9.4 Spark MLlib協(xié)同過濾算法實現(xiàn) 247
5.9.5 Spark MLlib電影評級推薦 252
5.10 Spark MLlib神經(jīng)網(wǎng)絡(luò)算法 261
5.11 本章小結(jié) 264


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號