Spark高級(jí)數(shù)據(jù)分析（第2版）

定　價(jià)：￥69.00

作　者：	[美] 桑迪·里扎（Sandy Ryza），[美] 于里·萊瑟森（Uri Laserson），[英] 肖恩·歐文（Sean Owen），[美] 喬希·威爾斯（Josh Wills）著，龔少成，邱鑫
出版社：	人民郵電出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買這本書可以去

ISBN：	9787115482525	出版時(shí)間：	2018-06-01	包裝：	平裝
開本：	16開	頁(yè)數(shù)：	226	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　本書是使用Spark進(jìn)行大規(guī)模數(shù)據(jù)分析的實(shí)戰(zhàn)寶典，由知名數(shù)據(jù)科學(xué)家撰寫。本書在第1版的基礎(chǔ)上，針對(duì)Spark近年來(lái)的發(fā)展，對(duì)樣例代碼和所使用的資料進(jìn)行了大量更新。新版Spark使用了全新的核心API，MLlib和Spark SQL兩個(gè)子項(xiàng)目也發(fā)生了較大變化，本書為關(guān)注Spark發(fā)展趨勢(shì)的讀者提供了與時(shí)俱進(jìn)的資料，例如Dataset和DataFrame的使用，以及與DataFrame API高度集成的Spark ML API。

作者簡(jiǎn)介

　　【作者簡(jiǎn)介】桑迪·里扎（Sandy Ryza），Spark項(xiàng)目代碼提交者、Hadoop項(xiàng)目管理委員會(huì)委員，Time Series for Spark項(xiàng)目創(chuàng)始人。曾任Cloudera公司高級(jí)數(shù)據(jù)科學(xué)家，現(xiàn)就職于Remix公司從事公共交通算法開發(fā)。于里·萊瑟森（Uri Laserson），MIT博士畢業(yè)，致力于用技術(shù)解決遺傳學(xué)問題，曾利用Hadoop生態(tài)系統(tǒng)開發(fā)了可擴(kuò)展的基因組學(xué)和免疫學(xué)技術(shù)。目前是西奈山伊坎醫(yī)學(xué)院遺傳學(xué)助理教授，曾任Cloudera公司核心數(shù)據(jù)科學(xué)家。肖恩·歐文（Sean Owen），Spark、Mahout項(xiàng)目代碼提交者，Spark項(xiàng)目管理委員會(huì)委員?，F(xiàn)任Cloudera公司數(shù)據(jù)科學(xué)總監(jiān)。喬希·威爾斯（Josh Wills），Crunch項(xiàng)目發(fā)起人，現(xiàn)任Slack公司數(shù)據(jù)工程主管。曾任Cloudera公司高級(jí)數(shù)據(jù)科學(xué)總監(jiān)?！咀g者簡(jiǎn)介】龔少成現(xiàn)任萬(wàn)達(dá)科技集團(tuán)數(shù)據(jù)工程部總經(jīng)理，清華大學(xué)自動(dòng)化系研究生畢業(yè)，國(guó)內(nèi)專注企業(yè)級(jí)大數(shù)據(jù)平臺(tái)建設(shè)的先驅(qū)者之一，曾經(jīng)在Intel和Cloudera公司擔(dān)任大數(shù)據(jù)技術(shù)負(fù)責(zé)人，Cloudera公司認(rèn)證大數(shù)據(jù)培訓(xùn)講師。邱鑫畢業(yè)于武漢大學(xué)，目前就職于英特爾亞太研發(fā)有限公司，是Intel大數(shù)據(jù)團(tuán)隊(duì)高級(jí)工程師。主要研究大數(shù)據(jù)與深度學(xué)習(xí)技術(shù)，是基于Spark的深度學(xué)習(xí)框架BigDL的核心貢獻(xiàn)者。

圖書目錄

推薦序 ix
譯者序　xi
序　xiii
前言　xv
第　1章大數(shù)據(jù)分析　1
1．1　數(shù)據(jù)科學(xué)面臨的挑戰(zhàn)　2
1．2　認(rèn)識(shí)Apache Spark　4
1．3　關(guān)于本書　5
1．4　第 2版說(shuō)明　6
第　2章用Scala 和Spark 進(jìn)行數(shù)據(jù)分析　8
2．1　數(shù)據(jù)科學(xué)家的Scala　9
2．2　Spark編程模型　10
2．3　記錄關(guān)聯(lián)問題　10
2．4　小試牛刀：Spark shell和SparkContext　11
2．5　把數(shù)據(jù)從集群上獲取到客戶端　16
2．6　把代碼從客戶端發(fā)送到集群　19
2．7　從RDD到DataFrame　20
2．8　用DataFrame API來(lái)分析數(shù)據(jù)　23
2．9　DataFrame的統(tǒng)計(jì)信息　27
2．10　DataFrame的轉(zhuǎn)置和重塑　29
2．11　DataFrame的連接和特征選擇　32
2．12　為生產(chǎn)環(huán)境準(zhǔn)備模型　33
2．13　評(píng)估模型　35
2．14　小結(jié)　36
第3章　音樂推薦和Audioscrobbler數(shù)據(jù)集　37
3．1　數(shù)據(jù)集　38
3．2　交替最小二乘推薦算法　39
3．3　準(zhǔn)備數(shù)據(jù)　41
3．4　構(gòu)建第一個(gè)模型　44
3．5　逐個(gè)檢查推薦結(jié)果　47
3．6　評(píng)價(jià)推薦質(zhì)量　50
3．7　計(jì)算AUC　51
3．8　選擇超參數(shù)　53
3．9　產(chǎn)生推薦　55
3．10　小結(jié)　56
第4章　用決策樹算法預(yù)測(cè)森林植被　58
4．1　回歸簡(jiǎn)介　59
4．2　向量和特征　59
4．3　樣本訓(xùn)練　60
4．4　決策樹和決策森林　61
4．5　Covtype數(shù)據(jù)集　63
4．6　準(zhǔn)備數(shù)據(jù)　64
4．7　第一棵決策樹　66
4．8　決策樹的超參數(shù)　72
4．9　決策樹調(diào)優(yōu)　73
4．10　重談?lì)悇e型特征　77
4．11　隨機(jī)決策森林　79
4．12　進(jìn)行預(yù)測(cè)　81
4．13　小結(jié)　82
第5章　基于K均值聚類的網(wǎng)絡(luò)流量異常檢測(cè)　84
5．1　異常檢測(cè)　85
5．2　K均值聚類　85
5．3　網(wǎng)絡(luò)入侵　86
5．4　KDD Cup 1999數(shù)據(jù)集　86
5．5　初步嘗試聚類　87
5．6　k的選擇　90
5．7　基于SparkR 的可視化　92
5．8　特征的規(guī)范化　96
5．9　類別型變量　98
5．10　利用標(biāo)號(hào)的熵信息　99
5．11　聚類實(shí)戰(zhàn)　100
5．12　小結(jié)　102
第6章　基于潛在語(yǔ)義分析算法分析維基百科　104
6．1　文檔－詞項(xiàng)矩陣　105
6．2　獲取數(shù)據(jù)　106
6．3　分析和準(zhǔn)備數(shù)據(jù)　107
6．4　詞形歸并　109
6．5　計(jì)算TF-IDF　110
6．6　奇異值分解　111
6．7　找出重要的概念　113
6．8　基于低維近似的查詢和評(píng)分　117
6．9　詞項(xiàng)－詞項(xiàng)相關(guān)度　117
6．10　文檔－文檔相關(guān)度　119
6．11　文檔－詞項(xiàng)相關(guān)度　121
6．12　多詞項(xiàng)查詢　122
6．13　小結(jié)　123
第7章　用GraphX分析伴生網(wǎng)絡(luò)　124
7．1　對(duì)MEDLINE文獻(xiàn)引用索引的網(wǎng)絡(luò)分析　125
7．2　獲取數(shù)據(jù)　126
7．3　用Scala XML工具解析XML文檔　128
7．4　分析MeSH主要主題及其伴生關(guān)系　130
7．5　用GraphX來(lái)建立一個(gè)伴生網(wǎng)絡(luò)　132
7．6　理解網(wǎng)絡(luò)結(jié)構(gòu)　135
7．6．1　連通組件　136
7．6．2　度的分布　138
7．7　過濾噪聲邊　140
7．7．1　處理EdgeTriplet　141
7．7．2　分析去掉噪聲邊的子圖　142
7．8　小世界網(wǎng)絡(luò)　144
7．8．1　系和聚類系數(shù)　144
7．8．2　用Pregel計(jì)算平均路徑長(zhǎng)度　145
7．9　小結(jié)　150
第8章　紐約出租車軌跡的空間和時(shí)間數(shù)據(jù)分析　151
8．1　數(shù)據(jù)的獲取　152
8．2　基于Spark的第三方庫(kù)分析　153
8．3　基于Esri Geometry API和Spray的地理空間數(shù)據(jù)處理　153
8．3．1　認(rèn)識(shí)Esri Geometry API　154
8．3．2　GeoJSON簡(jiǎn)介　155
8．4　紐約市出租車客運(yùn)數(shù)據(jù)的預(yù)處理　157
8．4．1　大規(guī)模數(shù)據(jù)中的非法記錄處理　159
8．4．2　地理空間分析　162
8．5　基于Spark的會(huì)話分析　165
8．6　小結(jié)　168
第9章　基于蒙特卡羅模擬的金融風(fēng)險(xiǎn)評(píng)估　170
9．1　術(shù)語(yǔ)　171
9．2　VaR計(jì)算方法　172
9．2．1　方差－協(xié)方差法　172
9．2．2　歷史模擬法　172
9．2．3　蒙特卡羅模擬法　172
9．3　我們的模型　173
9．4　獲取數(shù)據(jù)　173
9．5　數(shù)據(jù)預(yù)處理　174
9．6　確定市場(chǎng)因素的權(quán)重　177
9．7　采樣　179
9．8　運(yùn)行試驗(yàn)　182
9．9　回報(bào)分布的可視化　185
9．10　結(jié)果的評(píng)估　186
9．11　小結(jié)　188
第　10章基因數(shù)據(jù)分析和BDG項(xiàng)目　190
10．1　分離存儲(chǔ)與模型　191
10．2　用ADAM CLI導(dǎo)入基因?qū)W數(shù)據(jù)　193
10．3　從ENCODE數(shù)據(jù)預(yù)測(cè)轉(zhuǎn)錄因子結(jié)合位點(diǎn)　201
10．4　查詢1000 Genomes項(xiàng)目中的基因型　207
10．5　小結(jié)　210
第　11章基于PySpark和Thunder的神經(jīng)圖像數(shù)據(jù)分析　211
11．1　PySpark簡(jiǎn)介　212
11．2　Thunder工具包概況和安裝　215
11．3　用Thunder加載數(shù)據(jù)　215
11．4　用Thunder對(duì)神經(jīng)元進(jìn)行分類　221
11．5　小結(jié)　225
作者介紹　226
封面介紹　226