注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫Spark GraphX實(shí)戰(zhàn)

Spark GraphX實(shí)戰(zhàn)

Spark GraphX實(shí)戰(zhàn)

定 價(jià):¥79.00

作 者: [美] Michael,S.,Malak(邁克爾,S.,馬拉克) ... 著;時(shí)金魁 譯
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 程序設(shè)計(jì) 計(jì)算機(jī)/網(wǎng)絡(luò)

ISBN: 9787121310430 出版時(shí)間: 2017-03-01 包裝: 平裝
開本: 16開 頁數(shù): 300 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書是一本Spark GraphX入門書籍。前5章為基礎(chǔ)內(nèi)容,即使讀者對(duì)Spark、GraphX、Scala不熟悉,也能快速上手;后5章為圖計(jì)算進(jìn)階,主要是圖算法和機(jī)器學(xué)習(xí)算法的相關(guān)內(nèi)容。專門講圖計(jì)算的書很少,本書在第2、3、4章介紹了圖的基礎(chǔ)知識(shí)、GraphX基礎(chǔ)知識(shí)、GraphX內(nèi)置的圖算法。第6章到第10章,主要介紹了GraphX之外的圖算法、機(jī)器學(xué)習(xí)、圖工具、GraphX監(jiān)控和優(yōu)化、GraphX的能力增強(qiáng)等實(shí)用技能。第9章和第10章主要介紹性能調(diào)優(yōu)和監(jiān)控,主要面向生產(chǎn)環(huán)境,有不少可以借鑒的技巧。本書面向?qū)D計(jì)算感興趣的讀者,旨在幫助讀者掌握Spark GraphX的相關(guān)知識(shí)及其應(yīng)用。

作者簡(jiǎn)介

  書作譯者文字水平較高,行文流暢,且工作在編程第一線,擁有扎實(shí)的理論基礎(chǔ)和實(shí)踐經(jīng)驗(yàn),相信會(huì)為讀者奉上一本質(zhì)量上乘的圖書。 Michael Malak 一直從事軟件開發(fā)工作,自2013 年年初以來他一直用Spark 為財(cái)富200 強(qiáng)的公司做開發(fā)工作,經(jīng)常進(jìn)行__eol__演示和分享,特別是在科羅拉多州他住的丹佛/ 博爾德地區(qū)。他的個(gè)人技術(shù)博客的地址是http://technicaltidbit.com。__eol__Robin East 在一些大型企業(yè)曾擔(dān)任過15 年以上的顧問,在金融、政府、醫(yī)療保健和公共事業(yè)領(lǐng)域提供大數(shù)據(jù)和智能解決__eol__方案。他是Worldpay 的數(shù)據(jù)科學(xué)家,幫助公司實(shí)現(xiàn)把數(shù)據(jù)用于核心業(yè)務(wù)上??梢栽谶@里看到他在Spark、GraphX 和機(jī)器學(xué)習(xí)方面的作品:https://mlspeed.wordpress.com。

圖書目錄

目錄
序言 ...............XI
致謝 .............XIII
關(guān)于本書 ..... XIV
關(guān)于封面插圖................................. XVIII
第1部分 Spark和圖
1 兩項(xiàng)重要的技術(shù):Spark和圖 ........ 3
1.1 Spark:超越Hadoop MapReduce ... 4
1.1.1 模糊的大數(shù)據(jù)定義 ............. 6
1.1.2 Hadoop:Spark之前的世界 ................................... 6
1.1.3 Spark:內(nèi)存中的 MapReduce處理 ....................... 7
1.2 圖:挖掘關(guān)系中的含義 ................. 9
1.2.1 圖的應(yīng)用 ........................... 11
1.2.2 圖數(shù)據(jù)的類型 ................... 12
1.2.3 普通的關(guān)系型數(shù)據(jù)庫在圖方面的不足 ................ 14
1.3 把快如閃電的圖處理放到一起:Spark GraphX ............. 14
1.3.1 圖的屬性:增加豐富性 ... 15
1.3.2 圖的分區(qū):當(dāng)圖變?yōu)榇髷?shù)據(jù)集時(shí) ........................ 17
1.3.3 GraphX允許選擇:圖并行還是數(shù)據(jù)并行 .......... 19
1.3.4 GraphX支持的各種數(shù)據(jù)處理方式 ...................... 19
1.3.5 GraphX與其他圖系統(tǒng) ..... 21
1.3.6 圖存儲(chǔ):分布式文件存儲(chǔ)與圖數(shù)據(jù)庫 ................ 23
1.4 小結(jié) .......... 23
2 GraphX快速入門 .......................... 24
2.1 準(zhǔn)備開始并準(zhǔn)備數(shù)據(jù) ................... 24
2.2 用Spark Shell做GraphX交互式查詢 ................................. 26
2.3 PageRank算法示例 ....................... 29
2.4 小結(jié) .......... 31
3 基礎(chǔ)知識(shí).. 32
3.1 Scala―Spark的原生編程語言 . 33
3.1.1 Scala的理念:簡(jiǎn)潔和表現(xiàn)力 .............................. 33
3.1.2 函數(shù)式編程 ....................... 34
3.1.3 類型推斷 ........................... 38
3.1.4 類的聲明 ........................... 39
3.1.5 map和 reduce ................... 41
3.1.6 一切皆是“函數(shù)” ............. 42
3.1.7 與 Java的互操作性 .......... 44
3.2 Spark ......... 44
3.2.1 分布式內(nèi)存數(shù)據(jù): RDD .. 44
3.2.2 延遲求值 ........................... 47
3.2.3 集群要求和術(shù)語解釋 ....... 49
3.2.4 序列化 ............................... 50
3.2.5 常用的 RDD操作 ............ 50
3.2.6 Spark和 SBT初步 ........... 54
3.3 圖術(shù)語解釋 ................................... 55
3.3.1 基礎(chǔ) ................................... 55
3.3.2 RDF圖和屬性圖 .............. 58
3.3.3 鄰接矩陣 ........................... 59
3.3.4 圖查詢系統(tǒng) ....................... 59
3.4 小結(jié) .......... 60
第2部分 連接頂點(diǎn)
4 GraphX 基礎(chǔ) ............................... 65
4.1 頂點(diǎn)對(duì)象與邊對(duì)象 ....................... 65
4.2 mapping操作 ................................. 71
4.2.1 簡(jiǎn)單的圖轉(zhuǎn)換 ................... 71
4.2.2 Map/Reduce ...................... 73
4.2.3 迭代的 Map/Reduce ......... 77
4.3 序列化/反序列化 .......................... 79
4.3.1 讀 /寫二進(jìn)制格式的數(shù)據(jù) 79
4.3.2 JSON格式 ........................ 81
4.3.3 Gephi可視化軟件的 GEXF格式 ......................... 85
4.4 圖生成 ...... 86
4.4.1 確定的圖 ........................... 86
4.4.2 隨機(jī)圖 ............................... 88
4.5 Pregel API . 90
4.6 小結(jié) .......... 96
5 內(nèi)置圖算法 ................................... 97
5.1 找出重要的圖節(jié)點(diǎn):網(wǎng)頁排名 ... 98
5.1.1 PageRank算法解釋 .......... 98
5.1.2 在 GraphX中使用 PageRank ................................ 99
5.1.3 個(gè)性化的 PageRank ........ 102
5.2 衡量連通性:三角形數(shù) ............. 103
5.2.1 三角形關(guān)系的用法 ......... 103
5.2.2 Slashdot朋友和反對(duì)者的用戶關(guān)系示例 ........... 104
5.3 查找最少的跳躍:最短路徑 ..... 106
5.4 找到孤島人群:連通組件 ......... 107
5.4.1 預(yù)測(cè)社交圈子 ................. 108
5.5 受歡迎的回饋:增強(qiáng)連通組件 . 114
5.6 社區(qū)發(fā)現(xiàn)算法:標(biāo)簽傳播 ......... 115
5.7 小結(jié) ........ 117
6 其他有用的圖算法 .......................118
6.1 你自己的GPS:有權(quán)值的最短路徑 ............................... 119
6.2 旅行推銷員問題:貪心算法 ..... 124
6.3 路徑規(guī)劃工具:最小生成樹 ..... 127
6.3.1 基于 Word2Vec的推導(dǎo)分類法和最小生成樹 ... 131
6.4 小結(jié) ........ 135
7 機(jī)器學(xué)習(xí) 136
7.1 監(jiān)督、無監(jiān)督、半監(jiān)督學(xué)習(xí) ..... 137
7.2 影片推薦: SVDPlusPlus........... 139
7.2.1 公式解釋 ......................... 146
7.3 在MLlib中使用GraphX .............. 146
7.3.1 主題聚類:隱含狄利克雷分布 .......................... 147
7.3.2 垃圾信息檢測(cè): LogisticRegressionWithSGD ... 156
7.3.3 使用冪迭代聚類進(jìn)行圖像分割(計(jì)算機(jī)視覺) 160
7.4 窮人(簡(jiǎn)化版)的訓(xùn)練數(shù)據(jù):基于圖的半監(jiān)督學(xué)習(xí) .. 165
7.4.1 K近鄰圖構(gòu)建 ................. 168
7.4.2 半監(jiān)督學(xué)習(xí)標(biāo)簽傳播算法 .................................. 175
7.5 小結(jié) ........ 180
第3部分 更多內(nèi)容
8 缺失的算法 ................................. 183
8.1 缺失的基本圖操作 ..................... 184
8.1.1 通用意義上的子圖 ......... 184
8.1.2 圖合并 ............................. 185
8.2 讀取RDF圖文件 .......................... 189
8.2.1 頂點(diǎn)匹配以及圖構(gòu)建 ..... 189
8.2.2 使用 IndexedRDD和 RDD HashMap來提升性能................................. 191
8.3 窮人(簡(jiǎn)化版)的圖同構(gòu):找到Wikipedia缺失的信息 ................................... 197
8.4 全局聚類系數(shù):連通性比較 ..... 202
8.5 小結(jié) ........ 205
9 性能和監(jiān)控 ................................. 207
9.1 監(jiān)控Spark應(yīng)用 ............................ 208
9.1.1 Spark如何運(yùn)行應(yīng)用 ...... 208
9.1.2 用 Spark監(jiān)控來了解你的應(yīng)用的運(yùn)行時(shí)信息 .. 211
9.1.3 history server ................... 221
9.2 Spark配置 .................................... 223
9.2.1 充分利用全部 CPU資源 .................................... 226
9.3 Spark性能調(diào)優(yōu) ............................ 227
9.3.1 用緩存和持久化來加速 Spark ........................... 227
9.3.2 checkpointing .................. 230
9.3.3 通過序列化降低內(nèi)存壓力 .................................. 232
9.4 圖分區(qū) .... 233
9.5 小結(jié) ........ 235
10 更多語言以及工具 .................... 237
10.1 在GraphX中使用除Scala外的其他語言 ....................... 238
10.1.1 在 GraphX中使用 Java 7 ................................ 238
10.1.2 在 GraphX中使用 Java 8 ................................ 245
10.1.3 未來 GraphX是否會(huì)支持 Python或者 R ...... 245
10.2 其他可視化工具:Apache Zeppelin 和 d3.js ............... 245
10.3 類似一個(gè)數(shù)據(jù)庫:Spark Job Server ............................. 248
10.3.1 示例:查詢 Slashdot好友的分離程度 .......... 250
10.3.2 更多使用 Spark Job Server的例子 ................. 253
10.4 通過GraphFrames在Spark的圖上使用SQL .................. 254
10.4.1 GraphFrames和 GraphX的互操作性 ............ 255
10.4.2 使用 SQL進(jìn)行便捷、高性能的操作............. 257
10.4.3 使用 Cypher語言的子集來進(jìn)行頂點(diǎn)搜索 .... 258
10.4.4 稍微復(fù)雜一些的 YAGO圖同構(gòu)搜索 ............. 260
10.5 小結(jié) ...... 264
附錄A 安裝Spark ........................... 266
附錄B Gephi可視化軟件 ................ 271
附錄C 更多資源 ............................. 275
附錄D 本書中的Scala小貼士 ......... 278

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)