注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件顛覆大數(shù)據(jù)分析:基于Storm、Spark等Hadoop替代技術(shù)的實(shí)時(shí)應(yīng)用

顛覆大數(shù)據(jù)分析:基于Storm、Spark等Hadoop替代技術(shù)的實(shí)時(shí)應(yīng)用

顛覆大數(shù)據(jù)分析:基于Storm、Spark等Hadoop替代技術(shù)的實(shí)時(shí)應(yīng)用

定 價(jià):¥49.00

作 者: Vijay Agneeswaran(維賈伊.阿涅斯瓦蘭)著,吳京潤 黃經(jīng)業(yè) 譯
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787121252242 出版時(shí)間: 2015-05-01 包裝:
開本: 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書每章一個(gè)主題,介紹了各種大數(shù)據(jù)分析技術(shù)與機(jī)器學(xué)習(xí)算法。本書能夠讓讀者掌握大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的相關(guān)技術(shù)的大致脈絡(luò),為之后的進(jìn)階學(xué)習(xí)提供參考與指導(dǎo)。本書適合大數(shù)據(jù)技術(shù)入門者、希望對(duì)大數(shù)據(jù)技術(shù)有所了解,以及想要學(xué)習(xí)大數(shù)據(jù)技術(shù)但是不知道應(yīng)該從何處入手的讀者閱讀。

作者簡介

  Vijay Srinivas Agneeswaran 博士,1998 年于SVCE 的馬德拉斯分校獲得計(jì)算機(jī)科學(xué)與工程專業(yè)的學(xué)士學(xué)位,2001 年獲取了印度理工學(xué)院馬德拉斯分校的碩士學(xué)位(研究性質(zhì)),2008年又獲取了該校的博士學(xué)位。他曾在瑞士洛桑的聯(lián)邦理工學(xué)院的分布式信息系統(tǒng)實(shí)驗(yàn)室(LSIR)擔(dān)任過一年的博士后研究員。之前7 年先后就職于Oracle、Cognizant 及Impetus,對(duì)大數(shù)據(jù)及云領(lǐng)域的工程研發(fā)貢獻(xiàn)頗多。目前擔(dān)任Impetus 的大數(shù)據(jù)實(shí)驗(yàn)室的執(zhí)行總監(jiān)。他的研發(fā)團(tuán)隊(duì)在專利、論文、受邀的會(huì)議發(fā)言以及下一代產(chǎn)品創(chuàng)新方面都處于領(lǐng)導(dǎo)地位。他主要研究的領(lǐng)域包括大數(shù)據(jù)管理、批處理及實(shí)時(shí)分析,以及大數(shù)據(jù)的機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)范式。最近8 年來,他一直是計(jì)算機(jī)協(xié)會(huì)(ACM)以及電氣和電子工程師協(xié)會(huì)(IEEE)的專家成員,并于2012年12 月被推選為IEEE 的資深成員。他在美國、歐洲以及印度的專利局都申請(qǐng)過專利(并持有美國的兩項(xiàng)專利)。他在前沿的期刊及會(huì)議,包括IEEE transaction 上都發(fā)表過論文。他還是國內(nèi)外多個(gè)會(huì)議的特邀發(fā)言人,譬如O’Reilly 的Strata 大數(shù)據(jù)系列會(huì)議。最近一次公開發(fā)表論文是在Liebertpub 的大數(shù)據(jù)期刊上。他與妻子及兒女一起居住在班加羅爾,對(duì)印度、埃及、巴比倫以及希臘古代的文化與哲學(xué)的研究非常感興趣。

圖書目錄

前言.............. X
致謝........... XIII
關(guān)于作者 .. XVII

1引言:為什么要超越 Hadoop Map-Reduce ................. 1

Hadoop的適用范圍 ............................ 3
大數(shù)據(jù)分析之機(jī)器學(xué)習(xí)實(shí)現(xiàn)的革命 10
第一代機(jī)器學(xué)習(xí)工具 /范式 ........11
第二代機(jī)器學(xué)習(xí)工具 /范式 ........11
第三代機(jī)器學(xué)習(xí)工具 /范式 ....... 14
小結(jié).................... 18
參考文獻(xiàn) ............ 19

2何為伯克利數(shù)據(jù)分析棧(BDAS) .............................. 23

實(shí)現(xiàn) BDAS的動(dòng)機(jī) ........................... 24
Spark:動(dòng)機(jī) .............................. 25
Shark:動(dòng)機(jī) .............................. 26
Mesos:動(dòng)機(jī) ............................. 28
BDAS的設(shè)計(jì)及架構(gòu) ........................ 29
Spark:高效的集群數(shù)據(jù)處理的范式 ............................... 34
Spark的彈性分布式數(shù)據(jù)集 ...... 36
Spark的實(shí)現(xiàn) ............................. 40
Spark VS. 分布式共享內(nèi)存系統(tǒng) .............................. 42
RDD的表達(dá)性 .......................... 44
類似 Spark的系統(tǒng) .................... 45
Shark:分布式系統(tǒng)上的 SQL接口 . 46
Spark為 Shark提供的擴(kuò)展 ...... 47
列內(nèi)存存儲(chǔ) 49
分布式數(shù)據(jù)加載 ........................ 50
完全分區(qū)智能連接 .................... 50
分區(qū)修剪 .... 50
機(jī)器學(xué)習(xí)的支持 ........................ 51
Mesos:集群調(diào)度及管理系統(tǒng) ......... 51
Mesos組件 52
資源分配 .... 54
隔離 ............ 55
容錯(cuò)性 ........ 57
小結(jié).................... 58
參考文獻(xiàn) ............ 59

使用 Spark實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法 .... 66

機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí) ............................ 66
機(jī)器學(xué)習(xí):隨機(jī)森林示例 ........ 68
邏輯回歸:概述 72
二元形式的邏輯回歸 ................ 73
邏輯回歸估計(jì) ............................ 75
多元邏輯回歸 ............................ 76
Spark中的邏輯回歸算法 ................. 77
支持向量機(jī) ........ 80
復(fù)雜決策面 81
支持向量機(jī)背后的數(shù)學(xué)原理 .... 82
Spark中的支持向量機(jī) ............. 84
Spark對(duì) PMML的支持 .................... 85
PMML結(jié)構(gòu) ............................... 87
PMML的生產(chǎn)者及消費(fèi)者 ....... 92
Spark對(duì)樸素貝葉斯的 PMML支持 ........................ 94
Spark對(duì)線性回歸的 PMML支持 ............................ 95
在 Spark中使用 MLbase進(jìn)行機(jī)器學(xué)習(xí) .......................... 97
參考文獻(xiàn) ............ 99

實(shí)現(xiàn)實(shí)時(shí)的機(jī)器學(xué)習(xí)算法.......... 101

Storm簡介 ....... 101
數(shù)據(jù)流 ...... 103
拓?fù)?.......... 104
Storm集群 ............................... 105
簡單的實(shí)時(shí)計(jì)算例子 .............. 106
數(shù)據(jù)流組 .. 108
Storm的消息處理擔(dān)保 ........... 109
基于 Storm的設(shè)計(jì)模式 ................... 111
分布式遠(yuǎn)程過程調(diào)用 ............... 111
Trident:基于 Storm的實(shí)時(shí)聚合 ............................115
實(shí)現(xiàn)基于 Storm的邏輯回歸算法 ...116
實(shí)現(xiàn)基于 Storm的支持向量機(jī)算法 .............................. 120
Storm對(duì)樸素貝葉斯 PMML的支持 ............................. 122
實(shí)時(shí)分析的應(yīng)用 .............................. 126
工業(yè)日志分類 .......................... 126
互聯(lián)網(wǎng)流量過濾器 .................. 130
Storm的替代品 ....................... 131
Spark流 ........... 133
D-Streams的動(dòng)機(jī) .................... 133
參考文獻(xiàn) .......... 135

圖處理范式 138

Pregel:基于 BSP的圖處理框架 ... 139
類似的做法 .............................. 141
開源的 Pregel實(shí)現(xiàn) ......................... 143
Giraph ...... 143
GoldenORB .............................. 145
Phoebus .................................... 145
Apache Hama........................... 146
Stanford GPS............................ 146
GraphLab ......... 147
GraphLab:多核版本 .............. 148

分布式的 GraphLab ................. 150
PowerGraph ............................. 152
通過 GraphLab實(shí)現(xiàn)網(wǎng)頁排名算法 ........................ 156
頂點(diǎn)程序 .. 158
基于 GraphLab實(shí)現(xiàn)隨機(jī)梯度下降算法 ................ 163
參考文獻(xiàn) .......... 167

結(jié)論:超越Hadoop Map-Reduce的大數(shù)據(jù)分析.......... 171
Hadoop YARN概覽 ........................ 172
Hadoop YARN的動(dòng)機(jī) ............ 172
作為資源調(diào)度器的 YARN ...... 174
YARN上的其他框架 ...................... 175
大數(shù)據(jù)分析的未來是怎樣的 .......... 177
參考文獻(xiàn) .......... 180

附錄 A代碼筆記 .......................... 182

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)