注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Spark機(jī)器學(xué)習(xí):核心技術(shù)與實(shí)踐

Spark機(jī)器學(xué)習(xí):核心技術(shù)與實(shí)踐

Spark機(jī)器學(xué)習(xí):核心技術(shù)與實(shí)踐

定 價(jià):¥69.00

作 者: [美] 亞歷克斯·特列斯 著,邵賽賽 陽(yáng)衛(wèi)清 唐明潔 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 大數(shù)據(jù)技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787111598466 出版時(shí)間: 2018-06-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 229 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書采用理論與大量實(shí)例相結(jié)合的方式幫助開發(fā)人員掌握使用Spark進(jìn)行分析和實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法。通過(guò)這些示例和Spark在各種企業(yè)級(jí)系統(tǒng)中的應(yīng)用,幫助讀者解鎖Spark機(jī)器學(xué)習(xí)算法的復(fù)雜性,通過(guò)數(shù)據(jù)分析產(chǎn)生有價(jià)值的數(shù)據(jù)洞察力。

作者簡(jiǎn)介

  About the Authors?關(guān) 于 作 者 Alex Tellez是一名終身的數(shù)據(jù)黑客/愛好者,對(duì)數(shù)據(jù)科學(xué)及其在商業(yè)問(wèn)題上的應(yīng)用充滿了激情。他在多個(gè)行業(yè)擁有豐富的經(jīng)驗(yàn),包括銀行業(yè)、醫(yī)療保健、在線約會(huì)、人力資源和在線游戲。Alex還在各種人工智能/機(jī)器學(xué)習(xí)會(huì)議上進(jìn)行過(guò)多次演講,同時(shí)也在大學(xué)講授關(guān)于神經(jīng)網(wǎng)絡(luò)的課程。閑暇時(shí)間,Alex喜歡和家人在一起,騎自行車,并利用機(jī)器學(xué)習(xí)來(lái)滿足他對(duì)法國(guó)葡萄酒的好奇心! 首先,我要感謝Michal與我一起編寫本書。同樣作為的機(jī)器學(xué)習(xí)(Machine Learning,以下簡(jiǎn)稱ML)愛好者、自行車愛好者、跑者和父親,在一年來(lái)共同努力的過(guò)程中,我們對(duì)彼此有了更深的了解。換句話說(shuō),沒有Michal的支持和鼓勵(lì),本書是不可能完成的。 接下來(lái),我要感謝我的媽媽、爸爸和哥哥Andres,從我出生天直到現(xiàn)在的每一步,你們都陪伴在我的周圍。毋庸置疑,我的哥哥仍會(huì)是我的英雄,是我永遠(yuǎn)仰望的人,是我的指路燈。當(dāng)然,還要感謝我美麗的妻子Denise和女兒Miya,在每個(gè)夜晚和周末給予我寫作上的關(guān)心和支持。我無(wú)法描述你們對(duì)我而言意味著多少,你們是我保持持續(xù)創(chuàng)作的靈感和動(dòng)力。對(duì)我的女兒Miya,我的希望是,有一天當(dāng)你拿起這本書時(shí),會(huì)意識(shí)到你的老爸并不像看起來(lái)那么傻。 后,我也要感謝你——讀者,感謝你對(duì)這個(gè)令人興奮的領(lǐng)域以及難以置信的技術(shù)感興趣。無(wú)論你是一名經(jīng)驗(yàn)豐富的ML專家,還是希望立足的新人,你都會(huì)找到適合自己的內(nèi)容,我希望你能像Michal和我一樣,從本書中獲得很多。 Max Pumperla是一名數(shù)據(jù)科學(xué)家和工程師,專注于深度學(xué)習(xí)及其應(yīng)用。他目前在Skymind擔(dān)任深度學(xué)習(xí)工程師,并且是aetros.com的聯(lián)合創(chuàng)始人。Max是幾個(gè)Python軟件包的作者和維護(hù)者,包括elephas,一個(gè)使用Spark的分布式深度學(xué)習(xí)庫(kù)。他的開源足跡包括對(duì)許多流行的機(jī)器學(xué)習(xí)庫(kù)的貢獻(xiàn),如keras、deeplearning4j和hyperopt。他擁有漢堡大學(xué)的代數(shù)幾何博士學(xué)位。 Michal Malohlava是Sparkling Water的創(chuàng)建者、極客和開發(fā)者,Java、Linux、編程語(yǔ)言愛好者,擁有10年以上的軟件開發(fā)經(jīng)驗(yàn)。他于2012年在布拉格的查爾斯大學(xué)獲得博士學(xué)位,并在普渡大學(xué)攻讀博士后。 在學(xué)習(xí)期間,他關(guān)注利用模型驅(qū)動(dòng)方法和領(lǐng)域特定語(yǔ)言構(gòu)建分布式、嵌入式、實(shí)時(shí)和模塊化系統(tǒng),參與了各種系統(tǒng)的設(shè)計(jì)和開發(fā),包括SOFA和分形組件系統(tǒng)以及jPapabench控制系統(tǒng)。 現(xiàn)在,他的主要興趣是大數(shù)據(jù)計(jì)算。他參與了高級(jí)大數(shù)據(jù)計(jì)算平臺(tái)H2O的開發(fā),并將其嵌入到Spark引擎中作為Sparkling Water項(xiàng)目發(fā)布。 我要感謝我的妻子Claire,感謝她對(duì)于我的愛和鼓勵(lì)。

圖書目錄

目  錄?Contents
譯者序
關(guān)于作者
前言
第1章 大規(guī)模機(jī)器學(xué)習(xí)和Spark入門 1
1.1 數(shù)據(jù)科學(xué) 2
1.2 數(shù)據(jù)科學(xué)家:21世紀(jì)最炫酷的職業(yè) 2
1.2.1 數(shù)據(jù)科學(xué)家的一天 3
1.2.2 大數(shù)據(jù)處理 4
1.2.3 分布式環(huán)境下的機(jī)器學(xué)習(xí)算法 4
1.2.4 將數(shù)據(jù)拆分到多臺(tái)機(jī)器 6
1.2.5 從Hadoop MapReduce到Spark 6
1.2.6 什么是Databricks 7
1.2.7 Spark包含的內(nèi)容 8
1.3 H2O.ai簡(jiǎn)介 8
1.4 H2O和Spark MLlib的區(qū)別 10
1.5 數(shù)據(jù)整理 10
1.6 數(shù)據(jù)科學(xué):一個(gè)迭代過(guò)程 11
1.7 小結(jié) 11
第2章 探索暗物質(zhì):希格斯玻色子 12
2.1?、裥湾e(cuò)誤與Ⅱ型錯(cuò)誤 12
2.1.1 尋找希格斯玻色子 13
2.1.2 LHC和數(shù)據(jù)的創(chuàng)建 13
2.1.3 希格斯玻色子背后的理論 14
2.1.4 測(cè)量希格斯玻色子 14
2.1.5 數(shù)據(jù)集 14
2.2 啟動(dòng)Spark與加載數(shù)據(jù) 15
2.2.1 標(biāo)記點(diǎn)向量 22
2.2.2 創(chuàng)建訓(xùn)練和測(cè)試集合 24
2.2.3 第一個(gè)模型:決策樹 26
2.2.4 下一個(gè)模型:集合樹 32
2.2.5 最后一個(gè)模型:H2O深度學(xué)習(xí) 37
2.2.6 構(gòu)建一個(gè)3層DNN 39
2.3 小結(jié) 45
第3章 多元分類的集成方法 46
3.1 數(shù)據(jù) 47
3.2 模型目標(biāo) 48
3.2.1 挑戰(zhàn) 48
3.2.2 機(jī)器學(xué)習(xí)工作流程 48
3.2.3 使用隨機(jī)森林建模 61
3.3 小結(jié) 78
第4章 使用NLP和Spark Streaming預(yù)測(cè)電影評(píng)論 80
4.1 NLP簡(jiǎn)介 81
4.2 數(shù)據(jù)集 82
4.3 特征提取 85
4.3.1 特征提取方法:詞袋模型 85
4.3.2 文本標(biāo)記 86
4.4 特征化——特征哈希 89
4.5 我們來(lái)做一些模型訓(xùn)練吧 92
4.5.1 Spark決策樹模型 93
4.5.2 Spark樸素貝葉斯模型 94
4.5.3 Spark隨機(jī)森林模型 95
4.5.4 Spark GBM模型 96
4.5.5 超級(jí)學(xué)習(xí)器模型 97
4.6 超級(jí)學(xué)習(xí)器 97
4.6.1 集合所有的轉(zhuǎn)換 101
4.6.2 使用超級(jí)學(xué)習(xí)器模型 105
4.7 小結(jié) 105
第5章 word2vec預(yù)測(cè)和聚類 107
5.1 詞向量的動(dòng)機(jī) 108
5.2 word2vec解釋 108
5.2.1 什么是單詞向量 108
5.2.2 CBOW模型 110
5.2.3 skip-gram模型 111
5.2.4 玩轉(zhuǎn)詞匯向量 112
5.2.5 余弦相似性 113
5.3 doc2vec解釋 113
5.3.1 分布式內(nèi)存模型 113
5.3.2 分布式詞袋模型 114
5.4 應(yīng)用word2vec并用向量探索數(shù)據(jù) 116
5.5 創(chuàng)建文檔向量 118
5.6 監(jiān)督學(xué)習(xí)任務(wù) 119
5.7 小結(jié) 123
第6章 從點(diǎn)擊流數(shù)據(jù)中抽取模式 125
6.1 頻繁模式挖掘 126
6.2 使用Spark MLlib進(jìn)行模式挖掘 130
6.2.1 使用FP-growth進(jìn)行頻繁模式挖掘 131
6.2.2 關(guān)聯(lián)規(guī)則挖掘 136
6.2.3 使用prefix span進(jìn)行序列模式挖掘 138
6.2.4 在MSNBC點(diǎn)擊流數(shù)據(jù)上進(jìn)行模式挖掘 141
6.3 部署模式挖掘應(yīng)用 147
6.4 小結(jié) 154
第7章 使用GraphX進(jìn)行圖分析 155
7.1 基本的圖理論 156
7.1.1 圖 156
7.1.2 有向和無(wú)向圖 156
7.1.3 階和度 157
7.1.4 有向無(wú)環(huán)圖 158
7.1.5 連通分量 159
7.1.6 樹 160
7.1.7 多重圖 160
7.1.8 屬性圖 161
7.2 GraphX分布式圖計(jì)算引擎 162
7.2.1 GraphX中圖的表示 163
7.2.2 圖的特性和操作 165
7.2.3 構(gòu)建和加載圖 170
7.2.4 使用Gephi可視化圖結(jié)構(gòu) 172
7.2.5 圖計(jì)算進(jìn)階 178
7.2.6 GraphFrame 181
7.3 圖算法及其應(yīng)用 183
7.3.1 聚類 183
7.3.2 頂點(diǎn)重要性 185
7.4 GraphX在上下文中 188
7.5 小結(jié) 189
第8章 Lending Club借貸預(yù)測(cè) 190
8.1 動(dòng)機(jī) 190
8.1.1 目標(biāo) 191
8.1.2 數(shù)據(jù) 192
8.1.3 數(shù)據(jù)字典 192
8.2 環(huán)境準(zhǔn)備 193
8.3 數(shù)據(jù)加載 193
8.4 探索——數(shù)據(jù)分析 194
8.4.1 基本清理 194
8.4.2 預(yù)測(cè)目標(biāo) 200
8.4.3 使用模型評(píng)分 221
8.4.4 模型部署 224
8.5 小結(jié) 229

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)