注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)Spark 3.0大數(shù)據(jù)分析與挖掘:基于機(jī)器學(xué)習(xí)

Spark 3.0大數(shù)據(jù)分析與挖掘:基于機(jī)器學(xué)習(xí)

Spark 3.0大數(shù)據(jù)分析與挖掘:基于機(jī)器學(xué)習(xí)

定 價(jià):¥59.00

作 者: 王曉華,羅凱靖 著
出版社: 清華大學(xué)出版社
叢編項(xiàng): 大數(shù)據(jù)技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787302598992 出版時(shí)間: 2022-03-01 包裝:
開(kāi)本: 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  Spark作為新興的、應(yīng)用范圍廣泛的大數(shù)據(jù)處理開(kāi)源框架,吸引了大量的大數(shù)據(jù)分析與挖掘從業(yè)人員進(jìn)行相關(guān)內(nèi)容的學(xué)習(xí)與開(kāi)發(fā),其中ML是Spark 3.0機(jī)器學(xué)習(xí)框架使用的核心。本書用于Spark 3.0 ML大數(shù)據(jù)分析與挖掘入門,配套示例源碼、PPT課件、數(shù)據(jù)集、思維導(dǎo)圖、開(kāi)發(fā)環(huán)境和作者答疑服務(wù)。本書共分13章,從Spark 3.0大數(shù)據(jù)分析概述、基礎(chǔ)安裝和配置開(kāi)始,依次介紹ML的DataFrame、ML的基本概念,以及協(xié)同過(guò)濾、線性回歸、分類、決策樹與隨機(jī)森林、聚類、關(guān)聯(lián)規(guī)則、數(shù)據(jù)降維、特征提取和轉(zhuǎn)換等數(shù)據(jù)處理方法;最后通過(guò)經(jīng)典的鳶尾花分析實(shí)例,回顧前面的學(xué)習(xí)內(nèi)容,實(shí)現(xiàn)了一個(gè)完整的數(shù)據(jù)分析與挖掘過(guò)程。本書采取實(shí)例和理論相結(jié)合的方式,講解細(xì)致直觀,示例豐富,適合Spark 3.0機(jī)器學(xué)習(xí)初學(xué)者、大數(shù)據(jù)分析和挖掘人員,也適合高等院校和培訓(xùn)機(jī)構(gòu)人工智能與大數(shù)據(jù)相關(guān)專業(yè)的師生教學(xué)參考。

作者簡(jiǎn)介

  王曉華,計(jì)算機(jī)專業(yè)講師,研究方向?yàn)樵朴?jì)算、大數(shù)據(jù)與人工智能。著有《Spark MLlib機(jī)器學(xué)習(xí)實(shí)踐》《TensorFlow深度學(xué)習(xí)應(yīng)用實(shí)踐》《OpenCV+TensorFlow深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué)實(shí)戰(zhàn)》《TensorFlow知識(shí)圖譜實(shí)戰(zhàn)》《TensorFlow人臉識(shí)別實(shí)戰(zhàn)》《TensorFlow語(yǔ)音識(shí)別實(shí)戰(zhàn)》《TensorFlow 2.0卷積神經(jīng)網(wǎng)絡(luò)實(shí)戰(zhàn)》《Keras實(shí)戰(zhàn):基于TensorFlow2.2的深度學(xué)習(xí)實(shí)踐》《TensorFlow深度學(xué)習(xí)從零開(kāi)始學(xué)》《深度學(xué)習(xí)的數(shù)學(xué)原理與實(shí)現(xiàn)》等圖書。

圖書目錄


第1章 Spark大數(shù)據(jù)分析概述 1
1.1 大數(shù)據(jù)時(shí)代 1
1.2 大數(shù)據(jù)分析的要素 2
1.3 簡(jiǎn)單、優(yōu)雅、有效—這就是Spark 3
1.4 Spark 3.0核心—ML 4
1.5 星星之火,可以燎原 6
1.6 小結(jié) 6
第2章 Spark 3.0安裝和開(kāi)發(fā)環(huán)境配置 7
2.1 Windows 10單機(jī)模式下安裝和配置Spark 7
2.1.1 Windows 10安裝Java 8 7
2.1.2 Windows 10安裝Scala 2.12.10 10
2.1.3 Intellij IDEA下載和安裝 13
2.1.4 Intellij IDEA中Scala插件的安裝 13
2.1.5 HelloJava—使用Intellij IDEA創(chuàng)建Java程序 16
2.1.6 HelloScala—使用Intellij IDEA創(chuàng)建Scala程序 19
2.1.7 最后一腳—Spark 3.0單機(jī)版安裝 22
2.2 經(jīng)典的wordCount 25
2.2.1 Spark 3.0實(shí)現(xiàn)wordCount 25
2.2.2 MapReduce實(shí)現(xiàn)wordCount 27
2.3 小結(jié) 30
第3章 DataFrame詳解 31
3.1 DataFrame是什么 31
3.1.1 DataFrame與RDD的關(guān)系 31
3.1.2 DataFrame理解及特性 32
3.1.3 DataFrame與DataSet的區(qū)別 34
3.1.4 DataFrame的缺陷 34
3.2 DataFrame工作原理 35
3.2.1 DataFrame工作原理圖 35
3.2.2 寬依賴與窄依賴 35
3.3 DataFrame應(yīng)用API和操作詳解 37
3.3.1 創(chuàng)建 DataFrame 37
3.3.2 提前計(jì)算的cache方法 39
3.3.3 用于列篩選的select和selectExpr方法 41
3.3.4 DataFrame的收集行collect方法 42
3.3.5 DataFrame計(jì)算行數(shù)count方法 43
3.3.6 DataFrame限制輸出limit方法 44
3.3.7 除去數(shù)據(jù)集中重復(fù)項(xiàng)的distinct方法 45
3.3.8 過(guò)濾數(shù)據(jù)的filter方法 46
3.3.9 以整體數(shù)據(jù)為單位操作數(shù)據(jù)的flatMap方法 46
3.3.10 以單個(gè)數(shù)據(jù)為目標(biāo)進(jìn)行操作的map方法 47
3.3.11 分組數(shù)據(jù)的groupBy和agg方法 48
3.3.12 刪除數(shù)據(jù)集中某列的drop方法 49
3.3.13 隨機(jī)采樣方法和隨機(jī)劃分方法 49
3.3.14 排序類型操作的sort和orderBy方法 51
3.3.15 DataFrame和Dataset以及RDD之間的相互轉(zhuǎn)換 52
3.4 小結(jié) 53
第4章 ML基本概念 54
4.1 ML基本數(shù)據(jù)類型及管道技術(shù) 54
4.1.1 支持多種數(shù)據(jù)類型 55
4.1.2 管道技術(shù) 55
4.1.3 管道中的主要概念 55
4.1.4 管道的工作流程 56
4.1.5 Pipeline的使用 57
4.2 ML數(shù)理統(tǒng)計(jì)基本概念 61
4.2.1 基本統(tǒng)計(jì)量 62
4.2.2 統(tǒng)計(jì)量基本數(shù)據(jù) 62
4.2.3 距離計(jì)算 64
4.2.4 兩組數(shù)據(jù)相關(guān)系數(shù)計(jì)算 65
4.2.5 分層抽樣 68
4.2.6 假設(shè)檢驗(yàn) 69
4.2.7 隨機(jī)數(shù) 71
4.3 小結(jié) 72
第5章 協(xié)同過(guò)濾算法 73
5.1 協(xié)同過(guò)濾 73
5.1.1 協(xié)同過(guò)濾概述 73
5.1.2 基于用戶的推薦UserCF 74
5.1.3 基于物品的推薦ItemCF 75
5.1.4 協(xié)同過(guò)濾算法的不足 76
5.2 相似度度量 76
5.2.1 基于歐幾里得距離的相似度計(jì)算 76
5.2.2 基于余弦角度的相似度計(jì)算 77
5.2.3 歐幾里得相似度與余弦相似度的比較 78
5.2.4 基于余弦相似度的用戶相似度計(jì)算示例 78
5.3 交替最小二乘法 82
5.3.1 最小二乘法詳解 82
5.3.2 ML中交替最小二乘法詳解 83
5.3.3 ALS算法示例 83
5.4 小結(jié) 88
第6章 線性回歸理論與實(shí)戰(zhàn) 89
6.1 隨機(jī)梯度下降算法詳解 90
6.1.1 道士下山的故事 90
6.1.2 隨機(jī)梯度下降算法的理論基礎(chǔ) 91
6.1.3 隨機(jī)梯度下降算法實(shí)戰(zhàn) 92
6.2 回歸的過(guò)擬合 93
6.2.1 過(guò)擬合產(chǎn)生的原因 93
6.2.2 Lasso回歸、嶺回歸與ElasticNet回歸 94
6.3 ML線性回歸示例 95
6.3.1 線性回歸程序 95
6.3.2 線性回歸:廣義線性回歸 98
6.4 小結(jié) 99
第7章 分類實(shí)戰(zhàn) 100
7.1 邏輯回歸詳解 100
7.1.1 邏輯回歸不是回歸算法 101
7.1.2 邏輯回歸的數(shù)學(xué)基礎(chǔ) 101
7.1.3 ML邏輯回歸二分類示例 102
7.1.4 ML邏輯回歸多分類示例 105
7.1.5 ML邏輯回歸匯總提取 108
7.1.6 ML邏輯回歸處理文本文檔 109
7.2 線性支持向量機(jī)詳解 109
7.2.1 三角還是圓 110
7.2.2 支持向量機(jī)的數(shù)學(xué)基礎(chǔ) 111
7.2.3 ML支持向量機(jī)示例 112
7.2.4 ML支持向量機(jī)進(jìn)行分類預(yù)測(cè) 113
7.3 樸素貝葉斯分類器詳解 115
7.3.1 穿褲子的男生or女生 115
7.3.2 貝葉斯定理的數(shù)學(xué)基礎(chǔ)和意義 116
7.3.3 樸素貝葉斯定理 117
7.3.4 ML樸素貝葉斯使用示例 117
7.3.5 ML樸素貝葉斯中文文本分類 120
7.4 小結(jié) 123
第8章 決策樹與隨機(jī)森林 124
8.1 決策樹詳解 125
8.1.1 水晶球的秘密 125
8.1.2 決策樹的算法基礎(chǔ):信息熵 126
8.1.3 決策樹的算法基礎(chǔ)—ID3算法 127
8.1.4 ML中決策樹的構(gòu)建 128
8.1.5 ML中決策樹示例 130
8.2 隨機(jī)森林與梯度提升算法 132
8.3 小結(jié) 138
第9章 聚類 139
9.1 聚類與分類 139
9.1.1 什么是分類 139
9.1.2 什么是聚類 140
9.2 K-means算法 140
9.2.1 K-means算法及其算法步驟 141
9.2.2 ML中K-means算法示例 142
9.2.3 K-means算法中細(xì)節(jié)的討論 144
9.3 高斯混合聚類 144
9.3.1 從高斯分布聚類起步 145
9.3.2 混合高斯模型 146
9.3.3 ML高斯混合模型使用示例 147
9.4 快速迭代聚類 148
9.4.1 快速迭代聚類理論基礎(chǔ) 148
9.4.2 ML快速迭代聚類使用示例 149
9.5 小結(jié) 150
第10章 關(guān)聯(lián)規(guī)則 151
10.1 Apriori頻繁項(xiàng)集算法 151
10.1.1 “啤酒與尿布”的經(jīng)典故事 151
10.1.2 經(jīng)典的Apriori算法 152
10.1.3 Apriori算法示例 154
10.2 FP-growth算法 155
10.2.1 Apriori算法的局限性 155
10.2.2 FP-growth算法 155
10.2.3 ML中的FP樹算法示例 158
10.3 小結(jié) 160
第11章 數(shù)據(jù)降維 161
11.1 奇異值分解 161
11.1.1 行矩陣詳解 162
11.1.2 奇異值分解算法基礎(chǔ) 162
11.1.3 ML中奇異值分解示例 163
11.2 主成分分析 164
11.2.1 主成分分析的定義 165
11.2.2 主成分分析的數(shù)學(xué)基礎(chǔ) 165
11.2.3 ML中主成分分析示例 166
11.3 小結(jié) 167
第12章 特征提取和轉(zhuǎn)換 169
12.1 TF-IDF 169
12.1.1 如何查找想要的新聞 170
12.1.2 TF-IDF算法的數(shù)學(xué)計(jì)算 170
12.1.3 ML中TF-IDF示例 171
12.2 詞向量化Word2Vec 173
12.2.1 詞向量化基礎(chǔ) 173
12.2.2 ML中詞向量化使用示例 174
12.3 基于卡方檢驗(yàn)的特征選擇 176
12.3.1 “吃貨”的苦惱 176
12.3.2 ML中基于卡方檢驗(yàn)的特征選擇示例 177
12.4 小結(jié) 179
第13章 ML實(shí)戰(zhàn)演練—鳶尾花分析 180
13.1 建模說(shuō)明 180
13.1.1 數(shù)據(jù)的描述與分析目標(biāo) 180
13.1.2 建模說(shuō)明 182
13.2 數(shù)據(jù)預(yù)處理和分析 185
13.2.1 微觀分析—均值與方差的對(duì)比分析 185
13.2.2 宏觀分析—不同種類特性的長(zhǎng)度計(jì)算 189
13.2.3 去除重復(fù)項(xiàng)—相關(guān)系數(shù)的確定 192
13.3 長(zhǎng)與寬之間的關(guān)系—數(shù)據(jù)集的回歸分析 196
13.3.1 使用線性回歸分析長(zhǎng)與寬之間的關(guān)系 196
13.3.2 使用邏輯回歸分析長(zhǎng)與寬之間的關(guān)系 198
13.4 使用分類和聚類對(duì)鳶尾花數(shù)據(jù)集進(jìn)行處理 201
13.4.1 使用聚類分析對(duì)數(shù)據(jù)集進(jìn)行聚類處理 202
13.4.2 使用分類分析對(duì)數(shù)據(jù)集進(jìn)行分類處理 206
13.5 最終的判定—決策樹測(cè)試 208
13.5.1 決定數(shù)據(jù)集歸類的方法之一—決策樹 208
13.5.2 決定數(shù)據(jù)集歸類的方法之二—隨機(jī)森林 211
13.6 小結(jié) 213

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)