注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù)分析師權(quán)威教程:大數(shù)據(jù)分析與預(yù)測(cè)建模

大數(shù)據(jù)分析師權(quán)威教程:大數(shù)據(jù)分析與預(yù)測(cè)建模

大數(shù)據(jù)分析師權(quán)威教程:大數(shù)據(jù)分析與預(yù)測(cè)建模

定 價(jià):¥108.00

作 者: Wrox國(guó)際IT認(rèn)證項(xiàng)目組 著;姚軍 譯
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)?網(wǎng)絡(luò) 計(jì)算機(jī)期刊雜志

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787115463661 出版時(shí)間: 2017-11-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 491 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  “大數(shù)據(jù)”已連年入選IT領(lǐng)域的熱點(diǎn)話題,人們每天都會(huì)通過(guò)互聯(lián)網(wǎng)、移動(dòng)設(shè)備等生產(chǎn)大量數(shù)據(jù)。如何從海量數(shù)據(jù)中洞悉出隱藏其后的見(jiàn)解是當(dāng)今社會(huì)各領(lǐng)域人士極為關(guān)注的話題。本系列圖書(shū)以“大數(shù)據(jù)分析師”應(yīng)掌握的IT技術(shù)為主線,共分兩卷,以7個(gè)模塊(第1卷包括4個(gè)模塊,第2卷包括3個(gè)模塊)分別介紹大數(shù)據(jù)入門(mén),分析和R編程入門(mén),使用R進(jìn)行數(shù)據(jù)分析,用R進(jìn)行高級(jí)分析,機(jī)器學(xué)習(xí)的概念,社交媒體、移動(dòng)分析和可視化,大數(shù)據(jù)分析的行業(yè)應(yīng)用等核心內(nèi)容,全面且詳盡地涵蓋了大數(shù)據(jù)分析的各個(gè)領(lǐng)域。本書(shū)為第1卷,首先提供大數(shù)據(jù)的概覽,介紹大數(shù)據(jù)概念及其在商業(yè)中的應(yīng)用、處理大數(shù)據(jù)的技術(shù)、Hadoop生態(tài)系統(tǒng)和MapReduce的相關(guān)內(nèi)容,然后介紹如何理解分析、分析方法與工具,重點(diǎn)講解流行分析工具R,介紹如何將數(shù)據(jù)集導(dǎo)入R和從R導(dǎo)出數(shù)據(jù)、在R中如何操縱和處理數(shù)據(jù),最后詳細(xì)介紹R中的函數(shù)和包、R的描述性統(tǒng)計(jì)、R中的圖形分析、R中的假設(shè)檢驗(yàn)、R中的線性回歸、非線性回歸、聚類(lèi)分析、決策樹(shù)、R和Hadoop的集成及Hive,通過(guò)這些實(shí)戰(zhàn)內(nèi)容,使讀者掌握R語(yǔ)言在數(shù)據(jù)分析中的全面應(yīng)用。通過(guò)本書(shū),讀者能對(duì)大數(shù)據(jù)概念、重要性及其應(yīng)用有全面的了解,熟悉各種大數(shù)據(jù)分析工具。本書(shū)適用于想成為大數(shù)據(jù)分析師的人員以及所有對(duì)大數(shù)據(jù)分析感興趣的技術(shù)人員和決策者閱讀。

作者簡(jiǎn)介

  國(guó)際知名IT培訓(xùn)機(jī)構(gòu)中的多名大牛講師,通過(guò)對(duì)技術(shù)、IT市場(chǎng)需求以及當(dāng)今就業(yè)培訓(xùn)方面的全球行業(yè)標(biāo)準(zhǔn)進(jìn)行了廣泛并嚴(yán)格的調(diào)研之后,開(kāi)發(fā)而成。作者們的這些計(jì)劃的構(gòu)思目標(biāo)是,成為理想的就業(yè)能力培訓(xùn)項(xiàng)目,為那些有志于在國(guó)際IT行業(yè)取得事業(yè)成功的人提供服務(wù)。

圖書(shū)目錄

模塊1 大數(shù)據(jù)入門(mén)
第1講 大數(shù)據(jù)簡(jiǎn)介 3
1.1 什么是大數(shù)據(jù) 4
1.1.1 大數(shù)據(jù)的優(yōu)勢(shì) 5
1.1.2 挖掘各種大數(shù)據(jù)源 6
1.2 數(shù)據(jù)管理的歷史——大數(shù)據(jù)的演化 7
1.3 大數(shù)據(jù)的結(jié)構(gòu)化 9
1.4 大數(shù)據(jù)要素 13
1.4.1 數(shù)據(jù)量 13
1.4.2 速度 14
1.4.3 多樣性 14
1.5 大數(shù)據(jù)在商務(wù)環(huán)境中的應(yīng)用 14
1.6 大數(shù)據(jù)行業(yè)中的職業(yè)機(jī)會(huì) 16
1.6.1 職業(yè)機(jī)會(huì) 17
1.6.2 所需技能 17
1.6.3 大數(shù)據(jù)的未來(lái) 19
練習(xí) 20
備忘單 22
第2講 大數(shù)據(jù)在商業(yè)上的應(yīng)用 23
2.1 社交網(wǎng)絡(luò)數(shù)據(jù)的重要性 24
2.2 金融欺詐和大數(shù)據(jù) 30
2.3 保險(xiǎn)業(yè)的欺詐檢測(cè) 32
2.4 在零售業(yè)中應(yīng)用大數(shù)據(jù) 36
練習(xí) 40
備忘單 42
第3講 處理大數(shù)據(jù)的技術(shù) 43
3.1 大數(shù)據(jù)的分布式和并行計(jì)算 44
3.1.1 并行計(jì)算技術(shù) 46
3.1.2 虛擬化及其對(duì)大數(shù)據(jù)的重要性 47
3.2 Hadoop簡(jiǎn)介 47
3.3 云計(jì)算和大數(shù)據(jù) 50
3.3.1 大數(shù)據(jù)計(jì)算的特性 50
3.3.2 云部署模型 51
3.3.3 云交付模型 52
3.3.4 大數(shù)據(jù)云 52
3.3.5 大數(shù)據(jù)云市場(chǎng)中的供應(yīng)商 53
3.3.6 使用云服務(wù)所存在的問(wèn)題 54
3.4 大數(shù)據(jù)內(nèi)存計(jì)算技術(shù) 54
練習(xí) 56
備忘單 58
第4講 了解Hadoop生態(tài)系統(tǒng) 59
4.1 Hadoop生態(tài)系統(tǒng) 60
4.2 用HDFS存儲(chǔ)數(shù)據(jù) 61
4.2.1 HDFS架構(gòu) 62
4.2.2 HDFS的一些特殊功能 65
4.3 利用Hadoop MapReduce處理數(shù)據(jù) 65
4.3.1 MapReduce是如何工作的 66
4.3.2 MapReduce的優(yōu)點(diǎn)和缺點(diǎn) 66
4.3.3 利用Hadoop YARN管理資源和應(yīng)用 67
4.4 利用HBase存儲(chǔ)數(shù)據(jù) 68
4.5 使用Hive查詢大型數(shù)據(jù)庫(kù) 69
4.6 與Hadoop生態(tài)系統(tǒng)的交互 70
4.6.1 Pig和Pig Latin 70
4.6.2 Sqoop 71
4.6.3 Zookeeper 72
4.6.4 Flume 72
4.6.5 Oozie 73
練習(xí) 74
備忘單 76
第5講 MapReduce基礎(chǔ) 77
5.1 MapReduce的起源 78
5.2 MapReduce是如何工作的 79
5.3 MapReduce作業(yè)的優(yōu)化技術(shù) 85
5.3.1 硬件/網(wǎng)絡(luò)拓?fù)?85
5.3.2 同步 86
5.3.3 文件系統(tǒng) 86
5.4 MapReduce的應(yīng)用 86
5.5 HBase在大數(shù)據(jù)處理中的角色 87
5.6 利用Hive挖掘大數(shù)據(jù) 89
練習(xí) 91
備忘單 94
模塊2 分析和R編程入門(mén)
第1講 理解分析 97
1.1 分析與報(bào)告的對(duì)比 98
1.1.1 報(bào)告 99
1.1.2 分析 100
1.2 基本和高級(jí)分析 102
1.3 進(jìn)行分析——需要考慮的事項(xiàng) 105
1.3.1 正確限定問(wèn)題的范圍 105
1.3.2 統(tǒng)計(jì)顯著性還是業(yè)務(wù)重要性 105
1.3.3 樣本與總體 107
1.3.4 推理與計(jì)算統(tǒng)計(jì)數(shù)字的對(duì)比 109
1.4 構(gòu)建分析團(tuán)隊(duì) 110
1.4.1 成為分析師的必備技能 110
1.4.2 IT與分析的融合 111
練習(xí) 113
備忘單 115
第2講 分析方法與工具 116
2.1 分析方法的演變 117
2.1.1 集成方法 117
2.1.2 商品化模型 118
2.1.3 文本分析 120
2.1.4 文本分析的挑戰(zhàn) 121
2.2 分析工具的演變 122
2.3 分析工具分類(lèi) 123
2.3.1 圖形用戶界面的興起 123
2.3.2 點(diǎn)解決方案的大爆發(fā) 123
2.3.3 數(shù)據(jù)可視化工具 125
2.4 一些流行的分析工具 127
2.4.1 用于統(tǒng)計(jì)計(jì)算的R項(xiàng)目 127
2.4.2 IBM SPSS 128
2.4.3 SAS 130
2.5 分析工具之間的對(duì)比 131
練習(xí) 133
備忘單 135
第3講 探索R 136
3.1 安裝R 137
3.2 使用腳本工作 138
3.2.1 RGui 138
3.2.2 RStudio 140
3.2.3 “Hello world!” 141
3.2.4 簡(jiǎn)單數(shù)學(xué)運(yùn)算 141
3.2.5 R中的數(shù)學(xué)運(yùn)算 142
3.2.6 使用向量 143
3.2.7 保存和計(jì)算數(shù)值 144
3.2.8 回應(yīng)用戶 146
3.3 瀏覽工作區(qū) 149
3.3.1 操縱工作區(qū)內(nèi)容 149
3.3.2 保存工作 150
3.3.3 檢索工作 150
練習(xí) 151
備忘單 153
第4講 將數(shù)據(jù)集讀入R,從R導(dǎo)出數(shù)據(jù) 154
4.1 使用c()命令創(chuàng)建數(shù)據(jù) 155
4.1.1 輸入數(shù)值項(xiàng)作為數(shù)據(jù) 155
4.1.2 輸入文本項(xiàng)作為數(shù)據(jù) 156
4.2 在R中使用scan()命令獲取數(shù)據(jù) 157
4.2.1 輸入文本作為數(shù)據(jù) 158
4.2.2 使用剪貼板制作數(shù)據(jù) 158
4.2.3 從磁盤(pán)讀取數(shù)據(jù)文件 160
4.3 讀取更大的數(shù)據(jù)文件 162
4.3.1 read.csv()命令 163
4.3.2 在R中讀取數(shù)據(jù)的其他命令 164
4.3.3 數(shù)據(jù)文件中的缺失值 167
4.4 從R導(dǎo)出數(shù)據(jù) 169
4.5 在R中保存你的工作 169
4.5.1 將數(shù)據(jù)文件保存到磁盤(pán) 170
4.5.2 保存命名對(duì)象 170
4.5.3 保存所有操作 170
4.5.4 以文本文件形式保存數(shù)據(jù)到磁盤(pán) 171
4.5.5 將向量對(duì)象寫(xiě)入磁盤(pán) 171
4.5.6 將矩陣和數(shù)據(jù)幀對(duì)象寫(xiě)入磁盤(pán) 172
4.5.7 將列表對(duì)象寫(xiě)入磁盤(pán) 172
練習(xí) 174
備忘單 176
第5講 在R中操縱和處理數(shù)據(jù) 177
5.1 確定最合適的數(shù)據(jù)結(jié)構(gòu) 178
5.2 創(chuàng)建數(shù)據(jù)的子集 179
5.2.1 指定子集 179
5.2.2 構(gòu)造數(shù)據(jù)幀的子集 180
5.2.3 從數(shù)據(jù)中取得樣本 180
5.2.4 數(shù)據(jù)子集的應(yīng)用 182
5.3 在數(shù)據(jù)中添加計(jì)算得到的字段 184
5.3.1 在數(shù)據(jù)幀列上執(zhí)行算術(shù)運(yùn)算 184
5.3.2 創(chuàng)建數(shù)據(jù)子組或者bin 184
5.4 在R中組合和合并數(shù)據(jù)集 186
5.4.1 創(chuàng)建樣本數(shù)據(jù)以說(shuō)明合并的方法 187
5.4.2 使用merge()函數(shù) 188
5.4.3 合并類(lèi)型 189
5.4.4 使用查找表 190
5.5 分類(lèi)和排序數(shù)據(jù) 190
5.5.1 向量的排序 191
5.5.2 數(shù)據(jù)幀的排序 191
5.5.3 用apply()函數(shù)遍歷數(shù)據(jù) 193
5.6 公式接口簡(jiǎn)介 196
5.7 數(shù)據(jù)整形 196
5.7.1 理解長(zhǎng)格式和寬格式數(shù)據(jù) 197
5.7.2 從reshape2程序包入手 198
5.7.3 將數(shù)據(jù) “熔化”為長(zhǎng)格式 199
練習(xí) 202
備忘單 204
模塊3 使用R進(jìn)行數(shù)據(jù)分析
第1講 使用R中的函數(shù)和包 207
1.1 從腳本到函數(shù) 209
1.1.1 創(chuàng)建腳本 209
1.1.2 將腳本轉(zhuǎn)變?yōu)楹瘮?shù) 210
1.1.3 使用函數(shù) 211
1.1.4 減少行數(shù) 212
1.2 巧妙地使用參數(shù) 214
1.2.1 增加更多參數(shù) 214
1.2.2 使用點(diǎn)參數(shù) 216
1.2.3 使用函數(shù)作為參數(shù) 218
1.3 函數(shù)作用域 219
1.3.1 外部函數(shù) 219
1.3.2 使用內(nèi)部函數(shù) 221
1.4 指派方法 222
1.4.1 尋找函數(shù)背后的方法 223
1.4.2 以UseMethod()函數(shù)使用方法 223
1.5 程序包 225
1.5.1 為Windows安裝程序包 225
1.5.2 為L(zhǎng)inux安裝程序包 225
1.6 程序包的使用 227
1.6.1 加載程序包 227
1.6.2 卸載程序包 227
練習(xí) 228
備忘單 230
第2講 R中的描述性統(tǒng)計(jì) 231
2.1 匯總命令 232
2.2 名稱命令 234
2.3 匯總樣本 235
2.4 累積統(tǒng)計(jì)信息 239
2.4.1 簡(jiǎn)單累計(jì)命令 239
2.4.2 復(fù)雜累積命令 241
2.5 數(shù)據(jù)幀的匯總統(tǒng)計(jì) 242
2.5.1 數(shù)據(jù)幀的通用匯總命令 242
2.5.2 專用的行和列匯總命令 243
2.5.3 用于行/列匯總的apply()命令 243
2.6 矩陣對(duì)象的匯總統(tǒng)計(jì) 244
2.7 列表的匯總統(tǒng)計(jì) 246
2.8 列聯(lián)表 247
2.8.1 建立列聯(lián)表 247
2.8.2 選擇表對(duì)象的各個(gè)部分 253
2.8.3 測(cè)試表對(duì)象 255
2.8.4 復(fù)雜(扁平)表 256
2.8.5 測(cè)試“扁平”表對(duì)象 260
2.8.6 表的匯總命令 260
2.9 交叉表 262
練習(xí) 267
備忘單 269
第3講 用函數(shù)、循環(huán)和數(shù)據(jù)幀分析數(shù)據(jù) 270
3.1 矩陣、列表和數(shù)據(jù)幀 271
3.1.1 矩陣 271
3.1.2 列表 272
3.1.3 數(shù)據(jù)幀——數(shù)據(jù)集 273
3.2 向量、矩陣和列表的索引 273
3.2.1 向量的索引 273
3.2.2 矩陣的索引 274
3.2.3 列表的索引 275
3.3 R編程 276
3.3.1 表達(dá)式、賦值和算術(shù)運(yùn)算符 276
3.3.2 成組的表達(dá)式 277
3.3.3 條件執(zhí)行——if和ifelse 278
3.3.4 重復(fù)執(zhí)行——循環(huán) 278
3.4 RHadoop 280
3.4.1 安裝RHadoop 281
3.4.2 創(chuàng)建用戶定義函數(shù) 281
練習(xí) 283
備忘單 285
第4講 R中的圖形分析 286
4.1 為單變量繪圖 287
4.1.1 直方圖 288
4.1.2 索引圖 292
4.1.3 時(shí)間序列圖 293
4.1.4 餅圖 294
4.1.5 stripchart函數(shù) 294
4.2 繪制雙變量圖表 295
4.2.1 根據(jù)兩個(gè)連續(xù)解釋變量繪制圖表:散點(diǎn)圖 296
4.2.2 使用分類(lèi)解釋變量繪圖 309
4.3 多重比較圖表 312
4.4 繪制多變量圖表 315
4.4.1 pairs函數(shù) 315
4.4.2 coplot函數(shù) 316
4.4.3 相互作用圖表 316
4.5 特殊圖表 317
4.5.1 設(shè)計(jì)圖 318
4.5.2 氣泡圖 318
4.5.3 有許多相同值的圖表 319
4.6 將圖形保存到外部文件 320
練習(xí) 322
備忘單 324
第5講 R中的假設(shè)檢驗(yàn) 325
5.1 統(tǒng)計(jì)假設(shè)簡(jiǎn)介 326
5.1.1 假設(shè)檢驗(yàn) 327
5.1.2 決策錯(cuò)誤 327
5.2 使用學(xué)生t檢驗(yàn) 327
5.2.1 使用不相等方差的雙樣本t檢驗(yàn) 328
5.2.2 使用相等方差的雙樣本t檢驗(yàn) 328
5.2.3 單樣本t檢驗(yàn) 328
5.2.4 t檢驗(yàn)中的公式語(yǔ)法和樣本子集構(gòu)建 329
5.3 u檢驗(yàn) 333
5.3.1 雙樣本u檢驗(yàn) 333
5.3.2 單樣本u檢驗(yàn) 334
5.3.3 u檢驗(yàn)中的公式語(yǔ)法和樣本子集構(gòu)建 335
5.4 配對(duì)t檢驗(yàn)和u檢驗(yàn) 338
5.4.1 相關(guān)和協(xié)方差 340
5.4.2 協(xié)方差 342
5.4.3 相關(guān)檢驗(yàn)中的顯著性檢驗(yàn) 343
5.4.4 公式語(yǔ)法 343
5.5 關(guān)聯(lián)分析檢驗(yàn) 346
5.6 擬合優(yōu)度檢驗(yàn) 348
練習(xí) 352
備忘單 354
模塊4 使用R進(jìn)行高級(jí)分析
第1講 R中的線性回歸 357
1.1 線性回歸分析基礎(chǔ)知識(shí) 358
1.1.1 簡(jiǎn)單線性回歸 358
1.1.2 多重線性回歸 359
1.1.3 最小二乘估計(jì) 360
1.1.4 檢查模型適當(dāng)性 361
1.1.5 回歸輸出的解讀 363
1.1.6 回歸假設(shè) 364
1.1.7 多重共線性 365
1.1.8 檢測(cè)多重共線性 365
1.2 使用線性回歸進(jìn)行工作 367
1.2.1 確定x和y變量 367
1.2.2 檢查條件 368
1.2.3 回歸線的計(jì)算 368
1.2.4 求取斜率 369
1.2.5 求取y截距 369
1.2.6 回歸線的解讀 369
1.2.7 做出正確的預(yù)測(cè) 371
1.3 R中的簡(jiǎn)單線性回歸 371
1.3.1 R的5個(gè)著名函數(shù) 371
1.3.2 校正的平方和及乘積和 372
1.3.3 分散度 372
1.3.4 回歸中的方差分析 373
1.3.5 AIC 373
1.3.6 參數(shù)不可靠性的估算 373
1.3.7 用擬合模型預(yù)測(cè) 374
1.3.8 檢查模型 374
1.4 線性模型結(jié)果對(duì)象 375
1.4.1 系數(shù) 377
1.4.2 擬合值 377
1.4.3 殘差 378
1.4.4 公式 378
1.4.5 最佳擬合線 378
1.5 模型的構(gòu)建 379
1.5.1 用前向逐步回歸增加項(xiàng) 380
1.5.2 用后向刪除方法刪除項(xiàng) 382
1.5.3 模型的比較 383
1.6 曲線回歸 384
練習(xí) 386
備忘單 389
第2講 非線性回歸 390
2.1 非線性回歸分析簡(jiǎn)介 391
2.2 非線性回歸和廣義線性模型 391
2.3 邏輯回歸 392
2.3.1 解讀邏輯回歸中的β系數(shù) 394
2.3.2 計(jì)算β系數(shù) 395
2.3.3 具有交互變量的邏輯回歸 395
2.3.4 具有指示變量的邏輯回歸 396
2.3.5 邏輯回歸模型適當(dāng)性檢查 396
2.3.6 使用邏輯回歸線進(jìn)行預(yù)測(cè) 397
2.4 用MLE進(jìn)行線估算 400
2.5 將非線性模型轉(zhuǎn)化為線性模型 401
2.6 其他非線性回歸模型 402
2.7 廣義加性模型 406
2.8 自啟動(dòng)函數(shù) 407
2.8.1 自啟動(dòng)Michaelis-Menten模型 407
2.8.2 自啟動(dòng)漸近指數(shù)模型 408
2.8.3 輪廓似然 409
2.8.4 自啟動(dòng)邏輯 409
2.8.5 自啟動(dòng)四參數(shù)邏輯 409
2.8.6 自啟動(dòng)Weibull增長(zhǎng)函數(shù) 410
2.8.7 自啟動(dòng)一階房室函數(shù) 411
2.9 用拔靴法建立一個(gè)非線性回歸家族 411
2.10 邏輯回歸的應(yīng)用 413
2.10.1 貸款接納 414
2.10.2 德國(guó)信用數(shù)據(jù) 414
2.10.3 延誤的航班 415
練習(xí) 416
備忘單 418
第3講 聚類(lèi)分析 419
3.1 聚類(lèi)簡(jiǎn)介 421
3.1.1 聚類(lèi)的應(yīng)用 421
3.1.2 聚類(lèi)的復(fù)雜性 422
3.1.3 距離計(jì)量 422
3.1.4 簇內(nèi)和簇間平方和 423
3.1.5 高效聚類(lèi)的屬性 424
3.2 凝聚層次聚類(lèi) 425
3.2.1 主要距離 426
3.2.2 密度估算方法 427
3.3 相似性聚合聚類(lèi) 428
3.3.1 相似性聚合的原理 428
3.3.2 相似性聚合聚類(lèi)的實(shí)施 428
3.4 R amap包的用法 429
3.5 k均值聚類(lèi) 431
3.6 R聚類(lèi)示例:歐洲人的蛋白質(zhì)攝入 431
3.7 R聚類(lèi)示例:美國(guó)月度失業(yè)率 434
3.8 在R中實(shí)施層次聚類(lèi) 435
3.8.1 例1:重溫歐洲人蛋白質(zhì)攝入 435
3.8.2 例2:重溫美國(guó)月度失業(yè)率 436
練習(xí) 437
備忘單 439
第4講 決策樹(shù) 440
4.1 決策樹(shù)的應(yīng)用 441
4.2 決策樹(shù)原理 444
4.2.1 選擇變量——?jiǎng)?chuàng)建樹(shù)的第1步 444
4.2.2 拆分標(biāo)準(zhǔn) 445
4.2.3 為節(jié)點(diǎn)分配數(shù)據(jù)——?jiǎng)?chuàng)建樹(shù)的第2步 447
4.2.4 修剪——?jiǎng)?chuàng)建樹(shù)的第3步 447
4.3 構(gòu)建決策樹(shù) 448
4.3.1 決策樹(shù)如何確定純度? 449
4.3.2 使用決策樹(shù)時(shí)的實(shí)際考慮因素 450
4.3.3 決策樹(shù)選項(xiàng) 451
4.4 CART、C5.0和CHAID樹(shù) 451
4.4.1 CART 452
4.4.2 C5.0 454
4.4.3 CHAID 455
4.4.4 決策樹(shù)對(duì)比 456
4.5 用決策樹(shù)預(yù)測(cè) 457
4.6 決策樹(shù)的優(yōu)缺點(diǎn) 458
4.6.1 決策樹(shù)的優(yōu)點(diǎn) 458
4.6.2 決策樹(shù)的缺點(diǎn) 458
4.7 在R中構(gòu)建決策樹(shù) 459
練習(xí) 462
備忘單 464
第5講 R和Hadoop的集成及Hive介紹 465
5.1 Hadoop 466
5.1.1 HDFS 467
5.1.2 MapReduce 468
5.1.3 Hadoop的應(yīng)用 468
5.2 集成R和Hadoop——RHadoop 469
5.2.1 安裝RHadoop 470
5.2.2 在R中使用RHadoop 472
5.3 通過(guò)文本挖掘得到有用信息 474
5.4 Hive簡(jiǎn)介 477
5.4.1 元存儲(chǔ) 477
5.4.2 數(shù)據(jù)庫(kù) 477
5.4.3 數(shù)據(jù)類(lèi)型 477
5.4.4 查詢語(yǔ)言 478
5.4.5 Hive命令 478
5.4.6 Hive交互和非交互模式 479
練習(xí) 480
備忘單 482
附錄A 在R中可以完成的10件Microsoft Excel工作 484

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)