注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)R語言機(jī)器學(xué)習(xí)

R語言機(jī)器學(xué)習(xí)

R語言機(jī)器學(xué)習(xí)

定 價(jià):¥99.00

作 者: [印度] 卡西克·拉瑪蘇布蘭馬尼安 著,吳今朝 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 數(shù)據(jù)科學(xué)與工程技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787111595915 出版時(shí)間: 2018-06-01 包裝: 平裝
開本: 16開 頁數(shù): 432 字?jǐn)?shù):  

內(nèi)容簡介

  本書講解的是在R語言平臺上使用大數(shù)據(jù)技術(shù)構(gòu)建可擴(kuò)展機(jī)器學(xué)習(xí)模型的新技術(shù)成果。它全面展示了如何采用機(jī)器學(xué)習(xí)算法在原始數(shù)據(jù)的基礎(chǔ)上構(gòu)建機(jī)器學(xué)習(xí)模型。本書還能讓那些希望利用ApacheHadoop、Hive、Pig和Spark來實(shí)現(xiàn)可擴(kuò)展機(jī)器學(xué)習(xí)模型的讀者從中受益。

作者簡介

  Karthik Ramasubramanian 就職于Hike Messenger,從事商業(yè)分析和數(shù)據(jù)科學(xué)方面的工作。他以前在Snapdeal 任職,負(fù)責(zé)關(guān)于客戶增長和定價(jià)分析的核心統(tǒng)計(jì)模型。在加入 Snapdeal 之前,他曾作為中央數(shù)據(jù)庫團(tuán)隊(duì)的一員,負(fù)責(zé)管理 Reckitt Benckiser(RB)全球業(yè)務(wù)應(yīng)用的數(shù)據(jù)倉庫。他在可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域具有豐富的經(jīng)驗(yàn),專長包括復(fù)雜的圖網(wǎng)絡(luò)和自學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。Abhishek Singh 是美國第二大的人壽保險(xiǎn)供應(yīng)商 Prudential Financial公司的高級數(shù)據(jù)科學(xué)家。他在數(shù)據(jù)科學(xué)方面擁有豐富的行業(yè)和學(xué)術(shù)經(jīng)驗(yàn),涵蓋咨詢、教學(xué)和金融服務(wù)。他曾經(jīng)在 Deloitte Advisory 領(lǐng)導(dǎo)了針對美國銀行的監(jiān)管風(fēng)險(xiǎn)、信用風(fēng)險(xiǎn)和資產(chǎn)負(fù)債表模型化需求的風(fēng)險(xiǎn)分析項(xiàng)目。目前,他正在為 Prudential 的人壽保險(xiǎn)業(yè)務(wù)開發(fā)可擴(kuò)展的機(jī)器學(xué)習(xí)算法。

圖書目錄

目錄
譯者序
關(guān)于作者
關(guān)于技術(shù)審稿人
致謝
第1章機(jī)器學(xué)習(xí)和R語言入門1
1.1了解發(fā)展歷程2
1.1.1統(tǒng)計(jì)學(xué)習(xí)2
1.1.2機(jī)器學(xué)習(xí)2
1.1.3人工智能3
1.1.4數(shù)據(jù)挖掘3
1.1.5數(shù)據(jù)科學(xué)4
1.2概率與統(tǒng)計(jì)5
1.2.1計(jì)數(shù)和概率的定義5
1.2.2事件和關(guān)系7
1.2.3隨機(jī)性、概率和分布8
1.2.4置信區(qū)間和假設(shè)檢驗(yàn)9
1.3R語言入門13
1.3.1基本組成部分13
1.3.2R語言的數(shù)據(jù)結(jié)構(gòu)14
1.3.3子集處理15
1.3.4函數(shù)和Apply系列17
1.4機(jī)器學(xué)習(xí)過程工作流19
1.4.1計(jì)劃19
1.4.2探索19
1.4.3構(gòu)建20
1.4.4評估20
1.5其他技術(shù)20
1.6小結(jié)21
1.7參考資料21
第2章數(shù)據(jù)準(zhǔn)備和探索22
2.1規(guī)劃數(shù)據(jù)收集23
2.1.1變量類型23
2.1.2數(shù)據(jù)格式24
2.1.3數(shù)據(jù)源29
2.2初始數(shù)據(jù)分析30
2.2.1初步印象30
2.2.2把多個(gè)數(shù)據(jù)源組織到一起32
2.2.3整理數(shù)據(jù)34
2.2.4補(bǔ)充更多信息36
2.2.5重塑37
2.3探索性數(shù)據(jù)分析38
2.3.1摘要統(tǒng)計(jì)量38
2.3.2矩41
2.4案例研究:信用卡欺詐46
2.4.1數(shù)據(jù)導(dǎo)入46
2.4.2數(shù)據(jù)變換47
2.4.3數(shù)據(jù)探索48
2.5小結(jié)49
2.6參考資料49
第3章抽樣與重抽樣技術(shù)50
3.1介紹抽樣技術(shù)50
3.2抽樣的術(shù)語51
3.2.1樣本51
3.2.2抽樣分布52
3.2.3總?cè)后w的均值和方差52
3.2.4樣本均值和方差52
3.2.5匯總的均值和方差52
3.2.6抽樣點(diǎn)53
3.2.7抽樣誤差53
3.2.8抽樣率53
3.2.9抽樣偏誤53
3.2.10無放回的抽樣53
3.2.11有放回的抽樣54
3.3信用卡欺詐:總?cè)后w的統(tǒng)計(jì)量54
3.3.1數(shù)據(jù)描述54
3.3.2總?cè)后w的均值55
3.3.3總?cè)后w的方差55
3.3.4匯總的均值和方差55
3.4抽樣在業(yè)務(wù)上的意義58
3.4.1抽樣的特征59
3.4.2抽樣的缺點(diǎn)59
3.5概率和非概率抽樣59
3.5.1非概率抽樣的類型60
3.6關(guān)于抽樣分布的統(tǒng)計(jì)理論61
3.6.1大數(shù)定律61
3.6.2中心極限定理63
3.7概率抽樣技術(shù)66
3.7.1總?cè)后w的統(tǒng)計(jì)量66
3.7.2簡單隨機(jī)抽樣69
3.7.3系統(tǒng)性隨機(jī)抽樣74
3.7.4分層隨機(jī)抽樣77
3.7.5聚類抽樣82
3.7.6自助抽樣86
3.8蒙特卡羅方法:接受-拒絕91
3.9通過抽樣節(jié)省計(jì)算開銷的定性分析93
3.10小結(jié)94
第4章R語言里的數(shù)據(jù)可視化95
4.1ggplot2組件包簡介96
4.2世界經(jīng)濟(jì)發(fā)展指標(biāo)97
4.3折線圖97
4.4堆疊柱狀圖102
4.5散點(diǎn)圖106
4.6箱形圖107
4.7直方圖和密度圖109
4.8餅圖113
4.9相關(guān)圖114
4.10熱點(diǎn)圖116
4.11氣泡圖117
4.12瀑布圖120
4.13系統(tǒng)樹圖122
4.14關(guān)鍵字云124
4.15?;鶊D125
4.16時(shí)間序列圖127
4.17隊(duì)列圖128
4.18空間圖130
4.19小結(jié)133
4.20參考資料133
第5章特征工程135
5.1特征工程簡介136
5.1.1過濾器方法137
5.1.2包裝器方法137
5.1.3嵌入式方法138
5.2了解工作數(shù)據(jù)138
5.2.1數(shù)據(jù)摘要139
5.2.2因變量的屬性139
5.2.3特征的可用性:連續(xù)型或分類型141
5.2.4設(shè)置數(shù)據(jù)的假設(shè)142
5.3特征排名143
5.4變量子集的選擇146
5.4.1過濾器方法146
5.4.2包裝器方法149
5.4.3嵌入式方法154
5.5降維158
5.6特征工程核對清單161
5.7小結(jié)162
5.8參考資料162
第6章機(jī)器學(xué)習(xí)理論和實(shí)踐163
6.1機(jī)器學(xué)習(xí)的類型165
6.1.1有監(jiān)督學(xué)習(xí)166
6.1.2無監(jiān)督學(xué)習(xí)166
6.1.3半監(jiān)督學(xué)習(xí)166
6.1.4強(qiáng)化學(xué)習(xí)166
6.2機(jī)器學(xué)習(xí)算法的類別167
6.3實(shí)際環(huán)境的數(shù)據(jù)集170
6.3.1房產(chǎn)售價(jià)170
6.3.2購買偏好170
6.3.3Twitter訂閱和文章171
6.3.4乳腺癌171
6.3.5購物籃172
6.3.6亞馬遜美食評論172
6.4回歸分析173
6.5相關(guān)分析174
6.5.1線性回歸176
6.5.2簡單線性回歸177
6.5.3多元線性回歸180
6.5.4模型診斷:線性回歸182
6.5.5多項(xiàng)回歸191
6.5.6邏輯回歸194
6.5.7洛基(logit)變換195
6.5.8幾率比196
6.5.9模型診斷:邏輯回歸202
6.5.10多項(xiàng)邏輯回歸209
6.5.11廣義線性模型212
6.5.12結(jié)論213
6.6支持向量機(jī)213
6.6.1線性SVM214
6.6.2二元SVM分類模型215
6.6.3多類別SVM217
6.6.4結(jié)論218
6.7決策樹218
6.7.1決策樹的類型219
6.7.2決策指標(biāo)220
6.7.3決策樹學(xué)習(xí)方法222
6.7.4集成樹235
6.7.5結(jié)論240
6.8樸素貝葉斯方法241
6.8.1條件概率241
6.8.2貝葉斯定理241
6.8.3先驗(yàn)概率242
6.8.4后驗(yàn)概率242
6.8.5似然和邊際似然242
6.8.6樸素貝葉斯方法242
6.8.7結(jié)論246
6.9聚類分析246
6.9.1聚類方法簡介247
6.9.2聚類算法247
6.9.3內(nèi)部評估255
6.9.4外部評估256
6.9.5結(jié)論257
6.10關(guān)聯(lián)規(guī)則挖掘258
6.10.1關(guān)聯(lián)概念簡介258
6.10.2規(guī)則挖掘算法259
6.10.3推薦算法265
6.10.4結(jié)論270
6.11人工神經(jīng)網(wǎng)絡(luò)271
6.11.1人類認(rèn)知學(xué)習(xí)271
6.11.2感知器272
6.11.3Sigmoid神經(jīng)元274
6.11.4神經(jīng)網(wǎng)絡(luò)的體系架構(gòu)275
6.11.5有監(jiān)督與無監(jiān)督的神經(jīng)網(wǎng)絡(luò)276
6.11.6神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法277
6.11.7前饋反向傳播278
6.11.8深度學(xué)習(xí)284
6.11.9結(jié)論289
6.12文本挖掘方法289
6.12.1文本挖掘簡介290
6.12.2文本摘要291
6.12.3TF-IDF292
6.12.4詞性標(biāo)注294
6.12.5關(guān)鍵字云297
6.12.6文本分析:MicrosoftCognitiveServices297
6.12.7結(jié)論305
6.13在線機(jī)器學(xué)習(xí)算法305
6.13.1模糊C均值聚類306
6.13.2結(jié)論308
6.14構(gòu)建模型的核對清單309
6.15小結(jié)309
6.16參考資料309
第7章機(jī)器學(xué)習(xí)模型的評估311
7.1數(shù)據(jù)集311
7.1.1房產(chǎn)售價(jià)312
7.1.2購買偏好313
7.2模型性能和評估入門314
7.3模型性能評估的目標(biāo)315
7.4總?cè)后w的穩(wěn)定性指數(shù)316
7.5連續(xù)型輸出的模型評估320
7.5.1平均絕對誤差321
7.5.2均方根誤差323
7.5.3R2324
7.6離散型輸出的模型評估326
7.6.1分類矩陣327
7.6.2靈敏度和特異性330
7.6.3ROC曲線下的面積331
7.7概率技術(shù)334
7.7.1K折交叉驗(yàn)證334
7.7.2自助抽樣336
7.8Kappa誤差指標(biāo)337
7.9小結(jié)340
7.10參考資料341
第8章模型性能改進(jìn)342
8.1機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模343
8.2Caret組件包概述344
8.3超參數(shù)簡介346
8.4超參數(shù)優(yōu)化348
8.4.1人工搜索349
8.4.2人工網(wǎng)格搜索351
8.4.3自動(dòng)網(wǎng)格搜索353
8.4.4最優(yōu)搜索354
8.4.5隨機(jī)搜索356
8.4.6自定義搜索357
8.5偏誤和方差權(quán)衡359
8.5.1裝袋或自助聚合363
8.5.2增強(qiáng)363
8.6集成學(xué)習(xí)簡介363
8.6.1投票集成364
8.6.2集成學(xué)習(xí)中的高級方法365
8.7在R語言里演示集成技術(shù)367
8.7.1裝袋樹367
8.7.2決策樹的梯度增強(qiáng)369
8.7.3混合knn和rpart372
8.7.4利用caretEnemble進(jìn)行堆疊374
8.8高級主題:機(jī)器學(xué)習(xí)模型的貝葉斯優(yōu)化377
8.9小結(jié)381
8.10參考資料382
第9章可擴(kuò)展機(jī)器學(xué)習(xí)和相關(guān)技術(shù)384
9.1分布式處理和存儲384
9.1.1GoogleFileSystem385
9.1.2MapReduce386
9.1.3R語言里的并行執(zhí)行386
9.2Hadoop生態(tài)系統(tǒng)389
9.2.1MapReduce390
9.2.2Hive393
9.2.3ApachePig396
9.2.4HBase399
9.2.5Spark400
9.3在R語言環(huán)境下用Spark進(jìn)行機(jī)器學(xué)習(xí)401
9.3.1設(shè)置環(huán)境變量401
9.3.2初始化Spark會話402
9.3.3加載數(shù)據(jù)并運(yùn)行預(yù)處理402
9.3.4創(chuàng)建SparkDataFrame403
9.3.5構(gòu)建機(jī)器學(xué)習(xí)模型403
9.3.6對測試數(shù)據(jù)進(jìn)行預(yù)測404
9.3.7終止SparkR會話404
9.4在R語言里利用H2O進(jìn)行機(jī)器學(xué)習(xí)405
9.4.1安裝組件包406
9.4.2H2O集群的初始化406
9.4.3在R語言里使用H2O的深度學(xué)習(xí)演示407
9.5小結(jié)410
9.6參考資料411

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號