預(yù)測分析與數(shù)據(jù)挖掘 RapidMiner實(shí)現(xiàn)

定　價(jià)：￥99.00

作　者：	[美] 瓦杰·考圖（Vijay Kotu）著；嚴(yán)云譯
出版社：	人民郵電出版社
叢編項(xiàng)：	圖靈程序設(shè)計(jì)叢書
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787115473660	出版時(shí)間：	2018-01-01	包裝：	平裝
開本：	16開	頁數(shù)：	325	字?jǐn)?shù)：

內(nèi)容簡介

　　《預(yù)測分析與數(shù)據(jù)挖掘 RapidMiner實(shí)現(xiàn)》旨在幫助讀者理解數(shù)據(jù)挖掘方法的基礎(chǔ)知識，并實(shí)現(xiàn)無需編寫代碼就能在自己的工作中實(shí)踐這些方法。書中圍繞分類、回歸、關(guān)聯(lián)分析、聚類、異常檢測、文本挖掘、時(shí)間序列預(yù)測、特征分析等數(shù)據(jù)挖掘問題，著重介紹了決策樹、k近鄰、人工神經(jīng)網(wǎng)絡(luò)、線性回歸、k均值聚類等當(dāng)今廣泛使用的二十多種算法，針對每一種算法都先以通俗的語言解釋其原理，再使用開源數(shù)據(jù)分析工具 RapidMiner加以實(shí)現(xiàn)?！额A(yù)測分析與數(shù)據(jù)挖掘 RapidMiner實(shí)現(xiàn)》適合在日常工作中大量接觸數(shù)據(jù)的分析師、金融專家、市場營銷人員、商務(wù)專業(yè)人士等閱讀。

作者簡介

　　Vijay Kotu，Yahoo分析總監(jiān)，負(fù)責(zé)線上業(yè)務(wù)的大數(shù)據(jù)與分析系統(tǒng)的實(shí)現(xiàn)，在預(yù)測分析領(lǐng)域有十余年工作經(jīng)驗(yàn)。ACM會員，美國質(zhì)量協(xié)會認(rèn)證的六西格瑪黑帶。Bala Deshpande，業(yè)界知名數(shù)據(jù)分析應(yīng)用開發(fā)與咨詢公司SimaFore創(chuàng)始人，20余年分析經(jīng)驗(yàn)，精通各類分析技巧，經(jīng)常在其博客www.simafore.com/blog上分享數(shù)據(jù)挖掘與預(yù)測分析方面的心得。嚴(yán)云研究興趣為計(jì)算生物學(xué)，以0和1的語言解讀ATGC的世界。

圖書目錄

第 1章　引言　　1
1．1　什么是數(shù)據(jù)挖掘　　2
1．1．1　有意義模式的提取　　2
1．1．2　代表性模型的構(gòu)建　　2
1．1．3　統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和計(jì)算的搭配　　3
1．1．4　算法　　4
1．2　對數(shù)據(jù)挖掘的誤解　　4
1．3　數(shù)據(jù)挖掘的初衷　　5
1．3．1　海量數(shù)據(jù)　　5
1．3．2　多維　　6
1．3．3　復(fù)雜問題　　6
1．4　數(shù)據(jù)挖掘的種類　　7
1．5　數(shù)據(jù)挖掘的算法　　8
1．6　后續(xù)章節(jié)導(dǎo)覽　　9
1．6．1　數(shù)據(jù)挖掘的序曲　　9
1．6．2　小插曲　　10
1．6．3　主要內(nèi)容：預(yù)測分析和數(shù)據(jù)挖掘算法　　10
1．6．4　特別應(yīng)用　　12
參考文獻(xiàn)　　13
第 2章　數(shù)據(jù)挖掘流程　　14
2．1　先驗(yàn)知識　　16
2．1．1　目標(biāo)　　16
2．1．2　研究問題的背景　　17
2．1．3　數(shù)據(jù)　　17
2．1．4　因果性與相關(guān)性　　18
2．2　數(shù)據(jù)準(zhǔn)備　　19
2．2．1　數(shù)據(jù)探索　　19
2．2．2　數(shù)據(jù)質(zhì)量　　20
2．2．3　缺失值　　20
2．2．4　數(shù)據(jù)類型和轉(zhuǎn)換　　20
2．2．5　數(shù)據(jù)轉(zhuǎn)換　　21
2．2．6　離群點(diǎn)　　21
2．2．7　特征選擇　　21
2．2．8　數(shù)據(jù)采樣　　22
2．3　建?！　?2
2．3．1　訓(xùn)練集和測試集　　23
2．3．2　建模算法　　24
2．3．3　模型評估　　25
2．3．4　集成建?！　?6
2．4　應(yīng)用　　27
2．4．1　生產(chǎn)準(zhǔn)備　　27
2．4．2　方法整合　　27
2．4．3　響應(yīng)時(shí)間　　28
2．4．4　重構(gòu)模型　　28
2．4．5　知識融合　　28
2．5　新舊知識　　29
2．6　后續(xù)章節(jié)預(yù)告　　29
參考文獻(xiàn)　　29
第3章　數(shù)據(jù)探索　　31
3．1　數(shù)據(jù)探索的目標(biāo)　　31
3．2　走進(jìn)數(shù)據(jù)　　32
3．3　描述性統(tǒng)計(jì)分析　　34
3．3．1　單變量探索　　35
3．3．2　多變量探索　　36
3．4　數(shù)據(jù)可視化　　39
3．4．1　一個(gè)維度內(nèi)數(shù)據(jù)頻率分布的可視化　　39
3．4．2　直角坐標(biāo)系內(nèi)多變量的可視化　　43
3．4．3　高維數(shù)據(jù)通過投影的可視化　　48
3．5　數(shù)據(jù)探索導(dǎo)覽　　50
參考文獻(xiàn)　　51
第4章　分類　　52
4．1　決策樹　　52
4．1．1　算法原理　　53
4．1．2　算法實(shí)現(xiàn)　　59
4．1．3　小結(jié)　　71
4．2　規(guī)則歸納　　72
4．2．1　建立規(guī)則方法　　73
4．2．2　算法原理　　74
4．2．3　算法實(shí)現(xiàn)　　77
4．2．4　小結(jié)　　81
4．3　k 近鄰算法　　81
4．3．1　算法原理　　82
4．3．2　算法實(shí)現(xiàn)　　88
4．3．3　小結(jié)　　91
4．4　樸素貝葉斯　　91
4．4．1　算法原理　　93
4．4．2　算法實(shí)現(xiàn)　　100
4．4．3　小結(jié)　　102
4．5　人工神經(jīng)網(wǎng)絡(luò)　　102
4．5．1　算法原理　　105
4．5．2　算法實(shí)現(xiàn)　　108
4．5．3　小結(jié)　　110
4．6　支持向量機(jī)　　111
4．6．1　概念和術(shù)語　　111
4．6．2　算法原理　　114
4．6．3　算法實(shí)現(xiàn)　　116
4．6．4　小結(jié)　　122
4．7　集成學(xué)習(xí)模型　　122
4．7．1　集體的智慧　　123
4．7．2　算法原理　　124
4．7．3　算法實(shí)現(xiàn)　　126
4．7．4　小結(jié)　　134
參考文獻(xiàn)　　134
第5章　回歸方法　　137
5．1　線性回歸　　139
5．1．1　算法原理　　139
5．1．2　使用RapidMiner實(shí)戰(zhàn)的目標(biāo)與數(shù)據(jù)　　141
5．1．3　算法實(shí)現(xiàn)　　142
5．1．4　線性回歸建模要點(diǎn)　　148
5．2　Logistic回歸　　149
5．2．1　快速入門Logistic回歸　　150
5．2．2　模型原理　　151
5．2．3　模型實(shí)現(xiàn)　　155
5．2．4　Logistic回歸小結(jié)　　158
5．3　總結(jié)　　158
參考文獻(xiàn)　　158
第6章　關(guān)聯(lián)分析　　160
6．1　挖掘關(guān)聯(lián)規(guī)則的基本概念　　161
6．1．1　項(xiàng)集　　162
6．1．2　生成關(guān)聯(lián)規(guī)則的一般步驟　　164
6．2　Apriori算法　　166
6．2．1　使用Apriori算法找出高頻項(xiàng)集　　167
6．2．2　生成關(guān)聯(lián)規(guī)則　　169
6．3　FP-Growth算法　　169
6．3．1　生成FP樹　　170
6．3．2　高頻項(xiàng)集的生成　　172
6．3．3　FP-Growth算法實(shí)現(xiàn)　　173
6．4　總結(jié)　　176
參考文獻(xiàn)　　176
第7章　聚類　　178
7．1　聚類方法的種類　　179
7．2　k均值聚類　　182
7．2．1　k均值聚類原理　　183
7．2．2　算法實(shí)現(xiàn)　　187
7．3　DBSCAN聚類　　191
7．3．1　算法原理　　192
7．3．2　算法實(shí)現(xiàn)　　195
7．3．3　小結(jié)　　197
7．4　SOM　　 197
7．4．1　算法原理　　199
7．4．2　算法實(shí)現(xiàn)　　202
7．4．3　小結(jié)　　208
參考文獻(xiàn)　　208
第8章　模型評估　　210
8．1　混淆矩陣　　210
8．2　ROC曲線和AUC　　212
8．3　提升曲線　　214
8．4　評估預(yù)測結(jié)果　　217
8．5　總結(jié)　　221
參考文獻(xiàn)　　221
第9章　文本挖掘　　222
9．1　文本挖掘算法的原理　　223
9．1．1　TF-IDF　　223
9．1．2　術(shù)語和概念　　225
9．2　使用聚類和分類算法實(shí)現(xiàn)文本挖掘　　229
9．2．1　實(shí)例1：關(guān)鍵詞聚類　　229
9．2．2　實(shí)例2：預(yù)測博客作者的性別　　232
9．3　總結(jié)　　241
參考文獻(xiàn)　　242
第 10章　時(shí)間序列預(yù)測　　243
10．1　基于數(shù)據(jù)的時(shí)序分析　　245
10．1．1　樸素預(yù)測法　　245
10．1．2　簡單平均法　　246
10．1．3　移動平均法　　246
10．1．4　加權(quán)移動平均法　　247
10．1．5　指數(shù)平滑法　　247
10．1．6　Holt雙參數(shù)指數(shù)平滑法．． 248
10．1．7　Holt-Winter三參數(shù)指數(shù)平滑法　　249
10．2　基于模型的預(yù)測方法　　250
10．2．1　線性回歸　　251
10．2．2　多項(xiàng)式回歸　　252
10．2．3　考慮季節(jié)性的線性回歸模型　　252
10．2．4　自回歸模型與ARIMA　　254
10．2．5　基于RapidMiner的實(shí)現(xiàn)　　254
10．3　總結(jié)　　261
參考文獻(xiàn)　　261
第 11 章異常檢測　　262
11．1　異常檢測的基本概念　　262
11．1．1　出現(xiàn)離群點(diǎn)的原因　　262
11．1．2　異常檢測的方法　　264
11．2　基于距離的離群點(diǎn)檢測方法　　266
11．2．1　方法原理　　267
11．2．2　方法實(shí)現(xiàn)　　268
11．3　基于密度的離群點(diǎn)檢測方法　　270
11．3．1　方法原理　　270
11．3．2　方法實(shí)現(xiàn)　　271
11．4　局部離群因子　　272
11．5　總結(jié)　　274
參考文獻(xiàn)　　275
第 12章　特征選擇　　276
12．1　特征選擇方法概覽　　276
12．2　主成分分析　　278
12．2．1　算法原理　　279
12．2．2　算法實(shí)現(xiàn)　　280
12．3　以信息論為基礎(chǔ)對數(shù)值型數(shù)據(jù)進(jìn)行篩選　　284
12．4　以卡方檢驗(yàn)為基礎(chǔ)對類別型數(shù)據(jù)進(jìn)行篩選　　286
12．5　基于封裝器的特征選擇　　289
12．5．1　向后消除法以縮減數(shù)據(jù)集大小　　290
12．5．2　哪些變量被消除了　　292
12．6　總結(jié)　　293
參考文獻(xiàn)　　294
第 13章　RapidMiner入門　　295
13．1　用戶操作界面以及介紹　　295
13．1．1　圖形用戶操作界面的介紹　　295
13．1．2　RapidMiner軟件的術(shù)語　　296
13．2　數(shù)據(jù)導(dǎo)入和導(dǎo)出工具　　299
13．3　數(shù)據(jù)可視化工具　　302
13．3．1　單一變量可視化　　304
13．3．2　二維數(shù)據(jù)可視化　　304
13．3．3　多維數(shù)據(jù)可視化　　304
13．4　數(shù)據(jù)轉(zhuǎn)換工具　　305
13．5　數(shù)據(jù)抽樣與處理缺失值工具　　309
13．6　優(yōu)化工具　　312
13．7　總結(jié)　　317
參考文獻(xiàn)　　317
數(shù)據(jù)挖掘算法的比較　　319