大數(shù)據(jù)：互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理 + 數(shù)據(jù)挖掘?qū)д摚ㄌ籽b共2冊）

定　價(jià)：￥148.00

作　者：	（美）Pang-Ning Tan，（美）Michael Steinbach 等
出版社：	人民郵電出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

京東 (￥105.70)

ISBN：	9787115002365	出版時(shí)間：	2016-05-01	包裝：
開本：	16開	頁數(shù)：	868	字?jǐn)?shù)：

內(nèi)容簡介

　　這套書以大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)為重點(diǎn)，全面介紹了實(shí)踐中行之有效的數(shù)據(jù)挖掘知識和數(shù)據(jù)處理算法?！稊?shù)據(jù)挖掘?qū)д摚ㄍ暾妫泛w五個(gè)主題：數(shù)據(jù)、分類、關(guān)聯(lián)分析、聚類和異常檢測。除異常檢測外，每個(gè)主題都包含兩章：前面一章講述基本概念、代表性算法和評估技術(shù)，后面一章較深入地討論高級概念和算法，目的是使讀者在透徹地理解數(shù)據(jù)挖掘基礎(chǔ)的同時(shí)，還能了解更多重要的高級主題。《大數(shù)據(jù)：互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理（第2版）》源自斯坦福大學(xué)“海量數(shù)據(jù)挖掘”（CS246： Mining Massive Datasets）課程，主要關(guān)注極大規(guī)模數(shù)據(jù)的挖掘。主要內(nèi)容包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項(xiàng)集挖掘、聚類算法、廣告管理及推薦系統(tǒng)。兩本書都提供了大量示例、圖表和習(xí)題。

作者簡介

　　Pang-Ning Tan，現(xiàn)為密歇根州立大學(xué)計(jì)算機(jī)與工程系助理教授，主要教授數(shù)據(jù)挖掘、數(shù)據(jù)庫系統(tǒng)等課程。此前，他曾是明尼蘇達(dá)大學(xué)美國陸軍高性能計(jì)算研究中心副研究員（2002-2003）。Michael Steinbach，明尼蘇達(dá)大學(xué)計(jì)算機(jī)與工程系研究員，在讀博士。

圖書目錄

第1章緒論1
1.1什么是數(shù)據(jù)挖掘2
1.2數(shù)據(jù)挖掘要解決的問題2
1.3數(shù)據(jù)挖掘的起源3
1.4數(shù)據(jù)挖掘任務(wù)4
1.5本書的內(nèi)容與組織7
文獻(xiàn)注釋7
參考文獻(xiàn)8
習(xí)題10
第2章數(shù)據(jù)13
2.1數(shù)據(jù)類型14
2.1.1屬性與度量15
2.1.2數(shù)據(jù)集的類型18
2.2數(shù)據(jù)質(zhì)量22
2.2.1測量和數(shù)據(jù)收集問題22
2.2.2關(guān)于應(yīng)用的問題26
2.3數(shù)據(jù)預(yù)處理27
2.3.1聚集27
2.3.2抽樣28
2.3.3維歸約30
2.3.4特征子集選擇31
2.3.5特征創(chuàng)建33
2.3.6離散化和二元化34
2.3.7變量變換38
2.4相似性和相異性的度量38
2.4.1基礎(chǔ)39
2.4.2簡單屬性之間的相似度和相異度40
2.4.3數(shù)據(jù)對象之間的相異度41
2.4.4數(shù)據(jù)對象之間的相似度43
2.4.5鄰近性度量的例子43
2.4.6鄰近度計(jì)算問題48
2.4.7選取正確的鄰近性度量50
文獻(xiàn)注釋50
參考文獻(xiàn)52
習(xí)題53
第3章探索數(shù)據(jù)59
3.1鳶尾花數(shù)據(jù)集59
3.2匯總統(tǒng)計(jì)60
3.2.1頻率和眾數(shù)60
3.2.2百分位數(shù)61
3.2.3位置度量：均值和中位數(shù)61
3.2.4散布度量：極差和方差62
3.2.5多元匯總統(tǒng)計(jì)63
3.2.6匯總數(shù)據(jù)的其他方法64
3.3可視化64
3.3.1可視化的動機(jī)64
3.3.2一般概念65
3.3.3技術(shù)67
3.3.4可視化高維數(shù)據(jù)75
3.3.5注意事項(xiàng)79
3.4OLAP和多維數(shù)據(jù)分析79
3.4.1用多維數(shù)組表示鳶尾花數(shù)據(jù)80
3.4.2多維數(shù)據(jù)：一般情況81
3.4.3分析多維數(shù)據(jù)82
3.4.4關(guān)于多維數(shù)據(jù)分析的最后評述84
文獻(xiàn)注釋84
參考文獻(xiàn)85
習(xí)題86
第4章分類：基本概念、決策樹與模型評估89
4.1預(yù)備知識89
4.2解決分類問題的一般方法90
4.3決策樹歸納92
4.3.1決策樹的工作原理92
4.3.2如何建立決策樹93
4.3.3表示屬性測試條件的方法95
4.3.4選擇最佳劃分的度量96
4.3.5決策樹歸納算法101
4.3.6例子：Web機(jī)器人檢測102
4.3.7決策樹歸納的特點(diǎn)103
4.4模型的過分?jǐn)M合106
4.4.1噪聲導(dǎo)致的過分?jǐn)M合107
4.4.2缺乏代表性樣本導(dǎo)致的過分?jǐn)M合109
4.4.3過分?jǐn)M合與多重比較過程109
4.4.4泛化誤差估計(jì)110
4.4.5處理決策樹歸納中的過分?jǐn)M合113
4.5評估分類器的性能114
4.5.1保持方法114
4.5.2隨機(jī)二次抽樣115
4.5.3交叉驗(yàn)證115
4.5.4自助法115
4.6比較分類器的方法116
4.6.1估計(jì)準(zhǔn)確度的置信區(qū)間116
4.6.2比較兩個(gè)模型的性能117
4.6.3比較兩種分類法的性能118
文獻(xiàn)注釋118
參考文獻(xiàn)120
習(xí)題122
第5章分類：其他技術(shù)127
5.1基于規(guī)則的分類器127
5.1.1基于規(guī)則的分類器的工作原理128
5.1.2規(guī)則的排序方案129
5.1.3如何建立基于規(guī)則的分類器130
5.1.4規(guī)則提取的直接方法130
5.1.5規(guī)則提取的間接方法135
5.1.6基于規(guī)則的分類器的特征136
5.2最近鄰分類器137
5.2.1算法138
5.2.2最近鄰分類器的特征138
5.3貝葉斯分類器139
5.3.1貝葉斯定理139
5.3.2貝葉斯定理在分類中的應(yīng)用140
5.3.3樸素貝葉斯分類器141
5.3.4貝葉斯誤差率145
5.3.5貝葉斯信念網(wǎng)絡(luò)147
5.4人工神經(jīng)網(wǎng)絡(luò)150
5.4.1感知器151
5.4.2多層人工神經(jīng)網(wǎng)絡(luò)153
5.4.3人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)155
5.5支持向量機(jī)156
5.5.1最大邊緣超平面156
5.5.2線性支持向量機(jī)：可分情況157
5.5.3線性支持向量機(jī)：不可分情況162
5.5.4非線性支持向量機(jī)164
5.5.5支持向量機(jī)的特征168
5.6組合方法168
5.6.1組合方法的基本原理168
5.6.2構(gòu)建組合分類器的方法169
5.6.3偏倚—方差分解171
5.6.4裝袋173
5.6.5提升175
5.6.6隨機(jī)森林178
5.6.7組合方法的實(shí)驗(yàn)比較179
5.7不平衡類問題180
5.7.1可選度量180
5.7.2接受者操作特征曲線182
5.7.3代價(jià)敏感學(xué)習(xí)184
5.7.4基于抽樣的方法186
5.8多類問題187
文獻(xiàn)注釋189
參考文獻(xiàn)190
習(xí)題193
第6章關(guān)聯(lián)分析：基本概念和算法201
6.1問題定義202
6.2頻繁項(xiàng)集的產(chǎn)生204
6.2.1先驗(yàn)原理205
6.2.2Apriori算法的頻繁項(xiàng)集產(chǎn)生206
6.2.3　候選的產(chǎn)生與剪枝208
6.2.4支持度計(jì)數(shù)210
6.2.5計(jì)算復(fù)雜度213
6.3規(guī)則產(chǎn)生215
6.3.1基于置信度的剪枝215
6.3.2Apriori算法中規(guī)則的產(chǎn)生215
6.3.3例：美國國會投票記錄217
6.4頻繁項(xiàng)集的緊湊表示217
6.4.1極大頻繁項(xiàng)集217
6.4.2閉頻繁項(xiàng)集219
6.5產(chǎn)生頻繁項(xiàng)集的其他方法221
6.6FP增長算法223
6.6.1FP樹表示法224
6.6.2FP增長算法的頻繁項(xiàng)集產(chǎn)生225
6.7關(guān)聯(lián)模式的評估228
6.7.1興趣度的客觀度量228
6.7.2多個(gè)二元變量的度量235
6.7.3辛普森悖論236
6.8傾斜支持度分布的影響237
文獻(xiàn)注釋240
參考文獻(xiàn)244
習(xí)題250
第7章關(guān)聯(lián)分析：高級概念259
7.1處理分類屬性259
7.2處理連續(xù)屬性261
7.2.1基于離散化的方法261
7.2.2基于統(tǒng)計(jì)學(xué)的方法263
7.2.3非離散化方法265
7.3處理概念分層266
7.4序列模式267
7.4.1問題描述267
7.4.2序列模式發(fā)現(xiàn)269
7.4.3時(shí)限約束271
7.4.4可選計(jì)數(shù)方案274
7.5子圖模式275
7.5.1圖與子圖276
7.5.2頻繁子圖挖掘277
7.5.3類Apriori方法278
7.5.4候選產(chǎn)生279
7.5.5候選剪枝282
7.5.6支持度計(jì)數(shù)285
7.6非頻繁模式285
7.6.1負(fù)模式285
7.6.2負(fù)相關(guān)模式286
7.6.3非頻繁模式、負(fù)模式和負(fù)相關(guān)模式比較287
7.6.4挖掘有趣的非頻繁模式的技術(shù)288
7.6.5基于挖掘負(fù)模式的技術(shù)288
7.6.6基于支持度期望的技術(shù)290
文獻(xiàn)注釋292
參考文獻(xiàn)293
習(xí)題295
第8章聚類分析：基本概念和算法305
8.1概述306
8.1.1什么是聚類分析306
8.1.2不同的聚類類型307
8.1.3不同的簇類型308
8.2K均值310
8.2.1基本K均值算法310
8.2.2K均值：附加的問題315
8.2.3二分K均值316
8.2.4K均值和不同的簇類型317
8.2.5優(yōu)點(diǎn)與缺點(diǎn)318
8.2.6K均值作為優(yōu)化問題319
8.3凝聚層次聚類320
8.3.1基本凝聚層次聚類算法321
8.3.2特殊技術(shù)322
8.3.3簇鄰近度的Lance-Williams公式325
8.3.4層次聚類的主要問題326
8.3.5優(yōu)點(diǎn)與缺點(diǎn)327
8.4DBSCAN327
8.4.1傳統(tǒng)的密度：基于中心的方法327
8.4.2DBSCAN算法328
8.4.3優(yōu)點(diǎn)與缺點(diǎn)329
8.5簇評估330
8.5.1概述332
8.5.2非監(jiān)督簇評估：使用凝聚度和分離度332
8.5.3非監(jiān)督簇評估：使用鄰近度矩陣336
8.5.4層次聚類的非監(jiān)督評估338
8.5.5確定正確的簇個(gè)數(shù)339
8.5.6聚類趨勢339
8.5.7簇有效性的監(jiān)督度量340
8.5.8評估簇有效性度量的顯著性343
文獻(xiàn)注釋344
參考文獻(xiàn)345
習(xí)題347
第9章聚類分析：其他問題與算法355
9.1數(shù)據(jù)、簇和聚類算法的特性355
9.1.1例子：比較K均值和DBSCAN355
9.1.2數(shù)據(jù)特性356
9.1.3簇特性357
9.1.4聚類算法的一般特性358
9.2基于原型的聚類359
9.2.1模糊聚類359
9.2.2使用混合模型的聚類362
9.2.3自組織映射369
9.3基于密度的聚類372
9.3.1基于網(wǎng)格的聚類372
9.3.2子空間聚類374
9.3.3DENCLUE：基于密度聚類的一種基于核的方案377
9.4基于圖的聚類379
9.4.1稀疏化379
9.4.2最小生成樹聚類380
9.4.3OPOSSUM：使用METIS的稀疏相似度最優(yōu)劃分381
9.4.4Chameleon：使用動態(tài)建模的層次聚類381
9.4.5共享最近鄰相似度385
9.4.6Jarvis-Patrick聚類算法387
9.4.7SNN密度388
9.4.8基于SNN密度的聚類389
9.5可伸縮的聚類算法390
9.5.1可伸縮：一般問題和方法391
9.5.2BIRCH392
9.5.3CURE393
9.6使用哪種聚類算法395
文獻(xiàn)注釋397
參考文獻(xiàn)398
習(xí)題400
第10章異常檢測403
10.1預(yù)備知識404
10.1.1異常的成因404
10.1.2異常檢測方法404
10.1.3類標(biāo)號的使用405
10.1.4問題405
10.2統(tǒng)計(jì)方法406
10.2.1檢測一元正態(tài)分布中的離群點(diǎn)407
10.2.2多元正態(tài)分布的離群點(diǎn)408
10.2.3異常檢測的混合模型方法410
10.2.4優(yōu)點(diǎn)與缺點(diǎn)411
10.3基于鄰近度的離群點(diǎn)檢測411
10.4基于密度的離群點(diǎn)檢測412
10.4.1使用相對密度的離群點(diǎn)檢測413
10.4.2優(yōu)點(diǎn)與缺點(diǎn)414
10.5基于聚類的技術(shù)414
10.5.1評估對象屬于簇的程度415
10.5.2離群點(diǎn)對初始聚類的影響416
10.5.3使用簇的個(gè)數(shù)416
10.5.4優(yōu)點(diǎn)與缺點(diǎn)416
文獻(xiàn)注釋417
參考文獻(xiàn)418
習(xí)題420
附錄A線性代數(shù)423
附錄B維歸約433
附錄C概率統(tǒng)計(jì)445
附錄D回歸451
附錄E優(yōu)化457