數(shù)據(jù)挖掘?qū)д摚ㄓ⑽陌妗ぴ瓡?版）

定　價(jià)：￥199.00

作　者：	[美] 陳封能，邁克爾·斯坦巴赫著
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：	經(jīng)典原版書庫
標(biāo)　簽：	暫缺

購買這本書可以去

京東 (￥199.00)

ISBN：	9787111637882	出版時(shí)間：	2019-11-01	包裝：	平裝
開本：	16開	頁數(shù)：	836	字?jǐn)?shù)：

內(nèi)容簡介

　　本書從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術(shù)。為了更好地理解數(shù)據(jù)挖掘技術(shù)如何用于各種類型的數(shù)據(jù)，研究這些原理與技術(shù)是至關(guān)重要的。本書所涵蓋的主題包括：數(shù)據(jù)預(yù)處理、預(yù)測建模、關(guān)聯(lián)分析、聚類分析、異常檢測和避免錯(cuò)誤發(fā)現(xiàn)。通過介紹每個(gè)主題的基本概念和算法，為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實(shí)際問題所需的必要背景以及使用方法。

作者簡介

　　陳封能（Pang-Ning Tan）密歇根州立大學(xué)計(jì)算機(jī)科學(xué)與工程系教授，主要研究方向是數(shù)據(jù)挖掘、數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡(luò)空間安全、網(wǎng)絡(luò)分析等。

圖書目錄

第1章　緒論 1
11　什么是數(shù)據(jù)挖掘 4
12　數(shù)據(jù)挖掘要解決的問題 5
13　數(shù)據(jù)挖掘的起源 7
14　數(shù)據(jù)挖掘任務(wù) 9
15　本書組織結(jié)構(gòu) 13
16　文獻(xiàn)注釋 15
17　習(xí)題 21
第2章　數(shù)據(jù) 23
21　數(shù)據(jù)類型 26
211　屬性與度量 27
212　數(shù)據(jù)集的類型 34
22　數(shù)據(jù)質(zhì)量 42
221　測量和數(shù)據(jù)收集問題 42
222　關(guān)于應(yīng)用的問題 49
23　數(shù)據(jù)預(yù)處理 50
231　聚集 51
232　抽樣 52
233　維歸約 56
234　特征子集選擇 58
235　特征創(chuàng)建 61
236　離散化和二元化 63
237　變量變換 69
24　相似性和相異性的度量 71
241　基礎(chǔ) 72
242　簡單屬性之間的相似度和相異度 74
243　數(shù)據(jù)對象之間的相異度 76
244　數(shù)據(jù)對象之間的相似度 78
245　鄰近度度量的例子 79
246　互信息 88
* 247　核函數(shù) 90
* 248　Bregman散度 94
249　鄰近度計(jì)算問題 96
2410　選擇正確的鄰近度度量 98
25　文獻(xiàn)注釋 100
26　習(xí)題 105
第3章　分類：基本概念和技術(shù) 113
31　基本概念 114
32　一般的分類框架 117
33　決策樹分類器 119
331　構(gòu)建決策樹的基本算法 121
332　表示屬性測試條件的方法 124
333　選擇屬性測試條件的方法 127
334　決策樹歸納算法 136
335　示例：Web機(jī)器人檢測 138
336　決策樹分類器的特征 140
34　模型的過擬 147
35　模型選擇 156
351　驗(yàn)證集應(yīng)用 156
352　模型復(fù)雜度合并 157
353　統(tǒng)計(jì)范圍估計(jì) 162
354　決策樹的模型選擇 162
36　模型評估 164
361　保持方法 165
362　交叉驗(yàn)證 165
37　超參數(shù)的使用 168
371　超參數(shù)選擇 168
372　嵌套交叉驗(yàn)證 170
38　模型選擇和評估中的陷阱 172
381　訓(xùn)練集和測試集之間的重疊 172
382　使用驗(yàn)證錯(cuò)誤率作為泛化錯(cuò)誤率
*39　模型比較 173
391　估計(jì)準(zhǔn)確率的置信區(qū)間 174
392　比較兩個(gè)模型的性能 175
310　文獻(xiàn)注釋 176
311　習(xí)題 185
第4章　分類：其他技術(shù) 193
41　分類器的種類 193
42　基于規(guī)則的分類器 195
421　基于規(guī)則的分類器原理 197
422　規(guī)則集的屬性 198
423　規(guī)則提取的直接方法 199
424　規(guī)則提取的間接方法 204
425　基于規(guī)則的分類器的特點(diǎn) 206
43　最近鄰分類器 208
431　算法 209
432　最近鄰分類器的特點(diǎn) 210
44　樸素貝葉斯分類器 212
441　概率論基礎(chǔ) 213
442　樸素貝葉斯假設(shè) 218
45　貝葉斯網(wǎng)絡(luò) 227
451　圖表示 227
452　推理與學(xué)習(xí) 233
453　貝葉斯網(wǎng)絡(luò)的特點(diǎn) 242
46　logistic回歸 243
461　logistic回歸用作廣義線性模型 244
462　學(xué)習(xí)模型參數(shù) 245
463　logistic回歸模型的特點(diǎn) 248
47　人工神經(jīng)網(wǎng)絡(luò) 249
471　感知機(jī) 250
472　多層神經(jīng)網(wǎng)絡(luò) 254
473　人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn) 261
48　深度學(xué)習(xí) 262
481　使用協(xié)同損失函數(shù) 263
482　使用響應(yīng)激活函數(shù) 266
483　正則化 268
484　模型參數(shù)的初始化 271
485　深度學(xué)習(xí)的特點(diǎn) 275
49　支持向量機(jī) 276
491　分離超平面的邊緣 276
492　線性SVM 278
493　軟邊緣SVM 284
494　非線性SVM 290
495　SVM的特點(diǎn) 294
410　組合方法 296
4101　組合方法的基本原理 297
4102　構(gòu)建組合分類器的方法 297
4103　偏置–方差分解 300
4104　裝袋 302
4105　提升 305
4106　隨機(jī)森林 310
4107　組合方法的實(shí)驗(yàn)比較 312
411　類不平衡問題 313
4111　類不平衡的分類器構(gòu)建 314
4112　帶類不平衡的性能評估 318
4113　尋找最優(yōu)的評分閾值 322
4114　綜合評估性能 323
412　多類問題 330
413　文獻(xiàn)注釋 333
414　習(xí)題 345
第5章　關(guān)聯(lián)分析：基本概念和算法 357
51　預(yù)備知識 358
52　頻繁項(xiàng)集的產(chǎn)生 362
521　先驗(yàn)原理 363
522　Apriori算法的頻繁項(xiàng)集產(chǎn)生 364
523　候選項(xiàng)集的產(chǎn)生與剪枝 368
524　支持度計(jì)數(shù) 373
525　計(jì)算復(fù)雜度 377
53　規(guī)則的產(chǎn)生 380
531　基于置信度的剪枝 380
532　Apriori算法中規(guī)則的產(chǎn)生 381
533　示例：美國國會投票記錄 382
54　頻繁項(xiàng)集的緊湊表示 384
541　極大頻繁項(xiàng)集 384
542　閉項(xiàng)集 386
*55　其他產(chǎn)生頻繁項(xiàng)集的方法 389
*56　FP增長算法 393
561　FP樹表示法 394
562　FP增長算法的頻繁項(xiàng)集產(chǎn)生 397
57　關(guān)聯(lián)模式的評估 401
571　興趣度的客觀度量 402
572　多個(gè)二元變量的度量 414
573　辛普森悖論 416
58　傾斜支持度分布的影響 418
59　文獻(xiàn)注釋 424
510　習(xí)題 438
第6章　關(guān)聯(lián)分析：高級概念 451
61　處理分類屬性 451
62　處理連續(xù)屬性 454
621　基于離散化的方法 454
622　基于統(tǒng)計(jì)學(xué)的方法 458
623　非離散化方法 460
63　處理概念分層 462
64　序列模式 464
641　預(yù)備知識 465
642　序列模式發(fā)現(xiàn) 468
* 643　時(shí)限約束 473
* 644　可選計(jì)數(shù)方案 477
65　子圖模式 479
651　預(yù)備知識 480
652　頻繁子圖挖掘 483
653　候選生成 487
654　候選剪枝 493
655　支持度計(jì)數(shù) 493
*66　非頻繁模式 493
661　負(fù)模式 494
662　負(fù)相關(guān)模式 495
663　非頻繁模式、負(fù)模式和負(fù)相關(guān)模式比較 496
664　挖掘有趣的非頻繁模式的技術(shù) 498
665　基于挖掘負(fù)模式的技術(shù) 499
666　基于支持度期望的技術(shù) 501
67　文獻(xiàn)注釋 505
68　習(xí)題 510
第7章　聚類分析：基本概念和算法 525
71　概述 528
711　什么是聚類分析 528
712　聚類的不同類型 529
713　簇的不同類型 531
72　K均值 534
721　K均值算法 535
722　K均值：附加的問題 544
723　二分K均值 547
724　K均值和不同的簇類型 548
725　優(yōu)點(diǎn)與缺點(diǎn) 549
726　K均值作為優(yōu)化問題 549
73　凝聚層次聚類 554
731　基本凝聚層次聚類算法 555
732　特殊技術(shù) 557
733　簇鄰近度的Lance-Williams公式 562
734　層次聚類的主要問題 563
735　離群點(diǎn) 564
736　優(yōu)點(diǎn)與缺點(diǎn) 565
74　DBSCAN 565
741　傳統(tǒng)的密度：基于中心的方法 565
742　DBSCAN算法 567
743　優(yōu)點(diǎn)與缺點(diǎn) 569
75　簇評估 571
751　概述 571
752　無監(jiān)督簇評估：使用凝聚度和分離度 574
753　無監(jiān)督簇評估：使用鄰近度矩陣 582
754　層次聚類的無監(jiān)督評估 585
755　確定正確的簇個(gè)數(shù) 587
756　聚類趨勢 588
757　簇有效性的監(jiān)督度量 589
758　評估簇有效性度量的顯著性 594
759　簇有效性度量的選擇 596
76　文獻(xiàn)注釋 597
77　習(xí)題 603
第8章　聚類分析：其他問題與算法 613
81　數(shù)據(jù)、簇和聚類算法的特性 614
811　示例：比較K均值和DBSCAN 614
812　數(shù)據(jù)特性 615
813　簇特性 617
814　聚類算法的一般特性 619
82　基于原型的聚類 621
821　模糊聚類 621
822　使用混合模型的聚類 627
823　自組織映射 637
83　基于密度的聚類 644
831　基于網(wǎng)格的聚類 644
832　子空間聚類 648
833　DENCLUE：基于密度聚類的一種基于核的方案 652
84　基于圖的聚類 656
841　稀疏化 657
842　最小生成樹聚類 658
843　OPOSSUM：使用METIS的稀疏相似度最優(yōu)劃分 659
844　Chameleon：使用動態(tài)建模的層次聚類 660
845　譜聚類 666
846　共享最近鄰相似度 673
847　Jarvis-Patrick聚類算法 676
848　SNN密度 678
849　基于SNN密度的聚類 679
85　可伸縮的聚類算法 681
851　可伸縮：一般問題和方法 681
852　BIRCH 684
853　CURE 686
86　使用哪種聚類算法 690
87　文獻(xiàn)注釋 693
88　習(xí)題 699
第9章　異常檢測 703
91　異常檢測問題的特性 705
911　異常的定義 705
912　數(shù)據(jù)的性質(zhì) 706
913　如何使用異常檢測 707
92　異常檢測方法的特性 708
93　統(tǒng)計(jì)方法 710
931　使用參數(shù)模型 710
932　使用非參數(shù)模型 714
933　對正常類和異常類建模 715
934　評估統(tǒng)計(jì)意義 717
935　優(yōu)點(diǎn)與缺點(diǎn) 718
94　基于鄰近度的方法 719
941　基于距離的異常分?jǐn)?shù) 719
942　基于密度的異常分?jǐn)?shù) 720
943　基于相對密度的異常分?jǐn)?shù) 722
944　優(yōu)點(diǎn)與缺點(diǎn) 723
95　基于聚類的方法 724
951　發(fā)現(xiàn)異常簇 724
952　發(fā)現(xiàn)異常實(shí)例 725
953　優(yōu)點(diǎn)與缺點(diǎn) 728
96　基于重構(gòu)的方法 728
97　單類分類 732
971　核函數(shù)的使用 733
972　原點(diǎn)技巧 734
973　優(yōu)點(diǎn)與缺點(diǎn) 738
98　信息論方法 738
99　異常檢測評估 740
910　文獻(xiàn)注釋 742
911　習(xí)題 749
第10章　避免錯(cuò)誤發(fā)現(xiàn) 755
101　預(yù)備知識：統(tǒng)計(jì)檢驗(yàn) 756
1011　顯著性檢驗(yàn) 756
1012　假設(shè)檢驗(yàn) 761
1013　多重假設(shè)檢驗(yàn) 767
1014　統(tǒng)計(jì)檢驗(yàn)中的陷阱 776
102　對零分布和替代分布建模 778
1021　生成合成數(shù)據(jù)集 781
1022　隨機(jī)化類標(biāo) 782
1023　實(shí)例重采樣 782
1024　對檢驗(yàn)統(tǒng)計(jì)量的分布建模 783
103　分類問題的統(tǒng)計(jì)檢驗(yàn) 783
1031　評估分類性能 783
1032　以多重假設(shè)檢驗(yàn)處理二分類問題 785
1033　模型選擇中的多重假設(shè)檢驗(yàn) 786
104　關(guān)聯(lián)分析的統(tǒng)計(jì)檢驗(yàn) 787
1041　使用統(tǒng)計(jì)模型 788
1042　使用隨機(jī)化方法 794
105　聚類分析的統(tǒng)計(jì)檢驗(yàn) 795
1051　為內(nèi)部指標(biāo)生成零分布 796
1052　為外部指標(biāo)生成零分布 798
1053　富集 798
106　異常檢測的統(tǒng)計(jì)檢驗(yàn) 800
107　文獻(xiàn)注釋 803
108　習(xí)題 808

Contents
1 Introduction 1
11 What Is Data Mining? 4
12 Motivating Challenges 5
13 The Origins of Data Mining 7
14 Data Mining Tasks 9
15 Scope and Organization of the Book 13
16 Bibliographic Notes 15
17 Exercises 21
2 Data 23
21 Types of Data 26
211 Attributes and Measurement 27
212 Types of Data Sets 34
22 Data Quality 42
221 Measurement and Data Collection Issues 42
222 Issues Related to Applications 49
23 Data Preprocessing 50
231 Aggregation 51
232 Sampling 52
233 Dimensionality Reduction 56