注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘?qū)д摚ㄓ⑽陌妗ぴ瓡?版)

數(shù)據(jù)挖掘?qū)д摚ㄓ⑽陌妗ぴ瓡?版)

數(shù)據(jù)挖掘?qū)д摚ㄓ⑽陌妗ぴ瓡?版)

定 價(jià):¥199.00

作 者: [美] 陳封能,邁克爾·斯坦巴赫 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 經(jīng)典原版書庫(kù)
標(biāo) 簽: 暫缺

購(gòu)買這本書可以去


ISBN: 9787111637882 出版時(shí)間: 2019-11-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 836 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術(shù)。為了更好地理解數(shù)據(jù)挖掘技術(shù)如何用于各種類型的數(shù)據(jù),研究這些原理與技術(shù)是至關(guān)重要的。 本書所涵蓋的主題包括:數(shù)據(jù)預(yù)處理、預(yù)測(cè)建模、關(guān)聯(lián)分析、聚類分析、異常檢測(cè)和避免錯(cuò)誤發(fā)現(xiàn)。通過(guò)介紹每個(gè)主題的基本概念和算法,為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實(shí)際問(wèn)題所需的必要背景以及使用方法。

作者簡(jiǎn)介

  陳封能(Pang-Ning Tan) 密歇根州立大學(xué)計(jì)算機(jī)科學(xué)與工程系教授,主要研究方向是數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)系統(tǒng)、網(wǎng)絡(luò)空間安全、網(wǎng)絡(luò)分析等。

圖書目錄

第1章 緒論 1
11 什么是數(shù)據(jù)挖掘 4
12 數(shù)據(jù)挖掘要解決的問(wèn)題 5
13 數(shù)據(jù)挖掘的起源 7
14 數(shù)據(jù)挖掘任務(wù) 9
15 本書組織結(jié)構(gòu) 13
16 文獻(xiàn)注釋 15
17 習(xí)題 21
第2章 數(shù)據(jù) 23
21 數(shù)據(jù)類型 26
211 屬性與度量 27
212 數(shù)據(jù)集的類型 34
22 數(shù)據(jù)質(zhì)量 42
221 測(cè)量和數(shù)據(jù)收集問(wèn)題 42
222 關(guān)于應(yīng)用的問(wèn)題 49
23 數(shù)據(jù)預(yù)處理 50
231 聚集 51
232 抽樣 52
233 維歸約 56
234 特征子集選擇 58
235 特征創(chuàng)建 61
236 離散化和二元化 63
237 變量變換 69
24 相似性和相異性的度量 71
241 基礎(chǔ) 72
242 簡(jiǎn)單屬性之間的相似度和相異度 74
243 數(shù)據(jù)對(duì)象之間的相異度 76
244 數(shù)據(jù)對(duì)象之間的相似度 78
245 鄰近度度量的例子 79
246 互信息 88
* 247 核函數(shù) 90
* 248 Bregman散度 94
249 鄰近度計(jì)算問(wèn)題 96
2410 選擇正確的鄰近度度量 98
25 文獻(xiàn)注釋 100
26 習(xí)題 105
第3章 分類:基本概念和技術(shù) 113
31 基本概念 114
32 一般的分類框架 117
33 決策樹分類器 119
331 構(gòu)建決策樹的基本算法 121
332 表示屬性測(cè)試條件的方法 124
333 選擇屬性測(cè)試條件的方法 127
334 決策樹歸納算法 136
335 示例:Web機(jī)器人檢測(cè) 138
336 決策樹分類器的特征 140
34 模型的過(guò)擬 147
35 模型選擇 156
351 驗(yàn)證集應(yīng)用 156
352 模型復(fù)雜度合并 157
353 統(tǒng)計(jì)范圍估計(jì) 162
354 決策樹的模型選擇 162
36 模型評(píng)估 164
361 保持方法 165
362 交叉驗(yàn)證 165
37 超參數(shù)的使用 168
371 超參數(shù)選擇 168
372 嵌套交叉驗(yàn)證 170
38 模型選擇和評(píng)估中的陷阱 172
381 訓(xùn)練集和測(cè)試集之間的重疊 172
382 使用驗(yàn)證錯(cuò)誤率作為泛化錯(cuò)誤率
*39 模型比較 173
391 估計(jì)準(zhǔn)確率的置信區(qū)間 174
392 比較兩個(gè)模型的性能 175
310 文獻(xiàn)注釋 176
311 習(xí)題 185
第4章 分類:其他技術(shù) 193
41 分類器的種類 193
42 基于規(guī)則的分類器 195
421 基于規(guī)則的分類器原理 197
422 規(guī)則集的屬性 198
423 規(guī)則提取的直接方法 199
424 規(guī)則提取的間接方法 204
425 基于規(guī)則的分類器的特點(diǎn) 206
43 最近鄰分類器 208
431 算法 209
432 最近鄰分類器的特點(diǎn) 210
44 樸素貝葉斯分類器 212
441 概率論基礎(chǔ) 213
442 樸素貝葉斯假設(shè) 218
45 貝葉斯網(wǎng)絡(luò) 227
451 圖表示 227
452 推理與學(xué)習(xí) 233
453 貝葉斯網(wǎng)絡(luò)的特點(diǎn) 242
46 logistic回歸 243
461 logistic回歸用作廣義線性模型 244
462 學(xué)習(xí)模型參數(shù) 245
463 logistic回歸模型的特點(diǎn) 248
47 人工神經(jīng)網(wǎng)絡(luò) 249
471 感知機(jī) 250
472 多層神經(jīng)網(wǎng)絡(luò) 254
473 人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn) 261
48 深度學(xué)習(xí) 262
481 使用協(xié)同損失函數(shù) 263
482 使用響應(yīng)激活函數(shù) 266
483 正則化 268
484 模型參數(shù)的初始化 271
485 深度學(xué)習(xí)的特點(diǎn) 275
49 支持向量機(jī) 276
491 分離超平面的邊緣 276
492 線性SVM 278
493 軟邊緣SVM 284
494 非線性SVM 290
495 SVM的特點(diǎn) 294
410 組合方法 296
4101 組合方法的基本原理 297
4102 構(gòu)建組合分類器的方法 297
4103 偏置–方差分解 300
4104 裝袋 302
4105 提升 305
4106 隨機(jī)森林 310
4107 組合方法的實(shí)驗(yàn)比較 312
411 類不平衡問(wèn)題 313
4111 類不平衡的分類器構(gòu)建 314
4112 帶類不平衡的性能評(píng)估 318
4113 尋找最優(yōu)的評(píng)分閾值 322
4114 綜合評(píng)估性能 323
412 多類問(wèn)題 330
413 文獻(xiàn)注釋 333
414 習(xí)題 345
第5章 關(guān)聯(lián)分析:基本概念和算法 357
51 預(yù)備知識(shí) 358
52 頻繁項(xiàng)集的產(chǎn)生 362
521 先驗(yàn)原理 363
522 Apriori算法的頻繁項(xiàng)集產(chǎn)生 364
523 候選項(xiàng)集的產(chǎn)生與剪枝 368
524 支持度計(jì)數(shù) 373
525 計(jì)算復(fù)雜度 377
53 規(guī)則的產(chǎn)生 380
531 基于置信度的剪枝 380
532 Apriori算法中規(guī)則的產(chǎn)生 381
533 示例:美國(guó)國(guó)會(huì)投票記錄 382
54 頻繁項(xiàng)集的緊湊表示 384
541 極大頻繁項(xiàng)集 384
542 閉項(xiàng)集 386
*55 其他產(chǎn)生頻繁項(xiàng)集的方法 389
*56 FP增長(zhǎng)算法 393
561 FP樹表示法 394
562 FP增長(zhǎng)算法的頻繁項(xiàng)集產(chǎn)生 397
57 關(guān)聯(lián)模式的評(píng)估 401
571 興趣度的客觀度量 402
572 多個(gè)二元變量的度量 414
573 辛普森悖論 416
58 傾斜支持度分布的影響 418
59 文獻(xiàn)注釋 424
510 習(xí)題 438
第6章 關(guān)聯(lián)分析:高級(jí)概念 451
61 處理分類屬性 451
62 處理連續(xù)屬性 454
621 基于離散化的方法 454
622 基于統(tǒng)計(jì)學(xué)的方法 458
623 非離散化方法 460
63 處理概念分層 462
64 序列模式 464
641 預(yù)備知識(shí) 465
642 序列模式發(fā)現(xiàn) 468
* 643 時(shí)限約束 473
* 644 可選計(jì)數(shù)方案 477
65 子圖模式 479
651 預(yù)備知識(shí) 480
652 頻繁子圖挖掘 483
653 候選生成 487
654 候選剪枝 493
655 支持度計(jì)數(shù) 493
*66 非頻繁模式 493
661 負(fù)模式 494
662 負(fù)相關(guān)模式 495
663 非頻繁模式、負(fù)模式和負(fù)相關(guān)模式比較 496
664 挖掘有趣的非頻繁模式的技術(shù) 498
665 基于挖掘負(fù)模式的技術(shù) 499
666 基于支持度期望的技術(shù) 501
67 文獻(xiàn)注釋 505
68 習(xí)題 510
第7章 聚類分析:基本概念和算法 525
71 概述 528
711 什么是聚類分析 528
712 聚類的不同類型 529
713 簇的不同類型 531
72 K均值 534
721 K均值算法 535
722 K均值:附加的問(wèn)題 544
723 二分K均值 547
724 K均值和不同的簇類型 548
725 優(yōu)點(diǎn)與缺點(diǎn) 549
726 K均值作為優(yōu)化問(wèn)題 549
73 凝聚層次聚類 554
731 基本凝聚層次聚類算法 555
732 特殊技術(shù) 557
733 簇鄰近度的Lance-Williams公式 562
734 層次聚類的主要問(wèn)題 563
735 離群點(diǎn) 564
736 優(yōu)點(diǎn)與缺點(diǎn) 565
74 DBSCAN 565
741 傳統(tǒng)的密度:基于中心的方法 565
742 DBSCAN算法 567
743 優(yōu)點(diǎn)與缺點(diǎn) 569
75 簇評(píng)估 571
751 概述 571
752 無(wú)監(jiān)督簇評(píng)估:使用凝聚度和分離度 574
753 無(wú)監(jiān)督簇評(píng)估:使用鄰近度矩陣 582
754 層次聚類的無(wú)監(jiān)督評(píng)估 585
755 確定正確的簇個(gè)數(shù) 587
756 聚類趨勢(shì) 588
757 簇有效性的監(jiān)督度量 589
758 評(píng)估簇有效性度量的顯著性 594
759 簇有效性度量的選擇 596
76 文獻(xiàn)注釋 597
77 習(xí)題 603
第8章 聚類分析:其他問(wèn)題與算法 613
81 數(shù)據(jù)、簇和聚類算法的特性 614
811 示例:比較K均值和DBSCAN 614
812 數(shù)據(jù)特性 615
813 簇特性 617
814 聚類算法的一般特性 619
82 基于原型的聚類 621
821 模糊聚類 621
822 使用混合模型的聚類 627
823 自組織映射 637
83 基于密度的聚類 644
831 基于網(wǎng)格的聚類 644
832 子空間聚類 648
833 DENCLUE:基于密度聚類的一種基于核的方案 652
84 基于圖的聚類 656
841 稀疏化 657
842 最小生成樹聚類 658
843 OPOSSUM:使用METIS的稀疏相似度最優(yōu)劃分 659
844 Chameleon:使用動(dòng)態(tài)建模的層次聚類 660
845 譜聚類 666
846 共享最近鄰相似度 673
847 Jarvis-Patrick聚類算法 676
848 SNN密度 678
849 基于SNN密度的聚類 679
85 可伸縮的聚類算法 681
851 可伸縮:一般問(wèn)題和方法 681
852 BIRCH 684
853 CURE 686
86 使用哪種聚類算法 690
87 文獻(xiàn)注釋 693
88 習(xí)題 699
第9章 異常檢測(cè) 703
91 異常檢測(cè)問(wèn)題的特性 705
911 異常的定義 705
912 數(shù)據(jù)的性質(zhì) 706
913 如何使用異常檢測(cè) 707
92 異常檢測(cè)方法的特性 708
93 統(tǒng)計(jì)方法 710
931 使用參數(shù)模型 710
932 使用非參數(shù)模型 714
933 對(duì)正常類和異常類建模 715
934 評(píng)估統(tǒng)計(jì)意義 717
935 優(yōu)點(diǎn)與缺點(diǎn) 718
94 基于鄰近度的方法 719
941 基于距離的異常分?jǐn)?shù) 719
942 基于密度的異常分?jǐn)?shù) 720
943 基于相對(duì)密度的異常分?jǐn)?shù) 722
944 優(yōu)點(diǎn)與缺點(diǎn) 723
95 基于聚類的方法 724
951 發(fā)現(xiàn)異常簇 724
952 發(fā)現(xiàn)異常實(shí)例 725
953 優(yōu)點(diǎn)與缺點(diǎn) 728
96 基于重構(gòu)的方法 728
97 單類分類 732
971 核函數(shù)的使用 733
972 原點(diǎn)技巧 734
973 優(yōu)點(diǎn)與缺點(diǎn) 738
98 信息論方法 738
99 異常檢測(cè)評(píng)估 740
910 文獻(xiàn)注釋 742
911 習(xí)題 749
第10章 避免錯(cuò)誤發(fā)現(xiàn) 755
101 預(yù)備知識(shí):統(tǒng)計(jì)檢驗(yàn) 756
1011 顯著性檢驗(yàn) 756
1012 假設(shè)檢驗(yàn) 761
1013 多重假設(shè)檢驗(yàn) 767
1014 統(tǒng)計(jì)檢驗(yàn)中的陷阱 776
102 對(duì)零分布和替代分布建模 778
1021 生成合成數(shù)據(jù)集 781
1022 隨機(jī)化類標(biāo) 782
1023 實(shí)例重采樣 782
1024 對(duì)檢驗(yàn)統(tǒng)計(jì)量的分布建模 783
103 分類問(wèn)題的統(tǒng)計(jì)檢驗(yàn) 783
1031 評(píng)估分類性能 783
1032 以多重假設(shè)檢 驗(yàn)處理二分類問(wèn)題 785
1033 模型選擇中的多重假設(shè)檢驗(yàn) 786
104 關(guān)聯(lián)分析的統(tǒng)計(jì)檢驗(yàn) 787
1041 使用統(tǒng)計(jì)模型 788
1042 使用隨機(jī)化方法 794
105 聚類分析的統(tǒng)計(jì)檢驗(yàn) 795
1051 為內(nèi)部指標(biāo)生成零分布 796
1052 為外部指標(biāo)生成零分布 798
1053 富集 798
106 異常檢測(cè)的統(tǒng)計(jì)檢驗(yàn) 800
107 文獻(xiàn)注釋 803
108 習(xí)題 808



Contents
1 Introduction 1
11 What Is Data Mining? 4
12 Motivating Challenges 5
13 The Origins of Data Mining 7
14 Data Mining Tasks 9
15 Scope and Organization of the Book 13
16 Bibliographic Notes 15
17 Exercises 21
2 Data 23
21 Types of Data 26
211 Attributes and Measurement 27
212 Types of Data Sets 34
22 Data Quality 42
221 Measurement and Data Collection Issues 42
222 Issues Related to Applications 49
23 Data Preprocessing 50
231 Aggregation 51
232 Sampling 52
233 Dimensionality Reduction 56

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)