注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)挖掘?qū)д摚ㄔ瓡?版)

數(shù)據(jù)挖掘?qū)д摚ㄔ瓡?版)

數(shù)據(jù)挖掘?qū)д摚ㄔ瓡?版)

定 價:¥139.00

作 者: [美] 陳封能(Pang-Ning Tan) 著,段磊 張?zhí)鞈c 等譯
出版社: 機械工業(yè)出版社
叢編項: 計算機科學叢書
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111631620 出版時間: 2019-08-01 包裝: 平裝
開本: 16開 頁數(shù): 480 字數(shù):  

內(nèi)容簡介

  本書從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術。為了更好地理解數(shù)據(jù)挖掘技術如何用于各種類型的數(shù)據(jù),研究這些原理與技術是至關重要的。 本書所涵蓋的主題包括:數(shù)據(jù)預處理、預測建模、關聯(lián)分析、聚類分析、異常檢測和避免錯誤發(fā)現(xiàn)。通過介紹每個主題的基本概念和算法,為讀者提供將數(shù)據(jù)挖掘應用于實際問題所需的必要背景以及方法。

作者簡介

  陳封能(Pang-Ning Tan) 密歇根州立大學計算機科學與工程系教授,主要研究方向是數(shù)據(jù)挖掘、數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡空間安全、網(wǎng)絡分析等。

圖書目錄

出版者的話
譯者序
前言
第1章 緒論1
 1.1 什么是數(shù)據(jù)挖掘2
 1.2 數(shù)據(jù)挖掘要解決的問題3
 1.3 數(shù)據(jù)挖掘的起源4
 1.4 數(shù)據(jù)挖掘任務5
 1.5 本書組織結(jié)構7
 文獻注釋8
 參考文獻10
 習題12
第2章 數(shù)據(jù)14
 2.1 數(shù)據(jù)類型15
  2.1.1 屬性與度量16
  2.1.2 數(shù)據(jù)集的類型19
 2.2 數(shù)據(jù)質(zhì)量24
  2.2.1 測量和數(shù)據(jù)收集問題24
  2.2.2 關于應用的問題27
 2.3 數(shù)據(jù)預處理28
  2.3.1 聚集28
  2.3.2 抽樣30
  2.3.3 維歸約31
  2.3.4 特征子集選擇32
  2.3.5 特征創(chuàng)建34
  2.3.6 離散化和二元化35
  2.3.7 變量變換38
 2.4 相似性和相異性的度量40
  2.4.1 基礎40
  2.4.2 簡單屬性之間的相似度和相異度41
  2.4.3 數(shù)據(jù)對象之間的相異度42
  2.4.4 數(shù)據(jù)對象之間的相似度44
  2.4.5 鄰近度度量的例子44
  2.4.6 互信息50
  * 2.4.7 核函數(shù)51
  * 2.4.8 Bregman散度53
  2.4.9 鄰近度計算問題54
  2.4.10 選擇正確的鄰近度度量56
 文獻注釋56
 參考文獻58
 習題60
第3章 分類:基本概念和技術65
 3.1 基本概念65
 3.2 一般的分類框架67
 3.3 決策樹分類器69
  3.3.1 構建決策樹的基本算法70
  3.3.2 表示屬性測試條件的方法71
  3.3.3 選擇屬性測試條件的方法73
  3.3.4 決策樹歸納算法79
  3.3.5 示例:Web機器人檢測79
  3.3.6 決策樹分類器的特征81
 3.4 模型的過擬合85
 3.5 模型選擇90
  3.5.1 驗證集應用90
  3.5.2 模型復雜度合并91
  3.5.3 統(tǒng)計范圍估計93
  3.5.4 決策樹的模型選擇94
 3.6 模型評估95
  3.6.1 保持方法95
  3.6.2 交叉驗證96
 3.7 超參數(shù)的使用97
  3.7.1 超參數(shù)選擇98
  3.7.2 嵌套交叉驗證98
 3.8 模型選擇和評估中的陷阱99
  3.8.1 訓練集和測試集之間的重疊99
  3.8.2 使用驗證錯誤率作為泛化錯誤率100
 * 3.9 模型比較100
  3.9.1 估計準確率的置信區(qū)間100
  3.9.2 比較兩個模型的性能101
 文獻注釋102
 參考文獻105
 習題108
第4章 分類:其他技術114
 4.1 分類器的種類114
 4.2 基于規(guī)則的分類器115
  4.2.1 基于規(guī)則的分類器原理116
  4.2.2 規(guī)則集的屬性116
  4.2.3 規(guī)則提取的直接方法117
  4.2.4 規(guī)則提取的間接方法120
  4.2.5 基于規(guī)則的分類器的特點121
 4.3 最近鄰分類器122
  4.3.1 算法123
  4.3.2 最近鄰分類器的特點124
 4.4 樸素貝葉斯分類器124
  4.4.1 概率論基礎125
  4.4.2 樸素貝葉斯假設127
 4.5 貝葉斯網(wǎng)絡132
  4.5.1 圖表示132
  4.5.2 推理與學習135
  4.5.3 貝葉斯網(wǎng)絡的特點139
 4.6 logistic回歸140
  4.6.1 logistic回歸用作廣義線性模型141
  4.6.2 學習模型參數(shù)141
  4.6.3 logistic回歸模型的特點142
 4.7 人工神經(jīng)網(wǎng)絡143
  4.7.1 感知機144
  4.7.2 多層神經(jīng)網(wǎng)絡146
  4.7.3 人工神經(jīng)網(wǎng)絡的特點150
 4.8 深度學習151
  4.8.1 使用協(xié)同損失函數(shù)151
  4.8.2 使用響應激活函數(shù)153
  4.8.3 正則化154
  4.8.4 模型參數(shù)的初始化155
  4.8.5 深度學習的特點157
 4.9 支持向量機158
  4.9.1 分離超平面的邊緣158
  4.9.2 線性SVM159
  4.9.3 軟邊緣SVM162
  4.9.4 非線性SVM165
  4.9.5 SVM的特點167
 4.10 組合方法168
  4.10.1 組合方法的基本原理168
  4.10.2 構建組合分類器的方法169
  4.10.3 偏置方差分解170
  4.10.4 裝袋171
  4.10.5 提升173
  4.10.6 隨機森林176
  4.10.7 組合方法的實驗比較177
 4.11 類不平衡問題178
  4.11.1 類不平衡的分類器構建179
  4.11.2 帶類不平衡的性能評估180
  4.11.3 尋找最優(yōu)的評分閾值183
  4.11.4 綜合評估性能183
 4.12 多類問題188
 文獻注釋189
 參考文獻193
 習題198
第5章 關聯(lián)分析:基本概念和算法205
 5.1 預備知識205
 5.2 頻繁項集的產(chǎn)生207
  5.2.1 先驗原理209
  5.2.2 Apriori算法的頻繁項集產(chǎn)生210
  5.2.3 候選項集的產(chǎn)生與剪枝212
  5.2.4 支持度計數(shù)215
  5.2.5 計算復雜度217
 5.3 規(guī)則的產(chǎn)生219
  5.3.1 基于置信度的剪枝219
  5.3.2 Apriori算法中規(guī)則的產(chǎn)生219
  5.3.3 示例:美國國會投票記錄221
 5.4 頻繁項集的緊湊表示221
  5.4.1 極大頻繁項集221
  5.4.2 閉項集223
 * 5.5 其他產(chǎn)生頻繁項集的方法225
 * 5.6 FP增長算法228
  5.6.1 FP樹表示法228
  5.6.2 FP增長算法的頻繁項集產(chǎn)生229
 5.7 關聯(lián)模式的評估231
  5.7.1 興趣度的客觀度量232
  5.7.2 多個二元變量的度量239
  5.7.3 辛普森悖論240
 5.8 傾斜支持度分布的影響241
 文獻注釋244
 參考文獻248
 習題256
第6章 關聯(lián)分析:高級概念263
 6.1 處理分類屬性263
 6.2 處理連續(xù)屬性264
  6.2.1 基于離散化的方法265
  6.2.2 基于統(tǒng)計學的方法267
  6.2.3 非離散化方法268
 6.3 處理概念分層269
 6.4 序列模式270
  6.4.1 預備知識270
  6.4.2 序列模式發(fā)現(xiàn)272
  * 6.4.3 時限約束275
  * 6.4.4 可選計數(shù)方案278
 6.5 子圖模式279
  6.5.1 預備知識280
  6.5.2 頻繁子圖挖掘281
  6.5.3 候選生成284
  6.5.4 候選剪枝287
  6.5.5 支持度計數(shù)287
 * 6.6 非頻繁模式287
  6.6.1 負模式288
  6.6.2 負相關模式288
  6.6.3 非頻繁模式、負模式和負相關模式比較289
  6.6.4 挖掘有趣的非頻繁模式的技術290
  6.6.5 基于挖掘負模式的技術290
  6.6.6 基于支持度期望的技術292
 文獻注釋294
 參考文獻295
 習題297
第7章 聚類分析:基本概念和算法306
 7.1 概述307
  7.1.1 什么是聚類分析307
  7.1.2 聚類的不同類型308
  7.1.3 簇的不同類型309
 7.2 K均值310
  7.2.1 K均值算法311
  7.2.2 K均值:附加的問題316
  7.2.3 二分K均值317
  7.2.4 K均值和不同的簇類型318
  7.2.5 優(yōu)點與缺點319
  7.2.6 K均值作為優(yōu)化問題320
 7.3 凝聚層次聚類321
  7.3.1 基本凝聚層次聚類算法322
  7.3.2 特殊技術323
  7.3.3 簇鄰近度的Lance-Williams公式326
  7.3.4 層次聚類的主要問題327
  7.3.5 離群點328
  7.3.6 優(yōu)點與缺點328
 7.4 DBSCAN328
  7.4.1 傳統(tǒng)的密度:基于中心的方法328
  7.4.2 DBSCAN算法329
  7.4.3 優(yōu)點與缺點331
 7.5 簇評估331
  7.5.1 概述332
  7.5.2 無監(jiān)督簇評估:使用凝聚度和分離度333
  7.5.3 無監(jiān)督簇評估:使用鄰近度矩陣336
  7.5.4 層次聚類的無監(jiān)督評估339
  7.5.5 確定正確的簇個數(shù)339
  7.5.6 聚類趨勢340
  7.5.7 簇有效性的監(jiān)督度量341
  7.5.8 評估簇有效性度量的顯著性344
  7.5.9 簇有效性度量的選擇345
 文獻注釋345
 參考文獻347
 習題349
第8章 聚類分析:其他問題與算法356
 8.1 數(shù)據(jù)、簇和聚類算法的特性356
  8.1.1 示例:比較K均值和DBSCAN356
  8.1.2 數(shù)據(jù)特性357
  8.1.3 簇特性358
  8.1.4 聚類算法的一般特性359
 8.2 基于原型的聚類359
  8.2.1 模糊聚類360
  8.2.2 使用混合模型的聚類362
  8.2.3 自組織映射369
 8.3 基于密度的聚類372
  8.3.1 基于網(wǎng)格的聚類372
  8.3.2 子空間聚類374
  8.3.3 DENCLUE:基于密度聚類的一種基于核的方案377
 8.4 基于圖的聚類378
  8.4.1 稀疏化379
  8.4.2 最小生成樹聚類380
  8.4.3 OPOSSUM:使用METIS的稀疏相似度最優(yōu)劃分380
  8.4.4 Chameleon:使用動態(tài)建模的層次聚類381
  8.4.5 譜聚類384
  8.4.6 共享最近鄰相似度388
  8.4.7 Jarvis-Patrick聚類算法390
  8.4.8 SNN密度391
  8.4.9 基于SNN密度的聚類392
 8.5 可伸縮的聚類算法393
  8.5.1 可伸縮:一般問題和方法393
  8.5.2 BIRCH394
  8.5.3 CURE395
 8.6 使用哪種聚類算法397
 文獻注釋399
 參考文獻400
 習題403
第9章 異常檢測406
 9.1 異常檢測問題的特性407
  9.1.1 異常的定義407
  9.1.2 數(shù)據(jù)的性質(zhì)407
  9.1.3 如何使用異常檢測408
 9.2 異常檢測方法的特性408
 9.3 統(tǒng)計方法409
  9.3.1 使用參數(shù)模型410
  9.3.2 使用非參數(shù)模型412
  9.3.3 對正常類和異常類建模413
  9.3.4 評估統(tǒng)計意義414
  9.3.5 優(yōu)點與缺點415
 9.4 基于鄰近度的方法415
  9.4.1 基于距離的異常分數(shù)415
  9.4.2 基于密度的異常分數(shù)416
  9.4.3 基于相對密度的異常分數(shù)416
  9.4.4 優(yōu)點與缺點417
 9.5 基于聚類的方法418
  9.5.1 發(fā)現(xiàn)異常簇418
  9.5.2 發(fā)現(xiàn)異常實例418
  9.5.3 優(yōu)點與缺點420
 9.6 基于重構的方法420
 9.7 單類分類422
  9.7.1 核函數(shù)的使用422
  9.7.2 原點技巧423
  9.7.3 優(yōu)點與缺點425
 9.8 信息論方法425
 9.9 異常檢測評估426
 文獻注釋428
 參考文獻429
 習題433
第10章 避免錯誤發(fā)現(xiàn)436
 10.1 預備知識:統(tǒng)計檢驗436
  10.1.1 顯著性檢驗436
  10.1.2 假設檢驗440
  10.1.3 多重假設檢驗443
  10.1.4 統(tǒng)計檢驗中的陷阱448
 10.2 對零分布和替代分布建模450
  10.2.1 生成合成數(shù)據(jù)集450
  10.2.2 隨機化類標451
  10.2.3 實例重采樣451
  10.2.4 對檢驗統(tǒng)計量的分布建模451
 10.3 分類問題的統(tǒng)計檢驗452
  10.3.1 評估分類性能452
  10.3.2 以多重假設檢驗處理二分類問題453
  10.3.3 模型選擇中的多重假設檢驗453
 10.4 關聯(lián)分析的統(tǒng)計檢驗454
  10.4.1 使用統(tǒng)計模型455
  10.4.2 使用隨機化方法457
 10.5 聚類分析的統(tǒng)計檢驗458
  10.5.1 為內(nèi)部指標生成零分布459
  10.5.2 為外部指標生成零分布459
  10.5.3 富集460
 10.6 異常檢測的統(tǒng)計檢驗461
 文獻注釋462
 參考文獻464
 習題466
索引471

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號