注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫數據庫挖掘/數據倉庫數據挖掘:概念與技術

數據挖掘:概念與技術

數據挖掘:概念與技術

定 價:¥35.00

作 者: (美)Jiawei Han,(美)Micheline Kamber著
出版社: 高等教育出版社
叢編項: 國外優(yōu)秀信息科學與技術系列教學用書
標 簽: 數據庫存儲與管理

ISBN: 9787040100419 出版時間: 2001-05-01 包裝: 平裝
開本: 23cm 頁數: 550 字數:  

內容簡介

  本書闡述了數據挖掘(通常稱為數據庫知識發(fā)現)的概念、方法和應用。從強調數據分析入手,介紹了數據庫和數據挖掘的概念,指出數據挖掘是對大型數據庫、數據構件庫和其他大型信息資源中標識知識含義的那些類型的自動的或便捷的提取,并通過一個通用的框架回顧了當前的市場可供產品。數據挖掘是一個跨學科的知識領域,汲取了數據庫技術、人工智能、機器學習、神經網絡、統計學、模式識別、知識庫系統、知識獲取、信息檢索、高性能計算、數據可視化等方面的成果,本書內容從數據庫的視角,描述了數據挖掘系統的原型、結構、特征、方法,重點講解了數據挖掘的可行性、實用性、有效性和大型數據庫中模型發(fā)現的可測量性等問題。本書逐章講解了數據分類、預測、聯結和分組的概念和技術,這些專題都配有實例,對各類問題都分別列舉了最佳算法,并對怎樣運用技術給出了經過實踐檢驗的實用型規(guī)則。這種講述方式決定了本書的可讀性強,能夠使讀者從中學到數據挖掘領域的知識,了解產業(yè)最新動向。本書適用于計算機科學系的學生、應用軟件開發(fā)人員、商業(yè)領域的專家和相關知識領域的科技研究人員。內容:1. 數據挖掘簡介 2. 數據構件庫和數據挖掘中的在線分析處理技術 3. 數據處理 4. 數據挖掘原型、語言和系統結構 5. 概念描述:特征與對比 6. 大型數據庫中的挖掘聯結規(guī)則 7. 分類和預測 8. 分組分析9. 挖掘復合數據類型 10. 數據挖掘應用及趨勢 附錄一 微軟公司數據挖掘的對象鏈接和嵌入數據庫 附錄二 數據庫挖掘器簡介

作者簡介

  Jiawei Han is director of the Intelligent Database Systems research Laboratory and professor in the School of Computing Science at Simon Fraser University.Well dnown for his research in the areas of data mining and data-base systems,he has served on program committees for dozens of international conferences and workshops and on editorial boards for several journals,including IEEE Transactiona on Knowledge and Data Engineering and Data Mining and Knowledge Discovery.Micheline Damber is a researcher adn freelance technical writer with an M.S.in computer science.She is a member of the Intelligent Database Systems Research Laboratory at Simon Fraser University.

圖書目錄

譯者序

前言
第1章
引言 1
1.1
什么激發(fā)了數據挖掘,為什么
它是重要的 1
1.2
什么是數據挖掘 3
1.3
在何種數據上進行數據挖掘 6
1.3.1
關系數據庫 7
1.3.2
數據倉庫 8
1.3.3
事務數據庫 10
1.3.4
高級數據庫系統和高級數據庫
應用 11
1.4
數據挖掘功能—可以挖掘什么
類型的模式 14
1.4.1
概念/類描述:特征化和區(qū)分 14
1.4.2
關聯分析 15
1.4.3
分類和預測 16
1.4.4
聚類分析 16
1.4.5
孤立點分析 17
1.4.6
演變分析 17
1.5
所有模式都是有趣的嗎 18
1.6
數據挖掘系統的分類 19
1.7
數據挖掘的主要問題 20
1.8
小結 22
習題 22
文獻注釋 23
第2章
數據倉庫和數據挖掘的OLAP
技術 26
2.1
什么是數據倉庫 26
2.1.1
操作數據庫系統與數據倉庫的
區(qū)別 27
2.1.2
為什么需要一個分離的數據倉庫 29
2.2
多維數據模型 29
2.2.1
由表和電子數據表到數據立方體 29
2.2.2
星型、雪花和事實星座:多維數
據庫模式 32
2.2.3
定義星型、雪花和事實星座模式的
例子 34
2.2.4
度量的分類和計算 36
2.2.5
引入概念分層 37
2.2.6
多維數據模型上的OLAP操作 39
2.2.7
查詢多維數據庫的星型網查詢模型 41
2.3
數據倉庫的系統結構 42
2.3.1
數據倉庫的設計步驟和結構 42
2.3.2
三層數據倉庫結構 44
2.3.3
OLAP服務器類型:ROLAP,MOLAP,
HOLAP的比較 46
2.4
數據倉庫實現 47
2.4.1
數據立方體的有效計算 47
2.4.2
索引OLAP數據 52
2.4.3
OLAP查詢的有效處理 54
2.4.4
元數據存儲 55
2.4.5
數據倉庫后端工具和實用程序 56
2.5
數據立方體技術的進一步發(fā)展 56
2.5.1
數據立方體發(fā)現驅動的探查 56
2.5.2
多粒度上的復雜聚集:多特征方 59
2.5.3
其他進展 61
2.6
從數據倉庫到數據挖掘 61
2.6.1
數據倉庫的使用 62
2.6.2
從聯機分析處理到聯機分析挖掘 63
2.7
小結 65
習題 66
文獻注釋 68
第3章
數據預處理 70
3.1
為什么要預處理數據 70
3.2
數據清理 72
3.2.1
空缺值 72
3.2.2
噪聲數據 73
3.2.3
不一致數據 74
3.3
數據集成和變換 75
3.3.1
數據集成 75
3.3.2
數據變換 76
3.4
數據歸約 77
3.4.1
數據立方體聚集 77
3.4.2
維歸約 79
3.4.3
數據壓縮 80
3.4.4
數值歸約 82
3.5
離散化和概念分層生成 87
3.5.1
數值數據的離散化和概念分層
生成 88
3.5.2
分類數據的概念分層生成 91
3.6
小結 93
習題 93
文獻注釋 94
第4章
數據挖掘原語、語言和系統
結構 96
4.1
數據挖掘原語:定義數據挖掘任務 96
4.1.1
任務相關的數據 98
4.1.2
要挖掘的知識的類型 99
4.1.3
背景知識:概念分層 100
4.1.4
興趣度度量 102
4.1.5
發(fā)現模式的表示和可視化 104
4.2
一種數據挖掘查詢語言 105
4.2.1
任務相關數據說明的語法 107
4.2.2
指定挖掘知識類型的語法 107
4.2.3
概念分層說明的語法 109
4.2.4
興趣度度量說明的語法 110
4.2.5
模式表示和可視化說明的語法 110
4.2.6
匯集—一個DMQL查詢的例子 111
4.2.7
其他數據挖掘語言和數據挖掘
原語的標準化 112
4.3
根據數據挖掘查詢語言設計圖形
用戶界面 113
4.4
數據挖掘系統的結構 113
4.5
小結 115
習題 115
文獻注釋 117
第5章
概念描述:特征化與比較 119
5.1
什么是概念描述 119
5.2
數據概化和基于匯總的特征化 120
5.2.1
面向屬性的歸納 120
5.2.2
面向屬性歸納的有效實現 124
5.2.3
導出概化的表示 125
5.3
解析特征化:屬性相關分析 128
5.3.1
為什么進行屬性相關分析 129
5.3.2
屬性相關分析方法 129
5.3.3
解析特征化:一個例子 131
5.4
挖掘類比較:區(qū)分不同的類 132
5.4.1
類比較方法和實現 133
5.4.2
類比較描述的表示 135
5.4.3
類描述:特征化和比較的表示 136
5.5
在大型數據庫中挖掘描述統計
度量 137
5.5.1
度量中心趨勢 138
5.5.2
度量數據的離散度 139
5.5.3
基本統計類描述的圖形顯示 141
5.6
討論 144
5.6.1
概念描述:與典型的機器學習方法
比較 144
5.6.2
概念描述的增量挖掘和并行
挖掘 145
5.7
小結 146
習題 146
文獻注釋 147
第6章
挖掘大型數據庫中的關聯規(guī)則 149
6.1
關聯規(guī)則挖掘 149
6.1.1
購物籃分析:一個引發(fā)關聯規(guī)則
挖掘的例子 150
6.1.2
基本概念 150
6.1.3
關聯規(guī)則挖掘:一個路線圖 151
6.2
由事務數據庫挖掘單維布爾關聯
規(guī)則 152
6.2.1
Apriori算法:使用候選項集找
頻繁項集 152
6.2.2
由頻繁項集產生關聯規(guī)則 156
6.2.3
提高Apriori的有效性 157
6.2.4
不產生候選挖掘頻繁項集 158
6.2.5
冰山查詢 161
6.3
由事務數據庫挖掘多層關聯規(guī)則 162
6.3.1
多層關聯規(guī)則 162
6.3.2
挖掘多層關聯規(guī)則的方法 163
6.3.3
檢查冗余的多層關聯規(guī)則 166
6.4
由關系數據庫和數據倉庫挖掘多維
關聯規(guī)則 167
6.4.1
多維關聯規(guī)則 167
6.4.2
使用量化屬性的靜態(tài)離散化挖掘
多維關聯規(guī)則 168
6.4.3
挖掘量化關聯規(guī)則 169
6.4.4
挖掘基于距離的關聯規(guī)則 171
6.5
由關聯挖掘到相關分析 172
6.5.1
強關聯規(guī)則不一定是有趣的:
一個例子 172
6.5.2
由關聯分析到相關分析 173
6.6
基于約束的關聯挖掘 174
6.6.1
關聯規(guī)則的元規(guī)則制導挖掘 174
6.6.2
用附加的規(guī)則約束制導的挖掘 175
6.7
小結 179
習題 180
文獻注釋 183
第7章
分類和預測 185
7.1
什么是分類,什么是預測 185
7.2
關于分類和預測的問題 187
7.2.1
準備分類和預測的數據 187
7.2.2
比較分類方法 187
7.3
用判定樹歸納分類 188
7.3.1
判定樹歸納 189
7.3.2
樹剪枝 192
7.3.3
由判定樹提取分類規(guī)則 192
7.3.4
基本判定樹歸納的加強 193
7.3.5
判定樹歸納的可伸縮性 194
7.3.6
集成數據倉庫技術和判定樹
歸納 195
7.4
貝葉斯分類 196
7.4.1
貝葉斯定理 196
7.4.2
樸素貝葉斯分類 197
7.4.3
貝葉斯信念網絡 199
7.4.4
訓練貝葉斯信念網絡 200
7.5
后向傳播分類 201
7.5.1
多層前饋神經網絡 201
7.5.2
定義網絡拓撲 202
7.5.3
后向傳播 202
7.5.4
后向傳播和可解釋性 206
7.6
基于源自關聯規(guī)則挖掘概念的
分類 207
7.7
其他分類方法 209
7.7.1
k-最臨近分類 209
7.7.2
基于案例的推理 209
7.7.3
遺傳算法 210
7.7.4
粗糙集方法 210
7.7.5
模糊集方法 211
7.8
預測 212
7.8.1
線性回歸和多元回歸 212
7.8.2
非線性回歸 213
7.8.3
其他回歸模型 214
7.9
分類法的準確性 214
7.9.1
評估分類法的準確率 214
7.9.2
提高分類法的準確率 215
7.9.3
準確率足夠判定分類法嗎 216
7.10
小結 217
習題 218
文獻注釋 219
第8章
聚類分析 223
8.1
什么是聚類分析 223
8.2
聚類分析中的數據類型 225
8.2.1
區(qū)間標度變量 226
8.2.2
二元變量 227
8.2.3
標稱型、序數型和比例標度型
變量 228
8.2.4
混合類型的變量 230
8.3
主要聚類方法的分類 231
8.4
劃分方法 232
8.4.1
典型的劃分方法:k-平均
和k-中心點 232
8.4.2
大型數據庫中的劃分方法:從k-中
心點到CLARANS 235
8.5
層次方法 236
8.5.1
凝聚的和分裂的層次聚類 236
8.5.2
BIRCH:利用層次方法的平衡
迭代歸約和聚類 238
8.5.3
CURE:利用代表點聚類 239
8.5.4
Chameleon(變色龍):一個利用
動態(tài)模型的層次聚類算法 240
8.6
基于密度的方法 242
8.6.1
DBSCAN:一個基于高密度連接
區(qū)域的密度聚類方法 242
8.6.2
OPTICS:通過對象排序識別
聚類結構 243
8.6.3
DENCLUE:基于密度分布函數
的聚類 245
8.7
基于網格的方法 246
8.7.1
STING:統計信息網格 247
8.7.2
WaveCluster:采用小波變換聚類 248
8.7.3
CLIQUE:聚類高維空間 249
8.8
基于模型的聚類方法 251
8.8.1
統計學方法 251
8.8.2
神經網絡方法 253
8.9
孤立點分析 254
8.9.1
基于統計的孤立點檢測 255
8.9.2
基于距離的孤立點檢測 256
8.9.3
基于偏離的孤立點檢測 257
8.10
小結 259
習題 260
文獻注釋 261
第9章
復雜類型數據的挖掘 263
9.1
復雜數據對象的多維分析
和描述性挖掘 263
9.1.1
結構化數據的概化 263
9.1.2
空間和多媒體數據概化中的聚集
和近似計算 264
9.1.3
對象標識符和類/子類層次的概化 265
9.1.4
類復合層次的概化 265
9.1.5
對象立方體的構造與挖掘 266
9.1.6
用分而治之方法對規(guī)劃數據庫進行
基于概化的挖掘 266
9.2
空間數據庫挖掘 269
9.2.1
空間數據立方體構造
和空間OLAP 270
9.2.2
空間關聯分析 273
9.2.3
空間聚類方法 273
9.2.4
空間分類和空間趨勢分析 274
9.2.5
光柵數據庫挖掘 274
9.3
多媒體數據庫挖掘 274
9.3.1
多媒體數據的相似性搜索 275
9.3.2
多媒體數據的多維分析 276
9.3.3
多媒體數據的分類和預測分析 277
9.3.4
多媒體數據中的關聯規(guī)則挖掘 277
9.4
時序數據和序列數據的挖掘 278
9.4.1
趨勢分析 279
9.4.2
時序分析中的相似搜索 280
9.4.3
序列模式挖掘 283
9.4.4
周期分析 284
9.5
文本數據庫挖掘 285
9.5.1
文本數據分析和信息檢索 285
9.5.2
文本挖掘:基于關鍵字的關聯和
文檔分類 289
9.6
Web挖掘 290
9.6.1
挖掘Web鏈接結構,識別權威
Web頁面 291
9.6.2
Web文檔的自動分類 293
9.6.3
多層Web信息庫的構造 293
9.6.4
Web使用記錄的挖掘 294
9.7
小結 295
習題 296
文獻注釋 297
第10章
數據挖掘的應用和發(fā)展趨勢 301
10.1
數據挖掘的應用 301
10.1.1
針對生物醫(yī)學和DNA數據分析
的數據挖掘 301
10.1.2
針對金融數據分析的數據挖掘 302
10.1.3
零售業(yè)中的數據挖掘 303
10.1.4
電信業(yè)中的數據挖掘 304
10.2
數據挖掘系統產品和研究原型 305
10.2.1
怎樣選擇一個數據挖掘系統 305
10.2.2
商用數據挖掘系統的例子 307
10.3
數據挖掘的其他主題 308
10.3.1
視頻和音頻數據挖掘 308
10.3.2
科學和統計數據挖掘 311
10.3.3
數據挖掘的理論基礎 312
10.3.4
數據挖掘和智能查詢應答 313
10.4
數據挖掘的社會影響 314
10.4.1
數據挖掘是宣傳出來的還是持久
的穩(wěn)定增長的商業(yè) 314
10.4.2
數據挖掘只是經理的事還是
每個人的事 316
10.4.3
數據挖掘對隱私或數據安全構
成威脅嗎 317
10.5
數據挖掘的發(fā)展趨勢 318
10.6
小結 319
習題 320
文獻注釋 321
附錄A
Microsoft´s OLE DB for Data
Mining簡介 323
A.1
創(chuàng)建DMM對象 324
A.2
向模型裝入訓練數據并對模型
進行訓練 325
A.3
模型的使用 325
附錄B
DBMiner簡介 328
B.1
系統結構 328
B.2
輸入和輸出 329
B.3
系統支持的數據挖掘任務 329
B.4
對任務和方法選擇的支持 332
B.5
對KDD處理過程的支持 332
B.6
主要應用 332
B.7
現狀 332
參考文獻 333
索引 362

本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號