注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫數(shù)據(jù)庫挖掘/數(shù)據(jù)倉庫數(shù)據(jù)挖掘:概念與技術(shù)

數(shù)據(jù)挖掘:概念與技術(shù)

數(shù)據(jù)挖掘:概念與技術(shù)

定 價:¥35.00

作 者: (美)Jiawei Han,(美)Micheline Kamber著
出版社: 高等教育出版社
叢編項: 國外優(yōu)秀信息科學(xué)與技術(shù)系列教學(xué)用書
標(biāo) 簽: 數(shù)據(jù)庫存儲與管理

ISBN: 9787040100419 出版時間: 2001-05-01 包裝: 平裝
開本: 23cm 頁數(shù): 550 字?jǐn)?shù):  

內(nèi)容簡介

  本書闡述了數(shù)據(jù)挖掘(通常稱為數(shù)據(jù)庫知識發(fā)現(xiàn))的概念、方法和應(yīng)用。從強(qiáng)調(diào)數(shù)據(jù)分析入手,介紹了數(shù)據(jù)庫和數(shù)據(jù)挖掘的概念,指出數(shù)據(jù)挖掘是對大型數(shù)據(jù)庫、數(shù)據(jù)構(gòu)件庫和其他大型信息資源中標(biāo)識知識含義的那些類型的自動的或便捷的提取,并通過一個通用的框架回顧了當(dāng)前的市場可供產(chǎn)品。數(shù)據(jù)挖掘是一個跨學(xué)科的知識領(lǐng)域,汲取了數(shù)據(jù)庫技術(shù)、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計學(xué)、模式識別、知識庫系統(tǒng)、知識獲取、信息檢索、高性能計算、數(shù)據(jù)可視化等方面的成果,本書內(nèi)容從數(shù)據(jù)庫的視角,描述了數(shù)據(jù)挖掘系統(tǒng)的原型、結(jié)構(gòu)、特征、方法,重點(diǎn)講解了數(shù)據(jù)挖掘的可行性、實用性、有效性和大型數(shù)據(jù)庫中模型發(fā)現(xiàn)的可測量性等問題。本書逐章講解了數(shù)據(jù)分類、預(yù)測、聯(lián)結(jié)和分組的概念和技術(shù),這些專題都配有實例,對各類問題都分別列舉了最佳算法,并對怎樣運(yùn)用技術(shù)給出了經(jīng)過實踐檢驗的實用型規(guī)則。這種講述方式?jīng)Q定了本書的可讀性強(qiáng),能夠使讀者從中學(xué)到數(shù)據(jù)挖掘領(lǐng)域的知識,了解產(chǎn)業(yè)最新動向。本書適用于計算機(jī)科學(xué)系的學(xué)生、應(yīng)用軟件開發(fā)人員、商業(yè)領(lǐng)域的專家和相關(guān)知識領(lǐng)域的科技研究人員。內(nèi)容:1. 數(shù)據(jù)挖掘簡介 2. 數(shù)據(jù)構(gòu)件庫和數(shù)據(jù)挖掘中的在線分析處理技術(shù) 3. 數(shù)據(jù)處理 4. 數(shù)據(jù)挖掘原型、語言和系統(tǒng)結(jié)構(gòu) 5. 概念描述:特征與對比 6. 大型數(shù)據(jù)庫中的挖掘聯(lián)結(jié)規(guī)則 7. 分類和預(yù)測 8. 分組分析9. 挖掘復(fù)合數(shù)據(jù)類型 10. 數(shù)據(jù)挖掘應(yīng)用及趨勢 附錄一 微軟公司數(shù)據(jù)挖掘的對象鏈接和嵌入數(shù)據(jù)庫 附錄二 數(shù)據(jù)庫挖掘器簡介

作者簡介

  Jiawei Han is director of the Intelligent Database Systems research Laboratory and professor in the School of Computing Science at Simon Fraser University.Well dnown for his research in the areas of data mining and data-base systems,he has served on program committees for dozens of international conferences and workshops and on editorial boards for several journals,including IEEE Transactiona on Knowledge and Data Engineering and Data Mining and Knowledge Discovery.Micheline Damber is a researcher adn freelance technical writer with an M.S.in computer science.She is a member of the Intelligent Database Systems Research Laboratory at Simon Fraser University.

圖書目錄

譯者序

前言
第1章
引言 1
1.1
什么激發(fā)了數(shù)據(jù)挖掘,為什么
它是重要的 1
1.2
什么是數(shù)據(jù)挖掘 3
1.3
在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘 6
1.3.1
關(guān)系數(shù)據(jù)庫 7
1.3.2
數(shù)據(jù)倉庫 8
1.3.3
事務(wù)數(shù)據(jù)庫 10
1.3.4
高級數(shù)據(jù)庫系統(tǒng)和高級數(shù)據(jù)庫
應(yīng)用 11
1.4
數(shù)據(jù)挖掘功能—可以挖掘什么
類型的模式 14
1.4.1
概念/類描述:特征化和區(qū)分 14
1.4.2
關(guān)聯(lián)分析 15
1.4.3
分類和預(yù)測 16
1.4.4
聚類分析 16
1.4.5
孤立點(diǎn)分析 17
1.4.6
演變分析 17
1.5
所有模式都是有趣的嗎 18
1.6
數(shù)據(jù)挖掘系統(tǒng)的分類 19
1.7
數(shù)據(jù)挖掘的主要問題 20
1.8
小結(jié) 22
習(xí)題 22
文獻(xiàn)注釋 23
第2章
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP
技術(shù) 26
2.1
什么是數(shù)據(jù)倉庫 26
2.1.1
操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的
區(qū)別 27
2.1.2
為什么需要一個分離的數(shù)據(jù)倉庫 29
2.2
多維數(shù)據(jù)模型 29
2.2.1
由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體 29
2.2.2
星型、雪花和事實星座:多維數(shù)
據(jù)庫模式 32
2.2.3
定義星型、雪花和事實星座模式的
例子 34
2.2.4
度量的分類和計算 36
2.2.5
引入概念分層 37
2.2.6
多維數(shù)據(jù)模型上的OLAP操作 39
2.2.7
查詢多維數(shù)據(jù)庫的星型網(wǎng)查詢模型 41
2.3
數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu) 42
2.3.1
數(shù)據(jù)倉庫的設(shè)計步驟和結(jié)構(gòu) 42
2.3.2
三層數(shù)據(jù)倉庫結(jié)構(gòu) 44
2.3.3
OLAP服務(wù)器類型:ROLAP,MOLAP,
HOLAP的比較 46
2.4
數(shù)據(jù)倉庫實現(xiàn) 47
2.4.1
數(shù)據(jù)立方體的有效計算 47
2.4.2
索引OLAP數(shù)據(jù) 52
2.4.3
OLAP查詢的有效處理 54
2.4.4
元數(shù)據(jù)存儲 55
2.4.5
數(shù)據(jù)倉庫后端工具和實用程序 56
2.5
數(shù)據(jù)立方體技術(shù)的進(jìn)一步發(fā)展 56
2.5.1
數(shù)據(jù)立方體發(fā)現(xiàn)驅(qū)動的探查 56
2.5.2
多粒度上的復(fù)雜聚集:多特征方 59
2.5.3
其他進(jìn)展 61
2.6
從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘 61
2.6.1
數(shù)據(jù)倉庫的使用 62
2.6.2
從聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘 63
2.7
小結(jié) 65
習(xí)題 66
文獻(xiàn)注釋 68
第3章
數(shù)據(jù)預(yù)處理 70
3.1
為什么要預(yù)處理數(shù)據(jù) 70
3.2
數(shù)據(jù)清理 72
3.2.1
空缺值 72
3.2.2
噪聲數(shù)據(jù) 73
3.2.3
不一致數(shù)據(jù) 74
3.3
數(shù)據(jù)集成和變換 75
3.3.1
數(shù)據(jù)集成 75
3.3.2
數(shù)據(jù)變換 76
3.4
數(shù)據(jù)歸約 77
3.4.1
數(shù)據(jù)立方體聚集 77
3.4.2
維歸約 79
3.4.3
數(shù)據(jù)壓縮 80
3.4.4
數(shù)值歸約 82
3.5
離散化和概念分層生成 87
3.5.1
數(shù)值數(shù)據(jù)的離散化和概念分層
生成 88
3.5.2
分類數(shù)據(jù)的概念分層生成 91
3.6
小結(jié) 93
習(xí)題 93
文獻(xiàn)注釋 94
第4章
數(shù)據(jù)挖掘原語、語言和系統(tǒng)
結(jié)構(gòu) 96
4.1
數(shù)據(jù)挖掘原語:定義數(shù)據(jù)挖掘任務(wù) 96
4.1.1
任務(wù)相關(guān)的數(shù)據(jù) 98
4.1.2
要挖掘的知識的類型 99
4.1.3
背景知識:概念分層 100
4.1.4
興趣度度量 102
4.1.5
發(fā)現(xiàn)模式的表示和可視化 104
4.2
一種數(shù)據(jù)挖掘查詢語言 105
4.2.1
任務(wù)相關(guān)數(shù)據(jù)說明的語法 107
4.2.2
指定挖掘知識類型的語法 107
4.2.3
概念分層說明的語法 109
4.2.4
興趣度度量說明的語法 110
4.2.5
模式表示和可視化說明的語法 110
4.2.6
匯集—一個DMQL查詢的例子 111
4.2.7
其他數(shù)據(jù)挖掘語言和數(shù)據(jù)挖掘
原語的標(biāo)準(zhǔn)化 112
4.3
根據(jù)數(shù)據(jù)挖掘查詢語言設(shè)計圖形
用戶界面 113
4.4
數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 113
4.5
小結(jié) 115
習(xí)題 115
文獻(xiàn)注釋 117
第5章
概念描述:特征化與比較 119
5.1
什么是概念描述 119
5.2
數(shù)據(jù)概化和基于匯總的特征化 120
5.2.1
面向?qū)傩缘臍w納 120
5.2.2
面向?qū)傩詺w納的有效實現(xiàn) 124
5.2.3
導(dǎo)出概化的表示 125
5.3
解析特征化:屬性相關(guān)分析 128
5.3.1
為什么進(jìn)行屬性相關(guān)分析 129
5.3.2
屬性相關(guān)分析方法 129
5.3.3
解析特征化:一個例子 131
5.4
挖掘類比較:區(qū)分不同的類 132
5.4.1
類比較方法和實現(xiàn) 133
5.4.2
類比較描述的表示 135
5.4.3
類描述:特征化和比較的表示 136
5.5
在大型數(shù)據(jù)庫中挖掘描述統(tǒng)計
度量 137
5.5.1
度量中心趨勢 138
5.5.2
度量數(shù)據(jù)的離散度 139
5.5.3
基本統(tǒng)計類描述的圖形顯示 141
5.6
討論 144
5.6.1
概念描述:與典型的機(jī)器學(xué)習(xí)方法
比較 144
5.6.2
概念描述的增量挖掘和并行
挖掘 145
5.7
小結(jié) 146
習(xí)題 146
文獻(xiàn)注釋 147
第6章
挖掘大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則 149
6.1
關(guān)聯(lián)規(guī)則挖掘 149
6.1.1
購物籃分析:一個引發(fā)關(guān)聯(lián)規(guī)則
挖掘的例子 150
6.1.2
基本概念 150
6.1.3
關(guān)聯(lián)規(guī)則挖掘:一個路線圖 151
6.2
由事務(wù)數(shù)據(jù)庫挖掘單維布爾關(guān)聯(lián)
規(guī)則 152
6.2.1
Apriori算法:使用候選項集找
頻繁項集 152
6.2.2
由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則 156
6.2.3
提高Apriori的有效性 157
6.2.4
不產(chǎn)生候選挖掘頻繁項集 158
6.2.5
冰山查詢 161
6.3
由事務(wù)數(shù)據(jù)庫挖掘多層關(guān)聯(lián)規(guī)則 162
6.3.1
多層關(guān)聯(lián)規(guī)則 162
6.3.2
挖掘多層關(guān)聯(lián)規(guī)則的方法 163
6.3.3
檢查冗余的多層關(guān)聯(lián)規(guī)則 166
6.4
由關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫挖掘多維
關(guān)聯(lián)規(guī)則 167
6.4.1
多維關(guān)聯(lián)規(guī)則 167
6.4.2
使用量化屬性的靜態(tài)離散化挖掘
多維關(guān)聯(lián)規(guī)則 168
6.4.3
挖掘量化關(guān)聯(lián)規(guī)則 169
6.4.4
挖掘基于距離的關(guān)聯(lián)規(guī)則 171
6.5
由關(guān)聯(lián)挖掘到相關(guān)分析 172
6.5.1
強(qiáng)關(guān)聯(lián)規(guī)則不一定是有趣的:
一個例子 172
6.5.2
由關(guān)聯(lián)分析到相關(guān)分析 173
6.6
基于約束的關(guān)聯(lián)挖掘 174
6.6.1
關(guān)聯(lián)規(guī)則的元規(guī)則制導(dǎo)挖掘 174
6.6.2
用附加的規(guī)則約束制導(dǎo)的挖掘 175
6.7
小結(jié) 179
習(xí)題 180
文獻(xiàn)注釋 183
第7章
分類和預(yù)測 185
7.1
什么是分類,什么是預(yù)測 185
7.2
關(guān)于分類和預(yù)測的問題 187
7.2.1
準(zhǔn)備分類和預(yù)測的數(shù)據(jù) 187
7.2.2
比較分類方法 187
7.3
用判定樹歸納分類 188
7.3.1
判定樹歸納 189
7.3.2
樹剪枝 192
7.3.3
由判定樹提取分類規(guī)則 192
7.3.4
基本判定樹歸納的加強(qiáng) 193
7.3.5
判定樹歸納的可伸縮性 194
7.3.6
集成數(shù)據(jù)倉庫技術(shù)和判定樹
歸納 195
7.4
貝葉斯分類 196
7.4.1
貝葉斯定理 196
7.4.2
樸素貝葉斯分類 197
7.4.3
貝葉斯信念網(wǎng)絡(luò) 199
7.4.4
訓(xùn)練貝葉斯信念網(wǎng)絡(luò) 200
7.5
后向傳播分類 201
7.5.1
多層前饋神經(jīng)網(wǎng)絡(luò) 201
7.5.2
定義網(wǎng)絡(luò)拓?fù)?202
7.5.3
后向傳播 202
7.5.4
后向傳播和可解釋性 206
7.6
基于源自關(guān)聯(lián)規(guī)則挖掘概念的
分類 207
7.7
其他分類方法 209
7.7.1
k-最臨近分類 209
7.7.2
基于案例的推理 209
7.7.3
遺傳算法 210
7.7.4
粗糙集方法 210
7.7.5
模糊集方法 211
7.8
預(yù)測 212
7.8.1
線性回歸和多元回歸 212
7.8.2
非線性回歸 213
7.8.3
其他回歸模型 214
7.9
分類法的準(zhǔn)確性 214
7.9.1
評估分類法的準(zhǔn)確率 214
7.9.2
提高分類法的準(zhǔn)確率 215
7.9.3
準(zhǔn)確率足夠判定分類法嗎 216
7.10
小結(jié) 217
習(xí)題 218
文獻(xiàn)注釋 219
第8章
聚類分析 223
8.1
什么是聚類分析 223
8.2
聚類分析中的數(shù)據(jù)類型 225
8.2.1
區(qū)間標(biāo)度變量 226
8.2.2
二元變量 227
8.2.3
標(biāo)稱型、序數(shù)型和比例標(biāo)度型
變量 228
8.2.4
混合類型的變量 230
8.3
主要聚類方法的分類 231
8.4
劃分方法 232
8.4.1
典型的劃分方法:k-平均
和k-中心點(diǎn) 232
8.4.2
大型數(shù)據(jù)庫中的劃分方法:從k-中
心點(diǎn)到CLARANS 235
8.5
層次方法 236
8.5.1
凝聚的和分裂的層次聚類 236
8.5.2
BIRCH:利用層次方法的平衡
迭代歸約和聚類 238
8.5.3
CURE:利用代表點(diǎn)聚類 239
8.5.4
Chameleon(變色龍):一個利用
動態(tài)模型的層次聚類算法 240
8.6
基于密度的方法 242
8.6.1
DBSCAN:一個基于高密度連接
區(qū)域的密度聚類方法 242
8.6.2
OPTICS:通過對象排序識別
聚類結(jié)構(gòu) 243
8.6.3
DENCLUE:基于密度分布函數(shù)
的聚類 245
8.7
基于網(wǎng)格的方法 246
8.7.1
STING:統(tǒng)計信息網(wǎng)格 247
8.7.2
WaveCluster:采用小波變換聚類 248
8.7.3
CLIQUE:聚類高維空間 249
8.8
基于模型的聚類方法 251
8.8.1
統(tǒng)計學(xué)方法 251
8.8.2
神經(jīng)網(wǎng)絡(luò)方法 253
8.9
孤立點(diǎn)分析 254
8.9.1
基于統(tǒng)計的孤立點(diǎn)檢測 255
8.9.2
基于距離的孤立點(diǎn)檢測 256
8.9.3
基于偏離的孤立點(diǎn)檢測 257
8.10
小結(jié) 259
習(xí)題 260
文獻(xiàn)注釋 261
第9章
復(fù)雜類型數(shù)據(jù)的挖掘 263
9.1
復(fù)雜數(shù)據(jù)對象的多維分析
和描述性挖掘 263
9.1.1
結(jié)構(gòu)化數(shù)據(jù)的概化 263
9.1.2
空間和多媒體數(shù)據(jù)概化中的聚集
和近似計算 264
9.1.3
對象標(biāo)識符和類/子類層次的概化 265
9.1.4
類復(fù)合層次的概化 265
9.1.5
對象立方體的構(gòu)造與挖掘 266
9.1.6
用分而治之方法對規(guī)劃數(shù)據(jù)庫進(jìn)行
基于概化的挖掘 266
9.2
空間數(shù)據(jù)庫挖掘 269
9.2.1
空間數(shù)據(jù)立方體構(gòu)造
和空間OLAP 270
9.2.2
空間關(guān)聯(lián)分析 273
9.2.3
空間聚類方法 273
9.2.4
空間分類和空間趨勢分析 274
9.2.5
光柵數(shù)據(jù)庫挖掘 274
9.3
多媒體數(shù)據(jù)庫挖掘 274
9.3.1
多媒體數(shù)據(jù)的相似性搜索 275
9.3.2
多媒體數(shù)據(jù)的多維分析 276
9.3.3
多媒體數(shù)據(jù)的分類和預(yù)測分析 277
9.3.4
多媒體數(shù)據(jù)中的關(guān)聯(lián)規(guī)則挖掘 277
9.4
時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘 278
9.4.1
趨勢分析 279
9.4.2
時序分析中的相似搜索 280
9.4.3
序列模式挖掘 283
9.4.4
周期分析 284
9.5
文本數(shù)據(jù)庫挖掘 285
9.5.1
文本數(shù)據(jù)分析和信息檢索 285
9.5.2
文本挖掘:基于關(guān)鍵字的關(guān)聯(lián)和
文檔分類 289
9.6
Web挖掘 290
9.6.1
挖掘Web鏈接結(jié)構(gòu),識別權(quán)威
Web頁面 291
9.6.2
Web文檔的自動分類 293
9.6.3
多層Web信息庫的構(gòu)造 293
9.6.4
Web使用記錄的挖掘 294
9.7
小結(jié) 295
習(xí)題 296
文獻(xiàn)注釋 297
第10章
數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢 301
10.1
數(shù)據(jù)挖掘的應(yīng)用 301
10.1.1
針對生物醫(yī)學(xué)和DNA數(shù)據(jù)分析
的數(shù)據(jù)挖掘 301
10.1.2
針對金融數(shù)據(jù)分析的數(shù)據(jù)挖掘 302
10.1.3
零售業(yè)中的數(shù)據(jù)挖掘 303
10.1.4
電信業(yè)中的數(shù)據(jù)挖掘 304
10.2
數(shù)據(jù)挖掘系統(tǒng)產(chǎn)品和研究原型 305
10.2.1
怎樣選擇一個數(shù)據(jù)挖掘系統(tǒng) 305
10.2.2
商用數(shù)據(jù)挖掘系統(tǒng)的例子 307
10.3
數(shù)據(jù)挖掘的其他主題 308
10.3.1
視頻和音頻數(shù)據(jù)挖掘 308
10.3.2
科學(xué)和統(tǒng)計數(shù)據(jù)挖掘 311
10.3.3
數(shù)據(jù)挖掘的理論基礎(chǔ) 312
10.3.4
數(shù)據(jù)挖掘和智能查詢應(yīng)答 313
10.4
數(shù)據(jù)挖掘的社會影響 314
10.4.1
數(shù)據(jù)挖掘是宣傳出來的還是持久
的穩(wěn)定增長的商業(yè) 314
10.4.2
數(shù)據(jù)挖掘只是經(jīng)理的事還是
每個人的事 316
10.4.3
數(shù)據(jù)挖掘?qū)﹄[私或數(shù)據(jù)安全構(gòu)
成威脅嗎 317
10.5
數(shù)據(jù)挖掘的發(fā)展趨勢 318
10.6
小結(jié) 319
習(xí)題 320
文獻(xiàn)注釋 321
附錄A
Microsoft´s OLE DB for Data
Mining簡介 323
A.1
創(chuàng)建DMM對象 324
A.2
向模型裝入訓(xùn)練數(shù)據(jù)并對模型
進(jìn)行訓(xùn)練 325
A.3
模型的使用 325
附錄B
DBMiner簡介 328
B.1
系統(tǒng)結(jié)構(gòu) 328
B.2
輸入和輸出 329
B.3
系統(tǒng)支持的數(shù)據(jù)挖掘任務(wù) 329
B.4
對任務(wù)和方法選擇的支持 332
B.5
對KDD處理過程的支持 332
B.6
主要應(yīng)用 332
B.7
現(xiàn)狀 332
參考文獻(xiàn) 333
索引 362

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號