數(shù)據(jù)挖掘原理與算法（高等學校教材）

定　價：￥28.00

作　者：	毛國君、段立娟、王實、石云
出版社：	清華大學出版社
叢編項：	高等學校教材·計算機科學與技術
標　簽：	數(shù)據(jù)庫存儲與管理

購買這本書可以去

ISBN：	9787302106319	出版時間：	2003-08-01	包裝：	平裝
開本：	16開	頁數(shù)：	314	字數(shù)：

內容簡介

　　本書是一本全面介紹數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術的專業(yè)書籍。系統(tǒng)化地闡述了數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術的產生、發(fā)展、應用和相關概念、原理、算法。對數(shù)據(jù)挖掘中的主要技術分支，包括關聯(lián)規(guī)則、分類、聚類、序列、空間以及Web挖掘等進行了理論剖析和算法描述。本書的許多工作是作者們在攻讀博士學位期間的工作總結，一方面，對于相關概念和技術的闡述盡量先從理論分析入手，在此基礎上進行技術歸納。另一方面，為了保證技術的系統(tǒng)性，所有的挖掘模型和算法描述都在統(tǒng)一的技術歸納框架下進行。同時，為了避免抽象算法描述給讀者帶來的理解困難，本書的所有典型算法都通過具體跟蹤執(zhí)行實例來進一步說明。本書共分8章，各章相對獨立成篇，以利于讀者選擇性學習。在每章后面都設置專門一節(jié)來對本章內容和文獻引用情況進行歸納，它不僅可以幫助讀者對相關內容進行整理，而且也起到對本內容相關文獻的注釋性索引功能。第1章是緒論，系統(tǒng)地介紹了數(shù)據(jù)挖掘產生的商業(yè)和技術背景，從不同側面剖析了數(shù)據(jù)挖掘的概念和應用價值；第2章給出了知識發(fā)現(xiàn)的過程分析和應用體系結構設計；第3章對關聯(lián)規(guī)則挖掘的原理和算法進行全面闡述；第4章給出分類的主要理論和算法描述；第5章討論聚類的常用技術和算法；第6章對時間序列分析技術和序列挖掘算法進行論述；第7章系統(tǒng)地介紹了Web挖掘的主要研究領域和相關技術及算法；第8章是對空間數(shù)據(jù)挖掘技術和算法的分析和講述。本書可作為計算機專業(yè)研究生或高年級本科生教材，也可以作為從事計算機研究和開發(fā)人員的參考資料。作為教材，教師可以根據(jù)課時安排進行選擇性教學。對于研究人員，本書是一本高參考價值的專業(yè)書籍。對于軟件技術人員，可以把它當作提高用書或參考資料，一些算法可以通過改造用于實際的應用系統(tǒng)中。

作者簡介

暫缺《數(shù)據(jù)挖掘原理與算法（高等學校教材）》作者簡介

圖書目錄

第1章緒論 1
1.1 數(shù)據(jù)挖掘技術的產生與發(fā)展 1
1.1.1 數(shù)據(jù)挖掘技術的商業(yè)需求分析 1
1.1.2 數(shù)據(jù)挖掘產生的技術背景分析 3
1.2 數(shù)據(jù)挖掘研究的發(fā)展趨勢 4
1.3 數(shù)據(jù)挖掘的概念 6
1.3.1 從商業(yè)角度看數(shù)據(jù)挖掘技術 7
1.3.2 數(shù)據(jù)挖掘的技術含義 7
1.3.3 數(shù)據(jù)挖掘研究的理論基礎 8
1.4 數(shù)據(jù)挖掘技術的分類問題 10
1.5 數(shù)據(jù)挖掘常用的知識表示模式與方法 11
1.5.1 廣義知識挖掘 11
1.5.2 關聯(lián)知識挖掘 13
1.5.3 類知識挖掘 14
1.5.4 預測型知識挖掘 19
1.5.5 特異型知識挖掘 20
1.6 不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題 21
1.6.1 事務數(shù)據(jù)庫中的數(shù)據(jù)挖掘 21
1.6.2 關系型數(shù)據(jù)庫中的數(shù)據(jù)挖掘 21
1.6.3 數(shù)據(jù)倉庫中的數(shù)據(jù)挖掘 23
1.6.4 在關系模型基礎上發(fā)展的新型數(shù)據(jù)庫中的數(shù)據(jù)挖掘 23
1.6.5 面向應用的新型數(shù)據(jù)源中的數(shù)據(jù)挖掘 24
1.6.6 Web數(shù)據(jù)源中的數(shù)據(jù)挖掘 24
1.7 粗糙集方法及其在數(shù)據(jù)挖掘中的應用 26
1.7.1 粗糙集的一些重要概念 26
1.7.2 粗糙集應用舉例 27
1.7.3 粗糙集方法在KDD中的應用范圍 29
1.8 數(shù)據(jù)挖掘的應用分析 29
1.8.1 數(shù)據(jù)挖掘與CRM 29
1.8.2 數(shù)據(jù)挖掘應用的成功案例分析 30
1.9 本章小結和文獻注釋 32
第2章知識發(fā)現(xiàn)過程與應用結構 37
2.1 知識發(fā)現(xiàn)的基本過程 37
2.1.1 數(shù)據(jù)抽取與集成 38
2.1.2 數(shù)據(jù)清洗與預處理 39
2.1.3 數(shù)據(jù)的選擇與整理 39
2.1.4 數(shù)據(jù)挖掘 40
2.1.5 模式評估 40
2.2 數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型 41
2.2.1 階梯處理過程模型 41
2.2.2 螺旋處理過程模型 42
2.2.3 以用戶為中心的處理模型 43
2.2.4 聯(lián)機KDD模型 45
2.2.5 支持多數(shù)據(jù)源多知識模式的KDD處理模型 46
2.3 知識發(fā)現(xiàn)軟件或工具的發(fā)展 49
2.3.1 獨立的知識發(fā)現(xiàn)軟件 49
2.3.2 橫向的知識發(fā)現(xiàn)工具 49
2.3.3 縱向的知識發(fā)現(xiàn)解決方案 50
2.3.4 KDD系統(tǒng)介紹 50
2.4 知識發(fā)現(xiàn)項目的過程化管理 53
2.5 數(shù)據(jù)挖掘語言介紹 54
2.5.1 數(shù)據(jù)挖掘語言的分類 54
2.5.2 數(shù)據(jù)挖掘查詢語言 55
2.5.3 數(shù)據(jù)挖掘建模語言 56
2.5.4 通用數(shù)據(jù)挖掘語言 57
2.5.5 DMQL挖掘查詢語言介紹 59
2.6 本章小結和文獻注釋 62
第3章關聯(lián)規(guī)則挖掘理論和算法 64
3.1 基本概念與解決方法 64
3.2 經典的頻繁項目集生成算法分析 65
3.2.1 項目集格空間理論 65
3.2.2 經典的發(fā)現(xiàn)頻繁項目集算法 66
3.2.3 關聯(lián)規(guī)則生成算法 68
3.3 Apriori算法的性能瓶頸問題 70
3.4 Apriori的改進算法 71
3.4.1 基于數(shù)據(jù)分割（Partition）的方法 71
3.4.2 基于散列（Hash）的方法 72
3.4.3 基于采樣（Sampling）的方法 73
3.5 項目集格空間理論的發(fā)展 74
3.5.1 Close算法 74
3.5.2 FP-tree算法 79
3.6 項目序列集格空間和它的操作 83
3.7 基于項目序列集操作的關聯(lián)規(guī)則挖掘算法 85
3.7.1 關聯(lián)規(guī)則挖掘空間 85
3.7.2 三個實用算子 85
3.7.3 最大頻繁項目序列集的生成算法 87
3.7.4 ISS-DM算法執(zhí)行示例 87
3.8 改善關聯(lián)規(guī)則挖掘質量問題 88
3.8.1 用戶主觀層面 88
3.8.2 系統(tǒng)客觀層面 89
3.9 約束數(shù)據(jù)挖掘問題 89
3.9.1 約束在數(shù)據(jù)挖掘中的作用 89
3.9.2 約束的類型 90
3.10 時態(tài)約束關聯(lián)規(guī)則挖掘 93
3.11 關聯(lián)規(guī)則挖掘中的一些更深入的問題 96
3.11.1 多層次關聯(lián)規(guī)則挖掘 96
3.11.2 多維關聯(lián)規(guī)則挖掘 97
3.11.3 數(shù)量關聯(lián)規(guī)則挖掘 98
3.12 數(shù)量關聯(lián)規(guī)則挖掘方法 99
3.12.1 數(shù)量關聯(lián)規(guī)則挖掘問題 99
3.12.2 數(shù)量關聯(lián)規(guī)則的分類 100
3.12.3 數(shù)量關聯(lián)規(guī)則挖掘的一般步驟 101
3.12.4 數(shù)值屬性離散化問題及算法 103
3.13 本章小結和文獻注釋 106
第4章分類方法 109
4.1 分類的基本概念與步驟 109
4.2 基于距離的分類算法 111
4.3 決策樹分類方法 114
4.3.1 決策樹基本算法概述 115
4.3.2 ID3算法 117
4.3.3 C4.5算法 123
4.4 貝葉斯分類 127
4.4.1 貝葉斯定理 127
4.4.2 樸素貝葉斯分類 128
4.4.3 EM算法 130
4.5 規(guī)則歸納 134
4.5.1 AQ算法 135
4.5.2 CN2算法 138
4.5.3 FOIL算法 146
4.6 與分類有關的其他問題 150
4.6.1 分類數(shù)據(jù)預處理 150
4.6.2 分類器性能的表示與評估 151
4.7 本章小結和文獻注釋 153
第5章聚類方法 156
5.1 概述 156
5.1.1 聚類分析在數(shù)據(jù)挖掘中的應用 157
5.1.2 聚類分析算法的概念與基本分類 158
5.1.3 距離與相似性的度量 160
5.2 劃分聚類方法 163
5.2.1 k-平均算法 164
5.2.2 PAM 166
5.2.3 其他方法 170
5.3 層次聚類方法 170
5.3.1 AGNES算法 171
5.3.2 DIANA算法 172
5.3.3 其他聚類方法 174
5.4 密度聚類方法 175
5.5 其他聚類方法 178
5.5.1 STING算法 179
5.5.2 SOM算法 180
5.5.3 COBWEB算法 180
5.5.4 模糊聚類算法FCM 181
5.6 本章小結和文獻注釋 181
第6章時間序列和序列模式挖掘 183
6.1 時間序列及其應用 183
6.2 時間序列預測的常用方法 184
6.2.1 確定性時間序列預測方法 184
6.2.2 隨機時間序列預測方法 185
6.2.3 其他方法 185
6.3 基于ARMA模型的序列匹配方法 185
6.3.1 基本概念 185
6.3.2 利用基本概念建立模型 186
6.3.3 構造判別函數(shù) 187
6.4 基于離散富里葉變換的時間序列相似性查找 188
6.4.1 完全匹配 189
6.4.2 子序列匹配 190
6.5 基于規(guī)范變換的查找方法 192
6.5.1 基本概念 193
6.5.2 查找方法 193
6.6 序列挖掘 195
6.6.1 基本概念 196
6.6.2 數(shù)據(jù)源的形式 196
6.6.3 序列模式挖掘的一般步驟 198
6.7 AprioriAll 算法 199
6.8 AprioriSome 算法 202
6.9 GSP算法 205
6.10 本章小結和文獻注釋 207
第7章 Web挖掘技術 211
7.1 Web挖掘的意義 211
7.2 Web挖掘的分類 212
7.3 Web挖掘的含義 213
7.3.1 Web挖掘與信息檢索 214
7.3.2 Web挖掘與信息抽取 214
7.4 Web挖掘的數(shù)據(jù)來源 215
7.4.1 服務器日志數(shù)據(jù) 215
7.4.2 在線市場數(shù)據(jù) 216
7.4.3 Web頁面 216
7.4.4 Web頁面超鏈接關系 216
7.4.5 其他信息 217
7.5 Web內容挖掘方法 217
7.5.1 爬蟲與Web內容挖掘 218
7.5.2 虛擬的Web視圖 218
7.5.3 個性化與Web內容挖掘 219
7.5.4 對Web頁面內文本信息的挖掘 219
7.5.5 對Web頁面內多媒體信息挖掘 220
7.5.6 Web頁面內容的預處理 220
7.6 Web訪問信息挖掘方法 221
7.6.1 Web訪問信息挖掘的特點和意義 221
7.6.2 Web訪問信息挖掘的意義 223
7.6.3 Web訪問信息挖掘的數(shù)據(jù)源 224
7.6.4 Web訪問信息挖掘的預處理 227
7.6.5 其他信息的預處理技術 231
7.6.6 在Web訪問挖掘中的常用技術 233
7.6.7 Web訪問信息挖掘的要素構成 234
7.6.8 利用Web訪問信息挖掘實現(xiàn)用戶建模 235
7.6.9 利用Web訪問信息挖掘發(fā)現(xiàn)導航模式 237
7.6.10 利用Web訪問信息挖掘改進訪問效率 239
7.6.11 利用Web訪問信息挖掘進行個性化服務 240
7.6.12 利用Web訪問信息挖掘進行商業(yè)智能發(fā)現(xiàn) 242
7.6.13 利用Web訪問信息挖掘進行用戶移動模式發(fā)現(xiàn) 243
7.6.14 利用協(xié)作推薦的方法實現(xiàn)實時個性化推薦的例子 244
7.7 Web結構挖掘方法 247
7.7.1 頁面重要性的評價方法 247
7.7.2 頁面等級 248
7.7.3 權威頁面和中心頁面 248
7.7.4 Web站點結構的預處理 249
7.8 本章小結和文獻注釋 251
第8章空間挖掘 256
8.1 引言 256
8.2 空間數(shù)據(jù)概要 257
8.2.1 空間數(shù)據(jù)的復雜性特征 257
8.2.2 空間查詢問題 258
8.2.3 空間數(shù)據(jù)結構 259
8.2.4 專題地圖 263
8.3 空間數(shù)據(jù)挖掘基礎 264
8.4 空間統(tǒng)計學 265
8.5 泛化與特化 266
8.5.1 逐步求精 266
8.5.2 泛化 267
8.5.3 最臨近 268
8.5.4 統(tǒng)計信息網格方法STING 268
8.6 空間規(guī)則 270
8.7 空間分類算法 272
8.7.1 ID3擴展 273
8.7.2 空間決策樹 273
8.8 空間聚類算法 274
8.8.1 基于隨機搜索的聚類方法CLARANS擴展 274
8.8.2 大型空間數(shù)據(jù)庫基于距離分布的聚類算法DBCLASD 275
8.8.3 BANG 276
8.8.4 小波聚類 277
8.8.5 近似值 277
8.9 空間挖掘的其他問題 278
8.10 空間數(shù)據(jù)挖掘原型系統(tǒng)介紹 281
8.11 空間數(shù)據(jù)挖掘的研究現(xiàn)狀 283
8.12 空間數(shù)據(jù)挖掘的研究與發(fā)展方向 284
8.13 空間數(shù)據(jù)挖掘與相關學科的關系 286
8.13.1 空間數(shù)據(jù)挖掘與空間數(shù)據(jù)庫 286
8.13.2 空間數(shù)據(jù)挖掘與空間數(shù)據(jù)倉庫 287
8.13.3 空間數(shù)據(jù)挖掘與空間聯(lián)機分析處理 287
8.13.4 空間數(shù)據(jù)挖掘與地理信息系統(tǒng) 288
8.14 數(shù)字地球 289
8.15 本章小結和文獻注釋 289
參考文獻 292