注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫數(shù)據(jù)庫挖掘/數(shù)據(jù)倉庫海量數(shù)據(jù)挖掘技術(shù)研究

海量數(shù)據(jù)挖掘技術(shù)研究

海量數(shù)據(jù)挖掘技術(shù)研究

定 價:¥28.00

作 者: 劉君強(qiáng) 著
出版社: 浙江工商大學(xué)出版社
叢編項:
標(biāo) 簽: 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

ISBN: 9787811402582 出版時間: 2010-12-01 包裝: 平裝
開本: 16開 頁數(shù): 176 字?jǐn)?shù):  

內(nèi)容簡介

  隨著信息技術(shù)特別是網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人們收集、存貯、傳輸數(shù)據(jù)的能力不斷提高。數(shù)據(jù)出現(xiàn)了爆炸性增長,與此形成鮮明對比的是:對決策有價值的知識卻非常匱乏。知識發(fā)現(xiàn)與數(shù)據(jù)挖掘技術(shù)正是在這一背景下誕生的一門新學(xué)科。數(shù)據(jù)挖掘要在實際應(yīng)用中發(fā)揮作用,高性能挖掘算法和數(shù)據(jù)挖掘軟件平臺是重要的技術(shù)基礎(chǔ)。本書以數(shù)據(jù)挖掘最基本問題、頻繁模式與關(guān)聯(lián)規(guī)則挖掘為切入點(diǎn),研究高時間效率、高空間可伸縮性的挖掘算法和分布,異質(zhì)、海量數(shù)據(jù)的協(xié)同挖掘軟件模型,并探討了數(shù)據(jù)挖掘過程中的隱私保護(hù)問題。本書首先發(fā)現(xiàn)了基于樹表示形式的虛擬投影方法,用于按深度優(yōu)先挖掘密集型數(shù)據(jù)集;提出了稀疏型數(shù)據(jù)集表示形式及非過濾投影方法;進(jìn)_步提出了基于伺機(jī)投影的思想,設(shè)計并實現(xiàn)了基于伺機(jī)投影的全新算法OpportuneProject,對比實驗表明,該算法挖掘各種規(guī)模與特性數(shù)據(jù)庫的效率與可伸縮性都是最佳的。由于其內(nèi)在的計算復(fù)雜性,挖掘密集型數(shù)據(jù)的頻繁模式完全集非常困難,解決辦法是挖掘頻繁模式的閉合集或最大集。本書提出了一種組織閉合模式集的復(fù)合型頻繁模式樹,支持搜索空間的高效剪裁,有效地平衡了樹生成與樹剪裁的代價,實現(xiàn)了閉合模式集挖掘算法CROP,其效率與可伸縮性大大優(yōu)于CHARM等算法。在此基礎(chǔ)上,本書提出了閉合性剪裁和一般性剪裁相結(jié)合,并能適時前窺的最大模式挖掘算法MOP,大大優(yōu)于MaxMiner和MAFIA等算法。本書進(jìn)一步提出了逆字典樹剪裁、層次標(biāo)記等新技術(shù),以及根據(jù)信息熵自動生成與人機(jī)交互相結(jié)合來確定數(shù)值型與類別型屬性概念層次的新方法,不僅支持逐層挖掘,而且能進(jìn)行跨層挖掘,并實現(xiàn)了多支持率剪裁,將所提出的挖掘頻繁模式完全集、閉合集的新算法推廣到無冗余關(guān)聯(lián)規(guī)則、多維多層多數(shù)據(jù)類型關(guān)聯(lián)規(guī)則、多支持率分類規(guī)則的挖掘問題。本書在所取得的數(shù)據(jù)挖掘算法研究成果基礎(chǔ)上,對數(shù)據(jù)挖掘軟件模型作了深入研究。首先提出了數(shù)據(jù)挖掘作業(yè)描述語言MDL和挖掘任務(wù)模型腳本語言,設(shè)計并實現(xiàn)了一個集成數(shù)據(jù)倉庫管理功能、挖掘引擎具有一定智能、體系結(jié)構(gòu)可擴(kuò)展的數(shù)據(jù)挖掘工具。本書在研究分布式問題求解技術(shù)和分析移動型智能代理技術(shù)的基礎(chǔ)上,提出了從網(wǎng)絡(luò)海量數(shù)據(jù)中發(fā)現(xiàn)有用知識的協(xié)同挖掘模型。首先定義了黑板和知識源的描述語言以及知識交換格式,設(shè)計和實現(xiàn)了支持互聯(lián)網(wǎng)上分布式問題求解的黑板系統(tǒng),提出了分布式網(wǎng)絡(luò)海量數(shù)據(jù)挖掘系統(tǒng)DistributedMiner。接著在分析移動式智能代理技術(shù)的基礎(chǔ)上,設(shè)計了一種移動式智能代理服務(wù)器,通過重構(gòu)基礎(chǔ)結(jié)構(gòu),提出了移動式網(wǎng)絡(luò)海量數(shù)據(jù)挖掘系統(tǒng)模型MobileMiner。最后,本書研究了挖掘事務(wù)型數(shù)據(jù)過程中的隱私保護(hù)問題。由于事務(wù)型數(shù)據(jù)的極度稀疏性,任何單一技術(shù)難以有效發(fā)揮作用,或是導(dǎo)致過高的信息損失,或是處理結(jié)果難以解釋,或是技術(shù)自身性能有缺陷。本書提出了集成概化技術(shù)與消隱技術(shù)來降低信息損失。然而,從技術(shù)上講,集成并非易事。本書提出了一種新穎的方法來解決效率與可伸縮性的問題。采用此方法處理過的數(shù)據(jù)能夠應(yīng)用標(biāo)準(zhǔn)的數(shù)據(jù)挖掘工具進(jìn)行分析。

作者簡介

  劉君強(qiáng),男,教授,浙江省杭州市人。畢業(yè)于加拿大Simon Fraser大學(xué)獲哲學(xué)博士學(xué)位,浙江大學(xué)獲工學(xué)博士學(xué)位和管理學(xué)碩士學(xué)位,北京大學(xué)獲理學(xué)學(xué)士學(xué)位。以第一作者在ACM SIGKDD、IEEE ICDE、IEEE ICDM、PAKDD、《電子學(xué)報》、《計算機(jī)學(xué)報》、《軟件學(xué)報》、《計算機(jī)研究與發(fā)展》、《中國圖形圖象學(xué)報》、《系統(tǒng)工程理論與實踐》等發(fā)表多篇論文,承擔(dān)省部級研究課題多項。研究興趣涉及數(shù)據(jù)挖掘、網(wǎng)絡(luò)信息安全、隱私保護(hù)、管理信息系統(tǒng)、軟件工程。

圖書目錄

前言
摘要
ABSTRACT
第一章 概論
第一節(jié) 數(shù)據(jù)挖掘技術(shù)的興起
第二節(jié) 數(shù)據(jù)挖掘的主要問題
一、數(shù)據(jù)挖掘任務(wù)與知識類型
二、數(shù)據(jù)挖掘的過程
三、數(shù)據(jù)挖掘的對象
四、數(shù)據(jù)挖掘的應(yīng)用
五、數(shù)據(jù)挖掘面臨的挑戰(zhàn)
第三節(jié) 本書的工作
第四節(jié) 本書的結(jié)構(gòu)
第二章 數(shù)據(jù)挖掘技術(shù)綜述
第一節(jié) 頻繁模式與關(guān)聯(lián)規(guī)則挖掘
一、單層單維布爾型關(guān)聯(lián)規(guī)則挖掘與Apriori算法
二、對Apriori算法的改進(jìn)
三、頻繁模式與關(guān)聯(lián)規(guī)則挖掘研究的新發(fā)展
第二節(jié) 閉合模式挖掘與A-Close算法
一、閉合模式挖掘與A-Close算法
二、其他閉合模式挖掘算法
第三節(jié) 最大模式挖掘與Pincer-Search算法
一、最大模式挖掘與Pincer-Search算法
二、其他最大模式挖掘算法
第四節(jié) 多層多維關(guān)聯(lián)規(guī)則挖掘
一、多層關(guān)聯(lián)規(guī)則挖掘問題
二、多維關(guān)聯(lián)規(guī)則挖掘問題
第五節(jié) 對關(guān)聯(lián)規(guī)則挖掘的其他擴(kuò)展
一、順序模式挖掘
二、基于約束的關(guān)聯(lián)規(guī)則挖掘
三、并行挖掘問題
四、復(fù)雜檢索問題
五、關(guān)聯(lián)規(guī)則與相關(guān)性
六、其他問題
第六節(jié) 數(shù)據(jù)挖掘軟件系統(tǒng)
第七節(jié) 保護(hù)隱私的數(shù)據(jù)挖掘技術(shù)
一、全局概化技術(shù)
二、全消隱技術(shù)
三、局部概化技術(shù)
四、帶寬矩陣方法
五、其他相關(guān)工作
第八節(jié) 數(shù)據(jù)挖掘技術(shù)的應(yīng)用
一、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域
二、企業(yè)營銷應(yīng)用數(shù)據(jù)挖掘技術(shù)
第三章 伺機(jī)投影策略的挖掘算法
第一節(jié) 引言
第二節(jié) 問題的描述
第三節(jié) 頻繁模式樹的構(gòu)造
第四節(jié) 模式支持集的表示與投影
一、稀疏型PTS的基于數(shù)組表示及其投影
二、密集型PTS的基于樹表示及虛擬投影
第五節(jié) 伺機(jī)投影策略與OpponuneProject算法
一、伺機(jī)投影的啟發(fā)式原則
二、估計TVLA和TTF的大小
三、OpponuneProject算法
第六節(jié) 性能評價
一、數(shù)據(jù)集及其特性
二、基本實驗結(jié)果
三、可伸縮性試驗
第七節(jié) 小結(jié)
第四章 閉合模式與最大模式挖掘
第一節(jié) 引言
第二節(jié) 問題的描述
第三節(jié) 復(fù)合型頻繁模式樹及其生成
一、復(fù)合型頻繁模式樹CFIST
二、CFIST結(jié)點(diǎn)的合并
三、CFIST的生成算法
第四節(jié) CFIST的剪裁與包含關(guān)系的檢查
一、高效的CFIST局部剪裁
二、分枝包容關(guān)系的快速檢查
三、快速雜湊法
第五節(jié) CROP:挖掘閉合模式的高性能算法
一、平衡CFIST生成與剪裁效率
二、CROP算法
第六節(jié) CROP性能測評
一、CROP與CHARM效率對比
二、CROP與CLOSET效率對比
三、CROP與MAFIA效率對比
四、可伸縮性實驗
第七節(jié) 挖掘最大頻繁模式的新算法MOP
一、最大頻繁模式集及其剪裁
二、MOP算法
三、MOP的性能評價
第八節(jié) 小結(jié)
第五章 多維多層關(guān)聯(lián)規(guī)則、分類規(guī)則與空間關(guān)聯(lián)規(guī)則
第一節(jié) 關(guān)聯(lián)規(guī)則與無冗余關(guān)聯(lián)規(guī)則
第二節(jié) 多層頻繁模式挖掘
一、問題的描述
二、逆字典樹與多層頻繁模式
三、層次標(biāo)記技術(shù)與模式支持集
四、高性能多層頻繁模式挖掘算法
五、性能測評
第三節(jié) 多維多層多數(shù)據(jù)類型關(guān)聯(lián)規(guī)則挖掘
一、多維多層多數(shù)據(jù)類型關(guān)聯(lián)規(guī)則挖掘問題
二、MDML-PP算法
三、性能測評
第四節(jié) 挖掘多支持率分類規(guī)則
一、分類規(guī)則挖掘與TTF擴(kuò)展
二、多支持率剪裁
三、分類規(guī)則及其單階段挖掘算法
四、對比實驗
第五節(jié) 空間關(guān)聯(lián)規(guī)則的挖掘
一、空間關(guān)聯(lián)規(guī)則
二、兩階段挖掘策略
三、基于輔存分而治之的方法
第六節(jié) 提高挖掘算法可伸縮性的技術(shù)
一、海量數(shù)據(jù)挖掘策略
二、緩沖管理技術(shù)
三、挖掘算法改進(jìn)及其性能分析
第七節(jié) 小結(jié)
第六章 智能型數(shù)據(jù)挖掘工具設(shè)計與實現(xiàn)
第一節(jié) 引言
第二節(jié) 數(shù)據(jù)倉庫及其管理
一、數(shù)據(jù)倉庫模型與OLAP
二、數(shù)據(jù)倉庫的框架描述
三、數(shù)據(jù)倉庫管理器
第三節(jié) 數(shù)據(jù)挖掘任務(wù)的描述、管理及執(zhí)行機(jī)制
一、數(shù)據(jù)挖掘作業(yè)Job的描述
二、挖掘任務(wù)模型Scenario的定義
三、挖掘任務(wù)模型的管理與執(zhí)行
第四節(jié) 智能型數(shù)據(jù)挖掘引擎
一、算法描述庫與算法模塊
二、知識庫與引擎管理器
第五節(jié) SmartMiner體系結(jié)構(gòu)
第六節(jié) 關(guān)鍵技術(shù)與SmartMiner原型實現(xiàn)
第七節(jié) 小結(jié)
第七章 網(wǎng)絡(luò)海量數(shù)據(jù)協(xié)同挖掘
第一節(jié) 引言
第二節(jié) 分布式黑板控制
一、問題求解的黑板系統(tǒng)
二、分布式問題求解與黑板控制
第三節(jié) 形式化描述語言
一、黑板的描述
二、知識源的描述
三、知識交換格式
第四節(jié) 實現(xiàn)分布式黑板控制的一般智能代理
一、智能代理GA的結(jié)構(gòu)設(shè)計
二、智能代理軟件DBC-MA的實現(xiàn)
第五節(jié) 分布式數(shù)據(jù)挖掘系統(tǒng)DistributedMiner
一、分布式知識發(fā)現(xiàn)功能
二、DistributedMiner的黑板設(shè)計
三、挖掘平臺體系結(jié)構(gòu)
四、DistributedMiner的實現(xiàn)與應(yīng)用
第六節(jié) 從分布計算到移動計算
一、什么是智能代理
二、智能代理的特征
三、移動型智能代理
四、典型mobile agent系統(tǒng)
第七節(jié) 移動式數(shù)據(jù)挖掘系統(tǒng)模型
一、移動型智能代理服務(wù)器
二、DBC-MA變型
三、MobileMiner工作流程
第八節(jié) 小結(jié)
第八章 挖掘事務(wù)型數(shù)據(jù)過程中的隱私保護(hù)
第一節(jié) 引言
第二節(jié) 隱私保護(hù)與匿名化模型
第三節(jié) 集成概化與消隱技術(shù)的基本方法
一、割集柵格的自頂向下貪婪法搜索
二、為割集尋找一個好的消隱方案
三、算法描述
第四節(jié) 解決效率與可伸縮性瓶頸的關(guān)鍵技術(shù)
一、最小隱私威脅
二、多輪次求解策略
第五節(jié) 信息損失與性能的實驗評估
一、信息損失評估
二、效率評估
三、可伸縮性評估
第六節(jié) 小結(jié)
參考文獻(xiàn)
后記

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號