注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書人文社科社會科學(xué)統(tǒng)計學(xué)數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理

定 價:¥20.00

作 者: 劉云霞 著
出版社: 廈門大學(xué)出版社
叢編項:
標(biāo) 簽: 社會學(xué)方法

ISBN: 9787561538258 出版時間: 2011-03-01 包裝: 平裝
開本: 大32開 頁數(shù): 130 字數(shù):  

內(nèi)容簡介

  數(shù)據(jù)歸約是數(shù)據(jù)挖掘過程的關(guān)鍵環(huán)節(jié),因此對數(shù)據(jù)歸約技術(shù)的研究具有重要的意義。當(dāng)前已有的數(shù)據(jù)歸約方法多偏重于有監(jiān)督學(xué)習(xí),而無監(jiān)督情形下歸約方法的研究還相對不夠豐富。鑒于這種情況,劉云霞編著的《數(shù)據(jù)預(yù)處理——數(shù)據(jù)歸約的統(tǒng)計方法研究及應(yīng)用》的重點內(nèi)容是嘗試對無監(jiān)督數(shù)據(jù)歸約的統(tǒng)計方法及其應(yīng)用進行研究。在《數(shù)據(jù)預(yù)處理——數(shù)據(jù)歸約的統(tǒng)計方法研究及應(yīng)用》第一章中,首先闡述了選題的研究背景和研究意義。之后,在概述相關(guān)背景知識和總結(jié)國內(nèi)外數(shù)據(jù)歸約研究方法現(xiàn)狀的基礎(chǔ)上,明確了本書的研究內(nèi)容及創(chuàng)新之處。數(shù)據(jù)歸約兩項重要的基礎(chǔ)工作——缺失值填補和異常值探測是第二章探討的內(nèi)容。在本章,根據(jù)對統(tǒng)計學(xué)中常用的各種缺失值填補和異常值探測方法的分析,總結(jié)出了一些適合數(shù)據(jù)挖掘使用的方法。此外,通過將幾種異常值探測方法應(yīng)用在某地區(qū)移動通信用戶繳費數(shù)據(jù)庫上,對手機用戶的消費行為進行了實證分析。數(shù)據(jù)歸約包括元組的歸約和屬性的歸約。本書在第三章探討了元組歸約的兩種主要方法——連續(xù)屬性離散化和概念分層。在對當(dāng)前的離散化方法和概念分層中面向?qū)傩詺w納方法綜述的基礎(chǔ)上,提出了兩種從獨立性角度考慮的連續(xù)屬性離散化方法,分別是基于可辨識矩陣的離散化方法和基于似然比假設(shè)檢驗的離散化方法。并通過在Iris樣本集上對這兩種方法進行模擬,驗證了它們的有效性。屬性重要性排序以及屬性的提取和屬性子集的選擇是屬性歸約的兩類方法。本書在第四章探討了屬性重要性的排序問題。數(shù)據(jù)挖掘中目前常見的排序問題是有監(jiān)督屬性的排序,本章首先對它們作了介紹和比較。然后在無監(jiān)督屬性重要性的排序方面,提出了單向有序列聯(lián)資料的屬性排序方法——改進秩和法和基于因子分析的無監(jiān)督屬性排序方法,這兩種方法分別在一份調(diào)查問卷的列聯(lián)資料和全國居民人均消費支出樣本集的模擬中,取得了較為滿意的結(jié)果。第五章探討的是屬性的提取和屬性子集的選擇問題。首先對目前在數(shù)據(jù)挖掘中用于屬性線性提取的幾種統(tǒng)計學(xué)和其他學(xué)科的方法作了介紹和評價。然后是本章的重點內(nèi)容——屬性子集的選擇,在對屬性子集選擇的基本知識及目前已有的研究成果詳細闡述和分析之后,提出了逐步向前的無監(jiān)督屬性選擇方法,并通過實例驗證了該方法的有效性。第六章對全書的主要工作進行了總結(jié),并指出了有待進一步改進和完善的地方。本書的創(chuàng)新之處主要有以下四個方面:(1)提出了分別基于可辨識矩陣和基于似然比假設(shè)檢驗的兩種連續(xù)屬性離散化方法。(2)提出了單向有序列聯(lián)資料屬性排序的方法——改進秩和法。(3)提出了基于因子分析的無監(jiān)督屬性重要性的排序方法。(4)提出了逐步向前的無監(jiān)督屬性選擇方法。

作者簡介

暫缺《數(shù)據(jù)預(yù)處理》作者簡介

圖書目錄

摘要
第一章  緒論
  第一節(jié)  選題的研究背景和研究意義
  第二節(jié)  相關(guān)背景知識
    一、數(shù)據(jù)挖掘的發(fā)展概況
    二、數(shù)據(jù)歸約的主要內(nèi)容
    三、數(shù)據(jù)歸約的重要作用
  第三節(jié)  國內(nèi)外研究現(xiàn)狀
    一、屬性離散化方法研究的現(xiàn)狀
    二、屬性排序和屬性子集選擇方法研究的現(xiàn)狀
  第四節(jié)  本書的研究內(nèi)容及創(chuàng)新點
    一、本書的研究內(nèi)容和結(jié)構(gòu)
    二、本書的創(chuàng)新點
第二章  缺失值的填補與異常值的探測
  第一節(jié)  缺失值的填補
    一、單一填補法和多重填補法
    二、基于距離的填補方法
    三、貝葉斯填補方法
  第二節(jié)  異常值的探測
    一、異常值及形成?因
    二、異常值的探測方法
    三、異常值探測的步驟及應(yīng)用
  第三節(jié)  移動通訊用戶消費行為的分析
    一、單個屬性異常值探測的應(yīng)用及分析
    二、多個屬性的異常值探測方法的應(yīng)用及分析
第三章  數(shù)據(jù)挖掘中元組的歸約
  第一節(jié)  面向?qū)傩詺w納
    一、面向?qū)傩詺w納
    二、面向?qū)傩詺w納的步驟
    三、面向?qū)傩詺w納的算法
  第二節(jié)  連續(xù)屬性離散化方法及分類
    一、離散化方法的分類
    二、典型離散化的過程及結(jié)果評價
    三、相關(guān)的離散化方法
  第三節(jié)  基于可辨識矩陣的連續(xù)屬性離散化方法
    一、基于可辨識矩陣離散化方法的基本思路
    二、基于可辨識矩陣離散化方法的框架
    三、基于可辨識矩陣離散化方法的統(tǒng)計模擬
  第四節(jié)  基于似然比假設(shè)檢驗的連續(xù)屬性離散化方法
    一、基于似然比假設(shè)檢驗的離散化方法
    二、基于似然比假設(shè)檢驗離散化方法的步驟
    三、基于似然比假設(shè)檢驗離散化方法的驗證
    四、兩種離散化方法結(jié)果的比較
第四章  屬性重要性的排序
  第一節(jié)  有監(jiān)督屬性重要性的排序
    一、粗糙集理論中屬性重要性的排序方法
    二、信息論和決策樹中屬性重要性的排序方
    三、神經(jīng)網(wǎng)絡(luò)中屬性重要?的排序方法
    四、三種方法的比較
  第二節(jié)  單向有序列聯(lián)資料的屬性重要性的排序
    一、單向有序列聯(lián)表
    二、以秩效應(yīng)為標(biāo)準(zhǔn)的方法
    三、改進秩和法
    四、改進秩和法對一份調(diào)查問卷的分析
    五、以秩效應(yīng)為標(biāo)準(zhǔn)的方法和改進秩和法的比較
  第三節(jié)  基于因子分析的無監(jiān)督屬性重要性的排序
    一、基于因子分析的屬性重要性排序方法
    二、基于因子分析的屬性重要性排序方法的步驟
    三、基于因子分析排序方法的框架
    四、基于因子分析屬性重要性排序方法的驗證
    五、值得注意的問題和局限性
第五章  屬性的提取與屬性子集的選擇
  第一節(jié)  屬性的提取
    一、小波變換
    二、投影尋蹤
    三、多維標(biāo)度
    四、多元統(tǒng)計分析方法
    五、幾種屬性提取方法的比較
  第二節(jié)  屬性子集的選擇
    一、屬性子集選擇方法的兩個組成部分
    二、屬性子集選擇方法的兩種模式
    三、基于各學(xué)科知識的屬性子集選擇方法
    四、關(guān)于模式識別中基于距離的評價函數(shù)的思考
  第三節(jié)  逐步向前無監(jiān)督屬性子集的選擇方法
    一、逐步選擇方法的不足
    二、逐步向前無監(jiān)督屬性子集選擇方法的思路
    三、逐步向前無監(jiān)督屬性子集選擇方法的基本框架
    四、統(tǒng)計模擬及方法驗證
    五、逐步向前無監(jiān)督屬性子集選擇方法的合理性和局限性
第六章  全書的總結(jié)
  第一節(jié)  全書的主要工作
  第二節(jié)  尚需研究的問題
參考文獻
后記
攻讀博士學(xué)位期間發(fā)表的論文

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號