預(yù)測(cè)性文本挖掘基礎(chǔ)

定　價(jià)：￥43.00

作　者：	（美）紹洛姆·韋斯（Sholom M.Weiss）（澳）尼亭·因杜爾亞（Nitin Indurkhya）（美）張潼（Tong zhang）,趙仲孟侯，迪譯
出版社：	西安交通大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘

購(gòu)買這本書(shū)可以去

ISBN：	9787560544274	出版時(shí)間：	2012-10-01	包裝：	平裝
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：	234	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　電腦普及帶來(lái)的一個(gè)結(jié)果是文檔以數(shù)字形式呈現(xiàn)出來(lái)，加之Internet的廣泛使用，這些文檔就變得唾手可得。文本挖掘，即對(duì)非結(jié)構(gòu)化的自然語(yǔ)言文本的分析過(guò)程，主要針對(duì)的是如何從這些文檔中提取信息?！额A(yù)測(cè)性文本挖掘基礎(chǔ)》是一本入門級(jí)的教科書(shū)，是在修訂施普林格已經(jīng)成功出版的文本挖掘領(lǐng)域的參考書(shū)基礎(chǔ)上得到的，旨在能夠幫助讀者了解這個(gè)快速發(fā)展的領(lǐng)域。同時(shí)，該書(shū)也整合了包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)以及計(jì)算語(yǔ)言學(xué)方面很多的理論，因此這本獨(dú)一無(wú)二的書(shū)也提供了一些文本挖掘方面比較實(shí)用的建議。書(shū)中深層次地討論了文檔分類、信息檢索、聚類和組織文檔、信息提取、基于web的數(shù)據(jù)源的預(yù)測(cè)和評(píng)價(jià)問(wèn)題。要學(xué)習(xí)《預(yù)測(cè)性文本挖掘基礎(chǔ)》，如果讀者有數(shù)據(jù)挖掘方面的知識(shí)自然很好，但這并不是必須的。書(shū)中有些地方涉及到一些高級(jí)概念，這些需要讀者有一定的數(shù)學(xué)功底，當(dāng)然我們也提供了一些直觀上的解釋來(lái)幫助那些非專業(yè)讀者。

作者簡(jiǎn)介

　　紹洛姆·韋斯，是美國(guó)紐約州約克鎮(zhèn)的IBM預(yù)測(cè)模型小組的研究成員，同時(shí)也是美國(guó)新澤西州羅格斯大學(xué)計(jì)算機(jī)科學(xué)專業(yè)的榮譽(yù)教授。霓廷·因杜爾亞，是澳大利亞新南威爾士大學(xué)計(jì)算機(jī)科學(xué)工程學(xué)院的講師，同時(shí)也是數(shù)據(jù)挖掘公司Data-Miner有限公司的創(chuàng)始人和總裁。張潼，在美國(guó)斯坦福大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位，現(xiàn)在是美國(guó)新澤西州羅格斯大學(xué)統(tǒng)計(jì)系的教授。

圖書(shū)目錄

推薦序
譯者序
前言
第1章文本挖掘概述
1.1 文本挖掘有什么特別之處？
1.1.1 結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)？
1.1.2 文本數(shù)據(jù)是否不同于數(shù)值數(shù)據(jù)？
1.2 文本挖掘可以解決什么類型的問(wèn)題？
1.3 文本分類
1.4 信息檢索
1.5 文檔聚類與組織
1.6 信息提取
1.7 預(yù)測(cè)與評(píng)估
1.8 下章內(nèi)容
1.9 小結(jié)
1.10 歷史與文獻(xiàn)評(píng)述
1.11 問(wèn)題與練習(xí)
第2章從文本信息到數(shù)值向量
2.1 文檔收集
2.2 文檔標(biāo)準(zhǔn)化
2.3 標(biāo)記化
2.4 詞形轉(zhuǎn)化
2.4.1 詞干變形
2.4.2 化詞干為詞根
2.5 預(yù)測(cè)向量生成
2.5.1 多詞特征
2.5.2 正確答案的標(biāo)簽
2.5.3 通過(guò)屬性分級(jí)選擇特征
2.6 語(yǔ)句邊界確定
2.7 詞性標(biāo)簽化
2.8 詞義消歧
2.9 短語(yǔ)識(shí)別
2.10 命名實(shí)體識(shí)別
2.11 語(yǔ)法分析
2.12 特征生成
2.13 小結(jié)
2.14 歷史與文獻(xiàn)評(píng)述
2.15 課后練習(xí)
第3章用文本進(jìn)行預(yù)測(cè)
3.1 識(shí)別文檔符合模式
3.2 需要多少文檔才可以滿足預(yù)測(cè)需求？
3.3 文檔分類
3.4 從文本中學(xué)習(xí)預(yù)測(cè)
3.4.1 相似性與最近鄰法
3.4.2 文檔相似性
3.4.3 決策規(guī)則
3.4.4 決策樹(shù)
3.4.5 概率估計(jì)
3.4.6 線性評(píng)分方法
3.5 性能評(píng)估
3.5.1 當(dāng)前與未來(lái)的性能估計(jì)
3.5.2 從學(xué)習(xí)方法中獲取最大收益
3.6 應(yīng)用
3.7 小結(jié)
3.8 歷史與文獻(xiàn)評(píng)述
3.9 問(wèn)題與練習(xí)
第4章信息檢索和文本挖掘
第5章文檔集的結(jié)構(gòu)發(fā)現(xiàn)
第6章在文檔中查詢信息
第7章面向預(yù)測(cè)的數(shù)據(jù)源：數(shù)據(jù)庫(kù)、混雜數(shù)據(jù)與Web
第8章實(shí)例分析
第9章新研究方向
附錄A 軟件說(shuō)明
參考文獻(xiàn)
作者索引
主題索引