文本數(shù)據(jù)管理與分析：信息檢索與文本挖掘的實(shí)用導(dǎo)論

定　價(jià)：￥139.00

作　者：	翟成祥（Chengxiang Zhai）著，宋巍趙鑫李璐旸李洋等譯；，劉挺審校
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：	數(shù)據(jù)科學(xué)與工程技術(shù)叢書
標(biāo)　簽：	暫缺

購(gòu)買這本書可以去

ISBN：	9787111611769	出版時(shí)間：	2019-05-01	包裝：	平裝
開本：	16開	頁(yè)數(shù)：	328	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　本書從實(shí)際角度涵蓋了信息檢索和文本數(shù)據(jù)挖掘領(lǐng)域的主要概念、技術(shù)和方法，并包括許多專門設(shè)計(jì)并輔以配套軟件工具包（例如META，一種數(shù)據(jù)科學(xué)工具包）的動(dòng)手練習(xí)，來(lái)幫助讀者學(xué)習(xí)如何運(yùn)用文本挖掘和信息檢索的技術(shù)來(lái)分析和處理現(xiàn)實(shí)世界中的文本數(shù)據(jù)，以及如何試驗(yàn)數(shù)據(jù)和為具體應(yīng)用任務(wù)來(lái)改進(jìn)一些算法。

作者簡(jiǎn)介

　　翟成祥（ChengXiang Zhai）伊利諾伊大學(xué)香檳分校計(jì)算機(jī)科學(xué)系以及圖書館與信息科學(xué)研究生院、基因生物學(xué)研究所和統(tǒng)計(jì)系教授、Willet學(xué)者。研究興趣包括信息檢索、文本挖掘、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、生物醫(yī)學(xué)與健康信息學(xué)以及智能教育信息系統(tǒng)。他已經(jīng)在主流會(huì)議與期刊發(fā)表超過(guò)300篇研究論文，現(xiàn)在是《ACM Transactions on Knowledge Discovery from Data》副主編，曾任《Information Processing and Management》副主編、《ACM Transactions on Information Systems》副主編以及《Information Retrieval Journal》編委，并擔(dān)任多個(gè)國(guó)際會(huì)議的程序委員會(huì)主席和大會(huì)主席。他是ACM會(huì)士、ACM杰出科學(xué)家并榮獲多項(xiàng)榮譽(yù)，包括ACM SIGIR 2004 *佳論文、ACM SIGIR 2014 時(shí)間考驗(yàn)獎(jiǎng)、 Alfred P. Sloan研究獎(jiǎng)金、IBM 教師獎(jiǎng)、HP 創(chuàng)新研究項(xiàng)目獎(jiǎng)、微軟超過(guò)搜索研究獎(jiǎng) 以及美國(guó)青年科學(xué)家和工程師總統(tǒng)獎(jiǎng)。肖恩;馬森（Sean Massung）伊利諾伊大學(xué)香檳分校計(jì)算機(jī)科學(xué)專業(yè)博士生，此前他在此分別獲得學(xué)士和碩士學(xué)位。他是META的聯(lián)合發(fā)明者并在其所有研究中使用META。他是多門課程的指導(dǎo)者，包括CS225“數(shù)據(jù)結(jié)構(gòu)與編程原則”、CS410“文本信息系統(tǒng)”以及CS591txt“文本挖掘研討”。研究興趣包括信息檢索中的文本挖掘應(yīng)用、自然語(yǔ)言處理和教育。

圖書目錄

中文版序

譯者序

前言

作者簡(jiǎn)介

第一部分　概述和背景

第1章　緒論2

　1.1　文本信息系統(tǒng)的功能4

　1.2　文本信息系統(tǒng)的概念框架5

　1.3　本書結(jié)構(gòu)安排7

　1.4　如何使用本書8

　書目說(shuō)明和延伸閱讀9

第2章　背景11

　2.1　概率和統(tǒng)計(jì)基礎(chǔ)11

　　2.1.1　聯(lián)合概率和條件概率12

　　2.1.2　貝葉斯法則13

　　2.1.3　拋硬幣和二項(xiàng)分布14

　　2.1.4　最大似然參數(shù)估計(jì)14

　　2.1.5　貝葉斯參數(shù)估計(jì)15

　　2.1.6　概率模型及其應(yīng)用16

　2.2　信息論17

　2.3　機(jī)器學(xué)習(xí)19

　書目說(shuō)明和延伸閱讀20

　練習(xí)20

第3章　文本數(shù)據(jù)理解22

　3.1　自然語(yǔ)言處理的歷史和研究現(xiàn)狀23

　3.2　自然語(yǔ)言處理和文本信息系統(tǒng)24

　3.3　文本表示26

　3.4　統(tǒng)計(jì)語(yǔ)言模型28

　書目說(shuō)明和延伸閱讀31

　練習(xí)31

第4章　META：一個(gè)面向文本數(shù)據(jù)管理和分析的統(tǒng)一工具箱33

　4.1　設(shè)計(jì)原則33

　4.2　設(shè)置META34

　4.3　架構(gòu)34

　4.4　用META分詞35

　4.5　相關(guān)工具箱37

　練習(xí)38

第二部分　文本數(shù)據(jù)獲取

第5章　文本數(shù)據(jù)獲取概述44

　5.1　獲取模式：拉取與推送44

　5.2　多模式互動(dòng)獲取45

　5.3　文本檢索47

　5.4　文本檢索與數(shù)據(jù)庫(kù)檢索48

　5.5　文檔選擇與文檔排序49

　書目說(shuō)明和延伸閱讀50

　練習(xí)51

第6章　檢索模型52

　6.1　概述52

　6.2　檢索函數(shù)的一般形式53

　6.3　向量空間檢索模型54

　　6.3.1　向量空間模型實(shí)例化55

　　6.3.2　位向量表示的表現(xiàn)56

　　6.3.3　改進(jìn)的模型實(shí)例57

　　6.3.4　TF變換60

　　6.3.5　文檔長(zhǎng)度規(guī)范化62

　　6.3.6　基本向量空間模型的進(jìn)一步改進(jìn)64

　　6.3.7　小結(jié)65

　6.4　概率檢索模型65

　　6.4.1　查詢似然檢索模型67

　　6.4.2　文檔語(yǔ)言模型的平滑69

　　6.4.3　具體的平滑方法72

　書目說(shuō)明和延伸閱讀76

　練習(xí)76

第7章　反饋78

　7.1　向量空間模型中的反饋79

　7.2　語(yǔ)言模型中的反饋81

　書目說(shuō)明和延伸閱讀84

　練習(xí)84

第8章　搜索引擎實(shí)現(xiàn)86

　8.1　分詞器86

　8.2　索引器87

　8.3　打分器90

　　8.3.1　逐個(gè)詞項(xiàng)排序90

　　8.3.2　逐個(gè)文檔排序90

　　8.3.3　過(guò)濾文檔91

　　8.3.4　索引分片91

　8.4　反饋實(shí)現(xiàn)92

　8.5　壓縮92

　　8.5.1　按位壓縮93

　　8.5.2　塊壓縮94

　8.6　高速緩存95

　　8.6.1　LRU緩存95

　　8.6.2　DBLRU緩存96

　書目說(shuō)明和延伸閱讀96

　練習(xí)97

第9章　搜索引擎評(píng)價(jià)98

　9.1　引言98

　　9.1.1　要度量什么98

　　9.1.2　Cranfield評(píng)價(jià)方法98

　9.2　集合檢索的評(píng)價(jià)100

　　9.2.1　準(zhǔn)確率和召回率100

　　9.2.2　F度量：準(zhǔn)確率和召回率的結(jié)合101

　9.3　有序列表的評(píng)價(jià)102

　9.4　基于多級(jí)別判斷標(biāo)準(zhǔn)的評(píng)價(jià)106

　9.5　評(píng)價(jià)中的實(shí)際問題107

　書目說(shuō)明和延伸閱讀110

　練習(xí)110

第10章　網(wǎng)絡(luò)搜索112

　10.1　網(wǎng)絡(luò)爬蟲113

　10.2　網(wǎng)頁(yè)索引113

　10.3　鏈接分析117

　　10.3.1　PageRank算法118

　　10.3.2　HITS算法121

　10.4　排序?qū)W習(xí)122

　10.5　網(wǎng)絡(luò)搜索的未來(lái)125

　書目說(shuō)明和延伸閱讀127

　練習(xí)127

第11章　推薦系統(tǒng)130

　11.1　基于內(nèi)容的推薦131

　11.2　協(xié)同過(guò)濾134

　11.3　推薦系統(tǒng)的評(píng)價(jià)137

　書目說(shuō)明和延伸閱讀138

　練習(xí)138

第三部分　文本數(shù)據(jù)分析

第12章　文本數(shù)據(jù)分析概述142

　12.1　動(dòng)機(jī)：文本數(shù)據(jù)分析的應(yīng)用142

　12.2　文本與非文本數(shù)據(jù)：人類作為主觀傳感器143

　12.3　文本挖掘任務(wù)概覽145

第13章　詞關(guān)聯(lián)挖掘148

　13.1　詞關(guān)聯(lián)挖掘的基本思想149

　13.2　聚合關(guān)系的發(fā)現(xiàn)150

　13.3　組合關(guān)系的發(fā)現(xiàn)153

　13.4　詞關(guān)聯(lián)挖掘的評(píng)價(jià)159

　書目說(shuō)明和延伸閱讀160

　練習(xí)160

第14章　文本聚類162

　14.1　聚類技術(shù)概述163

　14.2　文檔聚類164

　　14.2.1　凝聚層次聚類法165

　　14.2.2　K-均值165

　14.3　詞項(xiàng)聚類167

　　14.3.1　語(yǔ)義關(guān)聯(lián)的詞語(yǔ)167

　　14.3.2　點(diǎn)互信息169

　　14.3.3　先進(jìn)方法169

　14.4　文本聚類的評(píng)價(jià)172

　書目說(shuō)明和延伸閱讀173

　練習(xí)173

第15章　文本分類175

　15.1　引言175

　15.2　文本分類方法概述176

　15.3　文本分類問題177

　15.4　文本分類的特征177

　15.5　分類算法179

　　15.5.1　k-近鄰180

　　15.5.2　樸素貝葉斯181

　　15.5.3　線性分類器182

　15.6　文本分類的評(píng)價(jià)183

　書目說(shuō)明和延伸閱讀184

　練習(xí)184

第16章　文本摘要185

　16.1　文本摘要技術(shù)概述185

　16.2　抽取式文本摘要186

　16.3　抽象式文本摘要187

　16.4　文本摘要的評(píng)價(jià)189

　16.5　文本摘要的應(yīng)用189

　書目說(shuō)明和延伸閱讀190

　練習(xí)190

第17章　主題分析192

　17.1　用詞項(xiàng)表示的主題193

　17.2　用單詞分布表示的主題196

　17.3　挖掘文本中的一個(gè)主題198

　　17.3.1　最簡(jiǎn)單的主題模型：一元語(yǔ)言模型199

　　17.3.2　添加背景語(yǔ)言模型201

　　17.3.3　混合模型的參數(shù)估計(jì)205

　　17.3.4　混合模型的行為206

　　17.3.5　期望最大化209

　17.4　概率潛在語(yǔ)義分析214

　17.5　PLSA的擴(kuò)展及潛在狄利克雷分布220

　17.6　主題分
......