駕馭文本：文本的發(fā)現(xiàn) 組織和處理

定　價(jià)：￥79.00

作　者：	Grant S. Ingersoll（格蘭特·英格索爾），Thomas S. Morton（托馬斯·莫頓），Andrew L. Farris（安德魯·法里斯）
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買(mǎi)這本書(shū)可以去

ISBN：	9787121252303	出版時(shí)間：	2015-07-01	包裝：
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：	340	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　文本處理是目前互聯(lián)網(wǎng)內(nèi)容應(yīng)用（如搜索引擎、推薦引擎）的關(guān)鍵技術(shù)。本書(shū)涵蓋了文本處理概念和技術(shù)的多個(gè)方面，包括文本預(yù)處理、搜索、字符串匹配、信息抽取、命名實(shí)體識(shí)別、分類(lèi)、聚類(lèi)、標(biāo)簽生成、摘要、問(wèn)答等。本書(shū)的特點(diǎn)在于通過(guò)實(shí)例來(lái)理解文本處理的這些概念和技術(shù)，讀者利用現(xiàn)有的開(kāi)源工具就可以自己實(shí)現(xiàn)這些實(shí)例。

作者簡(jiǎn)介

　　王斌，博士，中國(guó)科學(xué)院信息工程研究所研究員，博士生導(dǎo)師，研究方向?yàn)樾畔z索與自然語(yǔ)言處理。主持國(guó)家級(jí)、省部級(jí)科研項(xiàng)目20余項(xiàng)，發(fā)表學(xué)術(shù)論文120余篇，譯有《信息檢索導(dǎo)論》、《大數(shù)據(jù)：互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》、《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》、《Mahout實(shí)戰(zhàn)》等書(shū)籍?，F(xiàn)為中國(guó)中文信息學(xué)會(huì)理事、信息檢索專委會(huì)、社會(huì)媒體處理專委會(huì)及語(yǔ)言與知識(shí)計(jì)算專業(yè)委員會(huì)委員，《中文信息學(xué)報(bào)》編委，中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員及中文信息處理專委會(huì)委員。

圖書(shū)目錄

第1章　開(kāi)始駕馭文本 1
11　駕馭文本重要的原因 2
12　預(yù)覽：一個(gè)基于事實(shí)的問(wèn)答系統(tǒng) 4
121　嗨，弗蘭肯斯坦醫(yī)生 5
13　理解文本很困難 8
14　駕馭的文本 11
15　文本及智能應(yīng)用：搜索及其他 13
151　搜索和匹配 13
152　抽取信息 14
153　對(duì)信息分組 15
154　一個(gè)智能應(yīng)用 15
16　小結(jié) 15
17　相關(guān)資源 16
第2章　駕馭文本的基礎(chǔ) 17
21　語(yǔ)言基礎(chǔ)知識(shí) 18
211　詞語(yǔ)及其類(lèi)別 19
212　短語(yǔ)及子句 20
213　詞法 21
22　文本處理常見(jiàn)工具 23
221　字符串處理工具 23
222　詞條及切詞 23
223　詞性標(biāo)注 25
224　詞干還原 27
225　句子檢測(cè) 29
226　句法分析和文法 31
227　序列建模 33
23　從常見(jiàn)格式文件中抽取內(nèi)容并做預(yù)處理 34
231　預(yù)處理的重要性 35
232　利用Apache Tika抽取內(nèi)容 37
24　小結(jié) 39
25　相關(guān)資源 40
第3章　搜索 41
31　搜索和多面示例：Amazoncom 42
32　搜索概念入門(mén) 44
321　索引內(nèi)容 45
322　用戶輸入 47
323　利用向量空間模型對(duì)文檔排名 51
324　結(jié)果展示 54
33　Apache Solr搜索服務(wù)器介紹 57
331　首次運(yùn)行Solr 58
332　理解Solr中的概念 59
34　利用Apache Solr對(duì)內(nèi)容構(gòu)建索引 63
341　使用XML構(gòu)建索引 64
342　利用Solr和Apache Tika對(duì)內(nèi)容進(jìn)行抽取和索引 66
35　利用Apache Solr來(lái)搜索內(nèi)容 69
351　Solr查詢輸入?yún)?shù) 71
352　抽取內(nèi)容的多面展示 74
36　理解搜索性能因素 77
361　數(shù)量判定 77
362　判斷數(shù)量 81
37　提高搜索性能 82
371　硬件改進(jìn) 82
372　分析的改進(jìn) 83
373　提高查詢性能 85
374　其他評(píng)分模型 88
375　提升Solr性能的技術(shù) 89
38　其他搜索工具 91
39　小結(jié) 93
310　相關(guān)資源 93
第4章　模糊字符串匹配 94
41　模糊字符串匹配方法 96
411　字符重合度度量方法 96
412　編輯距離 99
413　n元組編輯距離 102
42　尋找模糊匹配串 105
421　在Solr中使用前綴來(lái)匹配 105
422　利用trie樹(shù)進(jìn)行前綴匹配 106
423　使用n元組進(jìn)行匹配 111
43　構(gòu)建模糊串匹配應(yīng)用 112
431　在搜索中加入提前輸入功能 113
432　搜索中的查詢拼寫(xiě)校正 117
433　記錄匹配 122
44　小結(jié) 127
45　相關(guān)資源 128
第5章　命名實(shí)體識(shí)別 129
51　命名實(shí)體的識(shí)別方法 131
511　基于規(guī)則的實(shí)體識(shí)別 131
512　基于統(tǒng)計(jì)分類(lèi)器的實(shí)體識(shí)別 132
52　基于OpenNLP的基本實(shí)體識(shí)別 133
521　利用OpenNLP尋找人名 134
522　OpenNLP識(shí)別的實(shí)體解讀 136
523　基于概率過(guò)濾實(shí)體 137
53　利用OpenNLP進(jìn)行深度命名實(shí)體識(shí)別 137
531　利用OpenNLP識(shí)別多種實(shí)體類(lèi)型 138
532　OpenNLP識(shí)別實(shí)體的背后機(jī)理 141
54　OpenNLP的性能 143
541　結(jié)果的質(zhì)量 144
542　運(yùn)行性能 145
543　OpenNLP的內(nèi)存使用 146
55　對(duì)新領(lǐng)域定制OpenNLP實(shí)體識(shí)別 147
551　訓(xùn)練模型的原因和方法 147
552　訓(xùn)練OpenNLP模型 148
553　改變建模輸入 150
554　對(duì)實(shí)體建模的新方法 152
56　小結(jié) 154
57　進(jìn)一步閱讀材料 155
第6章　文本聚類(lèi) 156
61　Google News中的文檔聚類(lèi) 157
62　聚類(lèi)基礎(chǔ) 158
621　三種聚類(lèi)的文本類(lèi)型 158
622　選擇聚類(lèi)算法 160
623　確定相似度 161
624　給聚類(lèi)結(jié)果打標(biāo)簽 162
625　聚類(lèi)結(jié)果的評(píng)估 163
63　搭建一個(gè)簡(jiǎn)單的聚類(lèi)應(yīng)用 165
64　利用Carrot2對(duì)搜索結(jié)果聚類(lèi) 166
641　使用Carrot2API 166
642　使用Carrot2對(duì)Solr的搜索結(jié)果聚類(lèi) 168
65　利用Apache Mahout對(duì)文檔集聚類(lèi) 171
651　對(duì)聚類(lèi)的數(shù)據(jù)進(jìn)行預(yù)處理 172
652　K-means聚類(lèi) 175
66　利用Apache Mahout進(jìn)行主題建模 180
67　考察聚類(lèi)性能 183
671　特征選擇與特征約簡(jiǎn) 183
672　Carrot2的性能和質(zhì)量 186
673　Mahout基準(zhǔn)聚類(lèi)算法 187
68　致謝 192
69　小結(jié) 192
610　參考文獻(xiàn) 193
第7章　分類(lèi)及標(biāo)注 195
71　分類(lèi)及歸類(lèi)概述 197
72　分類(lèi)過(guò)程 200
721　選擇分類(lèi)機(jī)制 201
722　識(shí)別文本分類(lèi)中的特征 202
723　訓(xùn)練數(shù)據(jù)的重要性 203
724　評(píng)估分類(lèi)器性能 206
725　將分類(lèi)器部署到生產(chǎn)環(huán)境 208
73　利用Apache Lucene構(gòu)建文檔分類(lèi)器 209
731　利用Lucene對(duì)文本進(jìn)行分類(lèi) 210
732　為MoreLikeThis分類(lèi)器準(zhǔn)備訓(xùn)練數(shù)據(jù) 212
733　訓(xùn)練MoreLikeThis分類(lèi)器 214
734　利用MoreLikeThis分類(lèi)器對(duì)文檔進(jìn)行分類(lèi) 217
735　測(cè)試MoreLikeThis分類(lèi)器 220
736　將MoreLikeThis投入生產(chǎn)環(huán)境 223
74　利用Apache Mahout訓(xùn)練樸素貝葉斯分類(lèi)器 223
741　利用樸素貝葉斯算法進(jìn)行文本分類(lèi) 224
742　準(zhǔn)備訓(xùn)練數(shù)據(jù) 225
743　留存測(cè)試數(shù)據(jù) 229
744　訓(xùn)練分類(lèi)器 229
745　測(cè)試分類(lèi)器 231
746　改進(jìn)自舉過(guò)程 232
747　將Mahout貝葉斯分類(lèi)器集成到Solr 234
75　利用OpenNLP進(jìn)行文檔分類(lèi) 238
751　回歸模型及最大熵文檔分類(lèi) 239
752　為最大熵文檔分類(lèi)器準(zhǔn)備訓(xùn)練數(shù)據(jù) 241
753　訓(xùn)練最大熵文檔分類(lèi)器 242
754　測(cè)試最大熵文檔分類(lèi)器 248
755　生產(chǎn)環(huán)境下的最大熵文檔分類(lèi)器 249
76　利用Apache Solr構(gòu)建標(biāo)簽推薦系統(tǒng) 250
761　為標(biāo)簽推薦收集訓(xùn)練數(shù)據(jù) 253
762　準(zhǔn)備訓(xùn)練數(shù)據(jù) 255
763　訓(xùn)練Solr標(biāo)簽推薦系統(tǒng) 256
764　構(gòu)建推薦標(biāo)簽 258
765　對(duì)標(biāo)簽推薦系統(tǒng)進(jìn)行評(píng)估 261
77　小結(jié) 263
78　參考文獻(xiàn) 265
第8章　構(gòu)建示例問(wèn)答系統(tǒng) 266
81　問(wèn)答系統(tǒng)基礎(chǔ)知識(shí) 268
82　安裝并運(yùn)行QA代碼 270
83　一個(gè)示例問(wèn)答系統(tǒng)的架構(gòu) 271
84　理解問(wèn)題并產(chǎn)生答案 274
841　訓(xùn)練答案類(lèi)型分類(lèi)器 275
842　對(duì)查詢進(jìn)行組塊分析 279
843　計(jì)算答案類(lèi)型 280
844　生成查詢 283
845　對(duì)候選段落排序 285
85　改進(jìn)系統(tǒng)的步驟 287
86　本章小結(jié) 287
87　相關(guān)資源 288
第9章　未駕馭的文本：探索未來(lái)前沿 289
91　語(yǔ)義、篇章和語(yǔ)用：探索高級(jí)NLP 290
911　語(yǔ)義 291
912　篇章 292
913　語(yǔ)用 294
92　文檔及文檔集自動(dòng)摘要 295
93　關(guān)系抽取 298
931　關(guān)系抽取方法綜述 299
932　評(píng)估 302
933　關(guān)系抽取工具 303
94　識(shí)別重要內(nèi)容和人物 303
941　全局重要性及權(quán)威度 304
942　個(gè)人重要性 305
943　與重要性相關(guān)的資源及位置 306
95　通過(guò)情感分析來(lái)探測(cè)情感 306
951　歷史及綜述 307
952　工具及數(shù)據(jù)需求 308
953　一個(gè)基本的極性算法 309
954　高級(jí)話題 311
955　用于情感分析的開(kāi)源庫(kù) 312
96　跨語(yǔ)言檢索 313
97　本章小結(jié) 315
98　相關(guān)資源 315