注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)庫設計/管理駕馭文本:文本的發(fā)現(xiàn) 組織和處理

駕馭文本:文本的發(fā)現(xiàn) 組織和處理

駕馭文本:文本的發(fā)現(xiàn) 組織和處理

定 價:¥79.00

作 者: Grant S. Ingersoll(格蘭特·英格索爾),Thomas S. Morton(托馬斯·莫頓),Andrew L. Farris(安德魯·法里斯)
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787121252303 出版時間: 2015-07-01 包裝:
開本: 16開 頁數(shù): 340 字數(shù):  

內(nèi)容簡介

  文本處理是目前互聯(lián)網(wǎng)內(nèi)容應用(如搜索引擎、推薦引擎)的關鍵技術(shù)。本書涵蓋了文本處理概念和技術(shù)的多個方面,包括文本預處理、搜索、字符串匹配、信息抽取、命名實體識別、分類、聚類、標簽生成、摘要、問答等。本書的特點在于通過實例來理解文本處理的這些概念和技術(shù),讀者利用現(xiàn)有的開源工具就可以自己實現(xiàn)這些實例。

作者簡介

  王斌,博士,中國科學院信息工程研究所研究員,博士生導師,研究方向為信息檢索與自然語言處理。主持國家級、省部級科研項目20余項,發(fā)表學術(shù)論文120余篇,譯有《信息檢索導論》、《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》、《機器學習實戰(zhàn)》、《Mahout實戰(zhàn)》等書籍?,F(xiàn)為中國中文信息學會理事、信息檢索專委會、社會媒體處理專委會及語言與知識計算專業(yè)委員會委員,《中文信息學報》編委,中國計算機學會高級會員及中文信息處理專委會委員。

圖書目錄

第1章 開始駕馭文本 1
11 駕馭文本重要的原因 2
12 預覽:一個基于事實的問答系統(tǒng) 4
121 嗨,弗蘭肯斯坦醫(yī)生 5
13 理解文本很困難 8
14 駕馭的文本 11
15 文本及智能應用:搜索及其他 13
151 搜索和匹配 13
152 抽取信息 14
153 對信息分組 15
154 一個智能應用 15
16 小結(jié) 15
17 相關資源 16
第2章 駕馭文本的基礎 17
21 語言基礎知識 18
211 詞語及其類別 19
212 短語及子句 20
213 詞法 21
22 文本處理常見工具 23
221 字符串處理工具 23
222 詞條及切詞 23
223 詞性標注 25
224 詞干還原 27
225 句子檢測 29
226 句法分析和文法 31
227 序列建模 33
23 從常見格式文件中抽取內(nèi)容并做預處理 34
231 預處理的重要性 35
232 利用Apache Tika抽取內(nèi)容 37
24 小結(jié) 39
25 相關資源 40
第3章 搜索 41
31 搜索和多面示例:Amazoncom 42
32 搜索概念入門 44
321 索引內(nèi)容 45
322 用戶輸入 47
323 利用向量空間模型對文檔排名 51
324 結(jié)果展示 54
33 Apache Solr搜索服務器介紹 57
331 首次運行Solr 58
332 理解Solr中的概念 59
34 利用Apache Solr對內(nèi)容構(gòu)建索引 63
341 使用XML構(gòu)建索引 64
342 利用Solr和Apache Tika對內(nèi)容進行抽取和索引 66
35 利用Apache Solr來搜索內(nèi)容 69
351 Solr查詢輸入?yún)?shù) 71
352 抽取內(nèi)容的多面展示 74
36 理解搜索性能因素 77
361 數(shù)量判定 77
362 判斷數(shù)量 81
37 提高搜索性能 82
371 硬件改進 82
372 分析的改進 83
373 提高查詢性能 85
374 其他評分模型 88
375 提升Solr性能的技術(shù) 89
38 其他搜索工具 91
39 小結(jié) 93
310 相關資源 93
第4章 模糊字符串匹配 94
41 模糊字符串匹配方法 96
411 字符重合度度量方法 96
412 編輯距離 99
413 n元組編輯距離 102
42 尋找模糊匹配串 105
421 在Solr中使用前綴來匹配 105
422 利用trie樹進行前綴匹配 106
423 使用n元組進行匹配 111
43 構(gòu)建模糊串匹配應用 112
431 在搜索中加入提前輸入功能 113
432 搜索中的查詢拼寫校正 117
433 記錄匹配 122
44 小結(jié) 127
45 相關資源 128
第5章 命名實體識別 129
51 命名實體的識別方法 131
511 基于規(guī)則的實體識別 131
512 基于統(tǒng)計分類器的實體識別 132
52 基于OpenNLP的基本實體識別 133
521 利用OpenNLP尋找人名 134
522 OpenNLP識別的實體解讀 136
523 基于概率過濾實體 137
53 利用OpenNLP進行深度命名實體識別 137
531 利用OpenNLP識別多種實體類型 138
532 OpenNLP識別實體的背后機理 141
54 OpenNLP的性能 143
541 結(jié)果的質(zhì)量 144
542 運行性能 145
543 OpenNLP的內(nèi)存使用 146
55 對新領域定制OpenNLP實體識別 147
551 訓練模型的原因和方法 147
552 訓練OpenNLP模型 148
553 改變建模輸入 150
554 對實體建模的新方法 152
56 小結(jié) 154
57 進一步閱讀材料 155
第6章 文本聚類 156
61 Google News中的文檔聚類 157
62 聚類基礎 158
621 三種聚類的文本類型 158
622 選擇聚類算法 160
623 確定相似度 161
624 給聚類結(jié)果打標簽 162
625 聚類結(jié)果的評估 163
63 搭建一個簡單的聚類應用 165
64 利用Carrot2對搜索結(jié)果聚類 166
641 使用Carrot2API 166
642 使用Carrot2對Solr的搜索結(jié)果聚類 168
65 利用Apache Mahout對文檔集聚類 171
651 對聚類的數(shù)據(jù)進行預處理 172
652 K-means聚類 175
66 利用Apache Mahout進行主題建模 180
67 考察聚類性能 183
671 特征選擇與特征約簡 183
672 Carrot2的性能和質(zhì)量 186
673 Mahout基準聚類算法 187
68 致謝 192
69 小結(jié) 192
610 參考文獻 193
第7章 分類及標注 195
71 分類及歸類概述 197
72 分類過程 200
721 選擇分類機制 201
722 識別文本分類中的特征 202
723 訓練數(shù)據(jù)的重要性 203
724 評估分類器性能 206
725 將分類器部署到生產(chǎn)環(huán)境 208
73 利用Apache Lucene構(gòu)建文檔分類器 209
731 利用Lucene對文本進行分類 210
732 為MoreLikeThis分類器準備訓練數(shù)據(jù) 212
733 訓練MoreLikeThis分類器 214
734 利用MoreLikeThis分類器對文檔進行分類 217
735 測試MoreLikeThis分類器 220
736 將MoreLikeThis投入生產(chǎn)環(huán)境 223
74 利用Apache Mahout訓練樸素貝葉斯分類器 223
741 利用樸素貝葉斯算法進行文本分類 224
742 準備訓練數(shù)據(jù) 225
743 留存測試數(shù)據(jù) 229
744 訓練分類器 229
745 測試分類器 231
746 改進自舉過程 232
747 將Mahout貝葉斯分類器集成到Solr 234
75 利用OpenNLP進行文檔分類 238
751 回歸模型及最大熵文檔分類 239
752 為最大熵文檔分類器準備訓練數(shù)據(jù) 241
753 訓練最大熵文檔分類器 242
754 測試最大熵文檔分類器 248
755 生產(chǎn)環(huán)境下的最大熵文檔分類器 249
76 利用Apache Solr構(gòu)建標簽推薦系統(tǒng) 250
761 為標簽推薦收集訓練數(shù)據(jù) 253
762 準備訓練數(shù)據(jù) 255
763 訓練Solr標簽推薦系統(tǒng) 256
764 構(gòu)建推薦標簽 258
765 對標簽推薦系統(tǒng)進行評估 261
77 小結(jié) 263
78 參考文獻 265
第8章 構(gòu)建示例問答系統(tǒng) 266
81 問答系統(tǒng)基礎知識 268
82 安裝并運行QA代碼 270
83 一個示例問答系統(tǒng)的架構(gòu) 271
84 理解問題并產(chǎn)生答案 274
841 訓練答案類型分類器 275
842 對查詢進行組塊分析 279
843 計算答案類型 280
844 生成查詢 283
845 對候選段落排序 285
85 改進系統(tǒng)的步驟 287
86 本章小結(jié) 287
87 相關資源 288
第9章 未駕馭的文本:探索未來前沿 289
91 語義、篇章和語用:探索高級NLP 290
911 語義 291
912 篇章 292
913 語用 294
92 文檔及文檔集自動摘要 295
93 關系抽取 298
931 關系抽取方法綜述 299
932 評估 302
933 關系抽取工具 303
94 識別重要內(nèi)容和人物 303
941 全局重要性及權(quán)威度 304
942 個人重要性 305
943 與重要性相關的資源及位置 306
95 通過情感分析來探測情感 306
951 歷史及綜述 307
952 工具及數(shù)據(jù)需求 308
953 一個基本的極性算法 309
954 高級話題 311
955 用于情感分析的開源庫 312
96 跨語言檢索 313
97 本章小結(jié) 315
98 相關資源 315

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號