解密搜索引擎技術(shù)實(shí)戰(zhàn)：Lucene&Java精華版

定　價(jià)：￥69.80

作　者：	羅剛編著
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	J2EE

購買這本書可以去

ISBN：	9787121133930	出版時(shí)間：	2011-06-01	包裝：	平裝
開本：	16開	頁數(shù)：	544	字?jǐn)?shù)：

內(nèi)容簡介

　　《解密搜索引擎技術(shù)實(shí)戰(zhàn)：Lucene&Java精華版（含DVD光盤1張）》是獵兔搜索開發(fā)團(tuán)隊(duì)的軟件研發(fā)和教學(xué)實(shí)踐的經(jīng)驗(yàn)匯總。本書總結(jié)搜索引擎相關(guān)理論與實(shí)際解決方案，并給出了Java實(shí)現(xiàn)，其中利用了流行的開源項(xiàng)目Lucene和Solr，而且還包括原創(chuàng)的實(shí)現(xiàn)。本書主要包括總體介紹部分、爬蟲部分、自然語言處理部分、全文檢索部分以及相關(guān)案例分析。爬蟲部分介紹了網(wǎng)頁遍歷方法和如何實(shí)現(xiàn)增量抓取，并介紹了從網(wǎng)頁等各種格式的文檔中提取主要內(nèi)容的方法。自然語言處理部分從統(tǒng)計(jì)機(jī)器學(xué)習(xí)的原理出發(fā)，包括了中文分詞與詞性標(biāo)注的理論與實(shí)現(xiàn)以及在搜索引擎中的實(shí)用等細(xì)節(jié)，同時(shí)對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領(lǐng)域的經(jīng)典問題進(jìn)行了深入淺出的介紹并總結(jié)了實(shí)現(xiàn)方法。在全文檢索部分，結(jié)合Lucene 3.0介紹了搜索引擎的原理與進(jìn)展。用簡單的例子介紹了Lucene的最新應(yīng)用方法。包括完整的搜索實(shí)現(xiàn)過程：從完成索引到搜索用戶界面的實(shí)現(xiàn)。本書還進(jìn)一步介紹了實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)搜索的方法，展示了Solr 1.4版本的用法以及實(shí)現(xiàn)分布式搜索服務(wù)集群的方法。最后介紹了在地理信息系統(tǒng)領(lǐng)域和戶外活動搜索領(lǐng)域的應(yīng)用。

作者簡介

暫缺《解密搜索引擎技術(shù)實(shí)戰(zhàn)：Lucene&Java精華版》作者簡介

圖書目錄

第1章搜索引擎總體結(jié)構(gòu)
1.1 搜索引擎基本模塊
1.2 開發(fā)環(huán)境
1.3 搜索引擎工作原理
1.3.1 網(wǎng)絡(luò)爬蟲
1.3.2 全文索引結(jié)構(gòu)與Lucene實(shí)現(xiàn)
1.3.3 搜索用戶界面
1.3.4 計(jì)算框架
1.3.5 文本挖掘
1.4 本章小結(jié)第2章網(wǎng)絡(luò)爬蟲的原理與應(yīng)用
2.1 爬蟲的基本原理
2.2 爬蟲架構(gòu)
2.2.1 基本架構(gòu)
2.2.2 分布式爬蟲架構(gòu)
2.2.3 垂直爬蟲架構(gòu)
2.3 抓取網(wǎng)頁
2.3.1 下載網(wǎng)頁的基本方法
2.3.2 網(wǎng)頁更新
2.3.3 抓取限制應(yīng)對方法
2.3.4 URL地址提取
2.3.5 抓取JavaScript動態(tài)頁面
2.3.6 抓取即時(shí)信息
2.3.7 抓取暗網(wǎng)
2.3.8 信息過濾
2.3.9 最好優(yōu)先遍歷
2.4 存儲URL地址
2.4.1 BerkeleyDB
2.4.2 布隆過濾器
2.5 并行抓取
2.5.1 多線程爬蟲
2.5.2 垂直搜索的多線程爬蟲
2.5.3 異步I/O
2.6 RSS抓取
2.7 抓取FTP
2.8 下載圖片
2.9 圖像的OCR識別
2.9.1 圖像二值化
2.9.2 切分圖像
2.9.3 SVM分類
2.10 Web結(jié)構(gòu)挖掘
2.10.1 存儲Web圖
2.10.2 PageRank算法
2.10.3 HITs算法
2.10.4 主題相關(guān)的PageRank
2.11 部署爬蟲
2.12 本章小結(jié)第3章索引內(nèi)容提取
3.1 從HTML文件中提取文本
3.1.1 字符集編碼
3.1.2 識別網(wǎng)頁的編碼
3.1.3 網(wǎng)頁編碼轉(zhuǎn)換為字符串編碼
3.1.4 使用HTMLParser實(shí)現(xiàn)定向抓取
3.1.5 使用正則表達(dá)式提取數(shù)據(jù)
3.1.6 結(jié)構(gòu)化信息提取
3.1.7 網(wǎng)頁的DOM結(jié)構(gòu)
3.1.8 使用NekoHTML提取信息
3.1.9 網(wǎng)頁去噪
3.1.10 網(wǎng)頁結(jié)構(gòu)相似度計(jì)算
3.1.11 提取標(biāo)題
3.1.12 提取日期
3.2 從非HTML文件中提取文本
3.2.1 提取標(biāo)題的一般方法
3.2.2 PDF文件
3.2.3 Word文件
3.2.4 Rtf文件
3.2.5 Excel文件
3.2.6 PowerPoint文件
3.3 提取垂直行業(yè)信息
3.3.1 醫(yī)療行業(yè)
3.3.2 旅游行業(yè)
3.4 流媒體內(nèi)容提取
3.4.1 音頻流內(nèi)容提取
3.4.2 視頻流內(nèi)容提取
3.5 存儲提取內(nèi)容
3.6 本章小結(jié)第4章中文分詞原理與實(shí)現(xiàn)
4.1 Lucene中的中文分詞
4.1.1 Lucene切分原理
4.1.2 Lucene中的Analyzer
4.1.3 自己寫Analyzer
4.1.4 Lietu中文分詞
4.2 查找詞典算法
4.2.1 標(biāo)準(zhǔn)Trie樹
4.2.2 三叉Trie樹
4.3 中文分詞的原理
4.4 中文分詞流程與結(jié)構(gòu)
4.5 形成切分詞圖
4.6 概率語言模型的分詞方法
4.7 N元分詞方法
4.8 新詞發(fā)現(xiàn)
4.9 未登錄詞識別
4.10 詞性標(biāo)注
4.10.1 隱馬爾可夫模型
4.10.2 基于轉(zhuǎn)換的錯(cuò)誤學(xué)習(xí)方法
4.11 平滑算法
4.12 機(jī)器學(xué)習(xí)的方法
4.12.1 最大熵
4.12.2 條件隨機(jī)場
4.13 有限狀態(tài)機(jī)
4.14 本章小結(jié)第5章讓搜索引擎理解自然語言
5.1 停用詞表
5.2 句法分析樹
5.3 相似度計(jì)算
5.4 文檔排重
5.4.1 語義指紋
5.4.2 SimHash
5.4.3 分布式文檔排重
5.5 中文關(guān)鍵詞提取
5.5.1 關(guān)鍵詞提取的基本方法
5.5.2 HITS算法應(yīng)用于關(guān)鍵詞提取
5.5.3 從網(wǎng)頁中提取關(guān)鍵詞
5.6 相關(guān)搜索詞
5.6.1 挖掘相關(guān)搜索詞
5.6.2 使用多線程計(jì)算相關(guān)搜索詞
5.7 信息提取
5.8 拼寫檢查與建議
5.8.1 模糊匹配問題
5.8.2 英文拼寫檢查
5.8.3 中文拼寫檢查
5.9 自動摘要
5.9.1 自動摘要技術(shù)
5.9.2 自動摘要的設(shè)計(jì)
5.9.3 基于篇章結(jié)構(gòu)的自動摘要
5.9.4 Lucene中的動態(tài)摘要
5.10 文本分類
5.10.1 特征提取
5.10.2 中心向量法
5.10.3 樸素貝葉斯
5.10.4 支持向量機(jī)
5.10.5 多級分類
5.10.6 規(guī)則方法
5.10.7 網(wǎng)頁分類
5.11 自動聚類
5.11.1 聚類的定義
5.11.2 K均值聚類方法
5.11.3 K均值實(shí)現(xiàn)
5.11.4 深入理解DBScan算法
5.11.5 使用DBScan算法聚類實(shí)例
5.12 拼音轉(zhuǎn)換
5.13 概念搜索
5.14 多語言搜索
5.15 跨語言搜索
5.16 情感識別
5.16.1 確定詞語的褒貶傾向
5.16.2 實(shí)現(xiàn)情感識別
5.16.3 用戶協(xié)同過濾
5.17 本章小結(jié)第6章 Lucene原理與應(yīng)用
6.1 Lucene深入介紹
6.1.1 常用查詢
6.1.2 查詢語法與解析
6.1.3 查詢原理
6.1.4 使用Filter篩選搜索結(jié)果
6.1.5 遍歷索引庫
6.1.6 索引數(shù)值列
6.2 Lucene中的壓縮算法
6.2.1 變長壓縮
6.2.2 PForDelta
6.2.3 前綴壓縮
6.2.4 差分編碼
6.2.5 設(shè)計(jì)索引庫結(jié)構(gòu)
6.3 創(chuàng)建和維護(hù)索引庫
6.3.1 創(chuàng)建索引庫
6.3.2 向索引庫中添加索引文檔
6.3.3 刪除索引庫中的索引文檔
6.3.4 更新索引庫中的索引文檔
6.3.5 索引的合并
6.3.6 索引文件格式
6.3.7 分發(fā)索引
6.3.8 修復(fù)索引
6.4 查找索引庫
6.5 讀寫并發(fā)控制
6.6 優(yōu)化使用Lucene
6.6.1 索引優(yōu)化
6.6.2 查詢優(yōu)化
6.6.3 實(shí)現(xiàn)時(shí)間加權(quán)排序
6.6.4 實(shí)現(xiàn)字詞混合索引
6.6.5 重用Tokenizer
6.6.6 定制Tokenizer
6.7 檢索模型
6.7.1 向量空間模型
6.7.2 BM25概率模型
6.7.3 統(tǒng)計(jì)語言模型
6.8 查詢大容量索引
6.9 實(shí)時(shí)搜索
6.10 本章小結(jié)第7章搜索引擎用戶界面
7.1 實(shí)現(xiàn)Lucene搜索
7.2 搜索頁面設(shè)計(jì)
7.2.1 Struts2實(shí)現(xiàn)的搜索界面
7.2.2 翻頁組件
7.3 實(shí)現(xiàn)搜索接口
7.3.1 編碼識別
7.3.2 布爾搜索
7.3.3 指定范圍搜索
7.3.4 搜索結(jié)果排序
7.3.5 搜索頁面的索引緩存與更新
7.4 歷史搜索詞記錄
7.5 實(shí)現(xiàn)關(guān)鍵詞高亮顯示
7.6 實(shí)現(xiàn)分類統(tǒng)計(jì)視圖
7.7 實(shí)現(xiàn)相似文檔搜索
7.8 實(shí)現(xiàn)AJAX搜索聯(lián)想詞
7.8.1 估計(jì)查詢詞的文檔頻率
7.8.2 搜索聯(lián)想詞總體結(jié)構(gòu)
7.8.3 服務(wù)器端處理
7.8.4 瀏覽器端處理
7.8.5 服務(wù)器端改進(jìn)
7.8.6 拼音提示
7.8.7 部署總結(jié)
7.9 集成其他功能
7.9.1 拼寫檢查
7.9.2 分類統(tǒng)計(jì)
7.9.3 相關(guān)搜索
7.9.4 再次查找
7.9.5 搜索日志
7.10 搜索日志分析
7.10.1 日志信息過濾
7.10.2 信息統(tǒng)計(jì)
7.10.3 挖掘日志信息
7.11 本章小結(jié)第8章使用Solr實(shí)現(xiàn)企業(yè)搜索
8.1 Solr簡介
8.2 Solr基本用法
8.2.1 Solr服務(wù)器端的配置與中文支持