注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡軟件與程序設計其他編程語言/工具Lucene+nutch搜索引擎開發(fā)

Lucene+nutch搜索引擎開發(fā)

Lucene+nutch搜索引擎開發(fā)

定 價:¥59.00

作 者: 王學松 編著
出版社: 人民郵電出版社
叢編項:
標 簽: 程序設計

ISBN: 9787115182166 出版時間: 2008-08-01 包裝: 平裝
開本: 16開 頁數(shù): 452 字數(shù):  

內(nèi)容簡介

  本書以Lucene構建搜索引擎的開發(fā)過程為主線,由淺入深,循序漸進,為讀者展示如何使用Lucene開發(fā)自己的搜索引擎系統(tǒng)。全書內(nèi)容包括搜索引擎概述和原理、Lucene部署安裝、Nutch網(wǎng)絡蜘蛛與數(shù)據(jù)獲取、Lucene索引建立、Lucene檢索與查詢、搜索結果排序、文檔分析器與中文分詞、格式化文本分析、分布式搜索與緩存等。為便于讀者理解搜索引擎快速開發(fā)過程,本書最后幾章進行了應用實例的講解,包括Nutch構建專題搜索、Lucene構建企業(yè)級搜索實例以及相關的整體工程性能測試。本書適合對搜索引擎開發(fā)有興趣的讀者閱讀,包括搜索引擎開發(fā)的初學者、高等院校、信息專業(yè)學生、從事搜索開發(fā)的程序設計人員等。

作者簡介

暫缺《Lucene+nutch搜索引擎開發(fā)》作者簡介

圖書目錄

第1篇 入門篇
 第1章 搜索引擎概述 
  1.1 什么是搜索引擎 
   1.1.1 搜索引擎與信息檢索 
   1.1.2 搜索引擎的概念 
   1.1.3 搜索引擎的使用 
   1.1.4 搜索引擎發(fā)展歷史 
  1.2 搜索引擎分類 
   1.2.1 按照工作方式分類 
   1.2.2 按照領域范圍分類 
   1.2.3 信息類型分類 
  1.3 主流搜索引擎 
   1.3.1 全球著名搜索引擎 
   1.3.2 中文搜索引擎的發(fā)展歷史 
   1.3.3 著名中文搜索引擎 
   1.3.4 其他細化搜索引擎 
  1.4 搜索引擎評價原則 
   1.4.1 評價指標體系 
   1.4.2 其他評測因素 
  1.5 搜索引擎相關資源 
   1.5.1 搜索引擎開源項目 
   1.5.2 搜索引擎研究網(wǎng)站 
   1.5.3 搜索論壇和廠商黑板報 
  1.6 系統(tǒng)運行環(huán)境準備 
   1.6.1 Java環(huán)境安裝設置 
   1.6.2 Tomcat服務器安裝 
   1.6.3 Eclipse開發(fā)環(huán)境準備 
  1.7 未來搜索技術前瞻 
   1.7.1 現(xiàn)狀存在問題 
   1.7.2 未來發(fā)展趨勢 
  1.8 小結 
 第2章 搜索引擎原理探秘 
  2.1 解密搜索引擎原理 
   2.1.1 搜索引擎技術框架 
   2.1.2 網(wǎng)頁信息抓取技術 
   2.1.3 網(wǎng)頁內(nèi)容分析技術 
   2.1.4 網(wǎng)頁索引建立技術 
   2.1.5 用戶檢索與結果排序 
   2.1.6 網(wǎng)頁檢索工具與接口 
  2.2 網(wǎng)絡爬蟲簡單實現(xiàn) 
   2.2.1 網(wǎng)絡蜘蛛功能需求 
   2.2.2 網(wǎng)絡蜘蛛實現(xiàn)原理 
   2.2.3 網(wǎng)絡爬蟲系統(tǒng)結構 
   2.2.4 網(wǎng)頁采集程序設計 
   2.2.5 網(wǎng)頁采集程序實現(xiàn) 
   2.2.6 程序實現(xiàn)存儲擴展 
  2.3 網(wǎng)頁分析程序實現(xiàn) 
   2.3.1 網(wǎng)頁分析功能需求 
   2.3.2 網(wǎng)頁分析實現(xiàn)原理 
   2.3.3 網(wǎng)頁分析系統(tǒng)結構 
   2.3.4 網(wǎng)頁分析程序設計 
   2.3.5 文本語素分割與過濾 
  2.4 網(wǎng)頁索引程序實現(xiàn) 
   2.4.1 網(wǎng)頁索引功能需求 
   2.4.2 網(wǎng)頁索引實現(xiàn)原理 
   2.4.3 網(wǎng)頁索引程序設計 
   2.4.4 網(wǎng)頁索引程序實現(xiàn) 
  2.5 檢索程序實現(xiàn) 
   2.5.1 檢索功能需求 
   2.5.2 檢索實現(xiàn)原理 
   2.5.3 檢索程序設計 
   2.5.4 網(wǎng)頁檢索程序實現(xiàn) 
  2.6 簡單搜索引擎系統(tǒng) 
  2.7 小結 
 第3章 開源搜索引擎入門 
  3.1 開源搜索引擎簡介 
   3.1.1 Lucene系統(tǒng)概述 
   3.1.2 Nutch概述 
  3.2 Lucene全文檢索系統(tǒng)部署 
   3.2.1 下載Lucene系統(tǒng) 
   3.2.2 Lucene部署配置 
   3.2.3 Lucene測試運行 
  3.3 Lucene開發(fā)實例入門 
   3.3.1 Lucene實例功能 
   3.3.2 Lucene開發(fā)實例 
   3.3.3 代碼實例解析 
  3.4 Nutch開源搜索引擎部署 
   3.4.1 Cygwin軟件安裝 
   3.4.2 Nutch下載與安裝 
   3.4.3 Nutch系統(tǒng)環(huán)境測試 
   3.4.4 Nutch搜索頁面部署 
  3.5 Nutch系統(tǒng)調試與開發(fā) 
   3.5.1 Eclipse中加載Nutch 
   3.5.2 Nutch工程編譯與發(fā)布 
  3.6 小結 
第2篇 內(nèi)核揭秘篇
 第4章 搜索引擎數(shù)據(jù)獲取 
  4.1 網(wǎng)絡蜘蛛原理 
   4.1.1 體系結構設計 
   4.1.2 訪問策略與算法 
   4.1.3 效率優(yōu)化與更新 
   4.1.4 蜘蛛訪問規(guī)范 
   4.1.5 開源蜘蛛簡介 
  4.2 Nutch網(wǎng)絡蜘蛛 
   4.2.1 Nutch網(wǎng)絡蜘蛛概述 
   4.2.2 Nutch抓取模式分類 
   4.2.3 抓取測試站點建立 
  4.3 Nutch局域網(wǎng)抓取 
   4.3.1 本地下載準備 
   4.3.2 啟動下載過程 
   4.3.3 下載過程解析 
   4.3.4 下載多個網(wǎng)站 
  4.4 Nutch互聯(lián)網(wǎng)抓取 
   4.4.1 下載列表獲取 
   4.4.2 下載大量網(wǎng)站 
  4.5 Nutch抓取比較 
  4.6 Nutch結果檢測 
   4.6.1 網(wǎng)頁內(nèi)容檢索 
   4.6.2 使用Readdb獲取摘要 
   4.6.3 使用SegRead讀取分段 
   4.6.4 Luke工具使用 
  4.7 Nutch配置文件解析 
  4.8 Heritrix網(wǎng)絡蜘蛛 
   4.8.1 Heritrix概述 
   4.8.2 Heritrix體系結構 
   4.8.3 Heritrix安裝與使用 
  4.9 小結 
 第5章 搜索引擎信息索引 
  5.1 文檔索引原理 
   5.1.1 索引概述 
   5.1.2 索引基本結構 
   5.1.3 倒排索引原理 
   5.1.4 索引分類 
   5.1.5 高性能索引 
  5.2 Lucene索引器 
   5.2.1 Lucene索引介紹 
   5.2.2 Lucene索引結構 
   5.2.3 多文件索引結構 
   5.2.4 復合索引結構 
  5.3 Lucene索引實例 
   5.3.1 索引創(chuàng)建代碼解析 
   5.3.2 索引創(chuàng)建器(IndexWriter) 
   5.3.3 索引管理器(IndexReader) 
   5.3.4 索引修改器(IndexModifier) 
   5.3.5 索引分析器(Analyzer) 
  5.4 Lucene索引操作 
   5.4.1 添加文本文件索引 
   5.4.2 創(chuàng)建Lucene增量索引 
   5.4.3 使用索引項刪除文檔 
   5.4.4 使用編號刪除文檔 
   5.4.5 壓縮文檔編號 
   5.4.6 索引文檔更新 
  5.5 Lucene索引高級特性 
   5.5.1 選擇索引域類型 
   5.5.2 索引參數(shù)優(yōu)化 
   5.5.3 使用磁盤索引 
   5.5.4 使用內(nèi)存索引 
   5.5.5 同步與鎖機制 
  5.6 Lucene高級應用實例 
   5.6.1 創(chuàng)建本地搜索的索引 
   5.6.2 索引數(shù)據(jù)庫記錄 
   5.6.3 索引優(yōu)化與合并 
  5.7 Nutch中的Lucene索引 
  5.8 小結 
 第6章 搜索引擎查詢處理 
  6.1 信息查詢原理 
   6.1.1 信息查詢概述 
   6.1.2 查詢基本流程 
   6.1.3 查詢結果顯示 
   6.1.4 高性能查詢 
  6.2 Lucene查詢概述 
   6.2.1 Lucene查詢操作基礎 
   6.2.2 Lucene查詢實例入門 
   6.2.3 查詢工具IndexSearcher類 
   6.2.4 查詢封裝Query類 
   6.2.5 查詢分析器QueryParser類 
   6.2.6 查詢結果集Hits類 
  6.3 Lucene基本查詢 
   6.3.1 Lucene查詢Query對象 
   6.3.2 最小項查詢TermQuery 
   6.3.3 區(qū)間范圍搜索RangeQuery 
   6.3.4 邏1/4組合搜索BooleanQuery 
   6.3.5 字串前綴搜索PrefixQuery 
   6.3.6 短語搜索PhraseQuery 
   6.3.7 模糊搜索FuzzyQuery 
   6.3.8 通配符搜索WildcardQuery 
   6.3.9 位置跨度搜索SpanQuery 
  6.4 Lucene高級查詢 
   6.4.1 索引內(nèi)存檢索 
   6.4.2 多關鍵字跨域檢索 
   6.4.3 多檢索器跨索引檢索 
  6.5 Nutch中的Lucene查詢 
  6.6 小結 
 第7章 搜索引擎結果排序 
  7.1 搜索引擎文檔排序原理 
   7.1.1 傳統(tǒng)檢索排序技術 
   7.1.2 向量模型排序局限 
   7.1.3 搜索引擎相關性排序 
   7.1.4 鏈接分析PageRank原理 
   7.1.5 搜索引擎排序流程 
  7.2 Lucene檢索排序 
   7.2.1 Lucene相關性因素 
   7.2.2 Lucene相關排序流程 
   7.2.3 Lucene排序計算體系 
   7.2.4 Lucene排序控制方法 
  7.3 文檔Boost加權排序 
   7.3.1 Lucene中Boost介紹 
   7.3.2 Boost值全文檔排序 
   7.3.3 Boost值文檔域排序 
   7.3.4 BoostingTermQuery排序 
  7.4 Sort對象檢索排序 
   7.4.1 Sort對象概述 
   7.4.2 Sort對象相關性排序 
   7.4.3 Sort對象文檔編號排序 
   7.4.4 Sort對象獨立域排序 
   7.4.5 Sort對象聯(lián)合域排序 
   7.4.6 Sort對象逆向排序 
  7.5 Lucene相關性公式 
   7.5.1 Lucene評分結果分析 
   7.5.2 Lucene排序公式 
   7.5.3 其他動態(tài)排序因子 
  7.6 Lucene自定義排序 
   7.6.1 自定義排序比較接口 
   7.6.2 自定義排序接口類實例 
   7.6.3 自定義排序結果測試實例 
   7.6.4 自定義排序測試結果 
  7.7 Nutch中的結果排序 
   7.7.1 Nutch排序因素 
   7.7.2 Nutch鏈接分析 
   7.7.3 Nutch相關度計算 
  7.8 小結 
 第8章 文檔分析器與中文分詞 
  8.1 文檔分析與中文分詞原理 
   8.1.1 文檔分析預處理概述 
   8.1.2 文檔分析基本流程 
   8.1.3 中文分析處理中的分詞 
  8.2 Lucene分析器內(nèi)核原理 
   8.2.1 Lucene分析器原理 
   8.2.2 Analysis包簡介 
   8.2.3 Analyzer類的組合結構 
   8.2.4 JavaCC構造分析器 
   8.2.5 StopAnalyzer內(nèi)核代碼分析 
   8.2.6 StandardAnalyzer內(nèi)核代碼分析 
  8.3 Lucene分析器應用模式 
   8.3.1 使用默認分析器建立索引 
   8.3.2 使用多種分析器建立索引 
   8.3.3 使用分析器檢索查詢 
  8.4 Lucene主要分析器應用實例 
   8.4.1 停用詞分析器StopAnalyzer 
   8.4.2 標準分析器StandardAnalyzer 
   8.4.3 簡單分析器SimpleAnalyzer 
   8.4.4 空格分析器WhitespaceAnalyzer 
   8.4.5 關鍵字分析器KeywordAnalyzer 
  8.5 TokenStream分詞器內(nèi)核分析 
   8.5.1 Tokenizer分詞器 
   8.5.2 標準分詞器StandardTokenizer 
   8.5.3 字符分詞器CharTokenizer 
   8.5.4 空格分詞器WhiteSpaceTokenizer 
   8.5.5 字母分詞器LetterTokenizer 
   8.5.6 小寫分詞器LowerCaseTokenizer 
  8.6 TokenStream過濾器內(nèi)核分析 
   8.6.1 TokenFilter過濾器 
   8.6.2 標準過濾器StandardFilter 
   8.6.3 停用詞過濾器StopFilter 
   8.6.4 小寫過濾器LowerCaseFilter 
   8.6.5 長度過濾器LengthFilter 
   8.6.6 詞干過濾器PorterStemFilter 
  8.7 Lucene中文分詞 
   8.7.1 中文分詞基本原理方法 
   8.7.2 StandardAnalyzer分析器中文處理 
   8.7.3 CJKAnalyzer中文分析器 
   8.7.4 ChineseAnalyzer中文分析器 
   8.7.5 IK_CAnalyzer中文分析器 
   8.7.6 中科院ICTCLAS中文分詞 
   8.7.7 JE中文分詞 
   8.7.8 中文分詞問題 
  8.8 Nutch分詞和預處理 
   8.8.1 Nutch分析器 
   8.8.2 Nutch中文分詞 
  8.9 小結 
 第9章 搜索引擎文本分析 
  9.1 非結構化文本簡介 
   9.1.1 非結構化文本概述 
   9.1.2 非結構化文本檢索 
  9.2 HTML文檔分析 
   9.2.1 主流HTML文檔分析器 
   9.2.2 HTMLParser安裝配置 
   9.2.3 HTMLParser的框架結構 
  9.3 HTMLParser應用實例 
   9.3.1 HTMLParser功能模式 
   9.3.2 HTMLParser內(nèi)容解析方式 
   9.3.3 Visitor模式正文解析 
   9.3.4 Filter模式簡單鏈接提取 
   9.3.5 Filter模式搜索鏈接提取 
   9.3.6 Lexer模式遍歷文檔 
  9.4 PDF文檔分析 
   9.4.1 常用的PDF處理包 
   9.4.2 PDFBox安裝配置 
  9.5 PDFBox應用實例 
   9.5.1 PDFBox提取文檔內(nèi)容 
   9.5.2 PDFBox文檔內(nèi)容索引 
  9.6 Office文檔分析 
   9.6.1 常用Office文檔處理包 
   9.6.2 使用POI安裝與配置 
   9.6.3 POI原理與接口介紹 
  9.7 POI分析Office文檔實例 
   9.7.1 POI處理Excel文檔 
   9.7.2 POI處理Word文檔 
  9.8 XML文檔分析 
   9.8.1 主流XML文檔分析器 
   9.8.2 JDOM分析器安裝配置 
   9.8.3 xerces分析器安裝配置 
  9.9 XML解析應用實例 
   9.9.1 使用JDOM分析XML 文檔 
   9.9.2 使用xerces分析XML 文檔 
  9.10 Nutch文檔處理 
  9.11 小結 
 第10章 分布式搜索與緩存 
  10.1 分布式檢索與緩存 
   10.1.1 分布式搜索引擎現(xiàn)狀 
   10.1.2 分布式搜索引擎原理 
   10.1.3 搜索引擎緩存現(xiàn)狀 
   10.1.4 搜索引擎緩存原理 
  10.2 Nutch與分布式檢索 
   10.2.1 Google分布式文件系統(tǒng) 
   10.2.2 MapReduce系統(tǒng)介紹 
   10.2.3 Hadoop分布式文件系統(tǒng) 
   10.2.4 Nutch分布式文件系統(tǒng) 
   10.2.5 Nutch分布式檢索概述 
   10.2.6 Nutch分布式檢索器 
  10.3 Lucene分布式檢索 
   10.3.1 Socket通信基礎 
   10.3.2 Lucene索引服務器 
  10.4 Nutch與搜索緩存 
  10.5 開源系統(tǒng)緩存系統(tǒng) 
  10.6 小結 
第3篇 實戰(zhàn)篇
 第11章 Nutch專題搜索引擎實例 
  11.1 專題搜索需求分析 
   11.1.1 專題搜索功能需求 
   11.1.2 專題搜索用例分析 
  11.2 構建Nutch基礎搜索引擎 
   11.2.1 Nutch搜索功能分析 
   11.2.2 信息下載功能測試 
   11.2.3 Nutch基礎Web檢索 
   11.2.4 Web用戶頁面修改 
  11.3 專題搜索系統(tǒng)設計 
   11.3.1 系統(tǒng)框架設計 
   11.3.2 選擇開發(fā)工具組件 
  11.4 專題關鍵詞管理 
   11.4.1 專題關鍵詞策略 
   11.4.2 關鍵詞存儲設計 
   11.4.3 關鍵詞管理程序 
  11.5 專題資源發(fā)現(xiàn) 
   11.5.1 專題網(wǎng)頁鏈接發(fā)現(xiàn) 
   11.5.2 專題資源網(wǎng)站提取 
  11.6 專題信息下載 
   11.6.1 批量信息下載 
   11.6.2 信息自動下載 
  11.7 專題信息分析與索引 
   11.7.1 網(wǎng)頁信息分析 
   11.7.2 創(chuàng)建索引 
  11.8 檢索輔助功能 
   11.8.1 相關詞推薦 
   11.8.2 檢索詞高亮顯示 
   11.8.3 檢索結果翻頁 
  11.9 小結 
 第12章 Lucene實現(xiàn)企業(yè)搜索實例 
  12.1 企業(yè)搜索需求分析 
   12.1.1 企業(yè)搜索需求概述 
   12.1.2 企業(yè)搜索用例分析 
  12.2 企業(yè)級搜索系統(tǒng)設計 
   12.2.1 系統(tǒng)框架設計 
   12.2.2 Lucene檢索框架 
  12.3 企業(yè)級搜索系統(tǒng)設計 
   12.3.1 創(chuàng)建Lucene工程 
   12.3.2 全文檢索索引生成 
   12.3.3 全文檢索檢索頁面 
  12.4 數(shù)據(jù)引擎設計 
   12.4.1 數(shù)據(jù)庫數(shù)據(jù)管理 
   12.4.2 非結構化文檔 
  12.5 企業(yè)信息索引 
   12.5.1 數(shù)據(jù)索引建立 
   12.5.2 信息檢索代碼 
   12.5.3 檢索Web代碼 
   12.5.4 檢索結果測試 
  12.6 小結

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號