Lucene分析與應(yīng)用

定　價(jià)：￥39.00

作　者：	吳眾欣、沈家立
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：	原創(chuàng)精品系列
標(biāo)　簽：	語(yǔ)言與開發(fā)工具

購(gòu)買這本書可以去

ISBN：	9787111249924	出版時(shí)間：	2008-01-01	包裝：	平裝
開本：	16	頁(yè)數(shù)：	279	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　《Lucene分析與應(yīng)用》對(duì)Lueene搜索引擎的源代碼進(jìn)行分析講解，并用一些具體實(shí)例把所有源代碼進(jìn)行組織與剖析，完整地展示Lucene從建立索引到查詢的過(guò)程。本書通過(guò)介紹Lucene的應(yīng)用，分析Lucene具體項(xiàng)目開發(fā)的應(yīng)用環(huán)境。最后簡(jiǎn)單地介紹了Nutch和Hadoop?！禠ucene分析與應(yīng)用》適用于開發(fā)搜索引擎的技術(shù)人員、Lucene愛(ài)好者等讀者。

作者簡(jiǎn)介

　　吳眾欣，西安交通大學(xué)在讀博士，主攻搜索引擎與服務(wù)組合。喜歡研讀，頭腦雖慢，滴水石穿。好奇心重，興趣廣泛。沈家立，2003年開始使用Java開發(fā)項(xiàng)目，主要從事電子商務(wù)和電子支付領(lǐng)域。喜歡研究開源項(xiàng)目，是bbs.wnetw.net的創(chuàng)建者之一，并擔(dān)任BEA天津UserGroupLeader。

圖書目錄

前言
第1章搜索引擎與Lucene
1.1 搜索引擎與Lucene簡(jiǎn)介
1.1.1 搜索引擎分類
1.1.2 Lucene項(xiàng)目簡(jiǎn)介
1.1.3 其他搜索引擎開發(fā)包介紹
1.2 Lucene的系統(tǒng)架構(gòu)
1.2.1 Lucene最簡(jiǎn)示例
1.2.2 Lueene采用的索引結(jié)構(gòu)
1.2.3 Lucene軟件包架構(gòu)
1.3 本書的章節(jié)導(dǎo)航
第2章文檔邏輯視圖與文本分析
2.1 文檔邏輯視圖
2.2 Lucene的文本分析過(guò)程簡(jiǎn)介
2.3 空格解析器（WhitespaceAnalyzer）
2.3.1 空格分詞器（Whitespace Tokenizer）
2.3.2 Token（標(biāo)志）
2.4 標(biāo)準(zhǔn)解析器（StandardAnalyzer）
2.4.1 標(biāo)準(zhǔn)分詞器（StandardTokenizer）
2.4.2 標(biāo)準(zhǔn)過(guò)濾器
2.5 打造自己的解析器
2.5.1 常用的中文分詞法
2.5.2 對(duì)CJKAnalyzer的分析
2.5.3 構(gòu)造自己的解析器
第3章 Lucene創(chuàng)建索引之一（段索引方式與倒排索引結(jié)構(gòu)）
3.1 倒排結(jié)構(gòu)與段索引方式
3.2 索引寫入過(guò)程概述
第4章 Lucene創(chuàng)建索引之二（在內(nèi)存中創(chuàng)建索引）
4.1 創(chuàng)建Document層面索引
4.2 寫入field信息
4.3 文件倒排過(guò)程
4.4 填寫postin，able
4.5 postingTable的排序過(guò)程
4.6 寫入field名字文件（.fnm文件）
4.7 寫入field信息文件（.fdt，.fdx文件）
4.8 寫入頻率與位置文件（.frq與.prx文件）
4.9 TermVector方式寫入索引（.tvf，.tvd與.tvx文件）
4.10 字典文件（.tis與.tii文件）
4.11 寫入規(guī)格化文件
第5章 Lucene創(chuàng)建索引之三（索引合并過(guò)程）
5.1 document層面的合并過(guò)程
5.2 field與term的合并過(guò)程
5.2.1 field信息合并過(guò)程
5.2.2 term信息合并過(guò)程
5.2.3 合并norm信息
5.3 Lunece索引采用的壓縮算法
5.3.1 front coding（端部編碼）
5.3.2 variable-byte coding（變長(zhǎng)字節(jié)編碼）
5.3.3 delta-coding或deha-encoding
5.4 小結(jié)
第6章 Lucene查詢過(guò)程之一（查詢模型與引擎預(yù)熱）
6.1 查詢模型
6.1.1 向量模型
6.1.2 布爾模型
6.1.3 Lucene的評(píng)分（score）方式
6.2 查詢簡(jiǎn)單示例
6.3 引擎預(yù)熱
6.3.1 獲得并打開索引文件
6.3.2 獲得segment信息
6.3.3 FSDirectory打開索引過(guò)程
6.3.4 獲得field信息
6.3.5 獲得term信息
第7章 Lucene查詢過(guò)程之二（查詢解析與語(yǔ)法）
7.1 構(gòu)建查詢解析器（QueryParser）
7.2 Lucene的查詢語(yǔ)法
7.2.1 項(xiàng)（Tcrm）查詢
7.2.2 域（Field）
7.2.3 詞條查詢（Term Modifiers）
7.2.4 布爾操作符（Boolean Operator）
7.2.5 組合查詢（Grouping）
7.2.6 針對(duì)field的組合查詢（Field Grouping Field）
7.2.7 Escaping Special Character（轉(zhuǎn)義字符）
7.3 Lucene查詢語(yǔ)法樹的構(gòu)建過(guò)程
7.3.1 過(guò)程分析
7.3.2 語(yǔ)法樹分析實(shí)例
第8章 Lucene查詢過(guò)程之三（相似度匹配與算法分析）
8.1 查詢與相似度計(jì)算
8.1.1 查詢器（Searcher）的查詢過(guò)程
8.1.2 查詢語(yǔ)句的權(quán)重計(jì)算
8.1.3 獲得topK個(gè)document
8.2 Lncene查詢算法分析
8.2.1 相似度計(jì)算簡(jiǎn)單實(shí)例
8.2.2 線性相似度計(jì)算
8.2.3 基于倒排索引的相似度計(jì)算
8.2.4 Lucene的相似度計(jì)算
第9章 Lucene標(biāo)引與查詢?nèi)淌纠?br /> 9.1 實(shí)例描述
9.2　建立索引過(guò)程
9.2.1 選擇文檔中建立索引的.field
9.2.2 選擇field錄入方式
9.2.3 生成segment文件
9.2.4 生成fields文件
9.2.5 posting文件
9.2.6 合并segment index生成index文件
9.2.7 合并后的文件關(guān)系
9.3 查詢過(guò)程
第10章 Lucene的常用應(yīng)用場(chǎng)景分析
10.1 對(duì)大型XML文檔集合的檢索
10.1.1 都柏林文件介紹
10.1.2 XML分析器介紹
10.1.3 Lucene在大型XML文件中的應(yīng)用
10.2 MuhiSearcher的應(yīng)用
10.2.1 MultiSearcher的應(yīng)用
10.2.2 ParallelMuhiSearcher的應(yīng)用
第11章利用Lucene構(gòu)建分布式搜索引擎
11.1 分布式文件系統(tǒng)和Hadoop
11.1.1 Hadoop文件系統(tǒng)體系結(jié)構(gòu)
11.1.2 系統(tǒng)交互過(guò)程：?jiǎn)我籒ameNode方式
11.1.3 系統(tǒng)組件描述
11.2 Nutch簡(jiǎn)單剖析
11.3 體驗(yàn)Nutch
附錄A TestIndexWriterMerging
附錄B TestDocumentWriter與DocHelper