本書詳細介紹了如何應用Lucene進行搜索引擎開發(fā),通過學習本書,讀者可以完成構建一個企業(yè)級的搜索引擎網站。.全書共分為14章,內容包括搜索引擎與信息檢索基礎,Lucene入門實例,Lucene索引的建立,使用Lucene構建搜索,Lucene的排序,Lucene的分析器,對Word、Excel和PDF格式文檔的解析,Compass搜索引擎框架,Lucene分布式和Google Search API,爬蟲Heritrix,綜合實例之準備篇,綜合實例之HTMLParser篇,綜合實例之DWR篇,綜合實例之Web編。..本書是國內第一本使用Lucene和Heritrix來講解搜索引擎構建的書,通過詳細的對API和源代碼的分析,力求使讀者在應用的基礎上,能夠深入其核心,自行擴展和開發(fā)相應組件,發(fā)揮想象力,開發(fā)出更具有創(chuàng)意的搜索引擎產品。本書適合Java程序員和從事計算機軟件開發(fā)的其他編程人員閱讀,同時也可以作為搜索引擎愛好者的入門書籍。由于目前市面上從技術層面介紹搜索引擎的書并不多,即使有,也大多停留在理論階段,而非搜索引擎的開發(fā)過程。因此,可以說本書是國內第一本詳細介紹搜索引擎開發(fā)過程的圖書。(1)采用最新的Lucene 2.0。以前大家用的1.4.3版本,而最新的Lucene 2.0重寫了很多API,內部的實現(xiàn)方法也有了很大優(yōu)化。本書的代碼都是在2.0版本下調試通過的,這樣可以幫助讀者了解Lucene的更多新功能。(2)配有一個完整的搜索引擎案例。這個案例有很強的實用價值,只需稍加修改,就能應用于實際項目,市場價值在30000元以上!(3)著重解決開發(fā)人員頭痛的問題。本書的目的是指導項目實踐,因此沒有羅列各個API的用法,而是對常見的開發(fā)問題進行深入探討,比如本書的第7章,是專門為解決“Word,Excel和PDF文件如何解析”這個問題而設置的。(4)內容新穎,前衛(wèi)實用。本書介紹了Compass、Heritrix、DWR和HTMLParser等內容。在搜索引擎開發(fā)的過程中,這些均為相當重要且實用的技術,筆者經過自身實踐將它們展現(xiàn)給讀者,希望能讓讀者在學習Lucene的同時開拓視野。光盤特色:配有一個完整的搜索引擎案例。這個案例有很強的實用價值,只需稍加修改,就能應用于實際項目,市場價值在30000元以上!...