《解密搜索引擎技術實戰(zhàn):Lucene & Java精華版(第2版)》總結搜索引擎相關理論與實際解決方案,并給出了Java實現(xiàn),其中利用了流行的開源項目Lucene和Solr,而且還包括原創(chuàng)的實現(xiàn)?!督饷芩阉饕婕夹g實戰(zhàn):Lucene & Java精華版(第2版)》主要包括總體介紹部分、爬蟲部分、自然語言處理部分、全文檢索部分以及相關案例分析。爬蟲部分介紹了網頁遍歷方法和如何實現(xiàn)增量抓取,并介紹了從網頁等各種格式的文檔中提取主要內容的方法。自然語言處理部分從統(tǒng)計機器學習的原理出發(fā),包括了中文分詞與詞性標注的理論與實現(xiàn)及在搜索引擎中的應用等細節(jié),同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領域的經典問題進行了深入淺出的介紹,并總結了實現(xiàn)方法。在全文檢索部分,結合Lucene介紹了搜索引擎的原理與進展。用簡單的例子介紹了Lucene的最新應用方法,包括完整的搜索實現(xiàn)過程:從完成索引到搜索用戶界面的實現(xiàn)。此外還進一步介紹了實現(xiàn)準實時搜索的方法,展示了Solr的用法以及實現(xiàn)分布式搜索服務集群的方法。最后介紹了在地理信息系統(tǒng)領域和戶外活動搜索領域的應用。