搜索引擎技術(shù)與發(fā)展

定　價：￥69.00

作　者：	羅剛著
出版社：	電子工業(yè)出版社
叢編項：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787121398032	出版時間：	2020-10-01	包裝：	平裝
開本：	16開	頁數(shù)：	268	字?jǐn)?shù)：

內(nèi)容簡介

　　本書主要介紹如何使用Java語言開發(fā)搜索引擎，包括搜索引擎技術(shù)入門，使用Java開發(fā)網(wǎng)絡(luò)爬蟲，實現(xiàn)從文檔中提取索引內(nèi)容，中文分詞的原理與實現(xiàn)，在Linux服務(wù)器端開發(fā)Solr應(yīng)用，Spring Boot微服務(wù)框架實現(xiàn)的后端，以及React框架實現(xiàn)的前端等內(nèi)容。第1章主要介紹各種類型的搜索引擎和開發(fā)搜索引擎可以借助的軟件工具；第2章主要介紹網(wǎng)絡(luò)爬蟲開發(fā)和數(shù)據(jù)存儲；第3章主要介紹從HTML文件中提取文本，以及從PDF、Word等非HTML文件中提取文本；第4章主要介紹Lucene中的中文分析器的原理與實現(xiàn)；第5章主要介紹Solr索引庫的創(chuàng)建與維護(hù)，以及Solr的查詢解析器；第6章主要介紹Web方式搜索結(jié)果界面的實現(xiàn)；第7章主要介紹如何使用SolrCloud實現(xiàn)分布式搜索。

作者簡介

　　獵兔搜索技術(shù)創(chuàng)始人曾經(jīng)擔(dān)任國防大學(xué)科研處技術(shù)顧問工信部輿情開發(fā)顧問東南大學(xué) 社會導(dǎo)師首都師范大學(xué) 金融課程講師北京石油化工學(xué)院社會導(dǎo)師北大光華管理學(xué)院技術(shù)顧問藍(lán)汛公司搜索集群技術(shù)咨詢顧問新東方創(chuàng)新研究院研究員

圖書目錄

第1章遍歷搜索引擎技術(shù)\t1
1．1 快速上手搜索引擎\t1
1．1．1 準(zhǔn)備工作環(huán)境\t1
1．1．2 生成索引\t3
1．1．3 關(guān)鍵詞查詢\t8
1．1．4 實現(xiàn)搜索界面\t10
1．2 搜索語法\t22
1．3 你也可以做搜索引擎\t24
1．4 搜索引擎的基本技術(shù)\t25
1．4．1 網(wǎng)絡(luò)爬蟲\t25
1．4．2 全文索引結(jié)構(gòu)\t26
1．4．3 Solr全文檢索引擎\t27
1．4．4 Nutch網(wǎng)絡(luò)搜索軟件\t27
1．4．5 用戶界面\t28
1．5 商業(yè)搜索引擎技術(shù)概述\t29
1．5．1 通用搜索\t30
1．5．2 垂直搜索\t30
1．5．3 站內(nèi)搜索\t31
1．6 本章小結(jié)\t32
第2章獲得海量數(shù)據(jù)\t34
2．1 自己的網(wǎng)絡(luò)爬蟲\t34
2．1．1 使用URL訪問網(wǎng)絡(luò)資源\t34
2．1．2 重試\t37
2．1．3 網(wǎng)絡(luò)爬蟲的遍歷與實現(xiàn)\t44
2．1．4 多線程爬蟲\t48
2．1．5 Log4j2日志\t49
2．1．6 存儲URL地址\t51
2．1．7 定向采集\t57
2．1．8 暗網(wǎng)抓取\t58
2．1．9 Selenium抓取動態(tài)頁面\t59
2．1．10 圖片抓取\t61
2．2 數(shù)據(jù)存儲\t62
2．2．1 寫入文件\t63
2．2．2 Jdbi寫入數(shù)據(jù)庫\t63
2．3 本地部署\t66
2．4 本章小結(jié)\t66
第3章提取文檔中的文本內(nèi)容\t68
3．1 從HTML文件中提取文本\t68
3．1．1 使用HTMLParser實現(xiàn)定向抓取\t71
3．1．2 結(jié)構(gòu)化信息提取\t80
3．1．3 網(wǎng)頁的DOM結(jié)構(gòu)\t83
3．1．4 網(wǎng)頁去噪\t85
3．1．5 正文提取\t87
3．2 從非HTML文件中提取文本\t92
3．2．1 PDF文件\t95
3．2．2 Word文件\t96
3．2．3 Rtf文件\t98
3．2．4 Excel文件\t98
3．2．5 PowerPoint文件\t99
3．2．6 從圖片中提取文本\t100
3．3 流媒體內(nèi)容提取\t101
3．3．1 音頻流內(nèi)容提取\t101
3．3．2 視頻流內(nèi)容提取\t102
3．4 本章小結(jié)\t103
第4章中文分詞\t104
4．1 Lucene中的中文分詞\t104
4．2 中文分詞的原理\t105
4．3 查找詞典算法\t106
4．4 句子切分\t112
4．5 有限狀態(tài)機(jī)識別未登錄串\t113
4．6 最大概率分詞方法\t117
4．7 N元分詞方法\t125
4．7．1 二元詞典\t125
4．7．2 二元分詞\t135
4．7．3 開發(fā)中文分析器\t139
4．8 新詞發(fā)現(xiàn)\t150
4．9 命名實體識別\t152
4．9．1 人名識別\t152
4．9．2 組織機(jī)構(gòu)名稱識別\t160
4．9．3 化學(xué)物質(zhì)識別\t161
4．10 詞性標(biāo)注\t162
4．11 平滑算法\t173
4．12 地名切分\t176
4．13 本章小結(jié)\t182
第5章 Solr服務(wù)器端開發(fā)\t183
5．1 在Linux操作系統(tǒng)中安裝Solr\t183
5．2 創(chuàng)建和維護(hù)索引庫\t186
5．3 索引本地硬盤上的文件\t191
5．4 使用Bean索引文檔\t192
5．5 更新索引庫中的索引文檔\t194
5．6 刪除數(shù)據(jù)\t195
5．7 檢測索引\t195
5．8 查詢解析器\t196
5．9 本章小結(jié)\t196
第6章用戶界面的設(shè)計與實現(xiàn)\t197
6．1 Solr搜索接口（search代碼）\t197
6．2 搜索頁面設(shè)計\t198
6．2．1 用于顯示搜索結(jié)果的模板\t200
6．2．2 搜索結(jié)果分頁\t202
6．2．3 測試搜索結(jié)果頁\t215
6．2．4 界面國際化\t216
6．2．5 用于Solr的Spring Data\t219
6．2．6 Spring-HATEOAS實現(xiàn)REST架構(gòu)\t221
6．3 實現(xiàn)搜索接口\t224
6．3．1 基本查詢\t224
6．3．2 布爾搜索\t226
6．3．3 指定范圍搜索\t226
6．3．4 搜索結(jié)果排序\t227
6．4 實現(xiàn)聚合\t228
6．5 實現(xiàn)相似文檔搜索\t234
6．6 實現(xiàn)自動完成\t235
6．6．1 總體結(jié)構(gòu)\t236
6．6．2 服務(wù)器端處理\t236
6．6．3 自動完成客戶端\t238
6．7 搜索日志\t244
6．8 React框架\t247
6．9 本章小結(jié)\t251
第7章 Solr分布式搜索\t252
7．1 使用Solr實現(xiàn)分布式搜索\t252
7．1．1 使用SolrCloud\t252
7．1．2 分片\t254
7．1．3 管理集群\t254
7．1．4 SolrCloud工作原理\t255
7．1．5 ZooKeeper分布式協(xié)調(diào)器\t256
7．2 Jenkins持續(xù)集成\t258
7．3 本章小結(jié)\t259
參考文獻(xiàn)\t260