注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡軟件與程序設(shè)計搜索引擎技術(shù)與發(fā)展

搜索引擎技術(shù)與發(fā)展

搜索引擎技術(shù)與發(fā)展

定 價:¥69.00

作 者: 羅剛 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787121398032 出版時間: 2020-10-01 包裝: 平裝
開本: 16開 頁數(shù): 268 字數(shù):  

內(nèi)容簡介

  本書主要介紹如何使用Java語言開發(fā)搜索引擎,包括搜索引擎技術(shù)入門,使用Java開發(fā)網(wǎng)絡爬蟲,實現(xiàn)從文檔中提取索引內(nèi)容,中文分詞的原理與實現(xiàn),在Linux服務器端開發(fā)Solr應用,Spring Boot微服務框架實現(xiàn)的后端,以及React框架實現(xiàn)的前端等內(nèi)容。 第1章主要介紹各種類型的搜索引擎和開發(fā)搜索引擎可以借助的軟件工具;第2章主要介紹網(wǎng)絡爬蟲開發(fā)和數(shù)據(jù)存儲;第3章主要介紹從HTML文件中提取文本,以及從PDF、Word等非HTML文件中提取文本;第4章主要介紹Lucene中的中文分析器的原理與實現(xiàn);第5章主要介紹Solr索引庫的創(chuàng)建與維護,以及Solr的查詢解析器;第6章主要介紹Web方式搜索結(jié)果界面的實現(xiàn);第7章主要介紹如何使用SolrCloud實現(xiàn)分布式搜索。

作者簡介

  獵兔搜索技術(shù)創(chuàng)始人曾經(jīng)擔任國防大學科研處 技術(shù)顧問工信部 輿情開發(fā)顧問東南大學 社會導師首都師范大學 金融課程講師北京石油化工學院 社會導師北大光華管理學院 技術(shù)顧問藍汛公司搜索集群技術(shù)咨詢顧問新東方 創(chuàng)新研究院 研究員

圖書目錄

第1章 遍歷搜索引擎技術(shù)\t1
1.1 快速上手搜索引擎\t1
1.1.1 準備工作環(huán)境\t1
1.1.2 生成索引\t3
1.1.3 關(guān)鍵詞查詢\t8
1.1.4 實現(xiàn)搜索界面\t10
1.2 搜索語法\t22
1.3 你也可以做搜索引擎\t24
1.4 搜索引擎的基本技術(shù)\t25
1.4.1 網(wǎng)絡爬蟲\t25
1.4.2 全文索引結(jié)構(gòu)\t26
1.4.3 Solr全文檢索引擎\t27
1.4.4 Nutch網(wǎng)絡搜索軟件\t27
1.4.5 用戶界面\t28
1.5 商業(yè)搜索引擎技術(shù)概述\t29
1.5.1 通用搜索\t30
1.5.2 垂直搜索\t30
1.5.3 站內(nèi)搜索\t31
1.6 本章小結(jié)\t32
第2章 獲得海量數(shù)據(jù)\t34
2.1 自己的網(wǎng)絡爬蟲\t34
2.1.1 使用URL訪問網(wǎng)絡資源\t34
2.1.2 重試\t37
2.1.3 網(wǎng)絡爬蟲的遍歷與實現(xiàn)\t44
2.1.4 多線程爬蟲\t48
2.1.5 Log4j2日志\t49
2.1.6 存儲URL地址\t51
2.1.7 定向采集\t57
2.1.8 暗網(wǎng)抓取\t58
2.1.9 Selenium抓取動態(tài)頁面\t59
2.1.10 圖片抓取\t61
2.2 數(shù)據(jù)存儲\t62
2.2.1 寫入文件\t63
2.2.2 Jdbi寫入數(shù)據(jù)庫\t63
2.3 本地部署\t66
2.4 本章小結(jié)\t66
第3章 提取文檔中的文本內(nèi)容\t68
3.1 從HTML文件中提取文本\t68
3.1.1 使用HTMLParser實現(xiàn)定向抓取\t71
3.1.2 結(jié)構(gòu)化信息提取\t80
3.1.3 網(wǎng)頁的DOM結(jié)構(gòu)\t83
3.1.4 網(wǎng)頁去噪\t85
3.1.5 正文提取\t87
3.2 從非HTML文件中提取文本\t92
3.2.1 PDF文件\t95
3.2.2 Word文件\t96
3.2.3 Rtf文件\t98
3.2.4 Excel文件\t98
3.2.5 PowerPoint文件\t99
3.2.6 從圖片中提取文本\t100
3.3 流媒體內(nèi)容提取\t101
3.3.1 音頻流內(nèi)容提取\t101
3.3.2 視頻流內(nèi)容提取\t102
3.4 本章小結(jié)\t103
第4章 中文分詞\t104
4.1 Lucene中的中文分詞\t104
4.2 中文分詞的原理\t105
4.3 查找詞典算法\t106
4.4 句子切分\t112
4.5 有限狀態(tài)機識別未登錄串\t113
4.6 最大概率分詞方法\t117
4.7 N元分詞方法\t125
4.7.1 二元詞典\t125
4.7.2 二元分詞\t135
4.7.3 開發(fā)中文分析器\t139
4.8 新詞發(fā)現(xiàn)\t150
4.9 命名實體識別\t152
4.9.1 人名識別\t152
4.9.2 組織機構(gòu)名稱識別\t160
4.9.3 化學物質(zhì)識別\t161
4.10 詞性標注\t162
4.11 平滑算法\t173
4.12 地名切分\t176
4.13 本章小結(jié)\t182
第5章 Solr服務器端開發(fā)\t183
5.1 在Linux操作系統(tǒng)中安裝Solr\t183
5.2 創(chuàng)建和維護索引庫\t186
5.3 索引本地硬盤上的文件\t191
5.4 使用Bean索引文檔\t192
5.5 更新索引庫中的索引文檔\t194
5.6 刪除數(shù)據(jù)\t195
5.7 檢測索引\t195
5.8 查詢解析器\t196
5.9 本章小結(jié)\t196
第6章 用戶界面的設(shè)計與實現(xiàn)\t197
6.1 Solr搜索接口(search代碼)\t197
6.2 搜索頁面設(shè)計\t198
6.2.1 用于顯示搜索結(jié)果的模板\t200
6.2.2 搜索結(jié)果分頁\t202
6.2.3 測試搜索結(jié)果頁\t215
6.2.4 界面國際化\t216
6.2.5 用于Solr的Spring Data\t219
6.2.6 Spring-HATEOAS實現(xiàn)REST架構(gòu)\t221
6.3 實現(xiàn)搜索接口\t224
6.3.1 基本查詢\t224
6.3.2 布爾搜索\t226
6.3.3 指定范圍搜索\t226
6.3.4 搜索結(jié)果排序\t227
6.4 實現(xiàn)聚合\t228
6.5 實現(xiàn)相似文檔搜索\t234
6.6 實現(xiàn)自動完成\t235
6.6.1 總體結(jié)構(gòu)\t236
6.6.2 服務器端處理\t236
6.6.3 自動完成客戶端\t238
6.7 搜索日志\t244
6.8 React框架\t247
6.9 本章小結(jié)\t251
第7章 Solr分布式搜索\t252
7.1 使用Solr實現(xiàn)分布式搜索\t252
7.1.1 使用SolrCloud\t252
7.1.2 分片\t254
7.1.3 管理集群\t254
7.1.4 SolrCloud工作原理\t255
7.1.5 ZooKeeper分布式協(xié)調(diào)器\t256
7.2 Jenkins持續(xù)集成\t258
7.3 本章小結(jié)\t259
參考文獻\t260

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號