注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)工業(yè)技術(shù)建筑科學(xué)建筑設(shè)計(jì)大數(shù)據(jù)搜索引擎原理分析

大數(shù)據(jù)搜索引擎原理分析

大數(shù)據(jù)搜索引擎原理分析

定 價(jià):¥69.00

作 者: 劉凡平
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787121352454 出版時(shí)間: 2018-11-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 356 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書是暢銷書升級(jí)版,向讀者提供了一套完整的大數(shù)據(jù)時(shí)代背景下的搜索引擎解決方案,詳盡地介紹了搜索引擎的技術(shù)架構(gòu)、算法體系及取得的成果,并以模塊化的方式進(jìn)行組織。本書著重介紹了機(jī)器學(xué)習(xí)在搜索引擎中的應(yīng)用,包括中文分詞、聚類、分類等核心的機(jī)器學(xué)習(xí)算法,并結(jié)合示例加以介紹和分析,使讀者可以更好地理解機(jī)器學(xué)習(xí)在搜索引擎中的價(jià)值;同時(shí),闡述了大數(shù)據(jù)給搜索引擎帶來(lái)的新特性,結(jié)合目前大數(shù)據(jù)分析的主流工具,在搜索引擎中構(gòu)建知識(shí)圖譜,以及進(jìn)行日志反饋學(xué)習(xí),可以使得搜索引擎更加智能。本書不僅適合作為互聯(lián)網(wǎng)行業(yè)從業(yè)者的技術(shù)參考書,也適合作為搜索引擎愛好者的參考讀物。

作者簡(jiǎn)介

  劉凡平,碩士,畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)軟件系統(tǒng)設(shè)計(jì)專業(yè)。曾任職微軟亞太研發(fā)集團(tuán)、百度(中國(guó))有限公司?,F(xiàn)任薇問(wèn)(北京)科技有限公司首席技術(shù)官,負(fù)責(zé)搜索引擎技術(shù)與大數(shù)據(jù)人工智能平臺(tái)研發(fā)工作。擅長(zhǎng)搜索引擎、大數(shù)據(jù)分析、分布式計(jì)算等相關(guān)研發(fā)工作,是Iveely開源搜索引擎的主要貢獻(xiàn)者之一。

圖書目錄

第1章?引論 1

1.1?搜索引擎的過(guò)去 1

1.2?搜索引擎的現(xiàn)在 2

1.3?搜索引擎的未來(lái) 4

1.4?大數(shù)據(jù)與搜索引擎 6

1.4.1?搜索價(jià)值提升 6

1.4.2?用戶價(jià)值提升 7

1.5?大數(shù)據(jù)與人工智能 7

1.5.1?人工智能的發(fā)展 7

1.5.2?人工智能技術(shù) 9

1.6 搜索引擎與人工智能 11

1.7?本章小結(jié) 13

第2章?搜索引擎原理與技術(shù) 14

2.1?基本工作原理 14

2.2?基本模塊結(jié)構(gòu) 15

2.2.1?網(wǎng)絡(luò)爬蟲服務(wù) 16

2.2.2?索引服務(wù) 17

2.2.3?緩存服務(wù) 18

2.2.4?搜索服務(wù) 19

2.2.5?日志服務(wù) 21

2.3?技術(shù)概要 22

2.3.1?自然語(yǔ)言處理 22

2.3.2?知識(shí)圖譜 23

2.3.3?海量數(shù)據(jù)存儲(chǔ) 25

2.3.4?分布式計(jì)算 27

2.3.5?搜索排序 28

2.4 開源技術(shù) 29

2.4.1 Apache Lucene 29

2.4.2 Apache Nutch 31

2.4.3 Sphinx 32

2.4.4 Elastic Search 34

2.5?本章小結(jié) 36

第3章?自然語(yǔ)言處理框架 37

3.1?英文分詞 37

3.2?中文分詞 39

3.2.1?中文分詞概述 39

3.2.2?基于詞庫(kù)的分詞技術(shù) 40

3.2.3?基于條件隨機(jī)場(chǎng)模型的中文分詞 42

3.2.4?分詞粒度 49

3.3?詞性標(biāo)注 50

3.3.1?隱馬爾科夫模型概要 51

3.3.2?隱馬爾科夫模型與詞性標(biāo)注 52

3.4?語(yǔ)義相似度 60

3.5?依存句法分析 62

3.5.1?依存句法分析概要 62

3.5.2?依存句法分析實(shí)現(xiàn) 65

3.6?情感傾向分析 68

3.7?文檔關(guān)鍵詞提取 70

3.7.1?文檔關(guān)鍵詞提取概述 70

3.7.2?基于TF-IDF算法 71

3.7.3?基于TextRank算法 73

3.8?文檔句子相似度分析 76

3.8.1?句子相似度 77

3.8.2?文檔相似度 79

3.9?文檔核心句提取 80

3.10?文本的分類與聚類 83

3.10.1?文本分類 84

3.10.2?文本聚類 89

3.11?語(yǔ)種檢測(cè) 96

3.12?本章小結(jié) 98

第4章?構(gòu)建大數(shù)據(jù)存儲(chǔ)引擎 99

4.1?架構(gòu)體系 100

4.1.1?結(jié)構(gòu)概要 100

4.1.2?服務(wù)器上線 103

4.1.3?服務(wù)器下線 103

4.1.4?數(shù)據(jù)讀取 104

4.2?數(shù)據(jù)存儲(chǔ)模型 105

4.3?數(shù)據(jù)壓縮 107

4.4?負(fù)載均衡 108

4.5?數(shù)據(jù)存儲(chǔ)邏輯視圖 111

4.6?本章小結(jié) 114

第5章?構(gòu)建分布式實(shí)時(shí)計(jì)算 115

5.1?概述 115

5.2?設(shè)計(jì)架構(gòu) 117

5.2.1?設(shè)計(jì)思想 117

5.2.2?基本框架 119

5.3?運(yùn)行模式 121

5.4?負(fù)載均衡 122

5.5?通信設(shè)計(jì) 123

5.5.1?基本方式 124

5.5.2?分布式遠(yuǎn)程服務(wù)調(diào)用 124

5.6?容災(zāi)恢復(fù) 125

5.7?數(shù)據(jù)容錯(cuò)原理 126

5.8?數(shù)據(jù)處理設(shè)計(jì)示例 128

5.9?本章小結(jié) 129

第6章?分布式可擴(kuò)展爬蟲 130

6.1?爬蟲體系架構(gòu) 130

6.1.1?主從分布式結(jié)構(gòu)爬蟲 131

6.1.2?對(duì)等分布式結(jié)構(gòu)爬蟲 131

6.1.2?基于分布式計(jì)算平臺(tái)爬蟲 132

6.2?網(wǎng)頁(yè)解析 133

6.2.1?狀態(tài)碼處理 134

6.2.2?鏈接去重 134

6.2.3?廣告識(shí)別 136

6.2.4?網(wǎng)站地圖 139

6.2.5?非網(wǎng)頁(yè)數(shù)據(jù)獲取 140

6.2.6?網(wǎng)頁(yè)去重 141

6.2.7?鏈接提取 145

6.2.8?爬蟲協(xié)議 146

6.3?網(wǎng)頁(yè)結(jié)構(gòu)化 148

6.3.1?網(wǎng)頁(yè)的編碼信息 148

6.3.2?網(wǎng)頁(yè)的正文信息 149

6.3.3?網(wǎng)頁(yè)的關(guān)鍵詞信息 153

6.3.4?網(wǎng)頁(yè)的標(biāo)題 153

6.3.5?網(wǎng)頁(yè)的發(fā)布時(shí)間 155

6.3.6?網(wǎng)頁(yè)的語(yǔ)言檢測(cè) 155

6.3.7?其他結(jié)構(gòu)化數(shù)據(jù) 156

6.4?網(wǎng)頁(yè)抓取策略 157

6.5?爬蟲權(quán)限應(yīng)對(duì) 158

6.6?深網(wǎng)抓取 161

6.7?抓取更新策略 162

6.8?本章小結(jié) 164

第7章?大數(shù)據(jù)構(gòu)建知識(shí)圖譜 165

7.1?概述 165

7.1.1 開放知識(shí)圖譜 165

7.1.2 知識(shí)圖譜與認(rèn)知智能 167

7.1.3 圖數(shù)據(jù)庫(kù):Neo4j 168

7.1.4 資源描述框架:RDF 172

7.2?搜索引擎與知識(shí)圖譜 174

7.3?可靠數(shù)據(jù)源選擇 176

7.4?實(shí)體抽取 177

7.5?關(guān)系抽取 178

7.5.1?關(guān)系抽取概述 179

7.5.2?隱藏關(guān)系抽取 180

7.5.3?結(jié)構(gòu)化確定關(guān)系抽取 183

7.5.4?非結(jié)構(gòu)化確定關(guān)系抽取 185

7.6?知識(shí)圖譜檢測(cè) 190

7.6.1?實(shí)體關(guān)系修正 190

7.6.2?實(shí)體對(duì)齊 191

7.6.3?實(shí)體歧義分析 193

7.7?知識(shí)推理與知識(shí)計(jì)算 194

7.7.1?知識(shí)推理 194

7.7.2?知識(shí)計(jì)算 195

7.8?知識(shí)聚類 198

7.9?智能搜索實(shí)現(xiàn) 200

7.9.1?模式匹配 200

7.9.2?知識(shí)拆解 201

7.9.3?合并求解 203

7.10?智能搜索擴(kuò)展 205

7.10.1?常識(shí)性智能搜索 205

7.10.2?實(shí)時(shí)信息智能搜索 206

7.10.3?可交互式智能搜索 207

7.11 知識(shí)圖譜應(yīng)用 208

7.11.1 問(wèn)答系統(tǒng) 208

7.11.2 情報(bào)分析 211

7.11.3 智慧醫(yī)療 214

7.11.4 推薦系統(tǒng) 215

7.12?本章小結(jié) 217

第8章?索引構(gòu)建機(jī)制 218

8.1?倒排索引 218

8.1.1?倒排索引概述 219

8.1.2?索引結(jié)構(gòu) 220

8.1.3?構(gòu)建過(guò)程 222

8.1.4?排序規(guī)則 223

8.1.5?索引壓縮 224

8.1.6?更新策略 230

8.2?分布式存儲(chǔ) 230

8.2.1?存儲(chǔ)劃分方式 231

8.2.2?存儲(chǔ)平衡策略 232

8.3?存儲(chǔ)索引 237

8.3.1?二叉搜索樹 238

8.3.2?B樹 239

8.3.3?B+樹 241

8.3.4?B+樹與文件索引 242

8.4?字典樹索引 244

8.4.1?字典樹索引概述 245

8.4.2?字典樹索引構(gòu)建 247

8.4.3?字典樹查詢優(yōu)化 249

8.5?本章小結(jié) 250

第9章?搜索服務(wù)構(gòu)建 251

9.1?概述 251

9.1.1?體系結(jié)構(gòu) 251

9.1.2?七何分析法 252

9.1.3?搜索語(yǔ)法 253

9.1.4?相關(guān)性排序 255

9.1.5?不安全信息過(guò)濾 259

9.2?大數(shù)據(jù)分布式緩存 263

9.2.1?緩存結(jié)構(gòu)設(shè)計(jì) 263

9.2.2?緩存更新策略 264

9.3?文本糾錯(cuò)算法 265

9.3.1?中文文本糾錯(cuò) 265

9.3.2?英文文本糾錯(cuò) 269

9.4?結(jié)果顯示算法 270

9.4.1?動(dòng)態(tài)摘要 271

9.4.2?關(guān)鍵詞高亮算法 274

9.4.3?網(wǎng)頁(yè)快照 278

9.5?搜索智能提示 278

9.6?網(wǎng)頁(yè)排序 282

9.6.1?基于PageRank的網(wǎng)頁(yè)重要性評(píng)價(jià) 282

9.6.2?基于HITS算法的網(wǎng)頁(yè)權(quán)威性評(píng)價(jià) 285

9.6.3?HillTop算法 287

9.6.4?網(wǎng)頁(yè)作弊評(píng)價(jià) 288

9.6.5?網(wǎng)頁(yè)排序調(diào)試 291

9.7?個(gè)性化搜索 292

9.7.1?個(gè)性化搜索示例 292

9.7.2?BP神經(jīng)網(wǎng)絡(luò)與個(gè)性化搜索 293

9.7.3?地理位置搜索 294

9.8?圖片搜索 299

9.8.1?基于內(nèi)容的圖片搜索 299

9.8.2?基于文本的圖片搜索 300

9.9?搜索與廣告 302

9.9.1?廣告投放策略 303

9.9.2?基于User-Based協(xié)同過(guò)濾的廣告投放 303

9.9.3?基于Item-Based協(xié)同過(guò)濾的廣告投放 305

9.9.4?基于混合模式的廣告投放 306

9.9.5?廣告投放評(píng)價(jià) 307

9.10?搜索引擎評(píng)價(jià) 310

9.10.1?搜索引擎評(píng)價(jià)概述 310

9.10.2?基于準(zhǔn)確率、召回率及F值評(píng)價(jià) 311

9.10.3?歸一化折扣累計(jì)增益 313

9.11?本章小結(jié) 316

第10章?基于用戶日志的反饋學(xué)習(xí) 318

10.1?基于用戶搜索詞語(yǔ)的分析 318

10.1.1?發(fā)現(xiàn)搜索詞的價(jià)值 319

10.1.2?發(fā)現(xiàn)不明意圖下的用戶行為 320

10.2?基于用戶點(diǎn)擊日志的分析 321

10.2.1?時(shí)間與搜索意圖的關(guān)系 321

10.2.2?地理位置與搜索意圖的關(guān)系 322

10.2.3?點(diǎn)擊日志與同義詞 324

10.2.4?點(diǎn)擊日志與詞語(yǔ)權(quán)重 325

10.2.5?點(diǎn)擊日志與新詞分類 326

10.2.6?點(diǎn)擊日志與知識(shí)圖譜 328

10.2.7?點(diǎn)擊日志與網(wǎng)頁(yè)重排序 329

10.2.8?點(diǎn)擊日志與網(wǎng)頁(yè)評(píng)價(jià) 331

10.3?基于用戶的特征分析 332

10.3.1?用戶跟蹤 333

10.3.2?用戶群體特征 334

10.3.3?用戶個(gè)體特征 336

10.4?本章小結(jié) 337

致謝 338

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)