搜索引擎零距離：基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)

定　價(jià)：￥39.80

作　者：	王亮編著
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	J2EE

購(gòu)買這本書可以去

ISBN：	9787302201472	出版時(shí)間：	2009-06-01	包裝：	平裝
開本：	16開	頁(yè)數(shù)：	394	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　《搜索引擎零距離：基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)》的內(nèi)容中，既有教科書式的理論闡述，也有“七天入門”式的實(shí)例解析，還有《Linux內(nèi)核情景分析》風(fēng)格的細(xì)致的代碼分析，甚至還有一些英語(yǔ)文獻(xiàn)翻譯，從初學(xué)者到有一定經(jīng)驗(yàn)的搜索引擎開發(fā)人員，各個(gè)層次的讀者都能找到一些適合自己閱讀的章節(jié)。隨著網(wǎng)絡(luò)信息資源的急劇增長(zhǎng)，人們?cè)絹碓蕉嗟仃P(guān)注如何快速有效地從海量的網(wǎng)絡(luò)信息中，抽取出潛在的、有價(jià)值的信息，使之有效地在管理和決策中發(fā)揮作用。搜索引擎技術(shù)解決了用戶檢索網(wǎng)絡(luò)信息的困難，目前搜索引擎技術(shù)正成為計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界爭(zhēng)相研究、開發(fā)的對(duì)象?！端阉饕媪憔嚯x：基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)》的作者是一位資深的搜索引擎開發(fā)人員，書中對(duì)數(shù)據(jù)獲?。ňW(wǎng)絡(luò)信息挖掘）與數(shù)據(jù)檢索（搜索引擎）兩個(gè)方面作了深入的介紹。《搜索引擎零距離：基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)》首先提出了一套“網(wǎng)絡(luò)數(shù)據(jù)挖掘”的完整理論，并給出一個(gè)實(shí)際的智能爬蟲系統(tǒng)，通過理論與實(shí)際的完整呈現(xiàn)，使讀者能夠?qū)Α熬W(wǎng)絡(luò)數(shù)據(jù)挖掘”有一個(gè)比較具體的認(rèn)識(shí)，然后介紹了一個(gè)專用程序語(yǔ)言IRS，并給出了這個(gè)語(yǔ)言的編譯器以及虛擬機(jī)的實(shí)現(xiàn)方法。《搜索引擎零距離：基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)》還通過對(duì)多個(gè)開源搜索引擎項(xiàng)目抽絲剝繭的細(xì)致分析，引出搜索引擎的一些基本原理與開發(fā)方法，并介紹了一個(gè)商業(yè)化搜索引擎的實(shí)例?！端阉饕媪憔嚯x：基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)》的最后還結(jié)合一個(gè)Java框架介紹了一些軟件設(shè)計(jì)思想?！端阉饕媪憔嚯x：基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)》涉及網(wǎng)絡(luò)數(shù)據(jù)挖掘、搜索引擎原理、編譯原理、數(shù)據(jù)庫(kù)原理、正則表達(dá)式、軟件工程、設(shè)計(jì)模式、Ruby語(yǔ)言、HTTP協(xié)議等計(jì)算機(jī)科學(xué)與技術(shù)的知識(shí)，適合搜索引擎開發(fā)人員作為參考，也適合有一定計(jì)算機(jī)基礎(chǔ)的讀者閱讀，以擴(kuò)展視野。

作者簡(jiǎn)介

　　王亮，主持或參與過多個(gè)大中型索引擎開發(fā)與運(yùn)營(yíng)，具有豐富的搜索引擎算法理論知識(shí)與實(shí)際開發(fā)運(yùn)營(yíng)經(jīng)驗(yàn)。曾任職于愛立信、Smarter.com、上海網(wǎng)村、上海邁眾，2009年創(chuàng)立上海睿驛信息技術(shù)有限公司并任CEO，致力于提供搜索引擎相關(guān)的產(chǎn)品和服務(wù)。

圖書目錄

第1章網(wǎng)頁(yè)數(shù)據(jù)挖掘.1
1.1 網(wǎng)頁(yè)數(shù)據(jù)挖掘定義1
1.2 Web數(shù)據(jù)挖掘面臨的問題1
1.3 Web數(shù)據(jù)挖掘的分類1
1.4 網(wǎng)頁(yè)數(shù)據(jù)的結(jié)構(gòu)與特點(diǎn)3
1.4.1 HTML超文本標(biāo)記語(yǔ)言3
1.4.2 WML無線標(biāo)記語(yǔ)言4
1.5 網(wǎng)頁(yè)數(shù)據(jù)挖掘的基本方法6
1.5.1 預(yù)備知識(shí)7
1.5.2 變量模板匹配方法8
1.5.3 樹節(jié)點(diǎn)直接標(biāo)識(shí)方法10
1.5.4 語(yǔ)義規(guī)則識(shí)別方法13
第2章智能網(wǎng)絡(luò)爬蟲14
2.1 智能網(wǎng)絡(luò)爬蟲的定義與特點(diǎn)14
2.2 抓取入口定義14
2.3 次級(jí)頁(yè)面自動(dòng)發(fā)現(xiàn)14
2.4 次級(jí)頁(yè)面地址拼接16
2.5 已爬地址處理17
2.6 信息采集強(qiáng)度控制19
2.7 模擬用戶登錄19
2.8 驗(yàn)證碼識(shí)別20
2.9 代理服務(wù)器設(shè)置20
2.10 JavaScript解析控制21
第3章網(wǎng)頁(yè)信息挖掘?qū)Ｓ贸绦蛟O(shè)計(jì)語(yǔ)言IRS23
3.1 IRS語(yǔ)言的簡(jiǎn)介與設(shè)計(jì)原則23
3.2 IRS腳本語(yǔ)法結(jié)構(gòu)23
3.2.1 頁(yè)面配置塊23
3.2.2 頁(yè)面名語(yǔ)句23
3.2.3 爬蟲配置聲明語(yǔ)句24
3.2.4 入口聲明語(yǔ)句24
3.2.5 編碼配置26
3.2.6 步長(zhǎng)配置26
3.2.7 重試次數(shù)配置27
3.2.8 正則模式匹配語(yǔ)句27
3.2.9 匹配名聲明28
3.2.10 IEE表達(dá)式28
3.2.11 模式匹配修飾符29
3.2.12 節(jié)點(diǎn)模式匹配語(yǔ)句32
3.2.13 次級(jí)頁(yè)面入口語(yǔ)句..3 3
3.2.14 保存語(yǔ)句35
3.2.15 Ruby控制語(yǔ)句35
3.2.16 爬蟲配置語(yǔ)句37
3.2.17 系統(tǒng)配置語(yǔ)句37
3.2.18 外部配置文件38
3.2.19 執(zhí)行語(yǔ)句塊39
3.2.20 IRQL存儲(chǔ)語(yǔ)句40
3.2.21 IRQL語(yǔ)言中的數(shù)據(jù)表44
3.2.22 IRQL內(nèi)部函數(shù)49
3.2.23 實(shí)例解析55
第4章 IRS虛擬機(jī)及編譯器實(shí)現(xiàn)原理69
4.1 Ruby基本語(yǔ)法70
4.1.1 字句構(gòu)造和表達(dá)式70
4.1.2 字面值71
4.1.3 控制結(jié)構(gòu)74
4.1.4 類和方法的定義80
4.1.5 運(yùn)算符表達(dá)式84
4.1.6 變量和常量89
4.1.7 方法調(diào)用91
4.2 Java與JRuby的整合93
4.2.1 Java中的Ruby運(yùn)行庫(kù)環(huán)境93
4.2.2 IRSReflectionCallback類實(shí)現(xiàn)94
4.2.3 在Java中編譯執(zhí)行Ruby腳本99
4.2.4 Java內(nèi)嵌Ruby
方法總結(jié)100
4.3 詞法分析和語(yǔ)法分析101
4.3.1 定義與簡(jiǎn)介101
4.3.2 SableCC103
4.4 IRS語(yǔ)言的語(yǔ)義分析137
4.5 IRVM虛擬機(jī)主類146
4.5.1 generateEntrance()147
4.5.2 getContent()149
4.5.3 match()160
4.5.4 Save()174
4.5.5 compileAndRun()198
第5章搜索引擎設(shè)計(jì)原理200
5.1 概述200
5.2 Lucene搜索引擎的原理205
5.2.1 工作方式205
5.2.2 基本概念206
5.2.3 包結(jié)構(gòu)207
5.2.4 索引操作208
5.2.5 搜索210
5.2.6 分析器214
5.2.7 性能優(yōu)化215
5.2.8 并行集群216
5.3 Hadoop搜索引擎的原理220
5.3.1 組成結(jié)構(gòu)220
5.3.2 開發(fā)與使用222
5.4 Nutch搜索引擎的原理226
5.4.1 簡(jiǎn)介226
5.4.2 插件體系226
5.4.3 數(shù)據(jù)獲取與分析228
5.5 Compass搜索引擎的原理264
5.5.1 功能增強(qiáng)264
5.5.2 API簡(jiǎn)化265
5.5.3 編程方式265
5.6 Solr搜索引擎的原理266
5.6.1 概述266
5.6.2 使用Solr269
第6章搜索引擎的商業(yè)化實(shí)現(xiàn)275
6.1 索引275
6.1.1 Solr實(shí)現(xiàn)275
6.1.2 MySE實(shí)現(xiàn)279
6.1.3 總結(jié)317
6.2 查詢317
6.2.1 Solr實(shí)現(xiàn)317
6.2.2 MySE實(shí)現(xiàn)318
6.2.3 總結(jié)358
第7章 Hivemind359
7.1 模塊(Modules)359
7.2 子模塊與依賴性(SubModules&Dependency)360
7.3 服務(wù)點(diǎn)(ServicePoints)361
7.4 攔截器(Interceptor)362
7.5 配置點(diǎn)(ConfigurationPoints)363
7.6 符號(hào)資源(SymbolSources)364
7.7 轉(zhuǎn)換器(Translators)365
7.8 對(duì)象提供器(ObjectProviders)368
7.9 服務(wù)模型(ServiceModels)370
7.10 啟動(dòng)&預(yù)加載(Startup&EagerLoad)373
7.11 服務(wù)構(gòu)造器376
后記與感謝393