注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡網絡與數(shù)據通信計算機網絡走進搜索引擎

走進搜索引擎

走進搜索引擎

定 價:¥49.80

作 者: 梁斌 編著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 情報學與情報工作

購買這本書可以去


ISBN: 9787121049224 出版時間: 2007-10-01 包裝: 平裝
開本: 16開 頁數(shù): 272 字數(shù):  

內容簡介

  在網絡普及的今天,人們經常在信息海洋中彷徨,在萬維網迷宮般的復雜與魅力之間掙扎。直到搜索引擎這一偉大的技術產生,才使得人們猶如找到了走出迷宮的燈塔,可以非常便捷地找到自己所需要的信息。 正是因為搜索引擎離我們越來越近,所以越來越多的人期待著能夠揭開她神秘的面紗。其實搜索引擎并不是變幻莫測的大海,也不是高不可攀的山峰。請拿起本書,它就是引領你的火炬,它就是你身邊的伙伴,它將帶著你走進搜索引擎。在那里,你必將會被搜索引擎精致的設計和宏偉的架構所征服。 本書由搜索引擎開發(fā)研究領域年輕而有活力的科學家精心編寫,作者將自己對搜索引擎的深刻理解和實際應用巧妙地結合,使得從未接觸過搜索引擎原理的讀者也能夠輕松地在搜索引擎的大廈中遨游一番。 本書作為搜索引擎原理與技術的入門書籍,面向那些有志從事搜索引擎行業(yè)的青年學生、需要完整理解并優(yōu)化搜索引擎的專業(yè)技術人員、搜索引擎的營銷人員,以及網站的負責人等。 本書是從事搜索引擎開發(fā)的工程技術人員難得的參考書,也可作為大中專院校相關專業(yè)的教學輔導書。

作者簡介

  梁斌畢業(yè)于南京大學,獲得軟件工程碩士學位,曾經發(fā)表過多篇論文,獲得1項國家專利,作者主要的興趣方向包括數(shù)據挖掘、Wed挖掘、搜索引擎和軟件工程等,目前在清華大學信息科學與技術國家實驗室從事搜索引擎相關研究工作。

圖書目錄

稱為“Crawler”,中文譯為“爬蟲”,或者“蜘蛛”)是其中最華彩的樂章。讓我們從爬蟲開始,逐漸進入閃爍著奇異光芒的領地。
第一節(jié)  爬蟲的發(fā)展歷史    32
世界上第1個爬蟲    32
爬蟲的發(fā)展歷程    33
第二節(jié)  萬維網及其網頁分析    34
蝴蝶結型的萬維網    34
萬維網的直徑    37
萬維網的規(guī)模及變化特征    39
網頁的特征    39
第三節(jié)  有關爬蟲的基本概念    41
爬蟲    41
種子站點    41
URL    42
Backlinks    42
第四節(jié)  網頁抓取原理    43
telnet和wget    43
從種子站點開始逐層抓取    44
不重復抓取策略    50
網頁抓取優(yōu)先策略    59
網頁重訪策略★    61
Robots協(xié)議    67
其他應該注意的禮貌性問題    69
抓取提速策略(合作抓取策略)    70
第五節(jié)  網頁庫    77
第六節(jié)  下載系統(tǒng)回顧及未來發(fā)展    82
參考文獻    84
第四章  搜索引擎的分析系統(tǒng)    86
搜索引擎的4大系統(tǒng)中的第2個系統(tǒng)是分析系統(tǒng),分析系統(tǒng)主要完成的工作包括信息抽取、網頁消重、中文分詞和PageRank計算等。
第一節(jié)  知識準備    87
HTML語言    87
錨文本(anchor text)    87
半結構化數(shù)據(Semi-structured data)    88
第二節(jié)  信息抽取及網頁信息結構化    89
網頁結構化的目標    89
建立HTML標簽樹    93
通過投票方法得到正文    98
網頁結構化過程回顧    103
第三節(jié)  網頁查重    105
網頁查重技術發(fā)展歷史    105
網頁查重實現(xiàn)方法    107
第四節(jié)  中文分詞    113
什么是中文分詞    113
通過字典實現(xiàn)分詞    114
通過統(tǒng)計學方法實現(xiàn)分詞    120
第五節(jié)  PageRank    121
PageRank的來由    121
PageRank的基本想法    122
PageRank的計算公式    124
PageRank的計算方法 ★    129
第六節(jié)  分析系統(tǒng)結構圖    134
參考文獻    136
第五章  搜索引擎的索引系統(tǒng)    139
在搜索引擎的4大系統(tǒng)中,第3個系統(tǒng)稱為“索引系統(tǒng)”。該系統(tǒng)就好像搜索引擎的數(shù)據大本營,在這里存儲了并索引了數(shù)以億計的網頁。
第一節(jié)  知識準備    140
信息    140
索引    141
倒排索引、倒排表、臨時倒排文件、最終倒排文件    141
其他概念    142
第二節(jié)  全文檢索    143
全文檢索    143
第三節(jié)  文檔編號    146
編號的本質    146
文檔編號的方法    147
游程編碼    149
第四節(jié)  倒排索引    154
經典的倒排索引    154
正排索引(前向索引)    155
倒排索引    158
第五節(jié)  數(shù)據規(guī)模的估計    163
齊普夫法則    163
布爾檢索模型下的索引規(guī)模估計★    165
第六節(jié)  涉及存儲規(guī)模的一些計算    170
正排表與倒排表的合并    170
多個臨時倒排文件的歸并    174
倒排索引分布式存儲    179
倒排文件緩存    183
倒排索引詞典統(tǒng)計信息的計算    183
第七節(jié)  倒排索引文件的創(chuàng)建過程    185
創(chuàng)建倒排表    185
計算統(tǒng)計信息    187
參考文獻    189
第六章  搜索引擎的查詢系統(tǒng)    191
在搜索引擎4大系統(tǒng)中,第4個系統(tǒng)稱為“查詢系統(tǒng)”。查詢系統(tǒng)直接面對用戶,在接收用戶的查詢請求后,通過檢索、排序及摘要提取等計算,將計算結果組織成搜索結果頁返回給用戶。整個查詢過程不僅要快,而且必須能夠提供用戶滿意的查詢結果。
第一節(jié)  知識準備    192
什么是信息熵    192
檢索和查詢的區(qū)別    196
檢索詞和查詢詞的區(qū)別    196
自動文本摘要(Automatic Text Summarization)    197
第二節(jié)  網頁信息檢索    198
早期的檢索模型    198
向量空間模型(Vector Space Models)    201
關鍵詞權重的量化方法TF/IDF★    207
搜索引擎采用的檢索模型    213
多文檔列表求交計算    215
檢索結果排序    222
堆排序    223
第三節(jié)  中文自動摘要    230
自動摘要的發(fā)展歷史    230
自動摘要的含義和實現(xiàn)    231
第四節(jié)  生成搜索結果頁    239
生成搜索結果頁    239
第五節(jié)  搜索結果頁的緩存    242
搜索結果頁的緩存    242
第六節(jié)  推測用戶查詢意圖    245
查詢分類    245
推測信息類、事物類的查詢意圖    247
第七節(jié)  查詢系統(tǒng)的當前熱點和發(fā)展方向    249
查詢系統(tǒng)的當前熱點    249
參考文獻    250
第七章  搜索引擎的其他話題    252
本書初步介紹了搜索引擎4大系統(tǒng)各自的運作原理,以及相互配合的關系。本節(jié)通過回答一些有關搜索引擎的基本問題,以從宏觀上更好地理解和認識搜索引擎。
第一節(jié)  搜索引擎問與答    253
為什么搜索引擎的搜索速度這么快    253
為什么搜索引擎能夠返回那么多的查詢結果    255
為什么搜索引擎總能返回最想要的結果    256
搜索引擎如何大規(guī)模存儲網頁的    257
什么是SEO    259
什么是元搜索引擎    260
搜索引擎認為的作弊行為是哪些    261
如何進一步學習和了解搜索引擎發(fā)展的最新成果    262
第二節(jié)  搜索引擎未來的發(fā)展    265
新興的搜索產品    265
搜索技術的未來    268
參考文獻    270
附錄A  搜索引擎系統(tǒng)結構全觀圖    271

本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號