正文

搜索隱藏的意思

谷歌小子 作者:(美)理查德·勃蘭特


拉里幾乎是偶然地撞入了創(chuàng)建搜索引擎之路,推動(dòng)他的是兩股不同的力量――一個(gè)政府資助的研究項(xiàng)目和互聯(lián)網(wǎng)的興盛。他們的工作受到了一個(gè)名為“數(shù)字圖書館倡議”的研究項(xiàng)目的資助,該項(xiàng)目的啟動(dòng)是國(guó)防部的一個(gè)嘗試,旨在以電子手段更容易地搜索到計(jì)算機(jī)研究論文。

“數(shù)字圖書館倡議”原本與互聯(lián)網(wǎng)無(wú)關(guān),它在1994年還沒(méi)有成為數(shù)字世界的重要力量。斯坦福政府原來(lái)的撥款提案甚至沒(méi)有提及互聯(lián)網(wǎng)。

但在1994年,網(wǎng)景通信公司推出了具有圖形界面的Web瀏覽器。接下來(lái)的一年里,整個(gè)世界突然有了一個(gè)存儲(chǔ)和共享一切信息的系統(tǒng),這使得“數(shù)字圖書館倡議”成為昨日黃花。也是在這一年,雅虎公司成立?!盎ヂ?lián)網(wǎng)完全改變了我們腳下的一切?!睍r(shí)任斯坦福大學(xué)計(jì)算機(jī)科學(xué)系主任的??送袪?加西亞 莫利納教授說(shuō)。

每當(dāng)一種新技術(shù)出現(xiàn)時(shí),很少有人真正懂得怎樣去恰當(dāng)運(yùn)用。通常只有第二代公司才能取得實(shí)質(zhì)性進(jìn)展。對(duì)于搜索引擎而言,這確是事實(shí)。在整個(gè)20世紀(jì)90年代,搜索引擎先是根據(jù)某站點(diǎn)的特定關(guān)鍵詞的發(fā)現(xiàn)次數(shù)來(lái)檢索網(wǎng)頁(yè)。這些引擎并未利用互聯(lián)網(wǎng)的互聯(lián)特性,只是尋找站點(diǎn)、存儲(chǔ)信息。互聯(lián)網(wǎng)所要求的新技術(shù)尚不存在。是拉里締造了它。

當(dāng)谷歌的搜索引擎在1998年12月正式推出時(shí),它在一個(gè)杰出特質(zhì)方面卓爾不群:它確實(shí)管用。

它的核心是PageRank系統(tǒng),這是由拉里(并以其名字命名)在攻讀博士期間發(fā)明的。它利用了網(wǎng)絡(luò)的獨(dú)特優(yōu)勢(shì)――與其名稱如此貼切的互聯(lián)網(wǎng)絡(luò)。

加西亞 莫利納回憶了公司起步階段的點(diǎn)點(diǎn)滴滴。他是佩奇的顧問(wèn),1995年的一天,他的學(xué)生走進(jìn)辦公室,給他看所發(fā)現(xiàn)的巧妙把戲。AltaVista搜索引擎不僅從各個(gè)站點(diǎn)收集關(guān)鍵詞,還能顯示出與其鏈接的其他網(wǎng)站。AltaVist并沒(méi)有以谷歌的方式利用這一鏈接信息,但那天在加西亞 莫利納的辦公室里,佩奇暗示這是一個(gè)排名網(wǎng)站重要程度的好辦法。

起先,這只是一個(gè)游戲?!拔覀兡翘旌荛_心,一直在看哪些計(jì)算機(jī)科學(xué)網(wǎng)頁(yè)在各個(gè)大學(xué)中最受歡迎。”加西亞 莫利納回憶道。他們高興地發(fā)現(xiàn),像斯坦福大學(xué)的數(shù)據(jù)庫(kù)小組就比對(duì)手威斯康星大學(xué)的類似部門吸引了更多鏈接。

拉里對(duì)于鏈接有自己的看法。他告訴加西亞 莫利納:“既然它對(duì)我們?nèi)绱酥匾瑸槭裁床话阉鳛樗阉鞒绦虻囊徊糠???/p>

拉里的想法是受其科學(xué)背景的啟發(fā)。眾所周知,在科學(xué)界,當(dāng)研究人員在自己的論文中引用你的論文時(shí),就會(huì)提高你的論文的可信度。你被引用的次數(shù)越多,你的論文就越被科學(xué)界關(guān)注。這個(gè)想法體現(xiàn)在尤金.加菲爾德(Eugene Garfield)1960年創(chuàng)建的科學(xué)引文索引數(shù)據(jù)庫(kù)上,尤金是科學(xué)情報(bào)研究所的創(chuàng)始人。拉里推斷,網(wǎng)絡(luò)鏈接與科學(xué)引文相似,鏈接最多的引文,可能就是最受研究人員歡迎的引文,并將被證明最為有用。這些站點(diǎn)應(yīng)該在搜索結(jié)果中首先列出。然后他開始開發(fā)自己的軟件,用于分析站點(diǎn)之間的鏈接。

這需要一些棘手的程序。該系統(tǒng)不僅需要計(jì)算某個(gè)特定站點(diǎn)的鏈接次數(shù),還要進(jìn)一步確定所鏈接網(wǎng)站的重要性。這要通過(guò)計(jì)算對(duì)反向鏈接網(wǎng)站的鏈接數(shù)來(lái)實(shí)現(xiàn),從而大大增加了分析的復(fù)雜性。為了計(jì)算相關(guān)性,PageRank還必須反向追蹤兩步鏈接,并將數(shù)據(jù)與關(guān)鍵詞關(guān)聯(lián)。鑒于該系統(tǒng)反向追蹤鏈接的特性,拉里最初稱其為BackRub,但他后來(lái)將其命名為更復(fù)雜的PageRank,這是他姓氏的雙關(guān)語(yǔ)。

也是出于偶然,謝爾蓋開始了搜索引擎的研究。在斯坦福大學(xué)主修數(shù)學(xué)和計(jì)算機(jī)科學(xué)博士課程時(shí),他在數(shù)據(jù)庫(kù)小組里致力于一個(gè)研究項(xiàng)目。1995年,他和布賴恩.蘭特試圖研究另一種被稱為“關(guān)聯(lián)數(shù)據(jù)挖掘”(associative data mining)的計(jì)算機(jī)科學(xué)方法。這個(gè)過(guò)程是用來(lái)尋找往往同時(shí)發(fā)生的信息片段。零售商用它來(lái)查詢其銷售記錄,并確定客戶是否經(jīng)常一并購(gòu)買其他物品。不過(guò),數(shù)據(jù)挖掘是計(jì)算機(jī)科學(xué)的一個(gè)新領(lǐng)域。它需要存儲(chǔ)大量的網(wǎng)絡(luò)數(shù)據(jù),所以謝爾蓋不得不寫了一個(gè)“爬蟲”(Crawler)程序――用來(lái)訪問(wèn)網(wǎng)站、總結(jié)其內(nèi)容并在研究生和搜索公司可以訪問(wèn)的中心位置存儲(chǔ)數(shù)據(jù)的軟件。其他搜索引擎已經(jīng)有了自己的爬蟲程序。

謝爾蓋是一個(gè)了不起的程序員和工程師。他的互聯(lián)網(wǎng)數(shù)據(jù)挖掘工作涉及對(duì)海量數(shù)據(jù)的解析。“他的大手筆其他人根本不會(huì)去考慮?!敝x爾蓋的顧問(wèn)杰弗里.烏爾曼(Jeffrey Ullman)說(shuō)。(謝爾蓋關(guān)于谷歌搜索引擎概況的論文,被他自己在另一篇科學(xué)論文《服務(wù)質(zhì)量和電子報(bào)紙:Etel解決方案》中引用。)

謝爾蓋也是一個(gè)聰明的硬件工程師。他需要磁盤驅(qū)動(dòng)器來(lái)存儲(chǔ)所收集的數(shù)據(jù),但是他資金不足,所以他買下了所能找到的最便宜的驅(qū)動(dòng)器。但是當(dāng)他試用時(shí),驅(qū)動(dòng)器卻不夠快。謝爾蓋沒(méi)有將它們?nèi)拥?,而是想出了一個(gè)辦法,通過(guò)加倍驅(qū)動(dòng)器接口的終端數(shù)量,總算使它們可以使用。“我從未想過(guò)這么做,”烏爾曼說(shuō),“這是一流的工程技術(shù)?!?/p>

1995年年底,拉里和謝爾蓋各自的項(xiàng)目使兩人走到了一起?!拔液屠锪牧撕芏?,”謝爾蓋回憶說(shuō),“我們相處得很愉快。”如果拉里要搜索網(wǎng)頁(yè),他也需要一個(gè)爬蟲。所以他招募謝爾蓋參與數(shù)字圖書館項(xiàng)目,將他的搜索技術(shù)和謝爾蓋的網(wǎng)絡(luò)爬蟲結(jié)合起來(lái)。

這是一個(gè)偉大的結(jié)合。“謝爾蓋喜歡數(shù)學(xué)方面的東西,”斯坦福大學(xué)教授安德烈亞斯.佩普基(Andreas Paepcke)說(shuō),他負(fù)責(zé)數(shù)字圖書館項(xiàng)目?!袄镏幌矚g開發(fā)。這正好合乎成長(zhǎng)之道?!?/p>

另一位與拉里和謝爾蓋共事的斯坦福大學(xué)研究生斯科特.哈桑回憶說(shuō),那個(gè)項(xiàng)目主要以拉里為主。“對(duì)于拉里而言,那是他最重要的事情。謝爾蓋的參與只是因?yàn)楦信d趣?!彼麄兂39ぷ鞯缴钜?,在供應(yīng)5美元“學(xué)生特餐”的帕羅奧多“新選擇”餐館編寫網(wǎng)頁(yè)索引,并進(jìn)行解析。他們經(jīng)常忙碌到凌晨5點(diǎn)。


上一章目錄下一章

Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)