克雷格·希爾弗斯坦(Craig Silverstein)是1998年被兩位創(chuàng)始人錄用的雇員,他后來說,如果公司的成立提前兩年,或者一年,都注定要失敗。1998年以前,Web一直都很小,小到任何搜索方法都足夠用,與網(wǎng)頁相匹配的網(wǎng)站單子短到完全可以很輕易地就掃描下來。但到1998年,Web一下子就多起來了,對搜索引擎的強烈需求也在這時候出現(xiàn),人們不單單希望它能與搜索詞語在文本上完全匹配,而且要求同所有包含該詞語的網(wǎng)頁都能匹配。希爾弗斯坦說,它還必須能“辨別出哪些結果是好的,哪些結果是不那么好的”。
谷歌公司之所以能夠提供搜索服務,是因為它有可以進入Web網(wǎng)頁的“蜘蛛”,這是一種能夠通過系統(tǒng)進入Web的軟件,它將搜集后的Web網(wǎng)頁立即進行檢索和分析,隨時準備好當有訪問者鍵入搜索要求時進行匹配。(谷歌軟件之所以能有如此高的速度,乃是因為它并不是在收到搜索請求之后才臨時到全世界的網(wǎng)站上去檢索的,而是在此前就早已檢查了這些網(wǎng)站的網(wǎng)頁,并將它們收集起來,存儲在谷歌的服務器里。)在“蜘蛛”軟件還是以相當簡單的形式編寫成的時候(谷歌的最初版本就是如此),它會給爬過的網(wǎng)站帶來很多問題。在有些情況下,如在帶寬不足的時候,谷歌“蜘蛛”的到訪會讓網(wǎng)絡出現(xiàn)擁堵,使網(wǎng)站無法訪問。它還會將網(wǎng)站凍結,拒絕所有的到訪者。這讓谷歌受到網(wǎng)站所有者的厭惡,他們中的有些人還曾經(jīng)給布林和佩奇發(fā)郵件或打電話,表達他們的憤怒和反感。
混亂狀態(tài)已經(jīng)過去了,內(nèi)置于谷歌“蜘蛛”中的代碼有了改進,使它縮短了在每個網(wǎng)站停留的時間,進而降低了導致被訪系統(tǒng)崩潰的危險性。與此同時,網(wǎng)站的所有者也習慣了自動化軟件程序的來訪,理解了“蜘蛛”的訪問反過來也可以將他們的網(wǎng)站帶到搜索引擎中,有助于吸引人前來造訪。
Web起初的設計者們一致同意,Web網(wǎng)站的所有者們能夠使用一段代碼提示“蜘蛛”或任何其他類型的“機器人”軟件的來訪都是不受歡迎的。谷歌應該感到慶幸的是,在網(wǎng)站的所有者還未根據(jù)這一傾向阻止谷歌“蜘蛛”造訪之前,Web就已經(jīng)壯大起來了。谷歌的搜索結果的意義在于,它盡最大可能在網(wǎng)頁范圍內(nèi)進行了廣泛的搜索。這些搜索結果為谷歌對相關內(nèi)容進行排行提供了可靠的計算依據(jù),同時將它認為最權威的網(wǎng)頁放在排行表的頂端。
為了評估任一具體網(wǎng)頁的權威性,谷歌的軟件必須在它所鏈接的所有網(wǎng)頁的數(shù)據(jù)庫中進行查找,記下哪些網(wǎng)站同那個頁面有實質(zhì)性的鏈接,然后做出推薦。這只不過是剛剛開始。對要做出推薦的網(wǎng)站必須仔細檢查,以便決定這個推薦是加以重視還是歸為一般甚或完全忽略。軟件再回到鏈接的數(shù)據(jù)庫,看看是誰推薦了哪些網(wǎng)站,那些網(wǎng)站是何時發(fā)現(xiàn)的,然后再去看看是誰推薦了那些網(wǎng)站……如此往復不已。這個過程是回溯性的、遞歸式循環(huán)的。檢查由誰指向誰可以看作一個無盡的過程,但是一連串的計算將萃取出Web網(wǎng)上的每一個網(wǎng)頁的相對權威性的精華,它是用從1到10的數(shù)字來表現(xiàn)的,表示某一網(wǎng)頁在其他網(wǎng)站的編輯看來其權威性如何,是否值得推薦給他人。谷歌將這個數(shù)字稱為網(wǎng)頁級別(PageRank,其中Page在形式上又是指拉里·佩奇(Larry Page),是他研發(fā)了最初的公式,但他的姓氏使得這個詞即使在其來源不為讀者所知時仍具有明確的意味)。PageRank不是第一個被用于Web結構分析的系統(tǒng)――康奈爾大學的計算機科學家喬恩·克萊伯格于20世紀90年代中期在IBM的阿爾馬登研究中心的工作一般都被認為是該領域的一個里程碑――但PageRank卻是第一個走出實驗室的研究成果。