在全面掌握搜索技術(shù)的基礎(chǔ)知識之前,我一直都沒能真正理解這個全新的世界。克雷格·西爾弗斯坦利用午餐閑談時間,自愿為我和幾個不懂技術(shù)的員工“開班授課”,他把這種交談叫作“Google7A 面向非專業(yè)人員的搜索”。克雷格畢業(yè)于斯坦福大學(xué),臉上掛著孩童般的笑容,很有幽默感。他喜歡說自己是Google的第1.5名員工,因為公司正式成立時,他的名字在花名冊上的位置位于拉里和謝爾蓋之間??死赘衿綍r也給我們開小灶,不定哪個下午,他會面帶笑容,在走廊里假聲假氣地拖著長音問道:“吃小灶嗎?”這時,我們這些人就會從各自的格子間中走出來,去吃他剛從Google的面包機中拿出來的沒有營養(yǎng)的無形面包。
我們集中在乒乓球室中上課,里面是以前放在蘇珊車庫里的深綠色乒乓球桌。桌上的球網(wǎng)放倒了,也許是前一天開董事會的時候,哪一位風險投資人為了找地方放筆記本電腦而把它放倒的吧。克雷格開始講課,我們則大快朵頤。
“一個搜索引擎有3個組成部分?!彼_口說道。白板上的題目是“一個查詢的來龍去脈”,他在題目下面不斷寫著要講的內(nèi)容。
“首先,我們得收集網(wǎng)絡(luò)上的頁面信息,可以通過一種稱為 爬取 的進程實現(xiàn)。我們的蜘蛛程序叫作Googlebot,它從一個鏈接跳到另一個鏈接,把每個網(wǎng)址及其內(nèi)容數(shù)據(jù)匯集起來。爬取過程通常需要一個月左右的時間,一旦完成,我們就有大量資料需要存儲到合用的列表中。這個過程叫作建索引?!?/p>
我在筆記本上記下“爬取”和“建索引”兩個詞,分別框起來,然后用線把兩個框連起來,隨即變成了一副眼鏡的模樣,一個蜘蛛從上面吊下,那里應(yīng)該就是鼻子了。
克雷格繼續(xù)說:“我們一旦有了索引,就會利用我們的PageRank算法,根據(jù)每個頁面的重要性,分配一個頁面次序。PageRank算法是Google的秘密調(diào)料?!?/p>
“秘密調(diào)料?”我們能比其他所有搜索引擎做得好,看來公司創(chuàng)始人很快就要透露底細了,我向前傾了傾身子,準備好好學(xué)習。
“PageRank查看網(wǎng)絡(luò)上的所有網(wǎng)頁,根據(jù)指向每個網(wǎng)頁的其他鏈接衡量該網(wǎng)頁的價值。來自可靠網(wǎng)站的鏈接越多,這個網(wǎng)頁的PageRank值就越大。這是秘訣的前一半?!?/p>
我在“眼鏡”下方記下“PageRank”,在它周圍畫了個橢圓,看起來有點像是一個滑稽的嘴巴,于是又在上面畫了人頭,還在旁邊加了些頭發(fā)。
“另一半就是要斷定哪些結(jié)果跟我們收到的特定查詢的關(guān)聯(lián)程度最高。我們的大多數(shù)競爭對手看的都是基本信息,比如某個詞在一個頁面上出現(xiàn)了多少次。我們看的是查詢條目在頁面上是怎么使用的。緊接著這個詞出現(xiàn)的是什么詞?用的是黑體還是其他不同的字體?在指向那些頁面的鏈接中,這個詞是怎樣出現(xiàn)的?這種鏈接分析非常重要。在指向一個頁面的鏈接中出現(xiàn)的詞叫作鏈接錨文本。”
在筆記本上,從那個滑稽嘴巴的一角長出一個鏈條,直到頁面底部,在底下突然出現(xiàn)了一個錨,周圍是露著牙齒的游魚。
克雷格繼續(xù)說:“查詢匹配的好壞決定我們的搜索質(zhì)量,由于評價查詢是否匹配得很好多少有些主觀,因而這不是一個確切的科學(xué)問題。如果你搜索輸入的是 jaguar (美洲豹),你指的是汽車、豹子,還是足球隊呢?對類似這樣的查詢,有時候很難消除歧義。”
我記下“消除歧義”這個詞,自己默念了3遍,以便把它變成我自己的詞匯。然后又畫了個有點像斑斑點點的貍貓的東西,它正追捕那個鐵錨邊上的魚。由于是在水里,我又加了幾個水泡。
“一旦確定了有用網(wǎng)頁的顯示順序,就需要把搜索結(jié)果反饋給提交查詢的用戶。這就是 gwiss 干的事?!笨死赘裾f到“gwiss”的時候,在白板上寫下“GWS”,下面注明是“Google Web Sever”(Google網(wǎng)絡(luò)服務(wù)器)。