正文

PageRank——讓谷歌騰飛的技術(shù)(5)

改變未來的九大算法 作者:(美)約翰·麥考密克


整個過程有一個轉(zhuǎn)折點:每次訪問一個網(wǎng)頁時,都有一個固定的重新訪問概率(大概是15%),讓訪問者不從已有的超鏈接中挑選一個并點擊。相反,訪問者會重新開始這一過程,從互聯(lián)網(wǎng)上隨機選擇一個網(wǎng)頁點擊。你也可以認(rèn)為訪問者有15%的概率對任何已有網(wǎng)頁厭倦,導(dǎo)致其點擊另一組鏈接,這么想也許會有幫助。要想找些例子,請仔細觀察上圖。這個特定的訪問者從網(wǎng)頁A開始,在對網(wǎng)頁B厭倦前連續(xù)點擊了三個隨機超鏈接,并在網(wǎng)頁C重新開始。在下次重新開始前,訪問者又點擊了兩個隨機超鏈接。(順便說一句,本章中所有隨機訪問者例子中的重新開始概率都為15%,這也是谷歌聯(lián)合創(chuàng)始人拉里·佩奇和謝爾蓋·布林在描述其搜索引擎原型的原始論文中使用的值。)

用計算機模擬這一過程很容易。我為此寫了一個程序并運行了它,直到訪問者訪問了1 000個網(wǎng)頁。(當(dāng)然,這并不意味著是1 000個不重復(fù)的網(wǎng)頁。對同一網(wǎng)頁的多次訪問也被納入了計算當(dāng)中,在這個例子中,所有網(wǎng)頁都被訪問了多次。)這1 000次模擬訪問的結(jié)果顯示在下圖(頂圖)中。你可以看到,網(wǎng)頁D的訪問次數(shù)最多,有144次。

就像民意調(diào)查一樣,我們可以通過增加隨機樣本的數(shù)目來提高模擬精度。我重新運行了一次模擬,直到訪問者訪問了一百萬個網(wǎng)頁。(也許你會想這花了多長時間,在我電腦上運行只花了不到半秒?。┛紤]到訪問量如此巨大,還是用百分比表示結(jié)果更好。這也就是你將在下圖(底圖)中看到的情形。和之前的結(jié)果一樣,網(wǎng)頁D的訪問次數(shù)最頻繁,占總訪問量的15%。

隨機訪問者模型和權(quán)重把戲之間有什么聯(lián)系可以被我們用于網(wǎng)頁排名呢?從隨機訪問者模擬中計算得出的百分比,正好就是我們在衡量一個網(wǎng)頁的權(quán)重時所需要的。因此,讓我們將網(wǎng)頁的訪問者權(quán)重值(surfer authority score)定義為一名隨機訪問者花在訪問該網(wǎng)頁的時間比例。值得注意的是,訪問者權(quán)重值能和前兩個對網(wǎng)頁重要性進行排名的把戲配合良好。我們會逐一審視這些把戲。

首先,讓我們來審視一下超鏈接把戲:超鏈接把戲的主要思想是,一個有許多鏈入鏈接的網(wǎng)頁應(yīng)該有高排名。這在隨機訪問者模型中也適用,因為一個有許多鏈入鏈接的網(wǎng)頁被訪問的概率較大。下圖(底圖)中的網(wǎng)頁D就是個好例子:它有五個鏈入鏈接——比模擬中的其他網(wǎng)頁都多——訪問者權(quán)重值也最高(15%)。

其次,讓我們來看看權(quán)重把戲。權(quán)重把戲的主要思想是,和來自低權(quán)重網(wǎng)頁的鏈入鏈接相比,一個來自高權(quán)重網(wǎng)頁的鏈入鏈接應(yīng)該更能證明一個網(wǎng)頁的排名。隨機訪問者模型也包含這一點。為什么?因為和一個來自不知名網(wǎng)頁的鏈接相比,訪問者更有可能繼續(xù)點擊一個來自知名網(wǎng)頁的鏈入鏈接。要在我們的模擬中找這樣一個例子,請比較上面底圖中的網(wǎng)頁A和C:這兩個網(wǎng)頁都有一個鏈入鏈接,但網(wǎng)頁A的訪問者權(quán)重值要高得多(13% VS 2%),這主要取決于其鏈入鏈接的質(zhì)量。


上一章目錄下一章

Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號