正文

PageRank——讓谷歌騰飛的技術(shù)(5)

改變未來的九大算法 作者:(美)約翰·麥考密克


整個(gè)過程有一個(gè)轉(zhuǎn)折點(diǎn):每次訪問一個(gè)網(wǎng)頁時(shí),都有一個(gè)固定的重新訪問概率(大概是15%),讓訪問者不從已有的超鏈接中挑選一個(gè)并點(diǎn)擊。相反,訪問者會重新開始這一過程,從互聯(lián)網(wǎng)上隨機(jī)選擇一個(gè)網(wǎng)頁點(diǎn)擊。你也可以認(rèn)為訪問者有15%的概率對任何已有網(wǎng)頁厭倦,導(dǎo)致其點(diǎn)擊另一組鏈接,這么想也許會有幫助。要想找些例子,請仔細(xì)觀察上圖。這個(gè)特定的訪問者從網(wǎng)頁A開始,在對網(wǎng)頁B厭倦前連續(xù)點(diǎn)擊了三個(gè)隨機(jī)超鏈接,并在網(wǎng)頁C重新開始。在下次重新開始前,訪問者又點(diǎn)擊了兩個(gè)隨機(jī)超鏈接。(順便說一句,本章中所有隨機(jī)訪問者例子中的重新開始概率都為15%,這也是谷歌聯(lián)合創(chuàng)始人拉里·佩奇和謝爾蓋·布林在描述其搜索引擎原型的原始論文中使用的值。)

用計(jì)算機(jī)模擬這一過程很容易。我為此寫了一個(gè)程序并運(yùn)行了它,直到訪問者訪問了1 000個(gè)網(wǎng)頁。(當(dāng)然,這并不意味著是1 000個(gè)不重復(fù)的網(wǎng)頁。對同一網(wǎng)頁的多次訪問也被納入了計(jì)算當(dāng)中,在這個(gè)例子中,所有網(wǎng)頁都被訪問了多次。)這1 000次模擬訪問的結(jié)果顯示在下圖(頂圖)中。你可以看到,網(wǎng)頁D的訪問次數(shù)最多,有144次。

就像民意調(diào)查一樣,我們可以通過增加隨機(jī)樣本的數(shù)目來提高模擬精度。我重新運(yùn)行了一次模擬,直到訪問者訪問了一百萬個(gè)網(wǎng)頁。(也許你會想這花了多長時(shí)間,在我電腦上運(yùn)行只花了不到半秒?。┛紤]到訪問量如此巨大,還是用百分比表示結(jié)果更好。這也就是你將在下圖(底圖)中看到的情形。和之前的結(jié)果一樣,網(wǎng)頁D的訪問次數(shù)最頻繁,占總訪問量的15%。

隨機(jī)訪問者模型和權(quán)重把戲之間有什么聯(lián)系可以被我們用于網(wǎng)頁排名呢?從隨機(jī)訪問者模擬中計(jì)算得出的百分比,正好就是我們在衡量一個(gè)網(wǎng)頁的權(quán)重時(shí)所需要的。因此,讓我們將網(wǎng)頁的訪問者權(quán)重值(surfer authority score)定義為一名隨機(jī)訪問者花在訪問該網(wǎng)頁的時(shí)間比例。值得注意的是,訪問者權(quán)重值能和前兩個(gè)對網(wǎng)頁重要性進(jìn)行排名的把戲配合良好。我們會逐一審視這些把戲。

首先,讓我們來審視一下超鏈接把戲:超鏈接把戲的主要思想是,一個(gè)有許多鏈入鏈接的網(wǎng)頁應(yīng)該有高排名。這在隨機(jī)訪問者模型中也適用,因?yàn)橐粋€(gè)有許多鏈入鏈接的網(wǎng)頁被訪問的概率較大。下圖(底圖)中的網(wǎng)頁D就是個(gè)好例子:它有五個(gè)鏈入鏈接——比模擬中的其他網(wǎng)頁都多——訪問者權(quán)重值也最高(15%)。

其次,讓我們來看看權(quán)重把戲。權(quán)重把戲的主要思想是,和來自低權(quán)重網(wǎng)頁的鏈入鏈接相比,一個(gè)來自高權(quán)重網(wǎng)頁的鏈入鏈接應(yīng)該更能證明一個(gè)網(wǎng)頁的排名。隨機(jī)訪問者模型也包含這一點(diǎn)。為什么?因?yàn)楹鸵粋€(gè)來自不知名網(wǎng)頁的鏈接相比,訪問者更有可能繼續(xù)點(diǎn)擊一個(gè)來自知名網(wǎng)頁的鏈入鏈接。要在我們的模擬中找這樣一個(gè)例子,請比較上面底圖中的網(wǎng)頁A和C:這兩個(gè)網(wǎng)頁都有一個(gè)鏈入鏈接,但網(wǎng)頁A的訪問者權(quán)重值要高得多(13% VS 2%),這主要取決于其鏈入鏈接的質(zhì)量。


上一章目錄下一章

Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號