正文

PageRank——讓谷歌騰飛的技術(shù)(6)

改變未來(lái)的九大算法 作者:(美)約翰·麥考密克


注意,隨機(jī)訪問(wèn)者模型天生能同時(shí)和超鏈接把戲及權(quán)重把戲相配合。換句話說(shuō),每個(gè)網(wǎng)頁(yè)鏈入鏈接的質(zhì)量和數(shù)量都會(huì)被納入考慮范圍。網(wǎng)頁(yè)B就展示了這些:網(wǎng)頁(yè)B的訪問(wèn)者權(quán)重值相對(duì)較高(10%),得益于三個(gè)鏈入鏈接所在的網(wǎng)頁(yè)擁有適中的訪問(wèn)者權(quán)重值,從4%到7%不等。

隨機(jī)訪問(wèn)者把戲的美妙之處在于,和權(quán)重把戲不同,不管超鏈接有沒(méi)有形成循環(huán),隨機(jī)訪問(wèn)者把戲都能完美地運(yùn)作?;氐皆缜暗某吹袄?,我們能輕易地運(yùn)行一次隨機(jī)訪問(wèn)者模擬。在數(shù)百萬(wàn)次訪問(wèn)之后,我的模擬產(chǎn)生了如上圖所示的訪問(wèn)者權(quán)重值。請(qǐng)留意,和之前使用權(quán)重把戲進(jìn)行的計(jì)算一樣,伯特的網(wǎng)頁(yè)訪問(wèn)者權(quán)重值要比歐尼的網(wǎng)頁(yè)高很多(28%VS 1%)——盡管這兩個(gè)網(wǎng)頁(yè)都只有一個(gè)鏈入鏈接。因此,伯特的網(wǎng)頁(yè)在網(wǎng)絡(luò)搜索查詢“scrambled eggs”(炒蛋)中排名更高。

現(xiàn)在讓我們?cè)俎D(zhuǎn)向前文中更困難的例子:對(duì)于最初的權(quán)重把戲而言,由于超鏈接循環(huán)的存在,第39頁(yè)的圖產(chǎn)生了一個(gè)不可解的問(wèn)題。和前面一樣,運(yùn)行一次隨機(jī)訪問(wèn)者的計(jì)算機(jī)模擬很容易,于是產(chǎn)生了如上圖所示的訪問(wèn)者權(quán)重值。由這一模擬判定的訪問(wèn)者權(quán)重值給出了網(wǎng)頁(yè)的最終排名,這些排名會(huì)被搜索引擎在返回結(jié)果時(shí)使用:網(wǎng)頁(yè)A排名最高,之后是B和E,C和D的排名同列最后一名。

實(shí)際中的PageRank

谷歌的兩位聯(lián)合創(chuàng)始人于1998年在他們著名的會(huì)議論文《解析大規(guī)模超文本網(wǎng)絡(luò)搜索引擎》中描述了隨機(jī)訪問(wèn)者把戲。通過(guò)和其他許多技術(shù)結(jié)合,這一把戲的變體仍被主流搜索引擎所使用。不過(guò),由于眾多復(fù)雜因素,應(yīng)用在現(xiàn)代搜索引擎中的實(shí)際技術(shù)和本章描述的隨機(jī)訪問(wèn)者把戲略有不同。

其中一個(gè)復(fù)雜因素直擊PageRank的核心:有時(shí)候,假設(shè)超鏈接傳輸?shù)暮戏?quán)威性有爭(zhēng)議。我們先前已了解到,盡管超鏈接能代表批評(píng)而非推薦,但這在現(xiàn)實(shí)中并不是個(gè)很大的問(wèn)題。另一個(gè)更加嚴(yán)重的問(wèn)題是,人們可以濫用超鏈接把戲,人為地提高自己網(wǎng)頁(yè)的排名。假設(shè)你運(yùn)營(yíng)著一個(gè)名為BooksBooksBooks.com的網(wǎng)站來(lái)售書(shū)(驚訝吧)。通過(guò)使用自動(dòng)化技術(shù),創(chuàng)建一大堆不同的網(wǎng)頁(yè)——比如一萬(wàn)個(gè)——并讓這些網(wǎng)頁(yè)都鏈向BooksBooksBooks.com,做到這一切相對(duì)很容易。因此,如果搜索引擎和本章描述的一樣來(lái)計(jì)算PageRank權(quán)重,BooksBooksBooks.com的權(quán)重值就能比其他書(shū)店高數(shù)千倍,進(jìn)而有更高的排名和更多的銷售額,而這都不是BooksBooksBooks.com應(yīng)得的。


上一章目錄下一章

Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)