3.1 機器人輸送
下面開始學習搜索引擎的工作原理。搜索引擎的一個主要部件是一種叫做“機器人(robot)或蜘蛛(spider)”的軟件,它從各個站點提取有關(guān)您的網(wǎng)站的信息,然后將這些內(nèi)容傳回到強大的中心“引擎”進行分析。這種行為稱為“爬網(wǎng)”(crawling或者spidering)。關(guān)于機器人的工作原理有很多比喻,其中最恰當?shù)囊环N比喻是螞蟻??梢詫⑺阉饕鏅C器人看做探路的螞蟻,它離開蟻穴只是為了尋找食物。而就機器人而言,“食物”就是HTML文本,因為可能有很多文本等待發(fā)現(xiàn),所以螞蟻必須沿著簡單、沒有障礙的路徑(即HTML鏈接)前進。沿著這些路徑,僅具有像昆蟲那樣簡單思維能力的螞蟻(搜索引擎機器人)就可以將食物(文本內(nèi)容)帶回蟻穴,并將其存放在蟻丘(搜索引擎數(shù)據(jù)庫)中。整個Internet上有成千上萬只“小家伙”在同時進行探索和收集工作,如圖3-1所示。如果路徑不存在或者被阻塞,螞蟻將放棄這條路徑并前往別處。如果沒有食物,則螞蟻將會空手而歸。