網(wǎng)站收錄收錄原理
時間:2023-02-23 10:27:01 | 來源:營銷百科
時間:2023-02-23 10:27:01 來源:營銷百科
網(wǎng)站收錄收錄原理:Internet上存在的網(wǎng)頁數(shù)量絕對是個天文數(shù)字,每天新增的網(wǎng)頁也不計其數(shù),搜索引擎需要首先找到要索引收錄的對象。
具體到Google而言,雖然對GoogleBot是否存在DeepBot與FreshBot的區(qū)別存在爭議——至于是否叫這么兩個名字更是眾說紛紜。
主流的看法是,在Google的robots中,的確存在著相當部分專門為真正的索引收錄頁頁準備'素材'的robots——在這里我們姑且仍稱之為FreshBot吧
它們的任務便是每天不停地掃描Internet,以發(fā)現(xiàn)并維護一個龐大的url列表供DeepBot使用,換言之,當其訪問、讀取其一個網(wǎng)頁時,目的并不在于索引這個網(wǎng)頁,而是找出這個網(wǎng)頁中的所有鏈接。當然,這樣似乎在效率上存在矛盾,有點不太可信。不過,我們可以簡單地通過以下方式判斷:FreshBot在掃描網(wǎng)頁時不具備'排它性'。也即是說,位于Google不同的數(shù)據(jù)中心的多個robots可能在某個很短的時間周期,比如說一天甚至一小時,訪問同一個頁面,而DeepBot在索引、緩存頁面時則不會出現(xiàn)類似的情況。即Google會限制由某個數(shù)據(jù)中心的robots來完成這項工作的,而不會出現(xiàn)兩個數(shù)據(jù)中心同時索引網(wǎng)頁同一個版本的情況,如果這種說法沒有破綻的話,則似乎可以從服務器訪問日志中時常可以看到源自不同IP的GoogleBot在很短的時間內(nèi)多次訪問同一個網(wǎng)頁證明FreshBot的存在。
因此,有時候發(fā)現(xiàn)GoogleBot頻繁訪問網(wǎng)站也不要高興得太早,也許其根本不是在索引網(wǎng)頁而只是在掃描url。
FreshBot記錄的信息包括網(wǎng)頁的url、TimeStamp(網(wǎng)頁創(chuàng)建或更新的時間戳),以及網(wǎng)頁的Head信息(注:這一點存在爭議,也有不少人相信FreshBot不會去讀取目標網(wǎng)頁信息的,而是將這部分工作交由DeepBot完成。
不過,筆者傾向于前一種說法,因為在FreshBot向DeepBot提交的url列表中,會將網(wǎng)站設置禁止索引、收錄的頁面排除在外,以提高效率,而網(wǎng)站進行此類設置時除使用robots.txt外還有相當部分是通過mata標簽中的'noindex'實現(xiàn)的,不讀取目標網(wǎng)頁的head似乎是無法實現(xiàn)這一點的),如果網(wǎng)頁不可訪問,比如說網(wǎng)絡中斷或服務器故障,F(xiàn)reshBot則會記下該url并擇機重試,但在該url可訪問之前,不會將其加入向DeepBot提交的url列表。
總的來說,F(xiàn)reshBot對服務器帶寬、資源的占用還是比較小的。最后,F(xiàn)reshBot對記錄信息按不同的優(yōu)先級進行分類,向DeepBot提交,根據(jù)優(yōu)先級不同,主要有以下幾種:
A:新建網(wǎng)頁;B:舊網(wǎng)頁/新的TimeStamp,即存在更新的網(wǎng)頁;C:使用301/302重定向的網(wǎng)頁;D:復雜的動態(tài)url:如使用多個參數(shù)的動態(tài)url,Google可能需要附加的工作才能正確分析其內(nèi)容。
——隨著Google對動態(tài)網(wǎng)頁支持能力的提高,這一分類可能已經(jīng)取消;E:其他類型的文件,如指向PDF、DOC文件的鏈接,對這些文件的索引,也可能需要附加的工作;
F:舊網(wǎng)頁/舊的TimeStamp,即未更新的網(wǎng)頁,注意,這里的時間戳不是以Google搜索結(jié)果中顯示的日期為準,而是與Google索引數(shù)據(jù)庫中的日期比對;G:錯誤的url,即訪問時返回404回應的頁面;