時間:2023-03-08 12:10:01 | 來源:電子商務
時間:2023-03-08 12:10:01 來源:電子商務
為了更好的觀察網(wǎng)站被蜘蛛爬行的規(guī)律,我租用的服務器又沒有提供訪問日志,不得已,花了不少時間編寫了一個基于PHP的專門分析蜘蛛爬行紀錄的程序,經(jīng)過三個月的對幾個目標網(wǎng)站的觀察,得出以下幾個小經(jīng)驗給大家分享,當然,因研究有限,肯定有不足的或錯誤的地方,請大家不要向我扔磚頭啊。
一、百度蜘蛛
這期間我上了兩個新網(wǎng)站,發(fā)現(xiàn),百度蜘蛛一般一到三天就可以爬行到首頁,開始更新很猛,大約會持續(xù)兩天到一個星期,三天后就可以在百度中site到首頁,雖然百度蜘蛛爬行了上萬個頁面,但往往只會收錄幾個頁面,兩個星期之后,百度將每天只抓取一兩次首頁,其它頁面很少抓取,這個過程會持續(xù)一段時間,長的是幾個月,短的幾天。但百度在這段時間里收錄量會有所增加。這段時間 可能是考察期吧。在這段時間里,我的一個站被百度K了,蜘蛛也就不來了。過了這個時間段后,百度蜘蛛訪問將趨于穩(wěn)定,我有兩個站百度每天都只來抓取200到300次,收錄量變化不大。而我另一個站 shop.hhbmw.com 可能因為外鏈較多,百度蜘蛛來得相對較勤,近一個月來,每天來訪2萬到8萬次左右,波動比較大,不過,site一下,百度收錄量并不高,這可能要到下次百度大更新時才能反應結果。
百度蜘蛛訪問目標網(wǎng)頁時,會把URL中的漢字編碼字符轉換成漢字,(如 會變成 陸建軍88/6c318ea2660bcc4b73b220e16edf96b3.htm ,即“%E9%99%86%E5%BB%BA%E5%86%9B88” 轉換成了“陸建軍88”),這樣就會出現(xiàn)一個問題了,如果主機對中文URL支持不好,可能會影響百度的收錄。
百度蜘蛛訪問某個站點時,其訪問也有一定的規(guī)律,不少都是按漢字的音序來訪問的。
二、谷歌蜘蛛
谷歌蜘蛛對新網(wǎng)站發(fā)現(xiàn)的速度很快,但收錄相對平穩(wěn),每天的抓取的頁面數(shù)也比較穩(wěn)定,PR越高,外鏈越多的網(wǎng)站更新越快。反之,GOOGLE PR低的網(wǎng)站更新較慢。
三、搜捭、搜狗、有道蜘蛛
更新比較快,但不太穩(wěn)定,每天的訪問波動也比較大,比百度更難捉摸,我有個站被搜搜和搜狗都K得只剩首頁了。
四、雅虎、MSN
雅虎的更新快,但收錄少,MSN的更新極慢。
對于robots.txt的支持,百度、谷歌、搜捭、搜狗、雅虎、MSN等的蜘蛛支持度比較好,對robots的Crawl-delay 語法也能很好的支持。
而有道蜘蛛基本上不理會robots.txt 的Crawl-delay 語法。
附今天的訪問日志截圖:
關鍵詞:訪問,蜘蛛,規(guī)律,日志,索引
微信公眾號
版權所有? 億企邦 1997-2025 保留一切法律許可權利。