時間:2023-03-08 13:44:01 | 來源:電子商務
時間:2023-03-08 13:44:01 來源:電子商務
大家都知道,在網(wǎng)站上線前,就是你的網(wǎng)址暴露在互聯(lián)網(wǎng)中,能引來谷歌,百度,雅虎,搜狗等等搜索引擎蜘蛛來爬前,網(wǎng)站的主題,關(guān)鍵字,描述,和網(wǎng)站的結(jié)構(gòu)布局一定要明確。一旦蜘蛛來爬過去,你的網(wǎng)站主題關(guān)鍵字描述及結(jié)構(gòu)布局,還在亂改動,這會很影響網(wǎng)站的收錄情況和權(quán)重。這也往往是新手,常常犯的錯誤。網(wǎng)站上線后,還在亂改,結(jié)果即使收錄了,也會k首頁,降權(quán)重等等懲罰。
所以有人說,在網(wǎng)站上線前在網(wǎng)站的robots.txt里設(shè)置搜索引擎來爬行,等網(wǎng)站標題關(guān)鍵字布局等確定后,再解禁來爬。本人以前沒有試過,新上線的一個網(wǎng)站天涯美容屋減肥網(wǎng),這前因為做股票網(wǎng),做了幾天,又想主題做減肥。轉(zhuǎn)來轉(zhuǎn)去。以前看了有人說可以在robots.txt寫禁止蜘蛛來爬,我查了網(wǎng)站log紀錄,只有g(shù)ooglebot來抓過,因為上線才一天,其它搜索引擎還沒來,我也沒提交過。所以只在就禁止 Googlebot 將來抓取我的網(wǎng)站,請將以下 robots.txt 文件放入您服務器的根目錄:
User-agent: Googlebot
Disallow: /
結(jié)果以為沒事。然后自己改版著不多了,天涯美容屋減肥網(wǎng)上線了,提交搜索引擎,發(fā)外鏈,引蜘蛛,robots.txt里也解禁了googlebot的來爬,結(jié)果一周后過去了,像百度,yahoo,搜狗等等的搜索引擎蜘蛛全來過了,唯獨googlebot再也沒有來,我很奇怪的。一向googlebot來的很快的,我做了幾個站,一般都是googlebot很快來訪,baidu蜘蛛反而要一天后才來。這回一周多了還不來,我越想越不對勁。在a5論壇和推一把論壇和google的論壇里都發(fā)了提問,沒人能給我正確的回答,都不知道原因。我自己也作了一點測試,用谷歌的模擬蜘蛛程序來抓我的天涯美容屋減肥網(wǎng),結(jié)果顯示:首先我把天涯美容屋減肥網(wǎng)的網(wǎng)址,指向了自己的本機上,然后用模擬googlebot蜘蛛來抓,結(jié)果顯示如下:
以下是 Googlebot 抓取該網(wǎng)頁的過程。
URL:
日期: Wed Feb 03 03:11:47 PST 2010
HTTP/1.1 200 OK
Connection: close
Date: Wed, 03 Feb 2010 11:11:40 GMT
Content-Type: text/html; charset=gbk
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET,PHP/5.2.9-2
Access Denied
竟然是拒絕訪問,我這下頭大了,拒絕訪問?我再一次檢查了網(wǎng)站的robots.txt里面沒有禁止谷歌來抓啊,網(wǎng)頁的meta標簽里也沒有寫禁止,我甚至把robots.txt都刪掉了。再用模擬蜘蛛程序來抓仍然是拒絕訪問.我再次發(fā)論壇求助,仍然沒人知道原因和解決辦法.然后我就寫了一封信給google,信內(nèi)容如下:
"我的網(wǎng)站,天涯屋美容減肥網(wǎng) 本來我用這個域名開始做股票網(wǎng)的,做了幾天,覺得股票網(wǎng)不行,然后就改版做這個減肥網(wǎng),改版的兩天時間內(nèi)我在robots.txt里設(shè)置了拒絕所有蜘蛛來爬,現(xiàn)在我解禁了,別的蜘蛛像bd熱狗yahoo都有來爬,就唯有g(shù)ooglebot再也沒來,已經(jīng)有一個星期了,剛才我用網(wǎng)站管理員工具里實驗室里的"像googlebot一樣爬取"的功能測試爬取。
天涯屋美容減肥網(wǎng) 首頁,顯示結(jié)果是:
以下是 Googlebot 抓取該網(wǎng)頁的過程。
URL:
日期: Wed Feb 03 03:11:47 PST 2010
HTTP/1.1 200 OK
Connection: close
Date: Wed, 03 Feb 2010 11:11:40 GMT
Content-Type: text/html; charset=gbk
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET,PHP/5.2.9-2
Access Denied
我檢查了robots.txt,甚至刪掉了這個文件,仍然是access denied,請問google管理人員,這是怎么回事,如何解決,是不是因為我以前拒絕過googlebot,現(xiàn)在googlebot里有數(shù)據(jù)把我這個站加入了拒絕訪問的名單了,還是怎么回事,急等回復,謝謝"
信發(fā)過后,我同時也在作測試,我把天涯屋美容減肥網(wǎng)的網(wǎng)址指向自己本地主機,然后用模擬蜘蛛程序來爬,竟然能正常訪問,這證明這個域名是沒問題的,應該沒有進我所猜想的黑名單.這下我更想不通了?難道是程序問題,程序里除了robots.txt和meta標簽里能禁止搜索引擎蜘蛛來爬,還有其它地方也能禁止?難道是虛擬主機問題?主機禁止了googlebot來爬?難道是因為我一周前禁止過googlebot來爬,就留下了某種我不知道的緩存文件,仍然禁止著?然后我又把google adsense加入了這個站,adsense能顯示廣告,說明adsense能來訪問.但是googlebot卻不能訪問。
更為奇怪的是,一個小時后,也就是筆者在寫這個文章前,我用谷歌網(wǎng)站管理員工具里的"像googlebot一樣爬取"的功能測試時,竟然能爬行了,我看了一下log紀錄,googlebot爬行了11次.這又是什么原因?是我寫了信的原因?google工作人員看到了,解決了,效率這么高?還是我把網(wǎng)址指向了我本機,又指回來,這樣來回折騰后,又好的原因?實在想不明白,唯一得到的結(jié)論是:
一定要謹慎使用robots.txt禁止搜索引擎抓取.新站沒做好前,不要讓自己的網(wǎng)址出現(xiàn)在互聯(lián)網(wǎng)任何地方,也不要設(shè)置禁止蜘蛛來爬,等網(wǎng)站標題結(jié)構(gòu)等確定好后,再去提交,引蜘蛛.本人親身經(jīng)歷,希望新手引以為戒。
關(guān)鍵詞:索引,禁止,謹慎,使用
微信公眾號
版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。