時間:2023-02-16 07:30:01 | 來源:電子商務(wù)
時間:2023-02-16 07:30:01 來源:電子商務(wù)
其實泉州seo孤藤之前看過昝輝老師的《se實戰(zhàn)密碼》,里面講到的robots.txt只是,個人感覺還是很詳細(xì)的,也沒研究過大型網(wǎng)站都是怎么設(shè)置的,今天想起,來分析下國內(nèi)微博新浪、騰訊、搜狐、網(wǎng)易4大平臺各自的robots.txt文件的設(shè)置,robots怎么寫。
1.新浪微博
說明:允許所有搜索引擎抓取
2.騰訊微博
說明:允許所有搜索引擎抓取,除了一些系統(tǒng)文件。而且加了兩條網(wǎng)站地圖,一個是認(rèn)證會員個人微博主頁底地址,另一個是微博留言的地址。xml格式網(wǎng)站地圖有個限制是一個地圖文件里最多只能羅列5萬個url,一個文件最大不能超過10m,超多的話可以新建個網(wǎng)站地圖放,孤藤特意去查了下 騰訊微博的第一個xml地圖,地圖文件里有41000左右的url,2m多大。過段時間再看看騰訊是不是也是新建網(wǎng)站地圖處理過多的url的。
3.搜狐微博
搜狐微博是最有趣的,因為前幾個月興起的快速關(guān)鍵詞排名借助的就是搜狐微博本身的高權(quán)重,后來傳說搜狐微博屏蔽了百度蜘蛛,讓我們來看看這robots.txt文件。第一個部分語句是允許百度蜘蛛抓取,第二個部分語句是允許搜狗抓取,第三個部分語句是禁止所有搜搜引擎抓取。
而根據(jù)百度官方的文件說的——需要特別注意的是Disallow與Allow行的順序是有意義的,robot會根據(jù)第一個匹配成功的Allow或Disallow行確定是否訪問某個URL。
因此最后一部分語句對百度和搜狗是無效的。也就是說搜狐微博只允許百度和搜狗來抓取頁面。
這邊還有一點是,孤藤發(fā)現(xiàn)搜狐微博的robots.txt差不多在6月份左右時間做了修改,屏蔽出百度、搜狗外其他搜索引擎的抓取,但是其他搜索引擎確實照樣索引,收錄量也不斷在增加,不同的是 谷歌、有道、bing僅僅只是索引,沒有收錄。 搜索似乎不支持robot文件還是怎么,照樣收錄有快照、提取描述文字。雅虎也照樣收錄,只是快照看不到,不能判斷是否是僅僅索引。
4.網(wǎng)易微博
網(wǎng)易微博找不到robots文件
再來看看四大博客平臺的收錄情況:
百度總收錄 | 百度當(dāng)日收錄(半天) | 備注 | |
新浪微博 | 870萬 | 6400 | pr8 允許所有搜索引擎抓取 |
騰訊微博 | 122萬 | 1萬500 | pr6 允許所有搜索引擎抓取 |
搜狐微博 | 2580萬 | 1580 | pr6 允許百度、搜狗抓取 |
網(wǎng)易微博 | 53萬7000 | 792 | pr6 沒有設(shè)限 |
從上面可以看到騰訊微博的收錄日收錄量遠(yuǎn)超其他微博,日收錄排名為 騰訊微博>新浪微博>搜狐微博>網(wǎng)易微博
今晚也是心血來潮,想說說這幾個微博,該休息了,睡個幾個小時,明早還的爬起來。本文泉州seo孤藤(www.gutengseo.com)個人愚見,歡迎拍磚。
關(guān)鍵詞:文件,設(shè)置,平臺
微信公眾號
版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。