国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

SEO入門：robots.txt的終極指南

時(shí)間：2024-04-23 07:30:01 | 來源：建站知識(shí)

時(shí)間：2024-04-23 07:30:01 來源：建站知識(shí)

robots.txt文件是告訴搜索引擎在您網(wǎng)站上的頁(yè)面哪些可以進(jìn)入哪些不能進(jìn)入的主要方式之一。所有主要的搜索引擎都支持其提供的基本功能。今天我們的文章將涵蓋了robots.txt在網(wǎng)站上使用的所有方式。盡管看起來很簡(jiǎn)單，但您在網(wǎng)站上犯的任何robots.txt錯(cuò)誤都會(huì)嚴(yán)重?fù)p害您的網(wǎng)站，因此請(qǐng)務(wù)必先理解本文再進(jìn)行實(shí)踐。

什么是robots.txt文件？
該robots.txt文件做什么？
我應(yīng)該在哪里存放robots.txt文件？
使用robots.txt的利與弊
管理抓取預(yù)算
缺點(diǎn)：不從搜索結(jié)果中刪除頁(yè)面
缺點(diǎn)：不傳播鏈接價(jià)值
robots.txt語(yǔ)法
User-agent指令
搜索引擎蜘蛛最常見的User-agent
Disallow指令
如何使用通配符/正則表達(dá)式
非標(biāo)準(zhǔn)robots.txt搜尋指令
Allow指令
host指令
crawl-delay指令
sitemapXML Sitemaps 的指令

什么是robots.txt文件？

抓取指令

robots.txt文件是一個(gè)由搜索引擎蜘蛛讀取并遵循嚴(yán)格的語(yǔ)法內(nèi)容所組成的文本文件。文件的語(yǔ)法很嚴(yán)格，僅因?yàn)樗仨毷怯?jì)算機(jī)可讀的。這意味著這里沒有錯(cuò)誤的余地。

robots.txt文件也稱為“機(jī)器人排除協(xié)議”，是早期搜索引擎蜘蛛開發(fā)人員達(dá)成共識(shí)的結(jié)果。它不是任何標(biāo)準(zhǔn)組織制定的官方標(biāo)準(zhǔn)，但是所有主要的搜索引擎都遵守它。

robots.txt文件做什么？

搜索引擎通過抓取頁(yè)面，跟隨鏈接從站點(diǎn)A到站點(diǎn)B再到站點(diǎn)C的方式對(duì)網(wǎng)頁(yè)進(jìn)行索引。在搜索引擎搜索遇到新網(wǎng)站時(shí)，它將打開該網(wǎng)站的robots.txt文件，該文件告訴搜索引擎允許該站點(diǎn)上的哪些URL進(jìn)行索引。

搜索引擎通常會(huì)緩存robots.txt的內(nèi)容，但通常會(huì)每天刷新幾次，因此更改會(huì)很快反映出來。

我應(yīng)該在哪里存放robots.txt文件？

robots.txt文件應(yīng)始終位于域的根目錄。因此，如果您的域名為www.example.com，則應(yīng)位于https://www.example.com/robots.txt。

robots.txt編寫的內(nèi)容也很重要。內(nèi)容區(qū)分大小寫，因此請(qǐng)正確編寫，否則將無法使用。

使用robots.txt的利與弊

管理抓取預(yù)算

眾所周知，搜索蜘蛛會(huì)以預(yù)定的“準(zhǔn)則”進(jìn)入網(wǎng)站，以獲取要爬取的頁(yè)面數(shù)（根據(jù)網(wǎng)站的權(quán)限/大小/聲譽(yù)得出的抓取頁(yè)面數(shù)）， SEO將此稱為抓取預(yù)算。這就意味著，如果您阻止網(wǎng)站的某些部分的抓取，搜索蜘蛛就會(huì)抓取其他部分來補(bǔ)充頁(yè)面數(shù)。

一般來說，阻止搜索引擎抓取您網(wǎng)站有問題的部分是非常有益，特別是在必須進(jìn)行大量SEO清理的網(wǎng)站上。整理完所有內(nèi)容后，您就可以解除阻止。

有關(guān)阻止查詢參數(shù)的說明

特別重要的一種robots.txt應(yīng)用是：您的站點(diǎn)使用大量參數(shù)進(jìn)行查詢。假設(shè)您有10個(gè)不同的查詢參數(shù)，每個(gè)參數(shù)都可能有不同的值而生成不同的URL，這將導(dǎo)致數(shù)百甚至數(shù)千個(gè)毫無意義的URL。阻止所有查詢參數(shù)頁(yè)面的抓取將有助于確保搜索引擎僅收錄您網(wǎng)站的主要URL，而不會(huì)陷入一個(gè)巨大陷阱。

此行阻止您網(wǎng)站上包含查詢字符串的所有URL：

Disallow:/*？*

缺點(diǎn)：不從搜索結(jié)果中刪除頁(yè)面

即使您可以使用該robots.txt文件告訴搜索蜘蛛不能在網(wǎng)站上訪問的位置，也不能使用它告訴搜索引擎哪些URL不在搜索結(jié)果中顯示。換句話說，阻止它不會(huì)阻止它被索引。搜索引擎仍然會(huì)在搜索結(jié)果中顯示，但不顯示其內(nèi)容。

如果要阻止頁(yè)面顯示在搜索結(jié)果中，則需要使用meta robots noindex標(biāo)簽。這意味著，為了找到noindex標(biāo)簽，搜索引擎必須能夠訪問該頁(yè)面，因此請(qǐng)不要通過robots.txt阻止搜索蜘蛛訪問該頁(yè)面。

Noindex指令

過去可以在robots.txt中添加“ noindex”指令，從搜索結(jié)果中刪除網(wǎng)址，并避免出現(xiàn)這些“碎片”。如今已經(jīng)不再支持，請(qǐng)不要使用。

缺點(diǎn)：不傳播鏈接價(jià)值

如果搜索引擎無法抓取頁(yè)面，則無法在該頁(yè)面上的鏈接之間散布鏈接值。當(dāng)頁(yè)面通過robots.txt被阻止時(shí)，這是死路一條。任何可能流到（并通過）該頁(yè)面的鏈接值都會(huì)丟失。

robots.txt 句法

該User-agent指令

每個(gè)指令塊的第一位是User-agent，它標(biāo)識(shí)特定的蜘蛛。User-agent字段與該特定Spider（通常更長(zhǎng)）的User-agent匹配，因此，例如，來自Google的最常見的Spider具有以下User-agent：

Mozilla / 5.0（兼容； Googlebot / 2.1； + http：//www.google.com/bot.html）

因此，如果您想告訴這只蜘蛛做什么，一條相對(duì)簡(jiǎn)單的User-agent: Googlebot就可以解決問題。

大多數(shù)搜索引擎都有多個(gè)蜘蛛。他們將使用特定的Spider作為其正常索引，廣告程序，圖像，視頻等。

搜索引擎將始終選擇他們可以找到的最具體的指令塊。假設(shè)您有3組指令：一組用于*，一組用于Googlebot和Googlebot-News。如果漫游器由其User-agent來自Googlebot-Video，它將跟隨Googlebot restrictions。具有User-agent的漫游器Googlebot-News將使用更具體的Googlebot-News指令。

搜索引擎蜘蛛最常見的User-agent

以下是您可以在robots.txt文件中使用的User-agent列表，以匹配最常用的搜索引擎：

搜索引擎領(lǐng)域User-agent百度一般baiduspider百度圖片baiduspider-image百度移動(dòng)baiduspider-mobile百度新聞baiduspider-news百度視頻baiduspider-video必應(yīng)一般bingbot必應(yīng)一般msnbot必應(yīng)圖片和視頻msnbot-media必應(yīng)廣告adidxbot谷歌一般Googlebot谷歌圖片Googlebot-Image谷歌移動(dòng)Googlebot-Mobile谷歌新聞Googlebot-News谷歌視頻Googlebot-Video谷歌AdSense的Mediapartners-Google谷歌AdWords的AdsBot-Google雅虎一般slurpYandex的一般yandex

Disallow指令

任何指令塊中的第二行是Disallow行。您可以有一個(gè)或多個(gè)這些行，以指定指定的Spider無法訪問站點(diǎn)的哪些部分。空Disallow行表示您不Disallow任何操作，因此從根本上講，它意味著爬蟲可以訪問您網(wǎng)站的所有部分。

下面的示例將阻止所有“監(jiān)聽”到的搜索引擎robots.txt抓取您的網(wǎng)站。

User-agent:*

Disallow:/

下面的示例僅需少一個(gè)字符，即可允許所有搜索引擎抓取您的整個(gè)網(wǎng)站。

User-agent:*

Disallow:

以下示例將阻止Google抓取Photo您網(wǎng)站上的目錄及其中的所有內(nèi)容。

User-agent:googlebot

Disallow:/Photo

這意味著該目錄的所有子目錄/Photo也不會(huì)被擴(kuò)展。由于這些行區(qū)分大小寫，因此不會(huì)阻止Google抓取/photo目錄。

同時(shí)含有/Photo的網(wǎng)址也同樣會(huì)被阻止訪問，比如/Photography/。

如何使用通配符/正則表達(dá)式

從規(guī)范化來說，robots.txt標(biāo)準(zhǔn)不支持正則表達(dá)式或通配符，但是，所有主要的搜索引擎都可以理解它。這意味著您可以使用以下行來阻止文件組：

Disallow:/*.php

Disallow:/copyrighted-images/*.jpg

在上面的示例中，*將擴(kuò)展為它匹配的任何文件名。請(qǐng)注意，該行的其余部分仍然區(qū)分大小寫，因此上面的第二行不會(huì)阻止/copyrighted-images/example.JPG被抓取。

某些搜索引擎（例如Google）允許使用更復(fù)雜的正則表達(dá)式，但是請(qǐng)注意，某些搜索引擎可能不理解此邏輯。它添加的最有用的功能是$，它指示URL的結(jié)尾。在以下示例中，您可以看到它的作用：

Disallow:/*.php$

這意味著/index.php無法索引，但/index.php?p=1可以。當(dāng)然，這僅在非常特定的情況下有用，并且非常危險(xiǎn)，請(qǐng)謹(jǐn)慎使用。

非標(biāo)準(zhǔn)robots.txt搜尋指令

除了Disallow和User-agent指令外，您還可以使用其他幾個(gè)爬網(wǎng)指令。所有搜索引擎爬蟲程序都不支持這些指令，因此請(qǐng)確保您了解它們的局限性。

Allow指令

盡管不在最初的“規(guī)范”中，對(duì)于allow指令大多數(shù)搜索引擎都了解它，并且允許使用簡(jiǎn)單且可讀性強(qiáng)的指令，例如：

Disallow:/wp-admin/

Allow:/wp-admin/admin-ajax.php

在沒有allow指令的情況下獲得的結(jié)果就是阻止wp-admin文件夾中的每個(gè)文件的抓取。

Host指令

由Yandex（不受Google支持）支持，該指令可讓您決定是否要顯示搜索引擎example.com或www.example.com。只需像這樣指定就可以了：

Host:example.com

但是因?yàn)閮HYandex支持該host指令，所以我們不建議您依賴該指令，尤其是因?yàn)樗膊辉试S您定義協(xié)議（到底時(shí)http還是https）。一個(gè)更好的解決方案，為所有搜索引擎的工作原理是，可以采用301重定向?qū)⒉怀Ｓ糜蛎囟ㄏ虻匠Ｓ糜蛎?，比如我們?25youhua.com重定向到www.025youhua.com。

Crawl-delay指令

Yahoo！，Bing和Yandex都響應(yīng)crawl-delay指令，這會(huì)使抓取變慢。盡管這些搜索引擎在讀取指令方面的方式略有不同，但最終結(jié)果基本相同。

像下面這樣的一行將指示Yahoo! 和Bing會(huì)在抓取操作后等待10秒，而Yandex每10秒只會(huì)訪問您的網(wǎng)站一次。這是語(yǔ)義上的差異，但仍然很有趣。這是示例crawl-delay行：

Crawl-delay:10

使用crawl-delay指令時(shí)請(qǐng)務(wù)必小心。通過將抓取延遲設(shè)置為10秒，您僅允許這些搜索引擎每天訪問8,640頁(yè)。對(duì)于小型網(wǎng)站來說，這似乎足夠了，但是在大型網(wǎng)站上，它并不是很多。另一方面，如果您網(wǎng)站抓取頻繁，那么這是節(jié)省帶寬的好方法。

SitemapXML Sitemaps 的指令

使用sitemap指令，您可以告訴搜索引擎-特別是Bing，Yandex和Google在哪里可以找到XML網(wǎng)站地圖。當(dāng)然，您也可以使用各自的網(wǎng)站管理員工具解決方案將XML網(wǎng)站地圖提交給每個(gè)搜索引擎，我們強(qiáng)烈建議您這樣做，因?yàn)樗阉饕婢W(wǎng)站管理員工具程序會(huì)為您提供有關(guān)網(wǎng)站的許多有價(jià)值的信息。如果您不想這樣做，則在robots.txt中添加一條sitemap是一個(gè)不錯(cuò)的快速選擇。

驗(yàn)證您的robots.txt

有各種各樣的工具可以幫助您驗(yàn)證robots.txt。在進(jìn)行更改之前，請(qǐng)務(wù)必徹底測(cè)試您的更改！您將不會(huì)是第一個(gè)意外使用robots.txt來阻止搜索引擎抓取的人！

關(guān)鍵詞：

解決方案&服務(wù)

客戶&案例

營(yíng)銷資訊

關(guān)于我們

微信公眾號(hào)

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果，本站不支持IE9及以下版本的瀏覽器，建議您使用谷歌Chrome瀏覽器。點(diǎn)擊下載Chrome瀏覽器

關(guān)閉

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

SEO入門：robots.txt的終極指南

獨(dú)立站怎么選域名？

學(xué)會(huì)四大技巧鍛造優(yōu)秀軟文不再是夢(mèng)

網(wǎng)站用戶體驗(yàn)分析：數(shù)據(jù)可視化6步法

網(wǎng)站被掛馬,你有什么好的解決方案嗎

域名證書和SSL證書一樣的嗎？有什么區(qū)別呢

老齡化社會(huì)：養(yǎng)老類網(wǎng)站共性考察

網(wǎng)站設(shè)計(jì)必需要的極客Web前端開發(fā)資源匯總

傳統(tǒng)企業(yè)如何通過站內(nèi)SEO打造會(huì)賺錢的網(wǎng)站

網(wǎng)絡(luò)整合營(yíng)銷應(yīng)從哪些方面入手

軟文推廣四兩撥千斤成企業(yè)推廣絕佳選擇

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

SEO入門：robots.txt的終極指南

推薦文章

如何使您的專題頁(yè)面大獲成功？

什么是用戶信號(hào)？對(duì)SEO有什么影響？

教你如何在產(chǎn)品頁(yè)面“講故事”

閱讀體驗(yàn)好的文章會(huì)帶來更高的排名嗎？

如何為用戶和SEO正確設(shè)置TAG標(biāo)簽？

您應(yīng)該noindex或nofollow哪些頁(yè)面？

正確設(shè)置文章標(biāo)簽對(duì)SEO的好處

搜索引擎如何運(yùn)作？實(shí)際做什么？

2019年SEO服務(wù)模式及收費(fèi)標(biāo)準(zhǔn)

如何在您的網(wǎng)站上使用標(biāo)題標(biāo)簽？

獨(dú)立站怎么選域名？

學(xué)會(huì)四大技巧鍛造優(yōu)秀軟文不再是夢(mèng)

網(wǎng)站用戶體驗(yàn)分析：數(shù)據(jù)可視化6步法

網(wǎng)站被掛馬,你有什么好的解決方案嗎

域名證書和SSL證書一樣的嗎？有什么區(qū)別呢

老齡化社會(huì)：養(yǎng)老類網(wǎng)站共性考察

網(wǎng)站設(shè)計(jì)必需要的極客Web前端開發(fā)資源匯總

傳統(tǒng)企業(yè)如何通過站內(nèi)SEO打造會(huì)賺錢的網(wǎng)站

網(wǎng)絡(luò)整合營(yíng)銷應(yīng)從哪些方面入手

軟文推廣四兩撥千斤 成企業(yè)推廣絕佳選擇

如何使您的專題頁(yè)面大獲成功？

什么是用戶信號(hào)？對(duì)SEO有什么影響？

閱讀體驗(yàn)好的文章會(huì)帶來更高的排名嗎？

搜索引擎如何運(yùn)作？實(shí)際做什么？

如何在您的網(wǎng)站上使用標(biāo)題標(biāo)簽？

域名證書和SSL證書一樣的嗎？有什么區(qū)別呢

軟文推廣四兩撥千斤成企業(yè)推廣絕佳選擇