robots.txt文件是告訴搜索引擎在您網(wǎng)站上的頁(yè)面哪些可以進(jìn)入哪些不能進(jìn)入的主要方式之一。所有主要的搜索引擎都支持其提供的基本功能。今天我們的文章將涵蓋了robots.txt在網(wǎng)站上使" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

15158846557 在線咨詢 在線咨詢
15158846557 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷資訊 > 建站知識(shí) > SEO入門:robots.txt的終極指南

SEO入門:robots.txt的終極指南

時(shí)間:2024-04-23 07:30:01 | 來源:建站知識(shí)

時(shí)間:2024-04-23 07:30:01 來源:建站知識(shí)



robots.txt文件是告訴搜索引擎在您網(wǎng)站上的頁(yè)面哪些可以進(jìn)入哪些不能進(jìn)入的主要方式之一。所有主要的搜索引擎都支持其提供的基本功能。今天我們的文章將涵蓋了robots.txt在網(wǎng)站上使用的所有方式。盡管看起來很簡(jiǎn)單,但您在網(wǎng)站上犯的任何robots.txt錯(cuò)誤都會(huì)嚴(yán)重?fù)p害您的網(wǎng)站,因此請(qǐng)務(wù)必先理解本文再進(jìn)行實(shí)踐。

什么是robots.txt文件?

抓取指令

robots.txt文件是一個(gè)由搜索引擎蜘蛛讀取并遵循嚴(yán)格的語(yǔ)法內(nèi)容所組成的文本文件。文件的語(yǔ)法很嚴(yán)格,僅因?yàn)樗仨毷怯?jì)算機(jī)可讀的。這意味著這里沒有錯(cuò)誤的余地。

robots.txt文件也稱為“機(jī)器人排除協(xié)議”,是早期搜索引擎蜘蛛開發(fā)人員達(dá)成共識(shí)的結(jié)果。它不是任何標(biāo)準(zhǔn)組織制定的官方標(biāo)準(zhǔn),但是所有主要的搜索引擎都遵守它。

robots.txt文件做什么?

搜索引擎通過抓取頁(yè)面,跟隨鏈接從站點(diǎn)A到站點(diǎn)B再到站點(diǎn)C的方式對(duì)網(wǎng)頁(yè)進(jìn)行索引。在搜索引擎搜索遇到新網(wǎng)站時(shí),它將打開該網(wǎng)站的robots.txt文件,該文件告訴搜索引擎允許該站點(diǎn)上的哪些URL進(jìn)行索引。

搜索引擎通常會(huì)緩存robots.txt的內(nèi)容,但通常會(huì)每天刷新幾次,因此更改會(huì)很快反映出來。

我應(yīng)該在哪里存放robots.txt文件?

robots.txt文件應(yīng)始終位于域的根目錄。因此,如果您的域名為www.example.com,則應(yīng)位于https://www.example.com/robots.txt。

robots.txt編寫的內(nèi)容也很重要。內(nèi)容區(qū)分大小寫,因此請(qǐng)正確編寫,否則將無法使用。

使用robots.txt的利與弊

管理抓取預(yù)算

眾所周知,搜索蜘蛛會(huì)以預(yù)定的“準(zhǔn)則”進(jìn)入網(wǎng)站,以獲取要爬取的頁(yè)面數(shù)(根據(jù)網(wǎng)站的權(quán)限/大小/聲譽(yù)得出的抓取頁(yè)面數(shù)), SEO將此稱為抓取預(yù)算。這就意味著,如果您阻止網(wǎng)站的某些部分的抓取,搜索蜘蛛就會(huì)抓取其他部分來補(bǔ)充頁(yè)面數(shù)。

一般來說,阻止搜索引擎抓取您網(wǎng)站有問題的部分是非常有益,特別是在必須進(jìn)行大量SEO清理的網(wǎng)站上。整理完所有內(nèi)容后,您就可以解除阻止。

有關(guān)阻止查詢參數(shù)的說明

特別重要的一種robots.txt應(yīng)用是:您的站點(diǎn)使用大量參數(shù)進(jìn)行查詢。假設(shè)您有10個(gè)不同的查詢參數(shù),每個(gè)參數(shù)都可能有不同的值而生成不同的URL,這將導(dǎo)致數(shù)百甚至數(shù)千個(gè)毫無意義的URL。阻止所有查詢參數(shù)頁(yè)面的抓取將有助于確保搜索引擎僅收錄您網(wǎng)站的主要URL,而不會(huì)陷入一個(gè)巨大陷阱。

此行阻止您網(wǎng)站上包含查詢字符串的所有URL:

Disallow:/*?*

缺點(diǎn):不從搜索結(jié)果中刪除頁(yè)面

即使您可以使用該robots.txt文件告訴搜索蜘蛛不能在網(wǎng)站上訪問的位置,也不能使用它告訴搜索引擎哪些URL不在搜索結(jié)果中顯示。換句話說,阻止它不會(huì)阻止它被索引。搜索引擎仍然會(huì)在搜索結(jié)果中顯示,但不顯示其內(nèi)容。

如果要阻止頁(yè)面顯示在搜索結(jié)果中,則需要使用meta robots noindex標(biāo)簽。這意味著,為了找到noindex標(biāo)簽,搜索引擎必須能夠訪問該頁(yè)面,因此請(qǐng)不要通過robots.txt阻止搜索蜘蛛訪問該頁(yè)面。

Noindex指令

過去可以在robots.txt中添加“ noindex”指令,從搜索結(jié)果中刪除網(wǎng)址,并避免出現(xiàn)這些“碎片”。如今已經(jīng)不再支持,請(qǐng)不要使用。

缺點(diǎn):不傳播鏈接價(jià)值

如果搜索引擎無法抓取頁(yè)面,則無法在該頁(yè)面上的鏈接之間散布鏈接值。當(dāng)頁(yè)面通過robots.txt被阻止時(shí),這是死路一條。任何可能流到(并通過)該頁(yè)面的鏈接值都會(huì)丟失。

robots.txt 句法

該User-agent指令

每個(gè)指令塊的第一位是User-agent,它標(biāo)識(shí)特定的蜘蛛。User-agent字段與該特定Spider(通常更長(zhǎng))的User-agent匹配,因此,例如,來自Google的最常見的Spider具有以下User-agent:

Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)

因此,如果您想告訴這只蜘蛛做什么,一條相對(duì)簡(jiǎn)單的User-agent: Googlebot就可以解決問題。

大多數(shù)搜索引擎都有多個(gè)蜘蛛。他們將使用特定的Spider作為其正常索引,廣告程序,圖像,視頻等。

搜索引擎將始終選擇他們可以找到的最具體的指令塊。假設(shè)您有3組指令:一組用于*,一組用于Googlebot和Googlebot-News。如果漫游器由其User-agent來自Googlebot-Video,它將跟隨Googlebot restrictions。具有User-agent的漫游器Googlebot-News將使用更具體的Googlebot-News指令。

搜索引擎蜘蛛最常見的User-agent

以下是您可以在robots.txt文件中使用的User-agent列表,以匹配最常用的搜索引擎:

搜索引擎領(lǐng)域User-agent百度一般baiduspider百度圖片baiduspider-image百度移動(dòng)baiduspider-mobile百度新聞baiduspider-news百度視頻baiduspider-video必應(yīng)一般bingbot必應(yīng)一般msnbot必應(yīng)圖片和視頻msnbot-media必應(yīng)廣告adidxbot谷歌一般Googlebot谷歌圖片Googlebot-Image谷歌移動(dòng)Googlebot-Mobile谷歌新聞Googlebot-News谷歌視頻Googlebot-Video谷歌AdSense的Mediapartners-Google谷歌AdWords的AdsBot-Google雅虎一般slurpYandex的一般yandex

Disallow指令

任何指令塊中的第二行是Disallow行。您可以有一個(gè)或多個(gè)這些行,以指定指定的Spider無法訪問站點(diǎn)的哪些部分。空Disallow行表示您不Disallow任何操作,因此從根本上講,它意味著爬蟲可以訪問您網(wǎng)站的所有部分。

下面的示例將阻止所有“監(jiān)聽”到的搜索引擎robots.txt抓取您的網(wǎng)站。

User-agent:*

Disallow:/

下面的示例僅需少一個(gè)字符,即可允許所有搜索引擎抓取您的整個(gè)網(wǎng)站。

User-agent:*

Disallow:

以下示例將阻止Google抓取Photo您網(wǎng)站上的目錄及其中的所有內(nèi)容。

User-agent:googlebot

Disallow:/Photo

這意味著該目錄的所有子目錄/Photo也不會(huì)被擴(kuò)展。由于這些行區(qū)分大小寫,因此不會(huì)阻止Google抓取/photo目錄。

同時(shí)含有/Photo的網(wǎng)址也同樣會(huì)被阻止訪問,比如/Photography/。

如何使用通配符/正則表達(dá)式

從規(guī)范化來說,robots.txt標(biāo)準(zhǔn)不支持正則表達(dá)式或通配符,但是,所有主要的搜索引擎都可以理解它。這意味著您可以使用以下行來阻止文件組:

Disallow:/*.php

Disallow:/copyrighted-images/*.jpg

在上面的示例中,*將擴(kuò)展為它匹配的任何文件名。請(qǐng)注意,該行的其余部分仍然區(qū)分大小寫,因此上面的第二行不會(huì)阻止/copyrighted-images/example.JPG被抓取。

某些搜索引擎(例如Google)允許使用更復(fù)雜的正則表達(dá)式,但是請(qǐng)注意,某些搜索引擎可能不理解此邏輯。它添加的最有用的功能是$,它指示URL的結(jié)尾。在以下示例中,您可以看到它的作用:

Disallow:/*.php$

這意味著/index.php無法索引,但/index.php?p=1可以。當(dāng)然,這僅在非常特定的情況下有用,并且非常危險(xiǎn),請(qǐng)謹(jǐn)慎使用。

非標(biāo)準(zhǔn)robots.txt搜尋指令

除了Disallow和User-agent指令外,您還可以使用其他幾個(gè)爬網(wǎng)指令。所有搜索引擎爬蟲程序都不支持這些指令,因此請(qǐng)確保您了解它們的局限性。

Allow指令

盡管不在最初的“規(guī)范”中,對(duì)于allow指令大多數(shù)搜索引擎都了解它,并且允許使用簡(jiǎn)單且可讀性強(qiáng)的指令,例如:

Disallow:/wp-admin/

Allow:/wp-admin/admin-ajax.php

在沒有allow指令的情況下獲得的結(jié)果就是阻止wp-admin文件夾中的每個(gè)文件的抓取。

Host指令

由Yandex(不受Google支持)支持,該指令可讓您決定是否要顯示搜索引擎example.com或www.example.com。只需像這樣指定就可以了:

Host:example.com

但是因?yàn)閮HYandex支持該host指令,所以我們不建議您依賴該指令,尤其是因?yàn)樗膊辉试S您定義協(xié)議(到底時(shí)http還是https)。一個(gè)更好的解決方案,為所有搜索引擎的工作原理是,可以采用301重定向?qū)⒉怀S糜蛎囟ㄏ虻匠S糜蛎?,比如我們?25youhua.com重定向到www.025youhua.com。

Crawl-delay指令

Yahoo!,Bing和Yandex都響應(yīng)crawl-delay指令,這會(huì)使抓取變慢。盡管這些搜索引擎在讀取指令方面的方式略有不同,但最終結(jié)果基本相同。

像下面這樣的一行將指示Yahoo! 和Bing會(huì)在抓取操作后等待10秒,而Yandex每10秒只會(huì)訪問您的網(wǎng)站一次。這是語(yǔ)義上的差異,但仍然很有趣。這是示例crawl-delay行:

Crawl-delay:10

使用crawl-delay指令時(shí)請(qǐng)務(wù)必小心。通過將抓取延遲設(shè)置為10秒,您僅允許這些搜索引擎每天訪問8,640頁(yè)。對(duì)于小型網(wǎng)站來說,這似乎足夠了,但是在大型網(wǎng)站上,它并不是很多。另一方面,如果您網(wǎng)站抓取頻繁,那么這是節(jié)省帶寬的好方法。

SitemapXML Sitemaps 的指令

使用sitemap指令,您可以告訴搜索引擎-特別是Bing,Yandex和Google在哪里可以找到XML網(wǎng)站地圖。當(dāng)然,您也可以使用各自的網(wǎng)站管理員工具解決方案將XML網(wǎng)站地圖提交給每個(gè)搜索引擎,我們強(qiáng)烈建議您這樣做,因?yàn)樗阉饕婢W(wǎng)站管理員工具程序會(huì)為您提供有關(guān)網(wǎng)站的許多有價(jià)值的信息。如果您不想這樣做,則在robots.txt中添加一條sitemap是一個(gè)不錯(cuò)的快速選擇。

驗(yàn)證您的robots.txt

有各種各樣的工具可以幫助您驗(yàn)證robots.txt。在進(jìn)行更改之前,請(qǐng)務(wù)必徹底測(cè)試您的更改!您將不會(huì)是第一個(gè)意外使用robots.txt來阻止搜索引擎抓取的人!

關(guān)鍵詞:

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉