国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 建站知識 > robots.txt文件 淘寶客網(wǎng)站該如何規(guī)范寫作?

robots.txt文件 淘寶客網(wǎng)站該如何規(guī)范寫作?

時間:2022-07-18 16:24:02 | 來源:建站知識

時間:2022-07-18 16:24:02 來源:建站知識

1.robots.txt含義

Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。(百度百科copy來的)

通俗說:就是用一個文本來控制百度蜘蛛,谷歌機器人等搜索引擎,我們的網(wǎng)站哪些不要去抓取,哪些要去抓取,別瞎抓,要按章程來。

2.robot.txt寫作

robots涉及的名字有許多,以下也是copy百度的:

User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符

Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄

Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄

Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄

Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以”.htm”為后綴的URL(包含子目錄)。

Disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號 (?) 的網(wǎng)址

Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片

Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。

Allow: /cgi-bin/這里定義是允許爬尋cgi-bin目錄下面的目錄

Allow: /tmp 這里定義是允許爬尋tmp的整個目錄

Allow: .htm$ 僅允許訪問以”.htm”為后綴的URL。

Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片

Sitemap: 網(wǎng)站地圖 告訴爬蟲這個頁面是網(wǎng)站地圖

解析:Disallow 是不允許,allow是允許。許多新手開始會犯一個重大錯誤:直接allow不就得了,剩下就是不允許的,鴨子我就會告訴大家如果你們這樣寫就是大錯特錯了,robots協(xié)議是先生效不允許Disallow后才會有allow的出現(xiàn),也就是Disallow是先誕生,才會觸發(fā)allow命令的執(zhí)行(比如:先有雞蛋,才會有公雞)

3.robots寫作規(guī)范

關于寫robots協(xié)議大家不要盲目直接copy上方的,因為每個程序的文件由你自己本身網(wǎng)站所產(chǎn)生。

比如:你網(wǎng)站根目錄下自行創(chuàng)建了一個tbk文件夾,那么如果要屏蔽它怎么辦?

寫法:(因為如果是第一次寫,建議先創(chuàng)建一個本地命名一個robots.txt文本)

User-agent: *

Disallow: /tbk

注意:1.Disallow的開頭要大寫!allow也是要大寫!,特別注意,否則是不生效的

2.冒號和/ 之間要存在空格,/代表的是網(wǎng)站根目錄下,/tbk代表根目錄下的tbk文件夾

3.User-agent:*代表所有搜索引擎蜘蛛,一個robots只出現(xiàn)一次。

解析:這樣的寫法告訴搜索引擎:我的網(wǎng)站針對所有搜索引擎蜘蛛在訪問網(wǎng)站時,不允許抓取網(wǎng)站根目錄下tbk文件夾內(nèi)的所有文件。

總結(jié):以此類推,如果你想禁止你的網(wǎng)站某些文件爬取,就應該去好好涉及一番了。

本文屬淘寶客SEO博客首發(fā): 轉(zhuǎn)載請注明出處。

關鍵詞:規(guī)范,寫作,文件

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關閉