時間:2022-07-18 16:24:02 | 來源:建站知識
時間:2022-07-18 16:24:02 來源:建站知識
1.robots.txt含義
Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。(百度百科copy來的)
通俗說:就是用一個文本來控制百度蜘蛛,谷歌機器人等搜索引擎,我們的網(wǎng)站哪些不要去抓取,哪些要去抓取,別瞎抓,要按章程來。
2.robot.txt寫作
robots涉及的名字有許多,以下也是copy百度的:
User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以”.htm”為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號 (?) 的網(wǎng)址
Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以”.htm”為后綴的URL。
Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片
Sitemap: 網(wǎng)站地圖 告訴爬蟲這個頁面是網(wǎng)站地圖
解析:Disallow 是不允許,allow是允許。許多新手開始會犯一個重大錯誤:直接allow不就得了,剩下就是不允許的,鴨子我就會告訴大家如果你們這樣寫就是大錯特錯了,robots協(xié)議是先生效不允許Disallow后才會有allow的出現(xiàn),也就是Disallow是先誕生,才會觸發(fā)allow命令的執(zhí)行(比如:先有雞蛋,才會有公雞)
3.robots寫作規(guī)范
關于寫robots協(xié)議大家不要盲目直接copy上方的,因為每個程序的文件由你自己本身網(wǎng)站所產(chǎn)生。
比如:你網(wǎng)站根目錄下自行創(chuàng)建了一個tbk文件夾,那么如果要屏蔽它怎么辦?
寫法:(因為如果是第一次寫,建議先創(chuàng)建一個本地命名一個robots.txt文本)
User-agent: *
Disallow: /tbk
注意:1.Disallow的開頭要大寫!allow也是要大寫!,特別注意,否則是不生效的
2.冒號和/ 之間要存在空格,/代表的是網(wǎng)站根目錄下,/tbk代表根目錄下的tbk文件夾
3.User-agent:*代表所有搜索引擎蜘蛛,一個robots只出現(xiàn)一次。
解析:這樣的寫法告訴搜索引擎:我的網(wǎng)站針對所有搜索引擎蜘蛛在訪問網(wǎng)站時,不允許抓取網(wǎng)站根目錄下tbk文件夾內(nèi)的所有文件。
總結(jié):以此類推,如果你想禁止你的網(wǎng)站某些文件爬取,就應該去好好涉及一番了。
本文屬淘寶客SEO博客首發(fā): 轉(zhuǎn)載請注明出處。
關鍵詞:規(guī)范,寫作,文件
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。