国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

15158846557 在線咨詢 在線咨詢
15158846557 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷資訊 > 網(wǎng)絡(luò)營(yíng)銷 > 分析五個(gè)robots實(shí)用案例 學(xué)習(xí)robots的語(yǔ)句使用方法

分析五個(gè)robots實(shí)用案例 學(xué)習(xí)robots的語(yǔ)句使用方法

時(shí)間:2022-05-13 04:24:01 | 來(lái)源:網(wǎng)絡(luò)營(yíng)銷

時(shí)間:2022-05-13 04:24:01 來(lái)源:網(wǎng)絡(luò)營(yíng)銷

網(wǎng)站robots.txt相信作為網(wǎng)站的一個(gè)必須文件,每一個(gè)站長(zhǎng)都接觸過(guò),robots文件控制蜘蛛的爬取,對(duì)文件的抓取具有很重要的意義,可以防止不想讓曝光的文件隱藏起來(lái),控制抓取的路徑,從而讓網(wǎng)站更加合適的出現(xiàn)在搜索引擎SERP界面中,那么,這篇文章就介紹一些robots的實(shí)用案例介紹robots的技巧和解釋一下robots語(yǔ)句的判別方法。

(1):allow和disallow的順序案例

筆者書寫一段robots文件的語(yǔ)句

User-agent: *

Allow: /

Disallow: /abcd/

相信從這樣一段中可以理解,肯定是想屏蔽/abcd/文件夾,不讓蜘蛛爬取這個(gè)文件夾中的網(wǎng)站文件;但是經(jīng)過(guò)分析卻發(fā)現(xiàn),這段語(yǔ)句和最終所造成的結(jié)果卻是大相徑庭的,蜘蛛任然會(huì)爬取/abcd/文件夾;原因就在于蜘蛛從這里的獲取的規(guī)則是從上而下獲取的,在下面所寫的規(guī)則不能打敗在上面所寫的規(guī)則,如果按照影響范圍來(lái)解釋上面的情況的話,那就是,因?yàn)橐呀?jīng)設(shè)置了Allow: /那么對(duì)蜘蛛的影響是全局性的,允許蜘蛛訪問(wèn)這個(gè)網(wǎng)站所有的文件,而在第三行中,Disallow: /abcd/,設(shè)置之后,就是在前一個(gè)影響范圍之中進(jìn)行的,本身abcd文件夾就是在網(wǎng)站目錄中,也收到了第二條的影響,所以,第三條是無(wú)效的,那么可以說(shuō)來(lái),這段robots.txt的寫法中,蜘蛛任然可以抓取/abcd/文件夾。

User-agent: *

Disallow: /abcd/

Allow: /

這個(gè)例子僅僅是將順序顛倒了一番,可是去可以讓蜘蛛訪問(wèn)/abcd/文件夾,如果你看懂了上一個(gè)例子的解釋的話,那么你肯定知道是為什么?筆者來(lái)說(shuō)下吧,這個(gè)例子中,由于Disallow: /abcd/在前面,那么由于限制的出現(xiàn),它所影響的文件夾是/abcd/文件夾,在第三行中Allow: /,影響的范圍本來(lái)是全局,但這條語(yǔ)句對(duì)蜘蛛的影響不能妨礙前一條語(yǔ)句,所以,蜘蛛本來(lái)想通過(guò)第三條語(yǔ)句訪問(wèn)全部的目錄的,但是第三條語(yǔ)句的權(quán)限打敗不了第二條語(yǔ)句,所以就只能放棄了,只能訪問(wèn)除了/abcd/之外的文件夾了。

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

在百度的robots官方說(shuō)明之中,有這樣一條介紹,主題是例7. 允許訪問(wèn)特定目錄中的部分url,允許蜘蛛訪問(wèn)特定目錄的部分URL,然后給了上述的語(yǔ)句,不知道大家看懂了嗎?說(shuō)明一下吧,在這段語(yǔ)句中,蜘蛛因?yàn)闄?quán)限的關(guān)系,可以通過(guò)第二,三,四行,訪問(wèn) /cgi-bin/see,/tmp/hi,/~joe/look,指定的文件,雖然在后面幾行中,加入了disallow,但是因?yàn)楹笠粭l權(quán)限無(wú)法約束前一條,所以對(duì)于蜘蛛來(lái)說(shuō),還是可以訪問(wèn)allow所指定的URL的。不知道可懂了?

(2):/斜杠的應(yīng)用案例

User-agent: *

Allow: /cgi-bin/

Disallow: /cgi-bin

上面是筆者隨意想到的,可以在這里解釋一下斜杠的使用,在上述的簡(jiǎn)答語(yǔ)句之中,第二行和第三行,一個(gè)有/,一個(gè)沒有,其中在allow語(yǔ)句之中,因?yàn)橛?存在,所以允許蜘蛛可以爬取文件夾cgi-bin下的網(wǎng)站文件,而不能控制蜘蛛是否爬取這個(gè)文件夾,也就是說(shuō)/控制文件夾下的文件,不控制文件夾本身,所以在第三行中,筆者通過(guò)disallow控制不讓蜘蛛爬行cgi-bin文件夾,但是不能控制第二條語(yǔ)句中的權(quán)限,僅僅可以控制蜘蛛爬取文件夾,所以最終,蜘蛛只能爬取cgi-bin文件夾的文件,不能爬取cgi-bin這個(gè)目錄。

User-agent: *

Disallow: regnew.asp (Disallow:/regnew.asp)

上面的語(yǔ)句中,筆者這樣寫,是因?yàn)橛泻芏嗯笥讯紩?huì)忽視/的存在,如果regnew.asp是注冊(cè)頁(yè)面的話,那么如果不放置/指定文件的所在地,蜘蛛可能就會(huì)找不到文件,引發(fā)錯(cuò)亂;記得以前筆者也設(shè)置不能訪問(wèn)的文件的時(shí)候,如果文件在根目錄下的時(shí)候,就直接放上Disallow: ***.asp就可以了,然后卻發(fā)現(xiàn)阻止不了蜘蛛,直到發(fā)現(xiàn)少了一個(gè)/之后,了解到原來(lái)缺少了一樣指明的記號(hào),那就是/,在我們平時(shí)設(shè)定文件的時(shí)候,請(qǐng)記得一定要加/,無(wú)論是其他目錄之下的文件還是根目錄。

我相信通過(guò)以上的案例對(duì)于robots的理解,看過(guò)的朋友對(duì)于robots文件肯定會(huì)有更加深刻的理解,好好觀察生活的案例,做好自己的站,及時(shí)收錄好網(wǎng)站站長(zhǎng),,轉(zhuǎn)載請(qǐng)保留鏈接,原創(chuàng)億企邦.

關(guān)鍵詞:使用,方法,語(yǔ)句

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉