時(shí)間:2022-07-05 14:57:01 | 來源:建站知識
時(shí)間:2022-07-05 14:57:01 來源:建站知識
最近看到我拉網(wǎng)(55.la)主頁上新增了一個(gè)在線制作robots的功能,用戶打開robots.55.la后,把不允許被搜索引擎訪問的部分輸入到Disallow: 后,點(diǎn)擊“生成robots.txt文件”,便能立即生成。這是一個(gè)實(shí)用快捷的站長工具。
也許很多站長對robots.txt已經(jīng)很熟悉了,但對于一些新人來說,它或許有些模糊,下面我就來說說有關(guān)robots的一些相關(guān)內(nèi)容。
1、什么是robots?它的作用?
搜索引擎通過一種程序robot(又稱spider),自動(dòng)訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。
可以在你的網(wǎng)站中創(chuàng)建一個(gè)純文本文件robots.txt,在這個(gè)文件中聲明該網(wǎng)站中不想被robot訪問的部分,這樣,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。其實(shí)也就是通過robots.txt可以控制SE收錄內(nèi)容,告訴蜘蛛哪些文件和目錄可以收錄,哪些不可以收錄。
2、為什么要設(shè)置robots.txt?
恰當(dāng)?shù)卦O(shè)置robots.txt,可以更好地維護(hù)Web 服務(wù)器,提高網(wǎng)站的綜合性能。
①相關(guān)研究表明,如果網(wǎng)站采用了自定義的404錯(cuò)誤頁面,那么Spider將會(huì)把其視作robots.txt——雖然其并非一個(gè)純粹的文本文件——這將給Spider索引網(wǎng)站帶來很大的困擾,影響搜索引擎對網(wǎng)站頁面的收錄。
②robots.txt可以制止不必要的搜索引擎占用服務(wù)器的寶貴帶寬,如image strippers,對于大多數(shù)非圖形類網(wǎng)站來說其也沒有太大意義,但卻耗用大量帶寬。
③robots.txt可以制止搜索引擎對非公開頁面的爬行與索引。
④對于內(nèi)容豐富、頁面數(shù)量較多的網(wǎng)站來說,配置robots.txt可以阻止洪水般的Spider訪問,如果不加控制,甚至?xí)绊懢W(wǎng)站的正常訪問。
從SEO的角度,robots.txt文件是一定要設(shè)置的,原因:
①網(wǎng)站上經(jīng)常存在這種情況:不同的鏈接指向相似的網(wǎng)頁內(nèi)容。這不符合SEO上講的“網(wǎng)頁內(nèi)容互異性原則”。采用robots.txt文件可以屏蔽掉次要的鏈接。
②網(wǎng)站改版或URL重寫優(yōu)化時(shí)原來不符合搜索引擎友好的鏈接需要全部屏蔽掉。采用robots.txt文件刪除舊的鏈接符合搜索引擎友好。
③一些沒有關(guān)鍵詞的頁面,屏蔽掉更好。
④一般情況下,站內(nèi)的搜索結(jié)果頁面屏蔽掉更好。
3、幾種情況需要注意:
①robots.txt應(yīng)用小寫的,它的文件要放在網(wǎng)站根目錄下。
舉個(gè)例子,當(dāng)robots訪問一個(gè)網(wǎng)站(比如)時(shí),搜索機(jī)器人(搜索蜘蛛)首先會(huì)檢查該網(wǎng)站中是否存在. 55.la /robots.txt這個(gè)文件,如果機(jī)器人找到這個(gè)文件,它就會(huì)根據(jù)這個(gè)文件的內(nèi)容,來確定它訪問權(quán)限的范圍。
②Disallow:
該項(xiàng)的值用于描述不希望被訪問到的一個(gè)URL,這個(gè)URL可以是一條完整的路徑,也可以是部分的,任何以Disallow開頭的URL均不會(huì)被robot訪問到。例如"Disallow:/help"對/help.html 和/help/index.html都不允許搜索引擎訪問,而"Disallow:/help/"則允許robot訪問/help.html,而不能訪問/help/index.html。
③任何一條Disallow記錄為空,說明該網(wǎng)站的所有部分都允許被訪問,在"/robots.txt"文件中,至少要有一條Disallow記錄。如果"/robots.txt"是一個(gè)空文件,那說明該網(wǎng)站是開放的,所有的內(nèi)容都可以被搜索機(jī)器人搜索到。
4、用幾個(gè)最常見的情況,直接舉例說明:
①允許所有SE收錄本站:robots.txt為空就可以,什么都不要寫。
②禁止所有SE收錄網(wǎng)站的某些目錄:
User-agent: *
Disallow: /目錄名1/
Disallow: /目錄名2/
Disallow: /目錄名3/
③禁止某個(gè)SE收錄本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
④禁止所有SE收錄本站:
User-agent: *
Disallow: /
⑤加入sitemap.xml路徑,例如:
Sitemap:
關(guān)鍵詞:
客戶&案例
營銷資訊
關(guān)于我們
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。