時間:2023-03-07 13:06:02 | 來源:電子商務
時間:2023-03-07 13:06:02 來源:電子商務
Robots.txt 帶來的好處:
1. 幾乎所有的搜索引擎 Spider 都遵循 robots.txt 給出的爬行規(guī)則,協(xié)議規(guī)定搜索引擎 Spider 進
入某個網(wǎng)站的入口即是該網(wǎng)站的 robots.txt,當然,前提是該網(wǎng)站存在此文件。對于沒有配置robots.txt 的網(wǎng)站,Spider 將會被重定向至 404 錯誤頁面,相關研究表明,如果網(wǎng)站采用了自定義的 404 錯誤頁面,那么 Spider 將會把其視作 robots.txt——雖然其并非一個純粹的文本文件——這將給 Spider 索引網(wǎng)站帶來很大的困擾,影響搜索引擎對網(wǎng)站頁面的收錄。
2. robots.txt 可以制止不必要的搜索引擎占用服務器的寶貴帶寬,如 email retrievers,這類搜索
引擎對大多數(shù)網(wǎng)站是沒有意義的;再如 image strippers,對于大多數(shù)非圖形類網(wǎng)站來說其也沒有太大意義,但卻耗用大量帶寬。
3. robots.txt 可以制止搜索引擎對非公開頁面的爬行與索引,如網(wǎng)站的后臺程序、管理程序,事實上,對于某些在運行中產(chǎn)生臨時頁面的網(wǎng)站來說,如果未配置 robots.txt,搜索引擎甚至會索引那些臨時文件。
4. 對于內(nèi)容豐富、存在很多頁面的網(wǎng)站來說,配置 robots.txt 的意義更為重大,因為很多時候
其會遭遇到搜索引擎 Spider 給予網(wǎng)站的巨大壓力:洪水般的 Spider 訪問,如果不加控制,甚至會影響網(wǎng)站的正常訪問。
5. 同樣地,如果網(wǎng)站內(nèi)存在重復內(nèi)容,使用 robots.txt 限制部分頁面不被搜索引擎索引和收錄,可以避免網(wǎng)站受到搜索引擎關于 duplicate content 的懲罰,保證網(wǎng)站的排名不受影響。
robots.txt 帶來的風險及解決:
1. 凡事有利必有弊,robots.txt 同時也帶來了一定的風險:其也給攻擊者指明了網(wǎng)站的目錄結構和私密數(shù)據(jù)所在的位置。雖然在 Web 服務器的安全措施配置得當?shù)那疤嵯逻@不是一個嚴重
的問題,但畢竟降低了那些不懷好意者的攻擊難度。
比如說,如果網(wǎng)站中的私密數(shù)據(jù)通過 訪問,那么,在 robots.txt 的設置可能如下:
User-agent: *
Disallow: /SEO/
這樣,攻擊者只需看一下 robots.txt 即可知你要隱藏的內(nèi)容在哪里,在瀏覽器中輸入
便可訪問我們不欲公開的內(nèi)容。對這種情況,一般采取如下的辦法:
設置訪問權限,對/private/中的內(nèi)容實施密碼保護,這樣,攻擊者便無從進入。
另一種辦法是將缺省的目錄主文件 index.html 更名為其他,比如說 abc-protect.html,這樣,該內(nèi)容的地址即變成 ,同時,制作一個新的index.html 文件,內(nèi)容大致為"你沒有權限訪問此頁"之類,這樣,攻擊者因不知實際的文件名而無法訪問私密內(nèi)容。
2. 如果設置不對,將導致搜索引擎將索引的數(shù)據(jù)全部刪除。
User-agent: *
Disallow: /
上述代碼將禁止所有的搜索引擎索引數(shù)據(jù)。
文章出處:
關鍵詞:壞處
微信公眾號
版權所有? 億企邦 1997-2025 保留一切法律許可權利。