如何通過(guò)IIS日志分析網(wǎng)站的隱形信息
時(shí)間:2022-05-29 04:27:01 | 來(lái)源:網(wǎng)絡(luò)營(yíng)銷
時(shí)間:2022-05-29 04:27:01 來(lái)源:網(wǎng)絡(luò)營(yíng)銷
在網(wǎng)站的SEO優(yōu)化過(guò)程中,并不是說(shuō)所有的站點(diǎn)問題都可以直接從站長(zhǎng)工具上得到信息,在億企邦看來(lái),往往站長(zhǎng)工具上得到的信息都是在站點(diǎn)出現(xiàn)問題后才能察覺到。
作為一名SEOer,我們更需要學(xué)會(huì)如何查看網(wǎng)站的隱性信息,例如,這幾天做的外鏈效果怎樣?我們的內(nèi)容那些方面更加容易受到搜索引擎蜘蛛的喜愛?搜索引擎蜘蛛對(duì)于我們站點(diǎn)的爬行積極度如何?……,這些都是隱藏在站點(diǎn)內(nèi)部的一些關(guān)鍵信息。
雖說(shuō)這些信息通過(guò)站長(zhǎng)工具很難分析出來(lái)什么結(jié)果,可這些信息恰恰可以從我們的站點(diǎn)IIS日志上找到答案,那么,我們?cè)撊绾瓮ㄟ^(guò)IIS日志分析網(wǎng)站的隱形信息呢?
一、為何IIS日志在分析站點(diǎn)隱性信息中如此重要 1、通過(guò)IIS日記的記錄我們可以更加清楚的分析出搜索引擎蜘蛛在網(wǎng)站上的爬行信息,這些信息包含有蜘蛛的爬行路線以及爬行深度。
通過(guò)這一些數(shù)據(jù)信息,我們可以分析近期我們建設(shè)的外鏈效果如何?因?yàn)槲覀冎劳怄溇拖袷且龑?dǎo)蜘蛛爬行的蜘蛛絲,如果外鏈建設(shè)的好的話,蜘蛛爬行的自然而然頻繁,而且我們可以記錄下從哪一個(gè)“入口”進(jìn)入蜘蛛的頻率高。
2、網(wǎng)站的內(nèi)容更新與蜘蛛爬行存在一定的關(guān)系,一般只要我們更新穩(wěn)定頻繁,蜘蛛的就會(huì)爬行得更加的勤,對(duì)此,億企邦建議你可以借助日志中的蜘蛛來(lái)訪頻率對(duì)網(wǎng)站內(nèi)容的更新頻率做一個(gè)細(xì)調(diào)。
3、通過(guò)日志我們可以發(fā)現(xiàn)空間存在的一些故障,這些故障可能是一些站長(zhǎng)工具無(wú)法察覺到的。
比如曾經(jīng)很火的美橙空間因?yàn)榧夹g(shù)員誤操作robots文件導(dǎo)致空間屏蔽了百度了蜘蛛事件(正確寫法可參考一下億企邦的《robots協(xié)議文件的寫法及語(yǔ)法屬性解釋》相關(guān)介紹),假如站長(zhǎng)們事先分析一下分析一下空間日志,或許可以發(fā)現(xiàn)這一錯(cuò)誤。
二、如何獲得日志文件以及應(yīng)注意的事項(xiàng) 1、IIS日志,它是一個(gè)文件文件,擴(kuò)展名為.log,在默認(rèn)狀態(tài)下,服務(wù)器每天都會(huì)在這些目錄下創(chuàng)建日志文件,并用日期給日志文件命名(例如,exYYMMDD.log)。我們查看他的方法很簡(jiǎn)單,就是將其從FTP中下載下來(lái),然后放到桌面,用記事本文件就可以打開了。
2、要獲得該日志文件我們的空間需要有iis日志記錄的功能,假如我們的空間有這一功能的話,一般該日志文件會(huì)記錄在weblog或Logfiles文件夾中,有的也叫l(wèi)og文件夾中,我們可以直接從這一文件夾中下載我們站點(diǎn)的日志文件。
3、在使用這一功能時(shí)我們需要注意日志的生成時(shí)間設(shè)置,億企邦的建議是如果站點(diǎn)是一個(gè)小型的站點(diǎn)可以讓它一天生成一次,假如是比較大的站點(diǎn)我們可以讓其每小時(shí)更新,以免生成的文件出現(xiàn)過(guò)大的情況。
三、如何分析解讀蜘蛛行為 那找到并下載了IIS日志文件,這個(gè)時(shí)候我們?cè)撛趺床榭茨??有些朋友?huì)抱怨不知道怎么去查看,看不懂代碼,不知道如何去分析,事實(shí)上IIS的日志代碼分析很簡(jiǎn)單的,都是一些固定的東西,接下來(lái),億企邦就為你簡(jiǎn)單的介紹一下:
1、如何查看IIS日志文件? 我們可以記事本的方式打開我們站點(diǎn)的日志文件,使用記事本的搜索功能搜索百度和谷歌的蜘蛛,分別是BaiduSpider和Googlebot(更多的搜索引擎蜘蛛標(biāo)識(shí)可通過(guò)億企邦的《解讀IIS日志中搜索引擎蜘蛛名稱代碼及爬尋返回代碼》相關(guān)介紹來(lái)查詢)。
(1)、查看百度蜘蛛的記錄
(2)、查看谷歌蜘蛛的記錄
我們可以分段對(duì)這個(gè)IIS日志進(jìn)行分析:
2012-04-5 00:47:10 是在這一個(gè)事件點(diǎn)蜘蛛爬進(jìn)了我們的站點(diǎn)。
116.255.169.37 這個(gè)ip是指我們的站點(diǎn)。
GET緊跟其后的就是蜘蛛爬行的頁(yè)面,從這邊我們可以了解近期我們的什么頁(yè)面被爬行過(guò)。
200 0 0代表的是網(wǎng)頁(yè)正常的狀態(tài)碼,當(dāng)然還有其他不同數(shù)值的狀態(tài)碼,如500表示服務(wù)器超時(shí)等等。我們可以借由這些狀態(tài)碼來(lái)分析站點(diǎn)空間近來(lái)的表現(xiàn)情況。
220.187.51.144這一IP搜索引擎蜘蛛的ip地址,當(dāng)然這邊就可能會(huì)出現(xiàn)真假兩種地址。
2、如何識(shí)別這一個(gè)地址是真的蜘蛛還是偽裝的呢? 億企邦也為大家分享一個(gè)自己的小方法,我們可以打開命令窗口,在窗口中執(zhí)行nslookup+這一個(gè)所謂蜘蛛的地址。加入是貨真價(jià)實(shí)的蜘蛛,那么就會(huì)有自己的服務(wù)器,反之則是無(wú)法找到信息。
(1)、真蜘蛛
(2)、假蜘蛛
3、為什么IIS日志中會(huì)有偽造的蜘蛛呢? 原因就是有其他站點(diǎn)偽造成假蜘蛛來(lái)爬行抓取你的站點(diǎn)內(nèi)容,如果任由這些假蜘蛛橫行的話,會(huì)對(duì)站點(diǎn)的服務(wù)器消耗造成一定的影響(具體可查看億企邦的《抓取網(wǎng)站的搜索引擎蜘蛛是不是越多越好》相關(guān)介紹)。
對(duì)此,我們需要通過(guò)一些方法找到并屏蔽他們,當(dāng)然我們還需要細(xì)心處理,否則把真蜘蛛拒之門外就不好了!
最后,我們可以分析日志文件中蜘蛛最常光顧的幾個(gè)頁(yè)面,記錄下來(lái),并且找到為何會(huì)受到蜘蛛青睞的內(nèi)外部原因。
億企邦點(diǎn)評(píng): 作為SEO或站長(zhǎng),大多數(shù)人可能比較熟悉那些直觀的數(shù)據(jù),如:流量、收錄、反鏈等等的數(shù)據(jù)分析,對(duì)于日志文件的分析可能較為生疏。
但I(xiàn)IS日志對(duì)于網(wǎng)站優(yōu)化分析卻至關(guān)重要,查看網(wǎng)站IIS日志可讓我們知道網(wǎng)站的死鏈接,404,301,502等等,可讓我們知道網(wǎng)站那些鏈接是搜索引擎經(jīng)常爬取的?每天那些頁(yè)面是被搜索引擎爬取過(guò)?也可以用于分析網(wǎng)站為什么不收錄?或者網(wǎng)站快照為什么不更新?隱藏在站點(diǎn)內(nèi)部的一些關(guān)鍵信息。