十、更為詳細(xì) 網(wǎng)站日志分析
時(shí)間:2022-02-22 16:32:02 | 來源:網(wǎng)絡(luò)推廣
時(shí)間:2022-02-22 16:32:02 來源:網(wǎng)絡(luò)推廣
一般的網(wǎng)站統(tǒng)計(jì)僅適合初級(jí)應(yīng)用,如果站點(diǎn)有自己獨(dú)立的服務(wù)器,或者購買的虛擬主機(jī)支持下載服務(wù)器日志文件的功能,則可以使用專業(yè)的Web日志分析軟件來進(jìn)行網(wǎng)站的數(shù)據(jù)分析。這樣一來就可以對(duì)網(wǎng)站數(shù)據(jù)進(jìn)行更為詳細(xì)的統(tǒng)計(jì)、完成SEO項(xiàng)目的實(shí)施,以及對(duì)網(wǎng)站安全的檢測(cè)工作。并且我們還可以通過網(wǎng)站日志的記錄,來了解站點(diǎn)資源是否被盜鏈,以及被入侵后的IP定位等措施。
Tips:什么是網(wǎng)站日志?
大多數(shù)Web服務(wù)器軟件,如Windows默認(rèn)的IIS(Internet Information Server英特網(wǎng)信息服務(wù))以及Apache等,它們都具備了生成網(wǎng)站運(yùn)行和訪問日志的功能,便于對(duì)網(wǎng)站運(yùn)行的各項(xiàng)參數(shù)進(jìn)行查詢。一般來說使用Windows系統(tǒng)的服務(wù)器大都使用自帶的IIS軟件,其生成的運(yùn)行信息就是IIS網(wǎng)站日志,網(wǎng)站日志通常是以.log為后綴的文本文件,默認(rèn)存放在服務(wù)器的%systemroot%/system32/logfiles/文件夾內(nèi)。
IIS服務(wù)的訪問日志,記錄了服務(wù)器運(yùn)行的各項(xiàng)信息??梢杂糜诮y(tǒng)計(jì)網(wǎng)站的訪問狀況等情況。另外還可以根據(jù)日志文件,查詢到搜索引擎蜘蛛的爬行情況,以便于對(duì)網(wǎng)站的搜索引擎優(yōu)化項(xiàng)目進(jìn)行更詳細(xì)的分析。一般網(wǎng)站日志文件可以記錄網(wǎng)站訪問客戶的IP地址、用戶名、服務(wù)器端口、方法、URI資源、URI查詢、協(xié)議狀態(tài)等多項(xiàng)參數(shù)。
Apache軟件產(chǎn)生的日志文件主要包括訪問日志和錯(cuò)誤日志。與IIS的日志類似,訪問日志記錄了該服務(wù)器所有的請(qǐng)求的過程,主要記錄的是客戶的各項(xiàng)信息,如訪問時(shí)間、內(nèi)容、地址等。錯(cuò)誤日志則記錄服務(wù)器出錯(cuò)的細(xì)節(jié)等數(shù)據(jù)。日志文件的位置是由主配置文件httpd.conf來設(shè)置。
1.如何啟用日志記錄功能
由于Windows服務(wù)器系統(tǒng)默認(rèn)的IIS(Internet信息服務(wù))在國內(nèi)應(yīng)用較為廣泛,這里我們就以該系統(tǒng)為例進(jìn)行說明。
第一步:打開Internet 信息服務(wù)(IIS)管理器,并展開網(wǎng)站列表,在需要進(jìn)行日志記錄的網(wǎng)站上選擇右鍵打開屬性欄,勾選啟用日志記錄復(fù)選框,而后設(shè)置日志記錄的格式,有四種類型可供選擇,分別是:IIS日志文件格式、NCSA公用日志文件格式、ODBC日志記錄以及默認(rèn)的W3C擴(kuò)展日志格式文件格式。
圖8、圖9 啟用服務(wù)器的日志記錄
第二步:選定一種日志格式后,單擊右側(cè)的屬性按鈕,對(duì)日志記錄進(jìn)行詳細(xì)的設(shè)置,分別為日志產(chǎn)生的時(shí)間和方式,以及日志文件存放的目錄。如果網(wǎng)站流量較大,則可以設(shè)置以文件大小建立新日志的選項(xiàng),設(shè)置方式一般按照日志文件的大小進(jìn)行設(shè)置。
小提示:
由于日志文件默認(rèn)存放在C盤,既容易造成系統(tǒng)盤的可用容量減少,又同時(shí)造成了安全隱患,所以建議將文件存放在其它盤符中。
第三步:如果默認(rèn)的存放目錄已經(jīng)有日志記錄生成,則需要手動(dòng)將其移到新文件夾中。在日志記錄屬性中,還能夠設(shè)置高級(jí)的日志擴(kuò)展選項(xiàng),在這里可以按照自己的需求進(jìn)行設(shè)置,如對(duì)一些不需要記錄的網(wǎng)站信息進(jìn)行關(guān)閉,從而有效的降低日志文件的大小。
圖10 服務(wù)器日志高級(jí)設(shè)置
小提示:
為了保證日志文件的安全,以及避免默認(rèn)存放的C盤被大容量的日志文件占滿,可以將存放日志的文件夾進(jìn)行修改。
2.基礎(chǔ)應(yīng)用 日志分析獲知網(wǎng)站數(shù)據(jù)
雖然我們可以使用記事本或其它文字編輯軟件打開Web日志,但是對(duì)于一個(gè)訪問量稍大的站點(diǎn)來說,所產(chǎn)生的日志文件就已經(jīng)足夠巨大,動(dòng)輒就上百M(fèi)B大小,即使在系統(tǒng)短暫的假死之后打開了日志文件,人工也無法從成千上萬條數(shù)據(jù)中進(jìn)行分析。
這里就需要借助專門的日志分析軟件進(jìn)行分析,我們以一款Nihuo Web Log Analyzer(逆火網(wǎng)站日志分析器)進(jìn)行說明,其它分析程序還有webtrends、Awstats等,可以根據(jù)自己的需求選擇使用。
(1)使用Web日志分析軟件
第一步:下載安裝軟件。要進(jìn)行網(wǎng)站日志的分析,需要首先下載軟件,這里推薦這款綠色免安裝版,軟件大小為51.15MB,下載后直接解壓縮即可使用。(軟件地址:軟件/Nihuo Web Log Analyzer.rar)
小提示:
軟件可以直接下載到服務(wù)器中使用,如果在其它電腦上運(yùn)行,則可以將Web日志文件下載到本地硬盤,或者使用FTP方式進(jìn)行文件的獲取。
圖11 逆火網(wǎng)站日志分析器
第二步:添加待檢網(wǎng)站。打開文件夾Nihuo Web Log Analyzer下的nwla.exe文件,要開始日志文件的分析,需要添加一個(gè)網(wǎng)站。依次單擊NewNew Project按鈕,在彈出的對(duì)話框中按照提示進(jìn)行選擇,而后依次進(jìn)入下一步,輸入諸如網(wǎng)站地址、首頁文件名稱等參數(shù)。在最后的步驟中可以選擇Web日志文件的類型,以及位置等(圖)。
第三步:檢測(cè)生成報(bào)告。網(wǎng)站添加完成后,單擊右鍵選擇Analyze,軟件就自動(dòng)開始進(jìn)行日志文件的分析,如果日志文件比較大,則需要等待較長(zhǎng)的時(shí)間。分析的進(jìn)度會(huì)以進(jìn)度條顯示百分比。完成后,軟件將生成一個(gè)HTML格式的報(bào)告文檔。
(2)網(wǎng)站統(tǒng)計(jì)圖表
軟件生成的統(tǒng)計(jì)文檔比較詳細(xì),并且有統(tǒng)計(jì)圖表可以直觀的獲知各項(xiàng)數(shù)據(jù)。還能夠根據(jù)自己的需求生成80種以上的統(tǒng)計(jì)圖表,圖表包括了多種形式,如三維統(tǒng)計(jì)圖和曲線圖等。
圖12 軟件生成的統(tǒng)計(jì)圖
訪問資源列表種可以查看多項(xiàng)數(shù)據(jù),如某段時(shí)間內(nèi)共有多少人訪問了網(wǎng)站,以及訪問的總瀏覽量。它們的來源以及所瀏覽的頁面也可以方便地統(tǒng)計(jì)出來。
(3)服務(wù)器日志分析
對(duì)網(wǎng)站進(jìn)行深層次的分析,可以有效的對(duì)網(wǎng)站目前的各項(xiàng)情況進(jìn)行評(píng)估,從而對(duì)網(wǎng)站的發(fā)展進(jìn)行詳細(xì)的策劃。
軟件支持自動(dòng)日志分析的功能,并可以自定義運(yùn)行計(jì)劃,可使得軟件在服務(wù)器上自動(dòng)運(yùn)行。還支持 Apache 和 IIS W3C Extend等多種日志格式,以及GZ、BZ、ZIP 等格式的壓縮日志文件。
3.搜索引擎優(yōu)化 查看蜘蛛的腳印
小知識(shí):
搜索引擎的機(jī)器人程序就被稱為蜘蛛程序,是指不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索信息的機(jī)器人程序像蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,故俗稱為網(wǎng)絡(luò)蜘蛛(Web Spider)。 只有被蜘蛛抓取到的網(wǎng)頁才會(huì)保存到搜索引擎的服務(wù)器上,從而在搜索結(jié)果中顯示。
在統(tǒng)計(jì)圖表里有一項(xiàng)網(wǎng)絡(luò)蜘蛛的列表,可以顯示出搜索引擎機(jī)器人的爬行文件和時(shí)間等各項(xiàng)參數(shù),以此我們可以方便的分析網(wǎng)站對(duì)搜索引擎的友好度。
要查看報(bào)告,可以依次打開瀏覽器和平臺(tái)網(wǎng)絡(luò)蜘蛛列表,可以分別看到柱狀圖圖表、詳細(xì)數(shù)據(jù)列表以及蜘蛛IP排行等多項(xiàng)詳細(xì)參。
圖13 搜索引擎蜘蛛爬行數(shù)據(jù)表
4.分析日志 保衛(wèi)站點(diǎn)安全
網(wǎng)站日志不僅能起到統(tǒng)計(jì)基本數(shù)據(jù)的效果,對(duì)于網(wǎng)站安全來說,也可以起到一定作用。如最常見的站內(nèi)資源被其它網(wǎng)站引用,如果外部調(diào)用的圖片或者文件流量過多,則會(huì)對(duì)服務(wù)器的正常服務(wù)造成影響。
(1)資源被盜?一查即知
在軟件生成的統(tǒng)計(jì)報(bào)告中有一項(xiàng)訪問資源的列表項(xiàng),其中的盜鏈文件列表清楚的列出了服務(wù)器中被其它站點(diǎn)引用的文件。并且可以清楚的獲知該文件的點(diǎn)擊以及訪問量和總共占用的網(wǎng)絡(luò)帶寬等數(shù)據(jù)。
圖14 資源被盜用列表
(2)反查入侵 雁過留痕
因?yàn)閃eb日志記錄了網(wǎng)站運(yùn)行中的所有數(shù)據(jù),如果發(fā)現(xiàn)網(wǎng)站被惡意入侵,就可以通過日志記錄來進(jìn)行分析。分析日志要有足夠的細(xì)心,對(duì)于大容量的數(shù)據(jù)則需要首先去掉不相關(guān)的記錄再進(jìn)行查看,這里舉個(gè)簡(jiǎn)單例子:
#Software: Microsoft Internet Information Services 5.0
#Version: 1.0
#Date: 20081218 03:091
#Fields: date time cip csusername sip sport csmethod csuristem csuriquery scstatus cs(UserAgent)
20081218 03:091 192.168.1.66 192.168.1.88 80 GET /test.asp 200 Mozilla/4.0 (compatible/; MSIE 5.0/; Windows 98/; DigExt)
20081218 03:094 192.168.1.66 192.168.1.88 80 GET /testerror.gif 200 Mozilla/4.0 (compatible/; MSIE 5.0/; Windows 98/; DigExt)
通過這段IIS日志記錄,可以看出2008年12月18日,IP地址為192.168.1.66的用戶通過訪問IP地址為192.168.1.88機(jī)器的80端口,查看了一個(gè)頁面test.asp,這位用戶的瀏覽器為compatible/; MSIE 5.0/; Windows 98 DigExt,有經(jīng)驗(yàn)的管理員還能夠通過和服務(wù)器安全日志、FTP上傳運(yùn)行日志等多項(xiàng)數(shù)據(jù),來確定入侵者的IP地址以及入侵時(shí)間。