時(shí)間:2022-08-10 16:09:01 | 來(lái)源:建站知識(shí)
時(shí)間:2022-08-10 16:09:01 來(lái)源:建站知識(shí)
不少新手在做網(wǎng)站優(yōu)化的時(shí)候,總是只盯著站內(nèi)優(yōu)化和外鏈,然而優(yōu)化的效果并不顯著,大家往往會(huì)忽略另一個(gè)十分重要的數(shù)據(jù)分析,那就是網(wǎng)站日志的分析。
網(wǎng)站日志的數(shù)據(jù)不同于統(tǒng)計(jì)數(shù)據(jù),統(tǒng)計(jì)數(shù)據(jù)可以看出每天網(wǎng)站的訪(fǎng)問(wèn)量、來(lái)源與訪(fǎng)問(wèn)時(shí)長(zhǎng)等相關(guān)數(shù)據(jù),這些數(shù)據(jù)的分析必不可少,但同樣網(wǎng)站日志里面的數(shù)據(jù)分析也必不可少。今天小編盛淇seo跟大家分享一下。
首先我們了解一下網(wǎng)站日志在那個(gè)地方可以找到,就以本站舉個(gè)例子,本站使用的是萬(wàn)網(wǎng)的服務(wù)器,網(wǎng)站日志的位置以及下載請(qǐng)看下圖:
其他空間服務(wù)商的網(wǎng)站日志存在位置的名稱(chēng)可能不同,不過(guò)幾乎都是大同小異,實(shí)在沒(méi)找到可以直接聯(lián)系空間商。
網(wǎng)站日志一般都以天為單位作為一個(gè)文件,如上圖下載的就是今天的日志,2016-7-22的日志,當(dāng)然因?yàn)榻裉爝€沒(méi)有過(guò)完,所以統(tǒng)計(jì)的數(shù)據(jù)只統(tǒng)計(jì)到小編點(diǎn)擊下載的那一刻,所以一般都分析昨天的網(wǎng)站日志。
查看網(wǎng)站日志的方法有很多,由于下載的是txt文件,直接打開(kāi)查看或者用Excel表格打開(kāi)也是可以的,但不建議這樣做,因?yàn)閿?shù)據(jù)太多,分析無(wú)從下手。
所以小編盛淇seo推薦大家常用的網(wǎng)站日志分析工具進(jìn)行分析,推薦的工具包括愛(ài)站工具包里面的日志分析工具以及金花站長(zhǎng)工具里面的日志分析工具,今天給大家介紹的就是金花站長(zhǎng)工具,因?yàn)樾【幱H測(cè)使用過(guò),認(rèn)為較好使用。
步驟
1.百度搜索金花站長(zhǎng)工具,然后下載安裝。
2.打開(kāi)金花站長(zhǎng)工具
3.選擇數(shù)據(jù)分析,接著點(diǎn)擊下面的網(wǎng)站日志分析
4.日志文件夾的默認(rèn)路徑是桌面,也就是說(shuō)你下載的日志如果是在桌面放在,直接點(diǎn)擊分析日志按鈕即可,如果不是那就點(diǎn)擊選擇文件。ps:按鈕選擇目錄是可以批量分析日志的,即同一個(gè)文件夾里面的所有日志。
5.打開(kāi)所要分析的日志之后,我們主要看三項(xiàng)數(shù)據(jù):百度蜘蛛來(lái)訪(fǎng)頁(yè)面和次數(shù)、404錯(cuò)誤頁(yè)和來(lái)訪(fǎng)IP、其他錯(cuò)誤及來(lái)訪(fǎng)IP
6.分析百度蜘蛛來(lái)訪(fǎng)數(shù)據(jù)分析(如下圖),一般蜘蛛都有真假之分,如果手動(dòng)一個(gè)個(gè)IP用nslookup命令去區(qū)分,工作量就有點(diǎn)大了,所以我們可以點(diǎn)擊刪除虛假的按鈕,把假蜘蛛全部去掉,留下的便是真正百度蜘蛛的來(lái)訪(fǎng)數(shù)據(jù)。
7.404錯(cuò)誤頁(yè)分析(如下圖),404頁(yè)面可以幫助我們輕易找出網(wǎng)站的死鏈接,同時(shí)還有一點(diǎn),就是找出對(duì)網(wǎng)站的惡意訪(fǎng)問(wèn)者,包括有人嘗試用各種路徑試圖登錄網(wǎng)站后臺(tái)或者進(jìn)行Sql注入,從而控制我們的網(wǎng)站,對(duì)于這樣的IP,小編二話(huà)不說(shuō)就會(huì)屏蔽該IP的訪(fǎng)問(wèn),如圖中的121.42.0.82這個(gè)IP,給我網(wǎng)站制造了大量的404頁(yè)面。
8.其他錯(cuò)誤分析(如下圖),在404頁(yè)面分析出的惡意IP如無(wú)意外就會(huì)第二天的其他錯(cuò)誤里面看到它,因?yàn)橐呀?jīng)禁止它們的惡意訪(fǎng)問(wèn),所以出現(xiàn)的是403狀態(tài)碼。
以上就是網(wǎng)站日志的分析以及工具的使用。
最后跟大家一起了解一下日志分析的我們所希望得出的結(jié)論:
1、重要的頻道(大量流量著陸頁(yè)面,高轉(zhuǎn)化率,用戶(hù)直接交易頁(yè)面等)有更多的爬蟲(chóng)來(lái)抓取;
2、在爬蟲(chóng)一定的抓取時(shí)間內(nèi),盡量少花精力放在一些無(wú)用的噪音頁(yè)面上(重復(fù)頁(yè)面,低質(zhì)量頁(yè)面,空內(nèi)容頁(yè)面,404頁(yè)面,不排名頁(yè)面,低轉(zhuǎn)化頁(yè)面等);
3、爬蟲(chóng)在抓取頁(yè)面的時(shí)候,盡量增加抓取的有效性,而不是重復(fù)抓取幾篇相同的頁(yè)面;
4、爬蟲(chóng)不會(huì)被繁雜的URL參數(shù)所擾,不會(huì)進(jìn)入無(wú)休止的爬蟲(chóng)陷阱中;
5、每個(gè)頁(yè)面的下載時(shí)間足夠的快,這樣,可以讓爬蟲(chóng)在時(shí)間一定的基礎(chǔ)上能夠更多的抓取頁(yè)面;
6、爬蟲(chóng)都能夠完整的抓到我們想讓他抓的頁(yè)面,不要抓到我們的隱私頁(yè)面;
7、日志中不要有太多的404,不要有無(wú)理由的跳轉(zhuǎn),不要有很多的500(服務(wù)器錯(cuò)誤),這樣的情況出現(xiàn);
8、那些更新頻繁但是價(jià)值很低的頁(yè)面不要吸引太多的爬蟲(chóng)精力;
9、我們所有的產(chǎn)品,所有的品類(lèi),所有一切有用的東西都要被爬蟲(chóng)完整爬到并且快速遍歷;
10、能用碰到真正的爬蟲(chóng),而不是一些模擬爬蟲(chóng)的機(jī)器人;
11、爬蟲(chóng)能夠完整的下載到我們的robots.txt;
12、爬蟲(chóng)可以根據(jù)我們?nèi)肟诘恼{(diào)整,robots.txt的限制引導(dǎo),JS的設(shè)計(jì)等按照我們的要求進(jìn)行爬取;
13、爬蟲(chóng)越多越好。。。對(duì)我們的興趣越大越好,當(dāng)然,一切是在我們自身信任度和重要度增加的基礎(chǔ)上。
本文由 盛淇seo 原創(chuàng) 歡迎轉(zhuǎn)載 轉(zhuǎn)載請(qǐng)標(biāo)明出處以及相關(guān)鏈接
原文鏈接:
關(guān)鍵詞:分析,工具,日志
客戶(hù)&案例
營(yíng)銷(xiāo)資訊
關(guān)于我們
客戶(hù)&案例
營(yíng)銷(xiāo)資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。