時間:2023-01-22 11:35:02 | 來源:電子商務
時間:2023-01-22 11:35:02 來源:電子商務
不少新手在做網站優(yōu)化的時候,總是只盯著站內優(yōu)化和外鏈,然而優(yōu)化的效果并不顯著,大家往往會忽略另一個十分重要的數據分析,那就是網站日志的分析。
網站日志的數據不同于統(tǒng)計數據,統(tǒng)計數據可以看出每天網站的訪問量、來源與訪問時長等相關數據,這些數據的分析必不可少,但同樣網站日志里面的數據分析也必不可少。今天小編盛淇seo跟大家分享一下。
首先我們了解一下網站日志在那個地方可以找到,就以本站舉個例子,本站使用的是萬網的服務器,網站日志的位置以及下載請看下圖:
其他空間服務商的網站日志存在位置的名稱可能不同,不過幾乎都是大同小異,實在沒找到可以直接聯(lián)系空間商。
網站日志一般都以天為單位作為一個文件,如上圖下載的就是今天的日志,2016-7-22的日志,當然因為今天還沒有過完,所以統(tǒng)計的數據只統(tǒng)計到小編點擊下載的那一刻,所以一般都分析昨天的網站日志。
查看網站日志的方法有很多,由于下載的是txt文件,直接打開查看或者用Excel表格打開也是可以的,但不建議這樣做,因為數據太多,分析無從下手。
所以小編盛淇seo推薦大家常用的網站日志分析工具進行分析,推薦的工具包括愛站工具包里面的日志分析工具以及金花站長工具里面的日志分析工具,今天給大家介紹的就是金花站長工具,因為小編親測使用過,認為較好使用。
步驟
1.百度搜索金花站長工具,然后下載安裝。
2.打開金花站長工具
3.選擇數據分析,接著點擊下面的網站日志分析
4.日志文件夾的默認路徑是桌面,也就是說你下載的日志如果是在桌面放在,直接點擊分析日志按鈕即可,如果不是那就點擊選擇文件。ps:按鈕選擇目錄是可以批量分析日志的,即同一個文件夾里面的所有日志。
5.打開所要分析的日志之后,我們主要看三項數據:百度蜘蛛來訪頁面和次數、404錯誤頁和來訪IP、其他錯誤及來訪IP
6.分析百度蜘蛛來訪數據分析(如下圖),一般蜘蛛都有真假之分,如果手動一個個IP用nslookup命令去區(qū)分,工作量就有點大了,所以我們可以點擊刪除虛假的按鈕,把假蜘蛛全部去掉,留下的便是真正百度蜘蛛的來訪數據。
7.404錯誤頁分析(如下圖),404頁面可以幫助我們輕易找出網站的死鏈接,同時還有一點,就是找出對網站的惡意訪問者,包括有人嘗試用各種路徑試圖登錄網站后臺或者進行Sql注入,從而控制我們的網站,對于這樣的IP,小編二話不說就會屏蔽該IP的訪問,如圖中的121.42.0.82這個IP,給我網站制造了大量的404頁面。
8.其他錯誤分析(如下圖),在404頁面分析出的惡意IP如無意外就會第二天的其他錯誤里面看到它,因為已經禁止它們的惡意訪問,所以出現(xiàn)的是403狀態(tài)碼。
以上就是網站日志的分析以及工具的使用。
最后跟大家一起了解一下日志分析的我們所希望得出的結論:
1、重要的頻道(大量流量著陸頁面,高轉化率,用戶直接交易頁面等)有更多的爬蟲來抓取;
2、在爬蟲一定的抓取時間內,盡量少花精力放在一些無用的噪音頁面上(重復頁面,低質量頁面,空內容頁面,404頁面,不排名頁面,低轉化頁面等);
3、爬蟲在抓取頁面的時候,盡量增加抓取的有效性,而不是重復抓取幾篇相同的頁面;
4、爬蟲不會被繁雜的URL參數所擾,不會進入無休止的爬蟲陷阱中;
5、每個頁面的下載時間足夠的快,這樣,可以讓爬蟲在時間一定的基礎上能夠更多的抓取頁面;
6、爬蟲都能夠完整的抓到我們想讓他抓的頁面,不要抓到我們的隱私頁面;
7、日志中不要有太多的404,不要有無理由的跳轉,不要有很多的500(服務器錯誤),這樣的情況出現(xiàn);
8、那些更新頻繁但是價值很低的頁面不要吸引太多的爬蟲精力;
9、我們所有的產品,所有的品類,所有一切有用的東西都要被爬蟲完整爬到并且快速遍歷;
10、能用碰到真正的爬蟲,而不是一些模擬爬蟲的機器人;
11、爬蟲能夠完整的下載到我們的robots.txt;
12、爬蟲可以根據我們入口的調整,robots.txt的限制引導,JS的設計等按照我們的要求進行爬取;
13、爬蟲越多越好。。。對我們的興趣越大越好,當然,一切是在我們自身信任度和重要度增加的基礎上。
本文由 盛淇seo 原創(chuàng) 歡迎轉載 轉載請標明出處以及相關鏈接
原文鏈接:
關鍵詞:分析,工具,日志