日志文件分析:用于SEO的8種可行方法
時(shí)間:2024-04-19 14:30:01 | 來(lái)源:建站知識(shí)
時(shí)間:2024-04-19 14:30:01 來(lái)源:建站知識(shí)
在本篇文章中,我們將介紹什么是日志文件,它們?yōu)楹稳绱酥匾獙ふ业膬?nèi)容以及使用哪些工具。最后,我將提供8種可行的方法來(lái)分析SEO優(yōu)化。
什么是服務(wù)器日志文件? 服務(wù)器日志是由服務(wù)器自動(dòng)創(chuàng)建和維護(hù)的日志文件(或多個(gè)文件),由它執(zhí)行的活動(dòng)列表組成。
出于SEO的目的,我們關(guān)注一個(gè)Web服務(wù)器日志,其中包含來(lái)自人類(lèi)和機(jī)器人的網(wǎng)站頁(yè)面請(qǐng)求的歷史記錄。有時(shí)也稱(chēng)為訪問(wèn)日志,原始數(shù)據(jù)如下所示:
是的,起初數(shù)據(jù)看上去有點(diǎn)令人不知所措,令人困惑,所以讓我們分解一下,更仔細(xì)地看一下“命中”。
命中范例 每個(gè)服務(wù)器在記錄命中方面都有本質(zhì)上的不同,但是它們通常會(huì)提供類(lèi)似的信息,這些信息被組織成字段。
以下是對(duì)Apache Web服務(wù)器的示例命中(這是簡(jiǎn)化的-一些字段已被刪除):
50.56.92.47 – – [25 / 5 / 2020:12:21:17 +0100]“ GET” –“ /wp-content/themes/esp/help.php” –“ 404”“-”“ Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)” – www.example.com –
如您所見(jiàn),對(duì)于每次匹配,我們都會(huì)獲得關(guān)鍵信息,例如日期和時(shí)間,請(qǐng)求的URI的響應(yīng)代碼(在本例中為404)以及請(qǐng)求來(lái)自的用戶(hù)代理(在本例中為Googlebot) )。您可以想象,日志文件每天由成千上萬(wàn)的點(diǎn)擊數(shù)組成,每當(dāng)用戶(hù)或漫游器到達(dá)您的網(wǎng)站時(shí),就會(huì)為請(qǐng)求的每個(gè)頁(yè)面記錄許多點(diǎn)擊數(shù)-包括圖像,CSS和呈現(xiàn)該文件所需的任何其他文件。
為什么如此重要? 所以您知道什么是日志文件,但是為什么值得花時(shí)間分析它們?
好吧,事實(shí)是,只有一個(gè)真實(shí)的記錄可以說(shuō)明搜索引擎(例如Googlebot)如何處理您的網(wǎng)站。那就是通過(guò)查看網(wǎng)站的服務(wù)器日志文件。
站長(zhǎng)工具,第三方爬蟲(chóng)和搜索操作員不會(huì)全面了解搜索引擎如何與網(wǎng)站互動(dòng)。只有訪問(wèn)日志文件可以為我們提供此信息。
我們?nèi)绾螌⑷罩疚募治鲇糜赟EO? 日志文件分析為我們提供了大量有用的見(jiàn)解,包括使我們能夠:
- 準(zhǔn)確驗(yàn)證可以或不能爬取的內(nèi)容。
- 查看搜索引擎在其搜尋期間遇到的響應(yīng),例如302,404,軟404。
- 識(shí)別爬網(wǎng)缺陷,這些缺陷可能具有更廣泛的基于站點(diǎn)的含義(例如層次結(jié)構(gòu)或內(nèi)部鏈接結(jié)構(gòu))。
- 查看搜索引擎優(yōu)先考慮哪些頁(yè)面,并可能將其視為最重要的頁(yè)面。
- 發(fā)現(xiàn)搜尋預(yù)算浪費(fèi)的區(qū)域。
我將帶您完成在日志文件分析期間可以執(zhí)行的一些任務(wù),并向您展示它們?nèi)绾螢槟峁┛刹僮鞯木W(wǎng)站見(jiàn)解。
如何獲取日志文件? 對(duì)于這種類(lèi)型的分析,您需要來(lái)自您域的所有Web服務(wù)器的原始訪問(wèn)日志,而沒(méi)有應(yīng)用任何過(guò)濾或修改。理想情況下,您需要大量數(shù)據(jù)才能使分析有價(jià)值。值得多少天/周取決于站點(diǎn)的大小和權(quán)限以及所產(chǎn)生的流量。對(duì)于某些站點(diǎn),一周可能就足夠了,對(duì)于某些站點(diǎn),您可能需要一個(gè)月或更長(zhǎng)時(shí)間的數(shù)據(jù)。
您的Web開(kāi)發(fā)人員應(yīng)該能夠?yàn)槟l(fā)送這些文件。值得一問(wèn),在它們發(fā)送給您之前,日志是否包含來(lái)自多個(gè)域和協(xié)議的請(qǐng)求,以及這些請(qǐng)求是否包含在此日志中。因?yàn)榉駝t,將阻止您正確識(shí)別請(qǐng)求。您將無(wú)法分辨對(duì)http://www.example.com/和https://example.com/的請(qǐng)求之間的區(qū)別。在這種情況下,您應(yīng)該要求開(kāi)發(fā)人員更新日志配置,以在將來(lái)包含此信息。
我需要使用哪些工具? 如果您是Excel專(zhuān)家,那么本指南對(duì)于幫助您使用Excel格式化和分析日志文件非常有用。我們使用Screaming Frog日志文件分析器,其友好的用戶(hù)界面使您可以快速,輕松地發(fā)現(xiàn)任何問(wèn)題(盡管可以說(shuō),您獲得的深度或自由度與使用Excel所獲得的不一樣)。我將為您介紹的所有示例都是使用Screaming Frog日志文件分析器完成的。 其他一些工具是Splunk和GamutLogViewer。
分析SEO日志文件的9種方法 1.找出浪費(fèi)搜尋預(yù)算的地方 首先,什么是抓取預(yù)算?綜合爬網(wǎng)率和爬網(wǎng)需求,我們將爬網(wǎng)預(yù)算定義為搜索引擎蜘蛛或機(jī)器人可以并且想要爬網(wǎng)的URL數(shù)量。
本質(zhì)上,它是搜索引擎每次訪問(wèn)您的網(wǎng)站時(shí)將爬網(wǎng)的頁(yè)面數(shù),并關(guān)聯(lián)到域的權(quán)重,并與通過(guò)網(wǎng)站的鏈接資源成比例。
對(duì)于日志文件分析而言,至關(guān)重要的是,有時(shí)爬網(wǎng)預(yù)算可能會(huì)浪費(fèi)在無(wú)關(guān)的頁(yè)面上。如果您有新內(nèi)容要編制索引,但沒(méi)有預(yù)算,那么搜索引擎將不會(huì)為新內(nèi)容編制索引。這就是為什么要通過(guò)日志文件分析來(lái)監(jiān)視爬網(wǎng)預(yù)算的支出原因。
影響抓取預(yù)算的因素 有許多低附加值的URL會(huì)對(duì)網(wǎng)站的爬網(wǎng)和索引產(chǎn)生負(fù)面影響。低附加值URL可以屬于以下類(lèi)別:
- 分面導(dǎo)航,動(dòng)態(tài)URL生成和會(huì)話(huà)標(biāo)識(shí)符(電子商務(wù)網(wǎng)站常用)
- 現(xiàn)場(chǎng)重復(fù)內(nèi)容
- 被黑的頁(yè)面
- 軟錯(cuò)誤頁(yè)面
- 低質(zhì)量和垃圾內(nèi)容
浪費(fèi)諸如此類(lèi)頁(yè)面上的服務(wù)器資源會(huì)浪費(fèi)實(shí)際具有價(jià)值的頁(yè)面的爬網(wǎng)活動(dòng),這可能會(huì)導(dǎo)致在站點(diǎn)上發(fā)現(xiàn)良好內(nèi)容的時(shí)間大大延遲。
例如,查看這些日志文件,我們發(fā)現(xiàn)一個(gè)不正確的主題被非常頻繁地訪問(wèn),這個(gè)問(wèn)題很明顯!
在查看每個(gè)頁(yè)面獲得的事件數(shù)量時(shí),請(qǐng)問(wèn)自己搜索引擎是否應(yīng)該爬網(wǎng)這些URL –您通常會(huì)找到答案是否定的。因此,優(yōu)化您的抓取預(yù)算將有助于搜索引擎抓取您的網(wǎng)站上最重要的頁(yè)面并將其編入索引。您可以通過(guò)多種方式來(lái)執(zhí)行此操作,例如通過(guò)robots.txt文件阻止包含某些模式的URL,從而避免對(duì)URL進(jìn)行爬網(wǎng)。
2.您的重要頁(yè)面是否被完全檢索? 我們已經(jīng)介紹了為什么對(duì)搜索引擎來(lái)說(shuō)重要的是不要在低價(jià)值網(wǎng)頁(yè)上浪費(fèi)抓取預(yù)算。硬幣的另一面是檢查您對(duì)高價(jià)值網(wǎng)頁(yè)的重視程度。如果按事件數(shù)排序日志文件并按HTML過(guò)濾,則可以看到訪問(wèn)量最大的頁(yè)面。
如果說(shuō)最重要的URL應(yīng)該進(jìn)行最大程度的爬網(wǎng),可能有點(diǎn)過(guò)分簡(jiǎn)單了-但是,如果您是潛在客戶(hù)網(wǎng)站,則希望您的主頁(yè),關(guān)鍵服務(wù)頁(yè)面和文章內(nèi)容出現(xiàn)在其中。
作為電子商務(wù)網(wǎng)站,您希望您的主頁(yè),類(lèi)別頁(yè)面和關(guān)鍵產(chǎn)品頁(yè)面顯示在其中。如果您看到不再銷(xiāo)售的舊產(chǎn)品頁(yè)面并且這些結(jié)果中最重要的類(lèi)別頁(yè)面為零,則說(shuō)明存在問(wèn)題。
3.您所有的目標(biāo)搜索引擎機(jī)器人都正在訪問(wèn)您的頁(yè)面嗎? 堅(jiān)持使用日志分析工具,這很容易執(zhí)行。我們知道對(duì)外貿(mào)易中Google是主要的搜索引擎,因此確保Googlebot Smartphone和Googlebot定期訪問(wèn)您的網(wǎng)站是您的首要任務(wù)。
我們可以通過(guò)搜索引擎bot過(guò)濾日志文件數(shù)據(jù)。
過(guò)濾后,您可以查看每個(gè)所需的搜索引擎機(jī)器人正在記錄的事件數(shù)。希望您會(huì)看到Googlebot Smartphone或Googlebot最常訪問(wèn)您的網(wǎng)站。
4.發(fā)現(xiàn)錯(cuò)誤的狀態(tài)碼 使用Screaming Frog日志文件分析器,您可以快速發(fā)現(xiàn)錯(cuò)誤狀態(tài)碼,并且由于它們是按爬網(wǎng)頻率排序的,因此您還可以查看哪些是最可能要修復(fù)的URL。
要查看此數(shù)據(jù),您可以在“響應(yīng)代碼”標(biāo)簽下過(guò)濾此信息
查找具有3xx,4xx和5xx HTTP狀態(tài)的頁(yè)面
- 他們經(jīng)常去嗎?
- 訪問(wèn)3xx,4xx和5xx的頁(yè)面是否比您的重要頁(yè)面訪問(wèn)量還多?
- 響應(yīng)代碼有任何模式嗎?
在一個(gè)項(xiàng)目中,命中率最高的前15個(gè)頁(yè)面中有重定向,不正確的302(臨時(shí))重定向,頁(yè)面上沒(méi)有內(nèi)容的頁(yè)面以及一些404和軟404。
通過(guò)日志文件分析,一旦發(fā)現(xiàn)問(wèn)題,就可以通過(guò)更新不正確的重定向和軟404來(lái)開(kāi)始解決該問(wèn)題。
5.突出顯示不一致的響應(yīng)代碼 盡管分析搜索引擎將遇到的最后一個(gè)響應(yīng)代碼很重要,但突出顯示不一致的響應(yīng)代碼也可以使您獲得更深刻的見(jiàn)解。
如果您只看最后的響應(yīng)代碼,而沒(méi)有發(fā)現(xiàn)異常錯(cuò)誤或4xxs和5xxs中的任何尖峰,則可以在那里進(jìn)行技術(shù)檢查。但是,您可以在日志文件分析器中使用過(guò)濾器來(lái)僅詳細(xì)查看“不一致”的響應(yīng)。
原因很多,您的URL可能會(huì)遇到不一致的響應(yīng)代碼。例如:
- 5xx和2xx混合–當(dāng)它們承受?chē)?yán)重負(fù)載時(shí),這可能表示服務(wù)器出現(xiàn)問(wèn)題。
- 4xx和2xx混合–這可能指向已出現(xiàn)或已修復(fù)的斷開(kāi)鏈接
一旦掌握了日志文件分析中的這些信息,就可以創(chuàng)建行動(dòng)計(jì)劃來(lái)修復(fù)這些錯(cuò)誤。
6.審核大頁(yè)面或慢頁(yè)面 我們知道到第一個(gè)字節(jié)的時(shí)間(TTFB),到最后一個(gè)字節(jié)的時(shí)間(TTLB)以及到整個(gè)頁(yè)面加載的時(shí)間都會(huì)影響您的網(wǎng)站的爬網(wǎng)方式。尤其是TTFB,這是使您的網(wǎng)站快速有效地爬網(wǎng)的關(guān)鍵。頁(yè)面速度也是排名因素,我們可以看到快速網(wǎng)站對(duì)您的性能至關(guān)重要。
使用日志文件,我們可以快速查看您網(wǎng)站上最大的頁(yè)面,而最慢的頁(yè)面。
要查看最大的頁(yè)面,請(qǐng)對(duì)“平均字節(jié)數(shù)”列進(jìn)行排序。
在這里,我們可以看到PDF構(gòu)成了網(wǎng)站上最大的頁(yè)面。優(yōu)化它們并減小它們的大小是一個(gè)很好的起點(diǎn)。如果您看到此處顯示特定頁(yè)面,則可能需要單獨(dú)查看它們。
- 它們覆蓋有高分辨率圖像嗎?
- 他們有視頻自動(dòng)播放嗎?
- 它們是否有不必要的自定義字體?
- 是否啟用了文本壓縮?
盡管頁(yè)面的大小可以很好地指示頁(yè)面變慢,但這并不是全部。您可以有一個(gè)很大的頁(yè)面,但是它仍然可以快速加載。排序“平均響應(yīng)時(shí)間”列,您可以看到響應(yīng)時(shí)間最慢的網(wǎng)址。
與您在此處看到的所有數(shù)據(jù)一樣,您可以按HTML,JavaScript,圖像,CSS等進(jìn)行篩選,這對(duì)于審核非常有用。
也許您的目標(biāo)是減少網(wǎng)站對(duì)JavaScript的依賴(lài),并希望找出最大的罪魁禍?zhǔn)?。或者您知道CSS可以簡(jiǎn)化,并且需要數(shù)據(jù)來(lái)備份它。您的網(wǎng)站可能會(huì)以蝸牛的速度加載,并且按圖像進(jìn)行過(guò)濾向您表明,提供下一代格式應(yīng)該是優(yōu)先事項(xiàng)。
7.檢查內(nèi)部鏈接和爬網(wǎng)深度的重要性 該日志文件分析器的另一個(gè)重要功能是能夠?qū)刖W(wǎng)站的爬網(wǎng)。這確實(shí)很容易實(shí)現(xiàn),并為您提供了更多從日志文件中進(jìn)行分析的靈活性。只需將爬網(wǎng)拖放到如下所示的“導(dǎo)入的URL數(shù)據(jù)”中即可。
完成后,您可以進(jìn)行進(jìn)一步的分析。
確保在下拉菜單“與URL數(shù)據(jù)匹配”中進(jìn)行選擇,然后將相關(guān)列拖動(dòng)到視圖中。在這里,我們可以對(duì)爬網(wǎng)深度和鏈接對(duì)您網(wǎng)站的爬網(wǎng)頻率的影響進(jìn)行批量分析。
例如,如果您的“重要”頁(yè)面不經(jīng)常被抓取,并且發(fā)現(xiàn)它們的鏈接很少,并且抓取深度大于3,這很可能就是為什么您的頁(yè)面沒(méi)有被抓取太多的原因。相反,如果您有一個(gè)頁(yè)面被大量爬網(wǎng),并且不確定為什么,請(qǐng)查看頁(yè)面在您網(wǎng)站中的位置。鏈接在哪里?距根有多遠(yuǎn)?對(duì)此進(jìn)行分析可以向您表明搜索引擎喜歡您的網(wǎng)站結(jié)構(gòu)。最終,該技術(shù)可以幫助您確定層次結(jié)構(gòu)和站點(diǎn)結(jié)構(gòu)中的任何問(wèn)題。
8.發(fā)現(xiàn)孤立頁(yè)面 最后,通過(guò)導(dǎo)入爬網(wǎng)數(shù)據(jù),發(fā)現(xiàn)孤立頁(yè)面很容易。孤兒頁(yè)面可以定義為搜索引擎知道并且正在爬網(wǎng)但未在您的網(wǎng)站內(nèi)部進(jìn)行鏈接的頁(yè)面。
選擇下拉菜單“不在URL數(shù)據(jù)中”將顯示日志中存在的URL,而不是您的抓取數(shù)據(jù)中存在的URL 。因此,此處顯示的URL將是搜索引擎機(jī)器人仍然認(rèn)為具有價(jià)值的頁(yè)面,但不再出現(xiàn)在網(wǎng)站上。出現(xiàn)孤立URL的原因有很多,其中包括:
- 網(wǎng)站結(jié)構(gòu)變更
- 內(nèi)容更新
- 舊的重定向網(wǎng)址
- 內(nèi)部鏈接不正確
- 外部鏈接不正確
最終,您需要查看找到的孤立URL,并作出判斷來(lái)處理它們。
最后的想法 這就是我們對(duì)日志文件分析和8個(gè)可操作任務(wù)的簡(jiǎn)短介紹,您可以立即使用Screaming Frog日志文件分析器開(kāi)始。在Excel和上述其他工具(以及其他工具)中,您還可以做更多的工作。
您如何進(jìn)行日志文件分析?您認(rèn)為哪種工具最有效?我們的SEO團(tuán)隊(duì)很想知道,在下面發(fā)表評(píng)論吧!