国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷資訊 > 建站知識(shí) > 自學(xué)SEO教程:網(wǎng)站日志文件分析搜索蜘蛛爬行記錄

自學(xué)SEO教程:網(wǎng)站日志文件分析搜索蜘蛛爬行記錄

時(shí)間:2022-08-09 10:36:01 | 來(lái)源:建站知識(shí)

時(shí)間:2022-08-09 10:36:01 來(lái)源:建站知識(shí)

一、網(wǎng)站日志文件在哪里?

【簡(jiǎn)單說(shuō)下網(wǎng)站虛擬主機(jī)FTP幾個(gè)文件夾說(shuō)明】

虛擬主機(jī)開通成功之后,會(huì)在您的FTP里面自動(dòng)生成4個(gè)文件夾,分別是:"databases","logofiles","others","wwwroot",他們作用如下:

1、wwwroot文件夾:該文件夾內(nèi)存放可以通過(guò)web訪問(wèn)的文件,您需要將您對(duì)外發(fā)布的網(wǎng)站文件上傳到該目錄下,輸入域名訪問(wèn)到的文件將是該文件夾下的文件。

2、databases文件夾:該文件夾同logofiles、others文件夾一樣,屬于不可通過(guò)web訪問(wèn)的文件夾,即用戶無(wú)法通過(guò)輸入網(wǎng)址來(lái)訪問(wèn)這些文件夾下的文件,您可以在這些文件夾下上傳一些不希望別人能夠訪問(wèn)的文件。比如您可以將access數(shù)據(jù)庫(kù)存放在databases文件夾下,這樣可以最大化的保證您的數(shù)據(jù)庫(kù)安全。

3、logofiles文件夾:logofiles文件夾是日志文件,該文件夾存放您的網(wǎng)站日志文件。通過(guò)日志文件您可以查詢到網(wǎng)站的一些訪問(wèn)記錄。(由于各個(gè)空間商的不同,本文件夾的命名也有少許差別有都命為:logofiles或者WEBLOG反正一般都會(huì)帶上LOG這一個(gè)字母)

4、others文件夾:該站點(diǎn)存放您自定義的IIS錯(cuò)誤文件。IIS默認(rèn)的一些錯(cuò)誤提示,比如404錯(cuò)誤,403錯(cuò)誤,500錯(cuò)誤等等,如果您覺(jué)得這些錯(cuò)誤提示不夠個(gè)性化,您可以將您自定義的錯(cuò)誤提示上傳到該目錄下。

二、怎樣分析網(wǎng)站日志文件 分析舉例說(shuō)明

下面已IBM筆記本電腦論壇最近8月份的日志文件為例說(shuō)明一下,空間日志代碼如下:

2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET /nb/html/30/t-12730.html - 80 - 220.181.7.24 Baiduspider+(+) 200 0 0 20006

1、首先以百度為例,分析說(shuō)明:

訪問(wèn)時(shí)間:2009-08-23 16:06:03

百度蜘蛛的IP:58.61.160.170

蜘蛛爬這的網(wǎng)址: /nb/html/30/t-12730.html

合來(lái)起所表達(dá)的意思很明顯:IP為58.61.160.170的百度蜘蛛在2009-08-23 16:06:03點(diǎn)43分對(duì)此網(wǎng)站上的/nb/html/30/t-12730.html 網(wǎng)頁(yè)進(jìn)行收錄或更新了。

【補(bǔ)充說(shuō)明】

2009-08-23 16:06:03是百度蜘蛛來(lái)訪的日期及時(shí)間;

158.61.160.170 是百度蜘蛛的IP

“GET 是服務(wù)器的動(dòng)作,不是GET就是POSP;GET是從服務(wù)器上獲取內(nèi)容;/nb/html/30/t-12730.html 使用HTML1.1協(xié)議獲取相關(guān)內(nèi)容200 是返回狀態(tài)碼,200是成功獲取;404是文件沒(méi)找到;401是需要密碼,403禁止查看,500服務(wù)器錯(cuò)誤。很明顯此例子中最后返回是200,為成功獲取!

“+(+)″表示來(lái)路

當(dāng)然,還有部分空間日志會(huì)有這樣一些代碼,他們表示意思如下:

“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)” 表示的是用戶所使用的電腦是與Netscape兼容的Mozilla瀏覽器,Windows NT操作系統(tǒng),瀏覽器是IE6.0,裝有Alexa Toolbar。

2、接下來(lái)說(shuō)說(shuō)googlebot,我盼googlebot已經(jīng)好久了,這幾天它終于來(lái)了,然后我在www.google.com上輸入site:seo.9ilp.com,果然看到了收錄文件的更新。

2009-08-23 00:07:20 66.249.65.116 - 218.85.132.68 80 GET /html/down/20070129/550.html - 200 Mozilla/5.0+(compatible;+Googlebot/2.1;++)

218.85.132.68查此IP直接給了結(jié)果“美國(guó) GoogleBot 搜尋引擎機(jī)器人”,呵呵,goolgebot真出名,也很規(guī)范。

3、Yahoo也要說(shuō)說(shuō)的:

2009-08-23 00:04:45 202.160.178.195 - 218.85.132.68 80 GET /html/ad/20070131/658.html - 200 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+)

查IP得知是雅虎中國(guó),Yahoo!+Slurp+China是雅虎蜘蛛名,以前是Inktomi Slurp;想查詢網(wǎng)站在yahoo的收錄情況與google和百度不同的是,你直接在www.yahoo.com.cn上輸入網(wǎng)址即可。不用加前綴site:,還有一點(diǎn),覺(jué)得這幾個(gè)月的雅虎中國(guó)在技術(shù)上有改進(jìn),在網(wǎng)站收錄和關(guān)鍵詞搜索上,大家可以自己去體會(huì)。

說(shuō)完三大搜索爬蟲,再來(lái)看看別的二流搜索引擎的爬蟲及門戶搜索的爬蟲:

1)msn:msn(msn live search beta)的搜索技術(shù)我個(gè)人覺(jué)得是難入流的,似乎比門戶搜索更差,beta說(shuō)明搜索版在測(cè)試階段,現(xiàn)在電信采用msn的搜索技術(shù),不知道電信的是什么眼光,呵呵。

2009-08-23 08:22:15 65.55.213.7 - 218.85.132.68 80 GET /html/down/20070129/550.html - 200 msnbot-media/1.0+(+)

2)Alexa:大名鼎鼎的世界排名Alexa,它的蜘蛛比較難記,是ia_archiver。從嚴(yán)格意義上說(shuō),它不知道是不是爬蟲,它與純搜索引擎不同,是來(lái)偵測(cè)流量的居多,并不是來(lái)收錄網(wǎng)頁(yè)的。

2009-08-23 01:24:44 209.237.238.226 - 218.85.132.68 80 GET /html/internet/20070130/631.html - 200 ia_archiver

3)Iask愛(ài)問(wèn):

2009-08-23 11:56:47 60.28.164.44 - 218.85.132.68 80 GET /html/webpromote/20070203/935.html - 200 Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)

4)sogou搜狗:

對(duì)于搜狗,我就覺(jué)得好笑了。大家記得我說(shuō)過(guò)我的網(wǎng)站是改版過(guò)的,Brand是舊網(wǎng)站文件,早被我刪除了。而且為了刪除除搜索引擎收錄的死鏈接,我在robots.txt文件中寫著:Disallow: /Brand ,這當(dāng)然禁止訪問(wèn)Brand下的文件,我這里想說(shuō)的是,一、它sogou不遵守robots協(xié)議,二、對(duì)于已經(jīng)刪除近一個(gè)月的文件,它從哪里搜索而來(lái)。我真的不太明白了。

2009-08-23 01:34:42 220.181.19.170 - 218.85.132.68 80 GET /404.htm 404;/underwear/Brand/Brand2.htm 200 sogou+spider

5)yodaoice:

對(duì)于這個(gè),大家不要感覺(jué)驚訝,這是163新開發(fā)的搜索引擎,目前處于測(cè)試版,界面頗象google風(fēng)格,但技術(shù)年幼,也象搜狗一樣亂抓一通。2009-08-23 06:19:29 60.191.80.151 - 218.85.132.68 80 GET /404.htm 404;/underwear/4864.gif 200 yodaoice

那么多爬蟲盯上我的網(wǎng)站,一方面高興的是就愛(ài)SEO論壇的發(fā)展還得靠它們,另一方面郁悶的是有些不按規(guī)則來(lái)抓的對(duì)網(wǎng)站的訪問(wèn)會(huì)有造成不良的影響。看看比前兩周增長(zhǎng)得多的日志文件就知道了。

版權(quán)所有:就愛(ài)SEO論壇

如需轉(zhuǎn)載請(qǐng)附就愛(ài)SEO學(xué)習(xí)論壇本貼鏈接地址:

關(guān)鍵詞:蜘蛛,爬行,記錄,分析,文件

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉