時(shí)間:2023-03-07 03:30:01 | 來源:電子商務(wù)
時(shí)間:2023-03-07 03:30:01 來源:電子商務(wù)
大家都知道搜索引擎想要提供給用戶高質(zhì)量的搜索結(jié)果,首先就要去收錄網(wǎng)頁,而收錄網(wǎng)頁就需要搜索引擎的蜘蛛去不斷爬取,然后根據(jù)爬行的情況有選擇性的抓取與收錄。本文從六個(gè)方面和大家淺析蜘蛛的爬行與抓取,希望能讓新手站長(zhǎng)更多了解搜索引擎的原理,知道了這些,對(duì)我們網(wǎng)站優(yōu)化會(huì)有指導(dǎo)性的意義。好了,開始今天的正文。
第一、常見蜘蛛:蜘蛛其實(shí)就是搜索引擎用來訪問頁面的程序,英文叫spider,也稱為機(jī)器人,英文為bot。有時(shí)候查看IIS日志就能看到各種蜘蛛訪問網(wǎng)頁的情況,對(duì)網(wǎng)站的優(yōu)化起到一定的指導(dǎo)作用。當(dāng)蜘蛛訪問一個(gè)網(wǎng)站時(shí),會(huì)發(fā)出頁面訪問請(qǐng)求并返回HTTP狀態(tài)碼,然后蜘蛛會(huì)把這些狀態(tài)碼存入自己的數(shù)據(jù)庫,為以后的各種計(jì)算做鋪墊。常見的蜘蛛有百度蜘蛛(Baiduspider)、雅虎蜘蛛(Mozilla)、微軟Bing蜘蛛(msnbot)、搜狗蜘蛛(Sogou+web+bot)、Google蜘蛛(Googlebot)等。一般情況下,IIS日志都會(huì)有顯示,站長(zhǎng)們應(yīng)該多花點(diǎn)時(shí)間仔細(xì)看下蜘蛛對(duì)自己網(wǎng)站的訪問情況,然后對(duì)自己網(wǎng)站做出調(diào)整。
第二、跟蹤鏈接:跟蹤鏈接指的是蜘蛛會(huì)順著頁面上的鏈接從一個(gè)頁面爬到下一個(gè)頁面。因?yàn)檎麄€(gè)互聯(lián)網(wǎng)都是有不同的鏈接構(gòu)成,所以理論上蜘蛛能爬行所有的頁面。但由于現(xiàn)實(shí)中網(wǎng)站間的鏈接結(jié)構(gòu)非常復(fù)雜,蜘蛛就會(huì)采取一定的策略才能爬行所有頁面。常見的策略一般有兩種,一是深度優(yōu)先,二是廣度優(yōu)先。深度優(yōu)先指的是順著鏈接一直爬行,直到?jīng)]有鏈接為止,然后返回第一個(gè)頁面。而廣度優(yōu)先是順著第一層的鏈接爬行,直到把第一層的鏈接爬行完然后再爬行第二層的鏈接。如果從理論上講,只要有充足的時(shí)間,蜘蛛就能爬行完所有的網(wǎng)頁,但實(shí)際上搜索引擎只是收錄了互聯(lián)網(wǎng)上很小的一部分網(wǎng)頁。因此對(duì)我們來講,爭(zhēng)取做足夠多的外部鏈接,讓蜘蛛有機(jī)會(huì)來爬行與抓取。
第三、文件存儲(chǔ):文件存儲(chǔ)是搜索引擎的一個(gè)技術(shù)關(guān)鍵所在,同時(shí)也是面臨的一個(gè)挑戰(zhàn)。當(dāng)搜索引擎爬行和抓取完成后,會(huì)把這些數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。在這個(gè)數(shù)據(jù)庫存放的數(shù)據(jù)和用戶在瀏覽器中看到的頁面是完全一樣的。每個(gè)URL都會(huì)有一個(gè)獨(dú)特的編號(hào)。除此之外,還要存儲(chǔ)各種計(jì)算權(quán)重所需要的數(shù)據(jù),比如各種鏈接的關(guān)系,PR的迭代計(jì)算等。這些數(shù)據(jù)量是巨大的。很多網(wǎng)站不存在時(shí),我們可以訪問搜索引擎的快照頁面,這些頁面就是存在搜索引擎自己的數(shù)據(jù)庫中,與站長(zhǎng)網(wǎng)站本身的數(shù)據(jù)沒有關(guān)系,是獨(dú)立存在的。平時(shí)的快照更新、排名波動(dòng)都和搜索引擎的文件存儲(chǔ)有著直接的關(guān)系。
到這里,給大家分享了基本的三個(gè)方面:常見蜘蛛,跟蹤鏈接,文件存儲(chǔ)。這些內(nèi)容大家作為一種了解性的常識(shí),對(duì)我們還是能起到一定作用的。搜索引擎本身是個(gè)巨大的系統(tǒng),里邊涉及到的巨量運(yùn)算是我們無法想象到的。有時(shí)候優(yōu)化網(wǎng)站明顯感覺到波動(dòng),站長(zhǎng)們也很著急、很費(fèi)解為什么網(wǎng)站無緣無故出現(xiàn)問題,其實(shí)很多時(shí)候并不是我們自身的原因,而我們面對(duì)的是一個(gè)巨型的計(jì)算系統(tǒng),它本身也正在逐步的成熟和完善,所以有時(shí)候出現(xiàn)不正常的現(xiàn)象也都在正常的范圍內(nèi)。網(wǎng)站出現(xiàn)波動(dòng)大家都不想看到,我們也不應(yīng)該把重心都放在這上邊,還是多騰出點(diǎn)時(shí)間來完善自己的內(nèi)容才是重點(diǎn)。
好了,本文就到這里,大家有什么好的想法也歡迎和我聯(lián)系,本文來自:扎金花游戲下載,網(wǎng)址:,也歡迎轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)保留鏈接,謝謝!
關(guān)鍵詞:爬行,蜘蛛,方面
客戶&案例
營(yíng)銷資訊
關(guān)于我們
客戶&案例
營(yíng)銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。