時間:2023-03-08 00:38:01 | 來源:電子商務(wù)
時間:2023-03-08 00:38:01 來源:電子商務(wù)
做正規(guī)seo技術(shù)必會的搜索引擎抓取網(wǎng)頁原理應(yīng)該是很復(fù)雜的。可以寫洋洋灑灑的長篇論文。這里就將我自己學(xué)習(xí)到的網(wǎng)頁抓取原理記錄一下。筆記應(yīng)該不夠完整只將重要過程做個介紹
首先抓取頁面的工作需要分配個搜索引擎蜘蛛。也就是機器人了。每個搜索引擎都有大量的蜘蛛供其差遣。在如今這個信息更新極快得年代每個蜘蛛都不會閑著。搜索引擎給每只蜘蛛分配了大量網(wǎng)址。確保大家的工作不重復(fù)。每個網(wǎng)址有且只有固定的蜘蛛負責(zé)爬行
當(dāng)蜘蛛領(lǐng)取了任務(wù)來到目標(biāo)網(wǎng)站時候會有兩種策略來爬行。分別為深度優(yōu)先和廣度優(yōu)先
深度優(yōu)先是一路走到底。發(fā)現(xiàn)一個鏈接就爬向它。好比下圖的紅色數(shù)字順序。來到電腦頁??吹降谝粋€鏈接是臺式電腦就進入臺式機網(wǎng)頁。該頁第一個鏈接是戴爾臺式機那么繼續(xù)進入該網(wǎng)頁。這時候戴爾臺式機網(wǎng)頁沒了鏈接就返回到臺式電腦頁面去爬行第二個鏈接聯(lián)想臺式機
這樣的爬行缺點是不能按照重要順序來收錄網(wǎng)頁。臺式電腦筆記本電腦平板電腦都屬于欄目重要性和更新頻率應(yīng)該遠大于戴爾臺式機等等。因此需要優(yōu)先爬行欄目。
所以廣度優(yōu)先成了搜索引擎收錄的主要策略。即來到電腦首頁后發(fā)現(xiàn)了三個連接,先將后兩個鏈接存入工作任務(wù)表里,然后對第一個是臺式機頁收錄內(nèi)容。并將其中的子鏈接比如戴爾臺式機和聯(lián)想臺式機地址記錄下來也保存到工作計劃表里計劃過會來抓。
處理完臺式機欄目接下來進入筆記本電腦頁。同樣抓取內(nèi)容后將其中鏈接保持在計劃表里。最后來到平板電腦頁收錄里面內(nèi)容再將鏈接存入表里
將欄目頁全部收錄完畢后就從計劃表里抽出之前存入的地址。這里是依次是戴爾臺式機聯(lián)想臺式機?;萜展P記本華碩筆記本和ipad。以此類推
如下圖藍色數(shù)字順序
當(dāng)然對于大多數(shù)網(wǎng)站來說每個頁面都有相同的頭尾,就是用于顯示欄目和友情鏈接的位置,因此大量頁面頭尾相同指向一樣的鏈接就會被蜘蛛忽略,這時候正文中的鏈接將成為其記錄和爬行的目標(biāo)
當(dāng)然收錄后的網(wǎng)頁已經(jīng)不是完整的頁面。而是將其中內(nèi)容抽取去重復(fù)無意義詞等等之后的高質(zhì)量內(nèi)容,然后再將這些篩選后的內(nèi)容添加到分析系統(tǒng)得出文章關(guān)鍵詞等等
您轉(zhuǎn)載本文那我真是受寵若驚,希望能保留原始地址:作為激勵
,也歡迎您的評論!
關(guān)鍵詞:原理,學(xué)習(xí),筆記,索引
微信公眾號
版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。