搜索引擎的工作原理和基礎(chǔ)算法,要學(xué)會去運用
時間:2023-03-17 00:30:02 | 來源:電子商務(wù)
時間:2023-03-17 00:30:02 來源:電子商務(wù)
首頁,我們來看一張圖,如下圖,這個是簡單的搜索引擎原理圖,第一步是抓取,第二個是過濾,第三個是建立索引,第四個是輸出結(jié)果,這樣一來看,搜索引擎的工作原理就比較簡單了,但是我們知道了這四個步驟,沒用,要知道每個步驟都是做什么的,能夠給我們提供什么樣的幫助,優(yōu)化中遇到的問題,可以結(jié)合搜索引擎的工作原理來進行診斷網(wǎng)站,弄懂了這個工作原理,你就會明白為什么不收錄,為什么,沒有排名了,排名怎么樣才會有,所以這個很重要。
搜索引擎的工作原理首先來看搜索引擎原理的第一個步驟----抓取在互聯(lián)網(wǎng)上,有一種自動抓取的程序,可以發(fā)現(xiàn),并抓取互聯(lián)網(wǎng)上的內(nèi)容,這個程序叫做spider,中文名字叫蜘蛛,不同的搜索引擎公司起的名字也不同,百度叫Baiduspider,谷歌的叫g(shù)ooglebot,360的叫360spider
抓取都是以億萬為單位的,就是很多的意思,這里不要鉆牛角尖,每天的工作就是不斷的發(fā)現(xiàn)內(nèi)容,并把內(nèi)容帶回去,把內(nèi)容存到臨時的數(shù)據(jù)
當網(wǎng)站產(chǎn)生新內(nèi)容時,Baiduspider會通過互聯(lián)網(wǎng)中某個指向該頁面的鏈接進行訪問和抓取,怎么來理解呢?比如,剛剛做一個新的網(wǎng)站,這個時候,我們不做任務(wù)處理,那么時間長了,我們也能夠發(fā)現(xiàn)網(wǎng)站會收錄,但是這個時間會比較長的,這個就是自動抓取。還有就是找一些高質(zhì)量的平臺,去發(fā)一些外鏈,當外鏈被收錄時,里面有指向我們網(wǎng)站的鏈接,這個時候蜘蛛就能夠?qū)ぶ溄拥竭_我們的網(wǎng)站了,我們也把這種方式叫做被動的引蜘蛛
還有一種就是主動的提交,如果您沒有設(shè)置任何外部鏈接指向網(wǎng)站中的新增內(nèi)容,則Baiduspider是無法對其進行抓取的。這個時候,我們可以使用百度站長平臺的提交功能,新產(chǎn)生內(nèi)容時,可以使用API提交,手動提交,老網(wǎng)站使用sitemap地圖提交。
百度站長工具提交這里需要說明的是API提交,以前叫實時提交,后來才改成API提交,速度上來講是很快的,只有提交了,很段的時間內(nèi),就會派蜘蛛來你的網(wǎng)站,這里要注意的是,蜘蛛來你的網(wǎng)站差不意味著你的網(wǎng)站會抓取,會收錄,也可能只是蜘蛛來了,但是他內(nèi)容沒有抓住,沒有收錄,這個我們在后面還是重點說明為什么
想要使用API提交提交,需要根據(jù)官方提供的開發(fā)文檔進行開發(fā)相關(guān)的工具,工發(fā)這個工具得懂編程了
百度提交開發(fā)說明老師這里有開發(fā)好的PIA提交工具,可直接使用,領(lǐng)取點擊這查看
對于已被抓取過的內(nèi)容,搜索引擎會對抓取的頁面進行記錄,并依據(jù)這些頁面對用戶的重要程度安排不同頻次的抓取更新工作。
抓取很重要,那么首先需要的是蜘蛛能夠到過我們的網(wǎng)站,這里需要前明幾點
第一個,就是服務(wù)器,是否有問題,網(wǎng)站能不能正常打得開網(wǎng)站,別購買垃圾的網(wǎng)站,平臺打開就很快,有的時間自己打開沒事,蜘蛛一來就不行了,提示403,404
第二個,就是robots禁封
有很多人的網(wǎng)站剛開始時,想要不讓收錄,就晉封了蜘蛛抓取,想要抓取了,就放開,缺發(fā)現(xiàn)蜘蛛就是不來,網(wǎng)站幾個月了,就是不收錄,這是因為robots這個不授控制,有生效周期,幾個月不等的,很坑
第三個,就是網(wǎng)站有權(quán)限,需要登錄才能夠看到內(nèi)容,就像下圖一樣,
有權(quán)限的頁面,需要登錄的說明:由于百度的蜘蛛是一個普通的用戶,它不會去做復(fù)雜的工作,不會注冊,所以網(wǎng)站還想要正常抓取就很難了,希望大家能夠明白
第四,有一些抓取軟件,為了各種目的,會偽裝成Baiduspider對您的網(wǎng)站進行抓取,這可能是不受控制的抓取行為,嚴重時會影響到網(wǎng)站的正常運作。點此識別Baiduspider的真?zhèn)巍?br>
以上抓取我就講這么多了,有不懂的歡迎來套討論,下面講過濾
搜索引擎原理的第二個步驟---過濾很多人的網(wǎng)站,還沒有達到收錄的標準就被過濾掉了,所以我們可以查看一下日志,看一下,蜘蛛有沒有來到我們的網(wǎng)站,抓取了哪一些頁面,如果還沒有抓取,那就要先讓其進行抓取,如果抓取了,那就看是否因為質(zhì)量不行被過濾了
互聯(lián)上有很多內(nèi)容,他抓取過來的內(nèi)容也會進行篩選,如垃圾頁面,空間無面,無內(nèi)容頁面,死連接,明顯的欺騙用戶的網(wǎng)頁,這些本為就沒有用,我還去存取,那就會消耗我的地方,消耗磁盤,流量,所以這個程序他會自動判斷,講到這里,讓你來,或者找人來做這件事情,是否我們自己也可以做到?
第二點,就是他抓取來的內(nèi)容,會和自己原來存取的內(nèi)容進行比對,發(fā)現(xiàn)是重復(fù)的內(nèi)容,他有可能也不會收錄,如下圖,及時網(wǎng)站的內(nèi)容剛開始會收錄,但慢慢的,你還是提供一些垃圾的內(nèi)容,那慢慢的網(wǎng)站就會變成一個垃圾站點了,慢慢就不會收錄了,排名也不可能好,這是一個知識點請記住
重復(fù)的內(nèi)容互聯(lián)網(wǎng)中并非所有的網(wǎng)頁都對用戶有意義,因此百度會自動對這些內(nèi)容進行過濾,那么你的網(wǎng)站
搜索引擎原理的第三個步驟--建立索引當很多人問我,為什么我的網(wǎng)站還沒有收錄,那就要看網(wǎng)站的內(nèi)容有沒有達到收錄的標準了,要質(zhì)量是高質(zhì)量的,有的人根本就不知道什么是高質(zhì)量的內(nèi)容,每天就是為了更新而更新,天天偽原創(chuàng),他都不知道為什么要更新內(nèi)容,要更新什么樣的內(nèi)容,很可怕,所以內(nèi)容要圖文結(jié)合,能夠解決用戶的問題,可以傳播,別人會收藏,用戶看了會喜歡,能夠從頭看到尾,下找遇到相同的內(nèi)容,他還會在來你的網(wǎng)站
頁面被Baiduspider發(fā)現(xiàn)、分析過,沒有存過這個內(nèi)容,有價值,質(zhì)量高,那就會收錄了,你可以使用site:域名,看下這個網(wǎng)站下有多少內(nèi)容有收錄,也可以直接百度中搜索某一個地址,看下這個鏈接有沒有收錄
這個是有收錄的
這個是沒有收錄的
百度會對抓取回來的內(nèi)容會逐一進行標記和識別,并將這些標記進行儲存為結(jié)構(gòu)化的數(shù)據(jù),比如網(wǎng)頁的tagtitle、metadescripiton、網(wǎng)頁外鏈及描述、抓取記錄。同時,也會將網(wǎng)頁中的關(guān)鍵詞信息進行識別和儲存,以便與用戶搜索的內(nèi)容進行匹配。
這里需要說明一點的是,為什么我們老是說收錄,沒有說建立索引呢?那是因為先收錄,在建立索引,所以,有的時候我們會說,抓取,過濾,收錄,輸入結(jié)果
百度官方的解釋索引是:Baiduspider經(jīng)初步分析后認為有意義,做建庫處理,而收錄是:頁面被Baiduspider發(fā)現(xiàn)、分析過,這里來看,想在能夠排名,只收錄是沒用的,還需要建立索引,收錄的要有意義,有價值,下面上一張官方圖,大家就可以一目了然了
收錄是包含索引的,所以你要是做的好的話,就有可能是收錄等于索引,也就是你的內(nèi)容所有的都進入到索引里面。
給大家看下個網(wǎng)站,先看site數(shù)據(jù)
site網(wǎng)站下面是索引,那為什么,今天的索引是25個,而site是24個呢?歡迎大家在下面討論,先說明,網(wǎng)站差沒有被黑過,如果你懂得這個知識,可以告訴你,利用這個知識,可以做更多關(guān)鍵詞排名和收錄
搜索引擎原理的第四個步驟--輸出結(jié)果有的時候,我們也會把輸出結(jié)果,說成是排序,排名,所以你在那里看到別人說成這個,你也不用說不對,都是可以的,一個意思,因為這個沒有絕對的
用戶輸入的關(guān)鍵詞,誰會排在前面,誰會排在后面, 百度會對其進行一系列復(fù)雜的分析,并根據(jù)分析的結(jié)論在索引庫中尋找與之最為匹配的一系列網(wǎng)頁,按照用戶輸入的關(guān)鍵詞所體現(xiàn)的需求強弱和網(wǎng)頁的優(yōu)劣進行打分,并按照最終的分數(shù)進行排列,展現(xiàn)給用戶。
下面在上一個有難度一點的搜索引擎抓取圖,現(xiàn)在大家應(yīng)改可以看懂了
搜索引擎的工作原理本節(jié)知識就寫到這里了,小知識點很多,每個人都要總得這個搜索引擎的工作原理的,還且還要學(xué)會去運用,自己優(yōu)化網(wǎng)站的時候,可以解決很多問題,怎么引蜘蛛,蜘蛛有沒有來,網(wǎng)站為什么沒有收錄,網(wǎng)站為什么沒有排名,是內(nèi)容質(zhì)量不高,還是蜘蛛沒有來,還是被過濾掉了,有不懂的可以在下方留言,也可以找我來分析網(wǎng)站
關(guān)鍵詞:學(xué)會,運用,基礎(chǔ),索引,工作,原理