搜索引" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 網(wǎng)絡(luò)營銷 > 深度解析搜索引擎的原理結(jié)構(gòu)

深度解析搜索引擎的原理結(jié)構(gòu)

時間:2022-05-28 21:36:02 | 來源:網(wǎng)絡(luò)營銷

時間:2022-05-28 21:36:02 來源:網(wǎng)絡(luò)營銷

對于我們這些做網(wǎng)站優(yōu)化的來說,如果不懂搜索引擎的原理就來做SEOer,也就相當(dāng)于說是盲人登山的感覺。所以億企邦覺的只有了解了搜索引擎工作的基礎(chǔ)流程與原理,我們才能更好的去針對搜索引擎做出相關(guān)優(yōu)化工作。

搜索引擎(searchengine)也可以說是指根據(jù)一定的策略、運用特定的計算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。在此,借助億企邦的平臺,我也來淺談一下我對搜索引擎原理結(jié)構(gòu)的一些認(rèn)識

搜索引擎的原理結(jié)構(gòu)框架大概分為三部分,即:數(shù)據(jù)搜集—>預(yù)處理【索引】—>排名。如下圖所示:

一、數(shù)據(jù)搜集

數(shù)據(jù)搜集直白的講,即數(shù)據(jù)的搜集階段,將網(wǎng)頁從浩如瀚海的互聯(lián)網(wǎng)世界搜集到自己的數(shù)據(jù)庫中進(jìn)行存儲。搜索引擎派出一個能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓文件的程序,這個程序通常稱之為蜘蛛(Spider)。搜索引擎從已知的數(shù)據(jù)庫出發(fā),就像正常用戶的瀏覽器一樣訪問這些網(wǎng)頁并抓取文件。搜索引擎通過這些爬蟲去爬互聯(lián)網(wǎng)上的外鏈,從這個網(wǎng)站爬到另一個網(wǎng)站,去跟蹤網(wǎng)頁中的鏈接,訪問更多的網(wǎng)頁,這個過程就叫爬行。這些新的網(wǎng)址會被存入數(shù)據(jù)庫等待抓取。所以跟蹤網(wǎng)頁鏈接是搜索引擎蜘蛛(Spider)發(fā)現(xiàn)新網(wǎng)址的最基本的方法。搜索引擎抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫。

1、鏈接跟蹤

蜘蛛是順著鏈接爬行和抓取頁面的。如何快速抓取到對用戶來說相對重要的信息以及達(dá)到廣闊的覆蓋無疑是搜索引擎需要重點考慮的問題。由于互聯(lián)網(wǎng)上無數(shù)的網(wǎng)站頁面,搜索引擎蜘蛛無法將所有的頁面都下載保存到服務(wù)器。因此,許多搜索引擎的網(wǎng)絡(luò)蜘蛛不是所有的頁面都抓取的,只是抓取那些重要的網(wǎng)頁,而在抓取的時候評價重要性主要的依據(jù)是某個網(wǎng)頁的鏈接廣泛度及外部鏈接的數(shù)量與質(zhì)量。所以億企邦覺的在給網(wǎng)站加外鏈時不要只給首頁外鏈,其他頁面也要加(這和外鏈的隨機(jī)性也有關(guān))。

2、在抓取網(wǎng)頁的時候,搜索引擎蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先。

廣度優(yōu)先是指搜索引擎蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。這是最常用的方式,因為這個方法可以讓搜索引擎蜘蛛并行處理,提高其抓取速度。

深度優(yōu)先是指搜索引擎蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。這個方法有個優(yōu)點是搜索引擎蜘蛛在設(shè)計的時候比較容易。

廣度抓取有助于獲取到更多的信息,深度抓取有助于得到更全面的信息。搜索引擎蜘蛛在抓取數(shù)據(jù)時,通常會兩種方式都采用,但是想比較來說,廣度抓取要多于深度抓取。

這是搜索引擎抓取數(shù)據(jù)的二大策略,當(dāng)然其中還夾雜著一些加入了人工智能的策略,比如:

a、熱點優(yōu)先策略:對于爆發(fā)式的熱點關(guān)鍵詞進(jìn)行優(yōu)先抓取,而且不需要經(jīng)過嚴(yán)格的去重和過濾,因為會有新的鏈接來覆蓋以及用戶的主動選擇。
  b、權(quán)威優(yōu)先策略:搜索引擎會給每個網(wǎng)站分配一個權(quán)威度,通過網(wǎng)站歷史、網(wǎng)站更新等來確定網(wǎng)站的權(quán)威度,優(yōu)先抓取權(quán)威度高的網(wǎng)站鏈接。
  c、用戶點擊策略:當(dāng)大部分搜索一個行業(yè)詞庫內(nèi)的關(guān)鍵詞時,頻繁的點擊同一個網(wǎng)站的搜索結(jié)果,那么搜索引擎會更頻繁的抓取這個網(wǎng)站。
  d、歷史參考策略:對于保持頻繁更新的網(wǎng)站,搜索引擎會對網(wǎng)站建立更新歷史,根據(jù)更新歷史來預(yù)估未來的更新量以及確定抓取頻率。

3、地址庫

為了避免重復(fù)爬行和抓取網(wǎng)址,搜索引擎會建立一個地址庫,記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面,以及已經(jīng)被抓取的頁面。地址庫中的URL有以下幾個來源:

a、人工錄入的種子網(wǎng)站。
  b、蜘蛛抓取頁面后,從HTML中解析出新的鏈接URL,與地址庫中的數(shù)據(jù)對比,如果是地址庫中沒有的網(wǎng)址,就存入待訪問地址庫。
  c、站長通過搜索引擎網(wǎng)頁提交表格提交進(jìn)來的網(wǎng)址。

蜘蛛按重要性從待訪問地址庫中提取URL,訪問并抓取頁面,然后把這個URL從待訪問地址庫中刪除,放進(jìn)已訪問地址庫中。大部分主流搜索引擎都提供一個表格,讓站長提交網(wǎng)址。不過這些提交來的網(wǎng)址都只是存入地址庫而已,是否收錄還要看頁面重要性如何。搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的。可以說提交頁面基本上是毫無用處的,搜索引擎更喜歡自己沿著鏈接發(fā)現(xiàn)新頁面。

4、文件存儲

鏈接跟蹤完畢,需要將跟蹤到的信息進(jìn)行存儲。存儲的對象,第一是url,第二是頁面內(nèi)容(文件大小、最后一次更新時間、http狀態(tài)碼、頁面源代碼等等)。

二、預(yù)處理【索引】

數(shù)據(jù)抓取完畢,就需要進(jìn)行預(yù)處理了,一般也叫索引。主要會從提取文字、中文分詞、去停止詞、消噪、去重、正向索引、倒排索引、鏈接分析、特殊文件處理等幾個方面來進(jìn)行。

1、提取文字

這個應(yīng)該很好理解的,將源代碼中的文字提取出來。當(dāng)然需要注意的是,這里面會包括meta信息以及一些替代文字,除了用戶可見的文字信息外,還有代碼中的文字信息(例如alt標(biāo)簽)。目前搜索引擎都是以文字為基礎(chǔ)。蜘蛛抓取的HTML代碼中除了用戶在瀏覽器看到的文字外還有大量HTML格式標(biāo)簽、DIV+CSS標(biāo)簽、JavaScript程序等無法用于排名的內(nèi)容。所以搜索引擎第一步就是要去除從HTML代碼中抓取的標(biāo)簽、程序等,提取可以用于排名處理的頁面文字內(nèi)容。除了可見文字,搜索引擎也會提取一些特殊的包含文字信息的代碼,如Meta標(biāo)簽中的文字、alt標(biāo)簽、FLASH文件代替的文字、鏈接的錨文本等等。

2、分詞

中文分詞 (Chinese Word Segmentation)指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復(fù)雜的多、困難的多。分詞方法主要包括:基于理解的分詞方法、基于字符串匹配的分詞方法、基于統(tǒng)計的分詞方法。這里就不多說了,分詞可以說是搜索引擎最重要的部分。中文分詞的框架如下圖所示:

3、去停止詞

無論英文還是中文,頁面內(nèi)容中都會有一些出現(xiàn)頻率很高,卻對內(nèi)容沒有任何影響的詞,如“的”、“地”、“得”之類的助詞,“啊”、“哈”、“呀”之類的感嘆詞,“從而”、“以”、“卻”之類的介詞,這些詞被稱為停止詞,因為它們對頁面主要意思沒有什么影響。英文中常見的停止詞如the,a,an,to,of等。搜索引擎在索引頁面之前會去掉這些停止詞,使索引數(shù)據(jù)主題更為突出,減少無謂的計算量。

4、消噪

對搜索引擎來說,并不是網(wǎng)頁上的所有部分它都需要抓取,有一些部分對排名計算是沒有意義的,比如導(dǎo)航條、版權(quán)文字說明、廣告等等區(qū)塊??紤]到搜索引擎需要處理的網(wǎng)頁數(shù)量非常龐大,這部分無意義內(nèi)容的絕對量也是非常大的,為了節(jié)省計算資源,提升排名計算的速度,搜索引擎在預(yù)處理時會將這些內(nèi)容識別后剔除出去。這個過程就稱為消噪。

現(xiàn)在搜索引擎應(yīng)用的消噪技術(shù)可分為三類:基于網(wǎng)頁結(jié)構(gòu)的方法,基于模版的方法和基于可視化信息的方法。

A、基于可視化信息的方法:是指利用頁面中元素的布局信息,從而能夠利用布局信息對頁面進(jìn)行劃分,保留頁面中間區(qū)域,而其它區(qū)域則認(rèn)為是噪音。
  B、基于網(wǎng)頁結(jié)構(gòu)的方法:即根據(jù)html標(biāo)簽對頁面來分區(qū),分出一些頁頭、導(dǎo)航、正文、廣告等等的區(qū)塊,只抓取正文等重要的部分。
  C、基本模版的方法:指的是從一組網(wǎng)頁中提取出相同的模板,而后利用這些模版從網(wǎng)頁中抽取有用的信息。

5、SEOer如何人工減噪?

A、搜索引擎會基于可視化信息識別噪音,因此億企邦建議SEO人員在建設(shè)網(wǎng)頁時應(yīng)盡量遵循通用的原則,將正文內(nèi)容安排在頁面中間區(qū)域,而不要弄一些非常個性化的頁面,增加搜索引擎識別噪音的難度。
  B、搜索引擎會基于網(wǎng)頁結(jié)構(gòu)識別噪音,因此億企邦建議SEO人員在處理網(wǎng)頁結(jié)構(gòu)時建議引入JS代碼,將頁頭、廣告、版權(quán)聲明等內(nèi)容通過JS調(diào)用來實現(xiàn)。當(dāng)然是一些你不想被抓取的版塊,因為這些區(qū)塊在站內(nèi)很可能都是重復(fù)出現(xiàn)的,特別是廣告、版權(quán)、評論這些。一旦被收錄,很容易造成重復(fù)內(nèi)容堆積,影響整站的內(nèi)容質(zhì)量評分。
  C、搜索引擎會基于網(wǎng)頁模版識別噪音,因此SEO人員在建設(shè)網(wǎng)頁時應(yīng)盡量采用同一套模版,尤其是在改版的時候不要輕易動模版,以幫助搜索引擎識別噪音區(qū)塊。

6、去重

經(jīng)過去停頓,去噪之后剩下的詞組,已經(jīng)可以很好的表達(dá)出頁面的主體意思了。為了便于使得內(nèi)容不被搜索引擎重復(fù)收錄,搜索引擎需要一個算法來進(jìn)行去重處理。比如比較知名且常用的為MD5算法,搜索引擎根據(jù)特征關(guān)鍵詞計算指紋區(qū)分。

7、正向索引

正向索引簡稱為索引。經(jīng)過前五步之后,接下來搜索引擎將提取文中關(guān)鍵詞,按分詞程序劃分好的詞,同時記錄每個詞在頁面中出現(xiàn)的頻率、出現(xiàn)的次數(shù)、格式(如加粗、傾斜、黑體、H標(biāo)簽、加顏色、錨文字等)、位置(如頁面第一段文字或者最后一段等)。然后把這些詞語記錄為串關(guān)鍵詞集合,那么這些詞的相關(guān)信息如格式、權(quán)重等也會記錄在案。實際在搜索引擎中每個關(guān)鍵詞也被轉(zhuǎn)換為ID形式記錄,然后每個文件ID對應(yīng)一串關(guān)鍵詞ID。這種每個文件ID對應(yīng)一個串關(guān)鍵詞ID這樣的數(shù)據(jù)結(jié)構(gòu)被稱之為正向索引。比如文章A對應(yīng)1、2、3這三個關(guān)鍵詞,文章B對應(yīng)2、4、5這三個關(guān)鍵詞。

8、倒排索引

正向索引還不能直接運用到關(guān)鍵詞排名,假設(shè)用戶搜索關(guān)鍵詞2,那么搜索引擎講掃描索引庫中所有文件,這樣時間太長無法滿足用戶返回結(jié)果的速度,所以這里運用到了倒排索引,把關(guān)鍵詞ID映射到文章ID,比如關(guān)鍵詞2對應(yīng)文章A、文章B,如此一來大大縮短搜索引擎掃描索引庫中的文件,縮短掃描時間。

9、鏈接算法

在此階段,各個頁面之間的鏈接關(guān)系也會被搜集。頁面中有哪些導(dǎo)入鏈接,這些鏈接都指向哪里,哪些鏈接又指向這個頁面,鏈接用的是URL還是錨文字,這些復(fù)雜的鏈接關(guān)系網(wǎng)就形成了頁面的鏈接權(quán)重,此時錨文本將被作為重要排名依據(jù),當(dāng)量廣泛的錨文本將被列入計算關(guān)鍵詞排名的步驟中。

10、特殊文件的處理

除了HTML 文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT 文件等,我們在搜索結(jié)果中也經(jīng)常會看到這些文件類型。但搜索引擎目前還不能很好的處理圖片、視頻、Flash 這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。

三、排名

索引文件建立完畢之后,接下來要做的就是排名了。

1、搜索詞的處理

這一步和前面的預(yù)處理一樣也要中文分詞、去停止詞。還要進(jìn)行指令處理,拼寫錯誤矯正,整合搜索觸發(fā)等。這個上面基本是一樣的。

2、文件匹配

從上面我們看到搜索引擎的蜘蛛是無時無刻的都在爬行和抓取,另外不斷對抓取的數(shù)據(jù)進(jìn)行整理歸納以及存儲。這些過程并不是用戶在搜索的時候進(jìn)行的,而是在搜索之前就預(yù)處理好的,真正當(dāng)用戶搜索某個關(guān)鍵詞時,搜索引擎只需要在自己的數(shù)據(jù)庫中進(jìn)行查找,而不是實時的對互聯(lián)網(wǎng)上所有的網(wǎng)站進(jìn)行查找。搜索引擎就會在和該關(guān)鍵詞對應(yīng)的所有文件中進(jìn)行簡單的計算和匹配,找到匹配頁面。

3、初始子集選擇

為了更加快速的滿足用戶的需要,搜索引擎需要從所有的相關(guān)頁面中進(jìn)行選擇,只計算權(quán)重稍高的頁面返回給用戶,這個過程就是常說的初始子集的篩選。大家可以試想,當(dāng)我們搜索某個關(guān)鍵詞時,往往包含這個關(guān)鍵詞的頁面數(shù)量是巨大的,甚至幾十萬、上百萬。如果搜索引擎從這么大的數(shù)據(jù)中進(jìn)行匹配的話時間顯然更長,為了更好的滿足用戶的需求,實際中搜索引擎只會選擇哪些權(quán)重高的頁面去匹配(大概1000個左右)。

4、相關(guān)性計算

(1)、關(guān)鍵詞常用程度

經(jīng)過分詞后的多個關(guān)鍵詞,對整個搜索字符串的意義貢獻(xiàn)并不相同。越常用的詞對搜索詞的意義貢獻(xiàn)越小,越不常用的詞對搜索詞的意義貢獻(xiàn)越大。舉個例子,假設(shè)用戶輸入的搜索詞是“億企邦”。“博客”這個詞常用程度非常高,在很多頁面上會出現(xiàn)。它對“億企邦”這個搜索詞的辨識程度和意義相關(guān)度貢獻(xiàn)就很小。找出那些包含“博客”這個詞的頁面,對搜索排名相關(guān)性幾乎沒有什么影響,有太多頁面包含“博客”這個詞。而“億企邦”這個詞常用程度就比較低,對“億企邦”這個搜索詞的意義貢獻(xiàn)要大得多。那些包含“億企邦”這個詞的頁面,對“億企邦”這個搜索詞會更為相關(guān)。常用詞的極致就是停止詞,對頁面意義完全沒有影響。
  所以搜索引擎對搜索詞串中的關(guān)鍵詞并不是一視同仁地處理,而是根據(jù)常用程度進(jìn)行加權(quán)。不常用的詞加權(quán)系數(shù)高,常用詞加權(quán)系數(shù)低,排名算法對不常用的詞給予更多關(guān)注。我們假設(shè)A、B兩個頁面都各出現(xiàn)“博客”及“億企邦”兩個詞。但是“博客”這個詞在A頁面出現(xiàn)于普通文字中,“億企邦”這個詞在A頁面出現(xiàn)于標(biāo)題標(biāo)簽中。B頁面正相反,“博客”出現(xiàn)在標(biāo)題標(biāo)簽中,而“億企邦”出現(xiàn)在普通文字中。那么針對“億企邦”這個搜索詞,A頁面將更相關(guān)。

(2)、詞頻及密度

一般認(rèn)為在沒有關(guān)鍵詞堆積的情況下,搜索詞在頁面中出現(xiàn)的次數(shù)多,密度越高,說明頁面與搜索詞越相關(guān)。當(dāng)然這只是一個大致規(guī)律,實際情況未必如此,所以相關(guān)性計算還有其他因素。出現(xiàn)頻率及密度只是因素的一部分,而且重要程度越來越低。

(3)、關(guān)鍵詞位置及形式

就像在索引部分中提到的,頁面關(guān)鍵詞出現(xiàn)的格式和位置都被記錄在索引庫中。關(guān)鍵詞出現(xiàn)在比較重要的位置,如標(biāo)題標(biāo)簽、黑體、H1等,說明頁面與關(guān)鍵詞越相關(guān)。這一部分就是頁面seo所要解決的。

(4)、關(guān)鍵詞距離

切分后的關(guān)鍵詞完整匹配地出現(xiàn),說明與搜索詞最相關(guān)。比如搜索“呼叫中心”時,頁面上連續(xù)完整出現(xiàn)“呼叫中心”四個字是最相關(guān)的。如果“呼叫”和“中心”兩個詞沒有連續(xù)匹配出現(xiàn),出現(xiàn)的距離近一些,也被搜索引擎認(rèn)為相關(guān)性稍微大一些。

(5)、鏈接分析及頁面權(quán)重

除了頁面本身的因素,頁面之間的鏈接和權(quán)重關(guān)系也影響關(guān)鍵詞的相關(guān)性。其中最重要的是錨文字。頁面有越多以拽索詞為錨文字的導(dǎo)入鏈接,說明頁面的相關(guān)性越強。鏈接分析還包括了鏈接源頁面本身的主題、錨文字周圍的文字等。

5、排名過濾及調(diào)整,過濾一些作弊等

通過各種算法(例如近期百度的綠蘿算法和石榴算法)的調(diào)整,過濾一些作弊的網(wǎng)站,通過算法規(guī)則或人工調(diào)整給予違規(guī)網(wǎng)站的降權(quán),提取展示優(yōu)質(zhì)網(wǎng)站的信息。

6、搜索緩存

搜索引擎的搜索緩存也即cache,是計算機(jī)領(lǐng)域非常常用的一種技術(shù),我們最熟悉的,恐怕就是瀏覽器的緩存。搜索引擎的緩存可以這樣簡單描述:在高速內(nèi)存硬件設(shè)備開辟一塊數(shù)據(jù)存儲區(qū),用來存儲搜索用戶的查詢、索引數(shù)據(jù)、搜索的中間結(jié)果或者最終的搜索結(jié)果。緩存的大小是有限度的,不可能無限存儲數(shù)據(jù)。因此搜索引擎會采取緩存更新策略和緩存淘汰策略管理維護(hù)緩存區(qū)存儲的數(shù)據(jù)。搜索引擎緩存的價值搜索引擎緩存具有兩個價值:a、加快響應(yīng)搜索用戶查詢的速度,提高搜索用戶體驗;b、減少搜索引擎后臺的計算量,節(jié)省計算資源。

7、排名結(jié)果顯示

根據(jù)信息的有效性、原創(chuàng)性、信息的認(rèn)可度和網(wǎng)站自身權(quán)重給予相應(yīng)的排名顯示。并查詢及點擊日志,對搜索用戶的搜索做統(tǒng)計,最后根據(jù)該用戶搜索習(xí)慣給出相應(yīng)結(jié)果。

關(guān)鍵詞:原理,結(jié)構(gòu),索引

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉