搜索引擎工作原理和步驟
時間:2024-01-20 05:40:01 | 來源:網(wǎng)絡(luò)推廣
時間:2024-01-20 05:40:01 來源:網(wǎng)絡(luò)推廣
搜索引擎工作原理和步驟要了解搜索引擎優(yōu)化,首先要了解搜索引擎的基本工作原理。
從這個原理出發(fā),才可以摸索出搜索引擎優(yōu)化更深層次的內(nèi)涵。
提示:“搜索引擎”分類很繁雜,可以包含全文索引、目錄索引、元搜索、垂直搜索等#本書中提到的“搜索引擎”,特指全文索引的搜索引擎,也就是日常在網(wǎng)絡(luò)中使用的谷歌、百度等主流搜索引擎平臺。
1#爬行和抓取搜索引擎開始工作的時候,首先會派出一個能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓取文件的程序(這個程序通常被稱為蜘蛛Spider、爬蟲Crawler或機器人Robot) , 這個程序從搜索引擎自身數(shù)據(jù)庫中已知的網(wǎng)頁出發(fā),像正常用戶的瀏覽器一樣訪問已存在的網(wǎng)頁上的鏈接,并根據(jù)鏈接抓取文件。
提示:“蜘蛛”(Spider) 、“爬蟲”(Crawler) 、“機器人”(Robot) 這三種不同叫法的實質(zhì)意義其實類似,在本書中不做嚴(yán)格區(qū)分。
一般情況下,可以理解為三者可以相互替換,“蜘蛛”在訪問已知的網(wǎng)頁后,會跟蹤網(wǎng)頁上的鏈接,并訪問更多的網(wǎng)頁,這個過程叫做爬行。
當(dāng)通過鏈接發(fā)現(xiàn)有新的網(wǎng)址時,“蜘蛛”就把新的網(wǎng)址記入搜索引擎自己的數(shù)據(jù)庫,等待抓取。
為搜索引擎優(yōu)化的最基本方法之一。
跟蹤網(wǎng)頁鏈接是搜索引擎“蜘蛛”發(fā)現(xiàn)新網(wǎng)址的最基本方法,所以網(wǎng)頁鏈接的優(yōu)化也就成搜索引擎“蜘蛛”抓取的頁面文件,往往與用戶瀏覽器中看到的頁面大不相同,“蜘蛛”會將這些抓取的網(wǎng)頁文件存入數(shù)據(jù)庫,以待后用。
2#索引搜索引擎程序把“蜘蛛”抓取的網(wǎng)頁文件分解、分析,并以某種特定的形式存入自己的龐大數(shù)據(jù)庫,這個過程就是索引。
在索引數(shù)據(jù)庫中,網(wǎng)頁的文字內(nèi)容、關(guān)鍵詞出現(xiàn)的位置、字體、顏色等信息都有相應(yīng)的記錄。
提示:搜索引擎索引數(shù)據(jù)庫存儲巨量數(shù)據(jù),主流搜索引擎通常都有幾億、幾十億條網(wǎng)頁。
3#搜索詞處理用戶在搜索引擎界面輸入關(guān)鍵詞,單擊“搜索”按鈕后,搜索引擎程序立即對輸入的搜索詞進行處理,如圖1-3所示。
這個處理過程很煩瑣,而且中間的過程對用戶而言是不可見的,也是搜索引擎的核心機密之一。
常見的搜索詞處理包括中文的分詞、關(guān)鍵詞詞序的辨別、去除停止詞、判斷是否需要啟動整合搜索、判斷是否有拼寫錯誤或錯別字等,如圖1-4所示。
在網(wǎng)站的結(jié)構(gòu)優(yōu)化當(dāng)中,片面的理解物理結(jié)構(gòu)和邏輯結(jié)構(gòu)的優(yōu)化都是不行的,應(yīng)當(dāng)綜合考量。
比如,不管內(nèi)容頁所處的目錄層級有多深,只要該頁有一個或者大量來自其他網(wǎng)站的外部鏈接和內(nèi)部網(wǎng)站的大量內(nèi)部鏈接,它同樣會被搜索引擎快速發(fā)現(xiàn),并給予高的權(quán)重。