搜索引擎工作原理簡介(1)
時間:2023-03-17 02:20:01 | 來源:電子商務(wù)
時間:2023-03-17 02:20:01 來源:電子商務(wù)
搜索引擎工作過程非常復(fù)雜,接下來的幾節(jié)我們簡單介紹搜索引擎是怎樣實現(xiàn)網(wǎng)頁排名的。這里介紹的內(nèi)容相對于真正的搜索引擎技術(shù)來說只是皮毛,不過對SEO人員已經(jīng)足夠用了。
搜索引擎的工作過程大體上可以分成三個階段。
(1)爬行和抓?。核阉饕嬷┲胪ㄟ^跟蹤鏈接訪問網(wǎng)頁,獲得頁面HTML代碼存入數(shù)據(jù)庫。
(2)預(yù)處理:索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進行文字提取、中文分詞、索引等處理,以備排:名程序調(diào)用。
(3)排名:用戶輸入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。
爬行和抓取爬行和抓取是搜索引擎工作的第一步,完成數(shù)據(jù)收集的任務(wù)。
1.蜘蛛
搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider), 也稱為機器人(bot)。
搜索引擎蜘蛛訪問網(wǎng)站頁面時類似于普通用戶使用的瀏覽器。蜘蛛程序發(fā)出頁面訪問請求后,服務(wù)器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。搜索引擎為了提高爬行和抓取速度,都使用多個蜘蛛并發(fā)分布爬行。
蜘蛛訪問任何一個網(wǎng)站時,都會先訪問網(wǎng)站根目錄下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。
和瀏覽器一樣,搜索引擎蜘蛛也有標明自己身份的代理名稱,站長可以在日志文件中看到搜索引擎的特定代理名稱,從而辨識搜索引擎蜘蛛。下面列出常見的搜索引擎蜘蛛名稱:
Baidupitrthtp://
http://ww.baidu.com/search/spide.htm)百度蜘蛛
Mozilla/5.0 (compatible; Yahoo! Slurp China; htp://
http://misc.yahoo.com.cn/help.htm1) 雅虎中國蜘蛛
Mila/5.0 (compatible; Yahoo! Slurp/3.0; htp:/:/
http://elp.yahoo.com/help/us/ysearc/slurp)英文雅虎蜘蛛
Moilla/5.0 (compatible; Googlebot2.1; ttp://
http://www.oogle.com/bot.htmI) Google蜘蛛
msnbot/1.1 (thtp://
http://search.msn.com/msnbot.htm) 微軟Bing 蜘蛛
Sogou+webtrobot+(ttp://
http://www.sogou.com/docs/help/webmasters. htm#07)搜狗蜘蛛
Sososricr+htp://help.soso.comn/webspider.htm)搜搜蜘蛛
Mozila/5.0 (compatible; YodaoBot/1.0; htp://www.yoo.om/help/webmastr/spider; )有道蜘蛛
(未完待續(xù))
學(xué)習(xí)建站了解建站能做什么可以看看上面回答哦!!