搜索引擎的工作過程大體上可以分成三個階段。" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 電子商務(wù) > 搜索引擎工作原理簡介(1)

搜索引擎工作原理簡介(1)

時間:2023-03-17 02:20:01 | 來源:電子商務(wù)

時間:2023-03-17 02:20:01 來源:電子商務(wù)

搜索引擎工作過程非常復(fù)雜,接下來的幾節(jié)我們簡單介紹搜索引擎是怎樣實現(xiàn)網(wǎng)頁排名的。這里介紹的內(nèi)容相對于真正的搜索引擎技術(shù)來說只是皮毛,不過對SEO人員已經(jīng)足夠用了。

搜索引擎的工作過程大體上可以分成三個階段。

(1)爬行和抓?。核阉饕嬷┲胪ㄟ^跟蹤鏈接訪問網(wǎng)頁,獲得頁面HTML代碼存入數(shù)據(jù)庫。

(2)預(yù)處理:索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進行文字提取、中文分詞、索引等處理,以備排:名程序調(diào)用。

(3)排名:用戶輸入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。

爬行和抓取

爬行和抓取是搜索引擎工作的第一步,完成數(shù)據(jù)收集的任務(wù)。

1.蜘蛛

搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider), 也稱為機器人(bot)。

搜索引擎蜘蛛訪問網(wǎng)站頁面時類似于普通用戶使用的瀏覽器。蜘蛛程序發(fā)出頁面訪問請求后,服務(wù)器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。搜索引擎為了提高爬行和抓取速度,都使用多個蜘蛛并發(fā)分布爬行。

蜘蛛訪問任何一個網(wǎng)站時,都會先訪問網(wǎng)站根目錄下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。

和瀏覽器一樣,搜索引擎蜘蛛也有標明自己身份的代理名稱,站長可以在日志文件中看到搜索引擎的特定代理名稱,從而辨識搜索引擎蜘蛛。下面列出常見的搜索引擎蜘蛛名稱:

Baidupitrthtp://http://ww.baidu.com/search/spide.htm)百度蜘蛛

Mozilla/5.0 (compatible; Yahoo! Slurp China; htp://http://misc.yahoo.com.cn/help.htm1) 雅虎中國蜘蛛

Mila/5.0 (compatible; Yahoo! Slurp/3.0; htp:/:/http://elp.yahoo.com/help/us/ysearc/slurp)英文雅虎蜘蛛

Moilla/5.0 (compatible; Googlebot2.1; ttp://http://www.oogle.com/bot.htmI) Google蜘蛛

msnbot/1.1 (thtp://http://search.msn.com/msnbot.htm) 微軟Bing 蜘蛛

Sogou+webtrobot+(ttp://http://www.sogou.com/docs/help/webmasters. htm#07)搜狗蜘蛛

Sososricr+htp://help.soso.comn/webspider.htm)搜搜蜘蛛

Mozila/5.0 (compatible; YodaoBot/1.0; htp://www.yoo.om/help/webmastr/spider; )有道蜘蛛

(未完待續(xù))


學(xué)習(xí)建站了解建站能做什么可以看看上面回答哦!!

關(guān)鍵詞:原理,工作,索引

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉