降低工作難度
輕松快速抓取頁面
準(zhǔn)確提取頁面內(nèi)容頁面權(quán)重意味權(quán)威度高、內(nèi)容可靠
參與相關(guān)性計(jì)算的基本條件2.1搜索引擎與目錄搜索引擎自動化蜘蛛爬行
頁面收錄
排序收錄數(shù)量多質(zhì)量" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

首頁

解決方案&服務(wù)

客戶&案例

營銷資訊

關(guān)于我們

18143453325 或

在線咨詢

所在位置：首頁 > 營銷資訊 > 電子商務(wù) > 了解搜索引擎

了解搜索引擎

時(shí)間：2023-03-27 10:56:01 | 來源：電子商務(wù)

時(shí)間：2023-03-27 10:56:01 來源：電子商務(wù)

優(yōu)化網(wǎng)站作用：

減少搜索引擎工作量
降低工作難度
輕松快速抓取頁面
準(zhǔn)確提取頁面內(nèi)容

頁面權(quán)重

意味權(quán)威度高、內(nèi)容可靠
參與相關(guān)性計(jì)算的基本條件

2.1搜索引擎與目錄

搜索引擎

自動化

蜘蛛爬行
頁面收錄
排序

收錄數(shù)量多
質(zhì)量參差不齊

人工編輯分類
規(guī)模有限
更新慢

2.2面對的挑戰(zhàn)

頁面抓取需要快而全面
海量數(shù)據(jù)存儲
索引處理快速有效，具可擴(kuò)展性
查詢處理快速準(zhǔn)確
判斷用戶意圖及人工智能

2.3 搜索結(jié)果顯示格式

2.3.1 搜索結(jié)果頁面

頁面主體有兩部分最重要：一是廣告，二是自然搜索結(jié)果。

搜索廣告在網(wǎng)絡(luò)營銷行業(yè)經(jīng)常稱為PPC，由廣告商針對關(guān)鍵詞進(jìn)行競價(jià)，
SEO最關(guān)注的是占據(jù)頁面主體的自然搜索結(jié)果。
統(tǒng)計(jì)數(shù)據(jù)顯示，自然搜索結(jié)果總點(diǎn)擊訪問數(shù)要遠(yuǎn)遠(yuǎn)大于廣告點(diǎn)擊數(shù)。

2.3.2 經(jīng)典搜索結(jié)果列表

第一行是頁面標(biāo)題，通常取自頁面HTML代碼中的標(biāo)題標(biāo)簽（Title Tag）
第二行、第三行是頁面說明。
頁面說明大部分時(shí)候取自頁面HTML中的說明標(biāo)簽（Description Tag），
有時(shí)從頁面可見文字中動態(tài)抓取相關(guān)內(nèi)容。
第四行顯示多個(gè)信息。最左側(cè)是網(wǎng)址，可以看到頁面來自哪個(gè)域名，以及目錄、文件名信息。

2.3.3 整合搜索結(jié)果

2007年出現(xiàn)的整合搜索將垂直搜索內(nèi)容直接混合顯示在網(wǎng)頁搜索結(jié)果頁面上，用戶不必再點(diǎn)擊垂直導(dǎo)航鏈接。

整合內(nèi)容的優(yōu)化也是SEO可以考慮的方向。

2.3.4 全站鏈接

全站鏈接（Sitelinks）

某些權(quán)重比較高的網(wǎng)站
最權(quán)威的內(nèi)容來源
顯示三行、兩列共6個(gè)內(nèi)頁鏈接

對某些權(quán)重比較高的網(wǎng)站，當(dāng)用戶搜索一個(gè)查詢詞，這個(gè)網(wǎng)站的結(jié)果是最權(quán)威的內(nèi)容來源時(shí)，Google除了正常結(jié)果列表外，還可能顯示三行、兩列共6個(gè)內(nèi)頁鏈接，稱為全站鏈接（Sitelinks）

為權(quán)重高的網(wǎng)站提供了多幾倍的訪問入口，視覺上的醒目也大大提高了點(diǎn)擊率。

2.3.5 框計(jì)算和One-box

One-box：

> 由Google開始，稱為One-box > 百度傾向于框計(jì)算

框計(jì)算或One-box能回答的問題：通常是可結(jié)構(gòu)化的數(shù)據(jù)

諸如天氣、體育比賽成績、計(jì)算器、計(jì)量單位換算、距離計(jì)算、航班火車信息等

2.3.6 富摘要

使用schema、RDFa、Microdata、Microformats等數(shù)據(jù)標(biāo)注的頁面，
搜索引擎會嘗試從頁面提取結(jié)構(gòu)化數(shù)據(jù)，以富摘要（Rich Snippet）形式展現(xiàn)在結(jié)果列表中，
這種排版格式無疑也會提高關(guān)注度和點(diǎn)擊率。
在富摘要中顯示合適的信息，有助于說服用戶點(diǎn)擊結(jié)果

2.3.7 圖文展現(xiàn)

從2013年年底開始，百度越來越多地使用圖文展現(xiàn)方式
圖片絕大部分是從頁面正文中選取的，并且要內(nèi)容相關(guān)、清晰、橫寬比例適當(dāng)。
小部分可能來自于百度站長平臺正在內(nèi)測的Logo提交功能。
圖文展現(xiàn)作用：
直觀
提高用戶體驗(yàn)
容易快速判斷頁面內(nèi)容
頁面吸引視線、提高點(diǎn)擊率

2.3.8 知心搜索和知識圖譜
2012年Google推出知識圖譜。2013年百度推出知心搜索。
知心搜索和知識圖譜

 基于語義識別技術(shù) 將網(wǎng)上不同來源的知識點(diǎn)整合起來 以更系統(tǒng)的方式展現(xiàn)給用戶 必要的地方鏈接相應(yīng)的頁面或搜索結(jié)果 搜索人名、地名、實(shí)體、事件、專業(yè)詞匯等知識類查詢詞時(shí)經(jīng)常出現(xiàn)這種結(jié)果

2.3.9 面包屑導(dǎo)航

Google結(jié)果列表中經(jīng)常出現(xiàn)面包屑導(dǎo)航格式，原本顯示URL的地方，改為面包屑導(dǎo)航。
面包屑的每一級名稱都是指向?qū)?yīng)分類頁面的鏈接，可以直接點(diǎn)擊訪問分類頁面。
2014年12月，Google取消了這些鏈接，面包屑名稱只是純文字，不能點(diǎn)擊。

2.4 搜索引擎工作原理簡介

搜索引擎的工作過程大體上可以分成三個(gè)階段。

（1）爬行和抓?。?br>

搜索引擎蜘蛛通過跟蹤鏈接發(fā)現(xiàn)和訪問網(wǎng)頁，讀取頁面HTML代碼，存入數(shù)據(jù)庫。

（2）預(yù)處理：

索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進(jìn)行文字提取、中文分詞、索引、倒排索引等處理，以備排名程序調(diào)用。

（3）排名：

用戶輸入查詢詞后，排名程序調(diào)用索引庫數(shù)據(jù)，計(jì)算相關(guān)性，然后按一定格式生成搜索結(jié)果頁面。

2.4.1 爬行和抓取

爬行和抓取是搜索引擎工作的第一步，完成數(shù)據(jù)收集的任務(wù)。

1．蜘蛛

蜘蛛（spider）或機(jī)器人（bot）：搜索引擎用來爬行和訪問頁面的程序

搜索引擎蜘蛛訪問網(wǎng)站頁面時(shí)類似于普通用戶使用的瀏覽器。
蜘蛛程序發(fā)出頁面訪問請求后，服務(wù)器返回HTML代碼，蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。
搜索引擎使用多個(gè)蜘蛛并發(fā)分布爬行

先訪問網(wǎng)站根目錄下的robots.txt文件。
如果robots.txt文件禁止搜索引擎抓取某些文件或目錄，蜘蛛將遵守協(xié)議，不抓取被禁止的網(wǎng)址。
蜘蛛有標(biāo)明自己身份的用戶代理名稱
可以在日志文件中看到搜索引擎的特定用戶代理，從而辨識搜索引擎蜘蛛。

常見的搜索引擎蜘蛛名稱：

(1) 百度蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.htm) (2) 360蜘蛛:Mozilla/5.0(Windows; U; Windows NT 5.1; zh-CN;)Firefox/1.5.0.11;360Spider (3) 英文雅虎:Mozilla/5.0 ? (compatible;Yahoo!Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp) (4) Google蜘蛛:Mozilla/5.0 (compatible; Googlebot/2.1;+http://www.google.com/bot.html) (5) Google移動蜘蛛:Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html) (6) 微軟Bing蜘蛛:Mozilla/5.0 (compatible; bingbot/2.0;+http://www.bing.com/bingbot.htm) (7) 搜狗蜘蛛:Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07) (8) 有道蜘蛛:Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)

2．跟蹤鏈接

搜索引擎蜘蛛名稱的由來：

整個(gè)互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁面組成
搜索引擎蜘蛛跟蹤頁面上的鏈接，從一個(gè)頁面爬到下一個(gè)頁面，就好像蜘蛛在蜘蛛網(wǎng)上爬行那樣

爬行遍歷策略分為兩種，一種是深度優(yōu)先，另一種是廣度優(yōu)先

(1) 深度優(yōu)先：蜘蛛沿著發(fā)現(xiàn)的鏈接一直向前爬行，直到前面再也沒有其他鏈接，然后返回到第一個(gè)頁面，沿著另一個(gè)鏈接再一直往前爬行

(2) 廣度優(yōu)先：蜘蛛在一個(gè)頁面上發(fā)現(xiàn)多個(gè)鏈接時(shí)，不是順著一個(gè)鏈接一直向前，而是把頁面上所有第一層鏈接都爬一遍，然后再沿著第二層頁面上發(fā)現(xiàn)的鏈接爬向第三層頁面。

最大的搜索引擎也只是爬行和收錄了互聯(lián)網(wǎng)的一小部分。

3．吸引蜘蛛

要想讓自己的更多頁面被收錄，就要想方設(shè)法吸引蜘蛛來抓取
幾方面影響蜘蛛抓取頁面的因素。

1.網(wǎng)站和頁面權(quán)重。
2.頁面更新度。
3.導(dǎo)入鏈接。
4.與首頁點(diǎn)擊距離。 ##網(wǎng)站上權(quán)重最高的是首頁
5.URL結(jié)構(gòu)。 ##短的、層次淺的URL被直觀認(rèn)為在網(wǎng)站上的權(quán)重相對較高

4．地址庫

搜索引擎會建立一個(gè)地址庫，記錄已經(jīng)被發(fā)現(xiàn)、但還沒有抓取的頁面，以及已經(jīng)被抓取的頁面。

蜘蛛在頁面上發(fā)現(xiàn)鏈接后并不是馬上就去訪問，而是將URL存入地址庫，然后統(tǒng)一安排抓取。

地址庫中的URL有幾個(gè)來源：

 （1）人工錄入的種子網(wǎng)站 （2）蜘蛛從HTML中解析出新的鏈接URL，與地址庫中的數(shù)據(jù)進(jìn)行對比，地址庫中沒有的網(wǎng)址，存入待訪問地址庫。 （3）通過搜索引擎網(wǎng)頁提交表格提交進(jìn)來的網(wǎng)址。 （4）通過XML網(wǎng)站地圖、站長平臺提交的網(wǎng)址。

搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的

5．文件存儲

搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。
其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。
每個(gè)URL都有一個(gè)獨(dú)特的文件編號。

6．爬行時(shí)的復(fù)制內(nèi)容檢測

蜘蛛在爬行和抓取文件時(shí)也會進(jìn)行一定程度的復(fù)制內(nèi)容檢測。

遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時(shí)，很可能不再繼續(xù)爬行。

2.4.2 預(yù)處理

“預(yù)處理”簡稱為“索引”，索引是預(yù)處理最主要的內(nèi)容。

搜索引擎蜘蛛抓取的原始頁面，并不能直接用于查詢排名處理，必須經(jīng)過預(yù)處理，為最后的查詢排名做好準(zhǔn)備。

1．提取文字

搜索引擎以文字內(nèi)容為基礎(chǔ)。蜘蛛抓取到的頁面HTML代碼，預(yù)處理首先要做的是從HTML文件中去除標(biāo)簽、程序，提取出可以用于排名處理的頁面文字內(nèi)容。

 <div id="post-1100" class="post-1100 post hentry category-seo"> <div class="posttitle"> <h2><a href="http://www.gzhytextile.com/h-nd-9.html#_np=105_337"        rel="bookmark" title="什么是經(jīng)編網(wǎng)眼布">什么是經(jīng)編網(wǎng)眼布</a></h2>

除去HTML代碼后，剩下的用于排名的文字只是這一行：

什么是經(jīng)編網(wǎng)眼布

除了可見文字，搜索引擎也會提取出一些特殊的包含文字信息的代碼
Meta標(biāo)簽中的文字、圖片替代文字、Flash文件的替代文字、鏈接錨文字等。

2．中文分詞

分詞是中文搜索引擎特有的步驟。搜索引擎存儲和處理頁面內(nèi)容及用戶查詢都是以詞為基礎(chǔ)的。
中文分詞方法基本上有兩種，一種是基于詞典匹配，另一種是基于統(tǒng)計(jì)。

(1). 基于詞典匹配的方法是：將待分析的一段漢字與一個(gè)事先造好的詞典中的詞條進(jìn)行匹配，在待分析漢字串中掃描到詞典中已有的詞條則匹配成功，切分出一個(gè)單詞。

按照掃描方向，基于詞典的匹配法可以分為:正向匹配和逆向匹配
按照匹配長度優(yōu)先級的不同，又可以分為:最大匹配和最小匹配
將掃描方向和長度優(yōu)先混合，又可以產(chǎn)生正向最大匹配、逆向最大匹配等不同方法。

詞典匹配方法計(jì)算簡單，其準(zhǔn)確度在很大程度上取決于詞典的完整性和更新情況

(2). 基于統(tǒng)計(jì)的分詞方法：分析大量文字樣本，計(jì)算出字與字相鄰出現(xiàn)的統(tǒng)計(jì)概率，幾個(gè)字相鄰出現(xiàn)越多，就越可能形成一個(gè)單詞。

基于統(tǒng)計(jì)的方法的優(yōu)勢是對新出現(xiàn)的詞反應(yīng)更快速，也有利于消除歧義

基于詞典匹配和基于統(tǒng)計(jì)的分詞方法各有優(yōu)劣，分詞系統(tǒng)都是混合使用兩種方法的，快速高效，又能識別生詞、新詞，消除歧義。

中文分詞的準(zhǔn)確性往往影響搜索引擎排名的相關(guān)性。
搜索引擎對頁面的分詞取決于詞庫的規(guī)模、準(zhǔn)確性和分詞算法的好壞，而不是取決于頁面本身如何

唯一能做的是在頁面上用某種形式提示搜索引擎，
比如在頁面標(biāo)題、h1標(biāo)簽及黑體中出現(xiàn)關(guān)鍵詞

3．去停止詞

停止詞：頁面內(nèi)容中都會有一些出現(xiàn)頻率很高，卻對內(nèi)容沒有任何影響的詞

中文常見的：

如“的”、“地”、“得”之類的助詞，
“啊”、“哈”、“呀”之類的感嘆詞，
“從而”、“以”、“卻”之類的副詞或介詞

英文中的常見停止詞有the, a, an, to, of等

搜索引擎在索引頁面之前會去掉這些停止詞，使索引數(shù)據(jù)主題更為突出，減少無謂的計(jì)算量。

4．消除噪聲

對頁面主題也沒有什么貢獻(xiàn)，對頁面主題只能起到分散作用，這些區(qū)塊都屬于噪聲

比如版權(quán)聲明文字、導(dǎo)航條、廣告等

搜索引擎需要識別并消除這些噪聲，排名時(shí)不使用噪聲內(nèi)容。

5．去重

搜索引擎需要對頁面進(jìn)行去重處理。
在進(jìn)行索引前還需要識別和刪除重復(fù)內(nèi)容，這個(gè)過程就稱為“去重”。
“去重”的基本方法是對頁面特征關(guān)鍵詞計(jì)算指紋：

從頁面主體內(nèi)容中選取最有代表性的一部分關(guān)鍵詞（經(jīng)常是出現(xiàn)頻率最高的關(guān)鍵詞），
然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋。
關(guān)鍵詞選取是在分詞、去停止詞、消噪之后。

典型的指紋計(jì)算方法如MD5算法。

6．正向索引

正向索引也可以簡稱為索引。

搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鍵詞形成詞表結(jié)構(gòu)存儲進(jìn)索引庫。簡化的索引詞表形式如圖所示：

每個(gè)文件都對應(yīng)一個(gè)文件ID，文件內(nèi)容被表示為一串關(guān)鍵詞的集合。實(shí)這樣的數(shù)據(jù)結(jié)構(gòu)就稱為正向索引。

7．倒排索引

正向索引還不能直接用于排名。

搜索引擎會將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引把文件對應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射，如表圖所示：

在倒排索引中關(guān)鍵詞是主鍵，每個(gè)關(guān)鍵詞都對應(yīng)著一系列文件，這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。

8．鏈接關(guān)系計(jì)算

鏈接關(guān)系計(jì)算也是預(yù)處理中很重要的一部分。

所有的主流搜索引擎排名因素中都包含網(wǎng)頁之間的鏈接流動信息。

Google PR值就是這種鏈接關(guān)系的最主要體現(xiàn)之一。

9．特殊文件處理

除了HTML文件外，搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型，如PDF、Word、WPS、XLS、PPT、TXT文件等。

目前的搜索引擎還不能處理圖片和視頻，對Flash這類非文字內(nèi)容，以及腳本和程序只能進(jìn)行有限的處理。

10．質(zhì)量判斷

在預(yù)處理階段，搜索引擎會對頁面內(nèi)容質(zhì)量、鏈接質(zhì)量等作出判斷。

質(zhì)量判斷包含很多因素，并不局限于針對關(guān)鍵詞的提取和計(jì)算，或者針對鏈接進(jìn)行數(shù)值計(jì)算。

比如對頁面內(nèi)容的判斷，很可能包括了用戶體驗(yàn)、頁面排版、廣告布局、語法、頁面打開速度等，
也可能會涉及模式識別、機(jī)器學(xué)習(xí)、人工智能等方法。

2.4.3 排名

用戶在搜索框填入查詢詞后，排名程序調(diào)用索引庫數(shù)據(jù)，計(jì)算排名顯示給用戶，排名過程是與用戶直接互動的。

1．搜索詞處理

搜索詞處理包括如下幾方面：

（1）中文分詞?！獙⒉樵冏址D(zhuǎn)換為以詞為基礎(chǔ)的關(guān)鍵詞組合

（2）去停止詞?！畲笙薅鹊靥岣吲琶嚓P(guān)性及效率。

（3）指令處理。——默認(rèn)處理方式是在關(guān)鍵詞之間使用“與”邏輯。

（4）拼寫錯(cuò)誤矯正。

（5）整合搜索觸發(fā)。

（6）搜索框提示?！鶕?jù)熱門搜索數(shù)據(jù)給出多組可能的查詢詞

2．文件匹配

以詞為基礎(chǔ)的關(guān)鍵詞集合，文件匹配階段就是找出含有所有搜索關(guān)鍵詞的所有文件。

3．初始子集的選擇

用于最后相關(guān)性計(jì)算的初始頁面子集的選擇，依靠其他特征而不是相關(guān)性，其中最主要的就是頁面權(quán)重。

4．相關(guān)性計(jì)算

計(jì)算相關(guān)性是排名過程中最重要的一步。相關(guān)性計(jì)算是搜索引擎算法中最令SEO感興趣的部分。
影響相關(guān)性的主要因素包括以下幾方面：

（1）關(guān)鍵詞常用程度。

越常用的詞對搜索詞的意義貢獻(xiàn)越小，越不常用的詞對搜索詞的意義貢獻(xiàn)越大。
搜索引擎對搜索詞串中的關(guān)鍵詞并不是一視同仁地處理，而是根據(jù)常用程度進(jìn)行加權(quán)。
不常用的詞加權(quán)系數(shù)高，常用詞加權(quán)系數(shù)低，排名算法對不常用的詞給予更多關(guān)注。

（2）詞頻及密度。

在沒有關(guān)鍵詞堆積的情況下，搜索詞在頁面中出現(xiàn)的次數(shù)越多，密度越高，說明頁面與搜索詞越相關(guān)。

（3）關(guān)鍵詞位置及形式。

關(guān)鍵詞出現(xiàn)在比較重要的位置，說明頁面與關(guān)鍵詞越相關(guān)，如標(biāo)題標(biāo)簽、黑體、H1等

（4）關(guān)鍵詞距離。

切分后的關(guān)鍵詞完整匹配地出現(xiàn)，說明與搜索詞最相關(guān)。

（5）鏈接分析及頁面權(quán)重。

頁面有越多以搜索詞為錨文字的導(dǎo)入鏈接，說明頁面的相關(guān)性越強(qiáng)。

5．排名過濾及調(diào)整

一些有作弊嫌疑的頁面，雖然按照正常的權(quán)重和相關(guān)性計(jì)算排到前面，但搜索引擎的懲罰算法卻可能在最后一步把這些頁面調(diào)到后面去。

6．排名顯示

 調(diào)用原始頁面的標(biāo)題標(biāo)簽、說明標(biāo)簽、快照日期等數(shù)據(jù)顯示 有時(shí)候動態(tài)生成頁面摘要

7．搜索緩存

把最常見的搜索詞及結(jié)果存入緩存，用戶搜索時(shí)直接從緩存中調(diào)用

8．查詢及點(diǎn)擊日志

搜索用戶的IP地址、搜索的查詢詞、搜索時(shí)間，以及點(diǎn)擊了哪些結(jié)果頁面，搜索引擎都記錄形成日志。
日志文件中的數(shù)據(jù)對搜索引擎判斷搜索結(jié)果質(zhì)量、調(diào)整搜索算法、預(yù)期搜索趨勢等有重要意義

2.5 鏈接原理

現(xiàn)在的搜索引擎都使用鏈接分析技術(shù)減少垃圾，提高用戶體驗(yàn)。
在排名中計(jì)入鏈接因素，使傳統(tǒng)關(guān)鍵詞匹配無法排名的文件能夠被處理。
通過鏈接信息，搜索引擎就可以了解圖片和視頻的內(nèi)容從而排名。
鏈接因素現(xiàn)在已經(jīng)超過頁面內(nèi)容的重要性。不過理解鏈接關(guān)系比較抽象。
鏈接對排名的影響就無法直觀了解，也很難進(jìn)行統(tǒng)計(jì)，只能做定性觀察和分析。

2.5.1 李彥宏超鏈分析專利

李彥宏1997年就提交了一份名為“超鏈文件檢索系統(tǒng)和方法”的專利申請。

提出了與傳統(tǒng)信息檢索系統(tǒng)不同的基于鏈接的排名方法。

除了索引頁面之外，還建立一個(gè)鏈接詞庫，記錄鏈接錨文字的一些相關(guān)信息，

如錨文字中包含哪些關(guān)鍵詞，發(fā)出鏈接的頁面索引，包含特定錨文字的鏈接總數(shù)，包含特定關(guān)鍵詞的鏈接都指向哪些頁面。
詞庫不僅包含關(guān)鍵詞原型，也包含同一個(gè)詞干的其他衍生關(guān)鍵詞。

根據(jù)鏈接數(shù)據(jù)，尤其是錨文字，計(jì)算出基于鏈接的文件相關(guān)性。

在用戶搜索時(shí)，將得到的基于鏈接的相關(guān)性與基于關(guān)鍵詞匹配的傳統(tǒng)相關(guān)性綜合使用，得到更準(zhǔn)確的排名。

2.5.2 HITS算法

HITS是英文Hyperlink-Induced Topic Search的縮寫，意譯為“超鏈誘導(dǎo)主題搜索”。

HITS算法由Jon Kleinberg于1997年提出，并申請了專利。

按照HITS算法，用戶輸入查詢詞后，算法對返回的匹配頁面計(jì)算兩種值：

一種是樞紐值（Hub Scores），另一種是權(quán)威值（Authority Scores），這兩個(gè)值是互相依存、互相影響的。

樞紐值，指的是頁面上所有導(dǎo)出鏈接指向頁面的權(quán)威值之和。
權(quán)威值指的是所有導(dǎo)入鏈接所在頁面的樞紐值之和。

HITS算法是針對特定查詢詞的，所以稱為主題搜索。
HITS算法的最大缺點(diǎn)是，它在查詢階段進(jìn)行計(jì)算，而不是在抓取或預(yù)處理階段。

2.5.3 TrustRank算法

TrustRank是基于鏈接關(guān)系的排名算法。TrustRank可以翻譯為“信任指數(shù)”。

TrustRank算法最初來自于2004年斯坦福大學(xué)和雅虎的一項(xiàng)聯(lián)合研究，用來檢測垃圾網(wǎng)站，并且于2006年申請專利。

Google商標(biāo)中的TrustRank指的是Google檢測含有惡意代碼網(wǎng)站的方法，而不是指排名算法中的信任指數(shù)。

TrustRank算法基于一個(gè)基本假設(shè)：好的網(wǎng)站很少會鏈接到壞的網(wǎng)站。反之則不成立

很多垃圾網(wǎng)站會鏈接到高權(quán)威、高信任指數(shù)的網(wǎng)站，試圖提高自己的信任指數(shù)。

計(jì)算TrustRank值首先要選擇一批種子網(wǎng)站，然后人工查看網(wǎng)站，設(shè)定一個(gè)初始TrustRank值。

挑選種子網(wǎng)站有兩種方式：

一種是選擇導(dǎo)出鏈接最多的網(wǎng)站，因?yàn)門rustRank算法就是計(jì)算指數(shù)隨著導(dǎo)出鏈接的衰減。
另一種挑選種子網(wǎng)站的方法是選PR值高的網(wǎng)站，因?yàn)镻R值越高，在搜索結(jié)果頁面出現(xiàn)的概率就越大。

根據(jù)測算，挑選出兩百個(gè)左右網(wǎng)站作為種子，就可以比較精確地計(jì)算出所有網(wǎng)站的TrustRank值。

計(jì)算TrustRank隨鏈接關(guān)系減少的公式有兩種方式：

A.一種是隨鏈接次數(shù)衰減，也就是說如果第一層頁面TrustRank指數(shù)是100，第二層頁面衰減為90，第三層衰減為80。
B.第二種計(jì)算方法是按導(dǎo)出鏈接數(shù)目分配TrustRank值，也就是說，如果一個(gè)頁面的TrustRank值是100，頁面上有5個(gè)導(dǎo)出鏈接，每個(gè)鏈接將傳遞20%的TrustRank值。

衰減和分配這兩種計(jì)算方法通常綜合使用，整體效果都是隨著鏈接層次的增加，TrustRank值逐步降低。

得出網(wǎng)站和頁面的TrustRank值后，可以通過兩種方式影響排名：

一種是把傳統(tǒng)排名算法挑選出的相關(guān)頁面，根據(jù)TrustRank值比較，重新做排名調(diào)整。
另一種是設(shè)定一個(gè)最低的TrustRank值門檻，只有超過這個(gè)門檻的頁面，才被認(rèn)為有足夠的質(zhì)量進(jìn)入排名，低于門檻的頁面將被認(rèn)為是垃圾頁面，從搜索結(jié)果中過濾出去。

現(xiàn)在的搜索引擎排名算法中，TrustRank概念使用更為廣泛，常常影響大部分網(wǎng)站的整體排名。

在搜索引擎算法中，TrustRank值也通常表現(xiàn)在域名級別，整個(gè)域名的信任指數(shù)越高，整體排名能力就越強(qiáng)。

2.5.4 Google PR

PR是PageRank的縮寫。

Google PR理論是所有基于鏈接的搜索引擎理論中最有名的。

PR是Google創(chuàng)始人之一拉里佩奇發(fā)明的，用于表示頁面重要性的概念。

即，反向鏈接越多的頁面就是越重要的頁面，因此PR值也就越高。

1．PR的概念和計(jì)算

互聯(lián)網(wǎng)由結(jié)點(diǎn)及鏈接組成的有向圖，頁面就是一個(gè)個(gè)結(jié)點(diǎn)，頁面之間的有向鏈接傳遞著頁面的重要性。

一個(gè)鏈接傳遞的PR值決定于鏈接所在頁面的PR值，發(fā)出鏈接的頁面本身PR值越高，所能傳遞出去的PR也越高。

傳遞的PR值也取決于頁面上的導(dǎo)出鏈接數(shù)目。

一個(gè)頁面的PR值取決于導(dǎo)入鏈接總數(shù)，鏈接源頁面的PR值，以及鏈接源頁面上的導(dǎo)出鏈接數(shù)目。
PR值計(jì)算公式是：
PR(A)=(1-d)+d(PR(t1)/C(t1)+ … +PR(tn)/C(tn))
A代表頁面A。
PR(A)則代表頁面A的PR值。
d為阻尼指數(shù)。通常認(rèn)為d=0.85。
t1…tn代表鏈接向頁面A的頁面t1到tn。
C代表頁面上的導(dǎo)出鏈接數(shù)目。
C(t1)即為頁面t1上的導(dǎo)出鏈接數(shù)目。

從概念及計(jì)算公式都可以看到，PR值必須經(jīng)過多次迭代計(jì)算才能得到。

2．PR的兩個(gè)比喻模型

一個(gè)比喻是投票。

鏈接就像民主投票一樣，A頁面鏈接到B頁面，就意味著A頁面對B頁面投了一票，使得B頁面的重要性提高。
同時(shí)，A頁面本身的PR值決定了A所能投出去的投票力，PR值越高的頁面，投出的票也更重要。
傳統(tǒng)基于關(guān)鍵詞匹配的算法是看頁面自己說頁面內(nèi)容是什么，基于鏈接的PR則是看別人怎么評價(jià)一個(gè)頁面。

第二個(gè)是隨機(jī)沖浪比喻。

所謂PR值，就是一個(gè)頁面在這種隨機(jī)沖浪訪問中被訪問到的概率。
一個(gè)頁面導(dǎo)入鏈接越多，被訪問到的概率就越高，因此PR值也越高。

3．工具條PR

工具條PR值并不是真實(shí)PR值的精確反映。

A.真實(shí)PR值是一個(gè)準(zhǔn)確的、大于0.15、沒有上限的數(shù)字，工具條上顯示的PR值已經(jīng)規(guī)范化為0～10這11個(gè)數(shù)字，是一個(gè)整數(shù)。
B.真正的PR值是不間斷計(jì)算更新中的，工具條PR值只是某一個(gè)時(shí)間點(diǎn)上真實(shí)PR值的簡化快照輸出。
c.工具條PR與反向鏈接數(shù)目呈對數(shù)關(guān)系，而不是線性關(guān)系。

4．關(guān)于PR的幾個(gè)誤解

準(zhǔn)確地說PageRank這個(gè)名字應(yīng)該翻譯為佩奇級別，而不是頁面級別。

不過約定俗成，再加上巧妙的一語雙關(guān)，大家都把PR稱為頁面級別。

PR值只與鏈接有關(guān)。

有反向鏈接就有PR，沒有反向鏈接就沒有PR。

工具條PR值更新與頁面排名變化在時(shí)間上沒有對應(yīng)關(guān)系。

5．PR的意義

PR是Google排名算法中的重要因素之一。除了直接影響排名，PR的重要性還體現(xiàn)在下面幾點(diǎn)：

（1）網(wǎng)站收錄深度和總頁面數(shù)。

（2）訪問及更新頻率。

（3）重復(fù)內(nèi)容判定。

（4）排名初始子集的選擇。

2.5.5 Hilltop算法

Hilltop算法是由Krishna Baharat在2000年左右所研究的，于2001年申請了專利，并且把專利授權(quán)給Google使用.

Hilltop算法可以簡單理解為與主題相關(guān)的PR值。

Hilltop算法同樣是計(jì)算鏈接關(guān)系，不過它更關(guān)注來自主題相關(guān)頁面的鏈接權(quán)重。

在Hilltop算法中把主題相關(guān)頁面稱為專家文件。

按Hilltop算法的最初構(gòu)想，一個(gè)頁面至少要有兩個(gè)來自專家文件的鏈接，才能返回一定的Hilltop值，不然返回的Hilltop值將為零。

根據(jù)專家文件鏈接計(jì)算的分值被稱為LocalRank。

排名程序根據(jù)LocalRank值，對原本傳統(tǒng)排名算法計(jì)算的排名做重新調(diào)整，給出最后排名。這是搜索引擎排名階段最后的過濾和調(diào)整步驟。

Hilltop算法提示SEO，建設(shè)外部鏈接時(shí)更應(yīng)該關(guān)注主題相關(guān)，并且本身排名就不錯(cuò)的網(wǎng)站和頁面。

2.6 用戶怎樣瀏覽和點(diǎn)擊搜索結(jié)果

2.6.1 英文搜索結(jié)果頁面

頁面瀏覽最主要的研究方法是視線跟蹤（eye-tracking），使用特殊的設(shè)備跟蹤用戶目光在結(jié)果頁面上的瀏覽及點(diǎn)擊數(shù)據(jù)。

2.6.2 中文搜索結(jié)果頁面

中文搜索結(jié)果點(diǎn)擊率沒有英文那樣急劇下降的趨勢。

預(yù)估中文關(guān)鍵詞流量時(shí)，不能照搬英文點(diǎn)擊數(shù)據(jù)，要參考自己網(wǎng)站的點(diǎn)擊數(shù)據(jù)。

2.6.3 整合搜索及個(gè)人化搜索

用戶視線及點(diǎn)擊的最新趨勢幾個(gè)提示：

A. 自然排名位置依然至關(guān)重要。用戶即使不知道自然排名會在搜索結(jié)果的什么地方出現(xiàn)，還會主動去尋找。
B.雖然其他干擾因素吸引了大量注意力，但還沒有吸引同等比例的點(diǎn)擊，點(diǎn)擊還是集中在自然排名上。
C.盡一切力量、方法豐富自己頁面的顯示格式，加圖片、加視頻、加入新聞源、加schema標(biāo)記形成富摘要和知心搜索/知識圖譜、加地圖和本地信息等。
D.現(xiàn)在不僅僅排名位置重要，展現(xiàn)方式也越來越重要。

2.7 高級搜索指令

2.7.1 雙引號

把搜索詞放在雙引號中，代表完全匹配搜索。

搜索結(jié)果返回的頁面包含雙引號中出現(xiàn)的所有詞，連順序也必須完全匹配。
百度和Google都支持這個(gè)指令。

使用雙引號搜索可以更準(zhǔn)確地找到特定關(guān)鍵詞的競爭對手。

2.7.2 減號

減號（-）代表搜索不包含減號后面的詞的頁面。

使用這個(gè)指令時(shí)，減號前面必須是空格，減號后面沒有空格，緊跟著需要排除的詞。
百度和Google都支持這個(gè)指令。

使用減號也可以更準(zhǔn)確地找到需要的文件，尤其是某些詞有多種意義時(shí)。

2.7.3 星號

星號（*）是常用的通配符，也可以用在搜索中。

百度不支持*號搜索指令。

2.7.4 inurl:

inurl：指令用于搜索查詢詞出現(xiàn)在URL中的頁面。

inurl：指令支持中文和英文。

由于關(guān)鍵詞出現(xiàn)在URL中對排名有一定影響，使用inurl：搜索可以更準(zhǔn)確地找到競爭對手。

2.7.5 inanchor:

inanchor：指令返回的結(jié)果是導(dǎo)入鏈接錨文字中包含搜索詞的頁面。

百度不支持inanchor：指令。

2.7.6 intitle:

intitle：指令返回的是頁面Title中包含關(guān)鍵詞的頁面。

百度和Google都支持intitle:指令。

Title是目前頁面優(yōu)化的最重要因素。

做SEO的人無論要做哪個(gè)詞的排名，都會把關(guān)鍵詞放進(jìn)Title中。
因此使用intitle指令找到的文件才是更準(zhǔn)確的競爭頁面。
如果關(guān)鍵詞只出現(xiàn)在頁面可見文字中，而沒有出現(xiàn)在Title中，大部分情況是并沒有針對關(guān)鍵詞進(jìn)行優(yōu)化，也不是有力的競爭對手。

2.7.7 allintitle:

allintitle：搜索返回的是頁面標(biāo)題中包含多組關(guān)鍵詞的文件。

例如，allintitle:SEO搜索引擎優(yōu)化，
就相當(dāng)于：intitle:SEO intitle：搜索引擎優(yōu)化，
返回的是標(biāo)題中既包含“SEO”，也包含“搜索引擎優(yōu)化”的頁面。

2.7.8 allinurl:

與allintitle：類似。

allinurl:SEO搜索引擎優(yōu)化,
就相當(dāng)于：
inurl:SEO inurl：搜索引擎優(yōu)化

2.7.9 filetype:

filetype用于搜索特定的文件格式。

百度和Google都支持filetype：指令。

百度只支持下面幾種文件格式：pdf, doc, xls, ppt, rtf, all。其中的“all”表示搜索百度所有支持的文件類型。

Google則支持所有能索引的文件格式，包括HTML、PHP等。

filetype：指令用來搜索特定的資源，比如PDF電子書、Word文件等非常有用。

2.7.10 site:

site：用來搜索某個(gè)域名下的所有文件。

比如搜索site:http://seozac.com
返回的就是http://seozac.com這個(gè)域名下的所有頁面。

這個(gè)指令是查詢網(wǎng)站收錄頁面數(shù)的最簡單方法。

不過site：指令很不準(zhǔn)確，只能作為參考。

百度site:指令還顯示了來自百度站長平臺的信息和鏈接。

2.7.11 link:

link：用來搜索某個(gè)url的反向鏈接，既包括內(nèi)部鏈接，也包括外部鏈接。

搜索：link: http://seozac.com，返回的就是http://seozac.com的反向鏈接。
搜索：link: seozac.com-site:http://seozac.com，返回的則是http://seozac.com的外部鏈接，已去除http://seozac.com域名本身的頁面

Google的link：指令返回的鏈接只是Google索引庫中的一部分，而且是近乎隨機(jī)的一部分，所以用link：指令查反向鏈接幾乎沒有用。

百度則不支持link:指令。

2.7.12 linkdomain:

linkdomain：指令只適用于雅虎，返回的是某個(gè)域名的反向鏈接。

當(dāng)年雅虎的反向鏈接數(shù)據(jù)還比較準(zhǔn)確，是SEO人員研究競爭對手外部鏈接情況的重要工具之一。

隨著雅虎放棄自己的搜索技術(shù)，這個(gè)指令已作廢。

2.7.13 related:

related：指令只適用于Google，返回的結(jié)果是與某個(gè)網(wǎng)站有關(guān)聯(lián)的頁面。

這種關(guān)聯(lián)到底指的是什么，Google并沒有明確說明，一般認(rèn)為指的是有共同外部鏈接的網(wǎng)站。

2.7.14 綜合使用高級搜索指令

例1：inurl:gov減肥

返回的就是URL中包含“gov”，頁面中有“減肥”這個(gè)詞的頁面。

例2：inurl:.http://edu.cn交換鏈接

返回的是來自．http://edu.cn，也就是學(xué)校域名上的包含“交換鏈接”這個(gè)詞的頁面

例3：inurl:.http://edu.cn intitle：交換鏈接

返回的則是來自http://edu.cn域名，標(biāo)題中包含“交換鏈接”這四個(gè)字的頁面

例4：inurl:http://edu.cn/forum/*register

返回的結(jié)果是在．http://edu.cn域名上，url中包含“forum”以及“register”這兩個(gè)單詞的頁面

例5：減肥inurl:links

返回的是與減肥有關(guān)且URL中包含“l(fā)inks”這個(gè)單詞的頁面。
很多站長把交換鏈接頁面命名為links.html等，所以這個(gè)指令返回的就是與減肥主題相關(guān)的交換鏈接頁面。

例6：allinurl:gov.cn+links

返回的是URL中包含“gov.cn”和“l(fā)inks”的頁面，也就是政府域名上的交換鏈接頁面。

關(guān)鍵詞：索引

網(wǎng)站
營銷
設(shè)計(jì)
運(yùn)營
優(yōu)化
效率
專注
電商
方案
推廣

解決方案&服務(wù)

客戶&案例

營銷資訊

關(guān)于我們

解決方案&服務(wù)

客戶&案例

營銷資訊

關(guān)于我們

微信公眾號

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果，本站不支持IE9及以下版本的瀏覽器，建議您使用谷歌Chrome瀏覽器。點(diǎn)擊下載Chrome瀏覽器

關(guān)閉

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

快捷入口

了解搜索引擎

2.1搜索引擎與目錄

2.2面對的挑戰(zhàn)

2.3 搜索結(jié)果顯示格式

2.3.1 搜索結(jié)果頁面

2.3.2 經(jīng)典搜索結(jié)果列表

2.3.3 整合搜索結(jié)果

2.3.4 全站鏈接

2.3.6 富摘要

2.3.9 面包屑導(dǎo)航

2.4 搜索引擎工作原理簡介

1．蜘蛛

2．跟蹤鏈接

3．吸引蜘蛛

4．地址庫

5．文件存儲

6．爬行時(shí)的復(fù)制內(nèi)容檢測

2.4.2 預(yù)處理

1．提取文字

2．中文分詞

3．去停止詞

4．消除噪聲

5．去重

6．正向索引

8．鏈接關(guān)系計(jì)算

9．特殊文件處理

10．質(zhì)量判斷

2.4.3 排名

1．搜索詞處理

2．文件匹配

3．初始子集的選擇

4．相關(guān)性計(jì)算

5．排名過濾及調(diào)整

6．排名顯示

7．搜索緩存

8．查詢及點(diǎn)擊日志

2.5 鏈接原理

2.5.1 李彥宏超鏈分析專利

2.5.2 HITS算法

2.5.3 TrustRank算法

2.5.4 Google PR

1．PR的概念和計(jì)算

2．PR的兩個(gè)比喻模型

3．工具條PR

4．關(guān)于PR的幾個(gè)誤解

5．PR的意義

2.5.5 Hilltop算法

2.6 用戶怎樣瀏覽和點(diǎn)擊搜索結(jié)果

2.6.1 英文搜索結(jié)果頁面

2.6.2 中文搜索結(jié)果頁面

2.6.3 整合搜索及個(gè)人化搜索

2.7.1 雙引號

2.7.2 減號

2.7.3 星號

2.7.4 inurl:

2.7.5 inanchor:

2.7.6 intitle:

2.7.7 allintitle:

2.7.8 allinurl:

2.7.9 filetype:

2.7.10 site:

2.7.11 link:

2.7.12 linkdomain:

2.7.13 related:

2.7.14 綜合使用高級搜索指令

推薦文章

如何自定義瀏覽器搜索引擎

30年來搜索引擎發(fā)展史

【滲透神器系列】搜索引擎

搜索引擎在尋找什么?

搜索引擎發(fā)展簡史

網(wǎng)絡(luò)安全之“搜索引擎hacking”【初篇】

全球Top50搜索引擎排名及其市場份額

谷歌SEO是什么，谷歌搜索引擎優(yōu)化怎么做

打造一個(gè)藍(lán)奏云網(wǎng)盤搜索引擎

來體驗(yàn)一個(gè)搜索精準(zhǔn)的搜索引擎吧

本地生活餐飲O2O行業(yè)定制化解決方案

窮游網(wǎng)：阿里系一站式出境游平臺，抓住自由行發(fā)展機(jī)遇，開啟旅游領(lǐng)域內(nèi)容付

谷歌SEO是什么，谷歌搜索引擎優(yōu)化怎么做

窮游網(wǎng)：阿里系一站式出境游平臺，抓住自由行發(fā)展機(jī)遇，開啟旅游領(lǐng)域內(nèi)容付

國內(nèi)有什么小眾的電子商務(wù)零售平臺？

Souq創(chuàng)業(yè)譜，中東最大的電商平臺，高人求解。？

重振旗鼓后，七鮮能圓京東的一線零售品牌夢嗎？

新基建下的工業(yè)互聯(lián)網(wǎng)，等不到第四次工業(yè)革命