SEO從業(yè)者有哪些必須知道的搜索引擎優(yōu)化的基礎(chǔ)知識?
時間:2023-04-02 10:08:01 | 來源:電子商務(wù)
時間:2023-04-02 10:08:01 來源:電子商務(wù)
了解搜索引擎
減少搜索引擎工作量
降低工作難度
輕松快速抓取頁面
準確提取頁面內(nèi)容
意味權(quán)威度高、內(nèi)容可靠
參與相關(guān)性計算的基本條件
2.1搜索引擎與目錄- 自動化
蜘蛛爬行
頁面收錄
排序
- 收錄數(shù)量多
- 質(zhì)量參差不齊
- 人工編輯分類
- 規(guī)模有限
- 更新慢
2.2面對的挑戰(zhàn)- 頁面抓取需要快而全面
- 海量數(shù)據(jù)存儲
- 索引處理快速有效,具可擴展性
- 查詢處理快速準確
- 判斷用戶意圖及人工智能
2.3 搜索結(jié)果顯示格式2.3.1 搜索結(jié)果頁面- 頁面主體有兩部分最重要:一是廣告,二是自然搜索結(jié)果。
搜索廣告在網(wǎng)絡(luò)營銷行業(yè)經(jīng)常稱為PPC,由廣告商針對關(guān)鍵詞進行競價,
SEO最關(guān)注的是占據(jù)頁面主體的自然搜索結(jié)果。
統(tǒng)計數(shù)據(jù)顯示,自然搜索結(jié)果總點擊訪問數(shù)要遠遠大于廣告點擊數(shù)。
2.3.2 經(jīng)典搜索結(jié)果列表- 第一行是頁面標題,通常取自頁面HTML代碼中的標題標簽(Title Tag)
- 第二行、第三行是頁面說明。
頁面說明大部分時候取自頁面HTML中的說明標簽(Description Tag),
有時從頁面可見文字中動態(tài)抓取相關(guān)內(nèi)容。 - 第四行顯示多個信息。最左側(cè)是網(wǎng)址,可以看到頁面來自哪個域名,以及目錄、文件名信息。
2.3.3 整合搜索結(jié)果2007年出現(xiàn)的整合搜索將垂直搜索內(nèi)容直接混合顯示在網(wǎng)頁搜索結(jié)果頁面上,用戶不必再點擊垂直導(dǎo)航鏈接。
整合內(nèi)容的優(yōu)化也是SEO可以考慮的方向。
2.3.4 全站鏈接某些權(quán)重比較高的網(wǎng)站
最權(quán)威的內(nèi)容來源
顯示三行、兩列共6個內(nèi)頁鏈接
對某些權(quán)重比較高的網(wǎng)站,當用戶搜索一個查詢詞,這個網(wǎng)站的結(jié)果是最權(quán)威的內(nèi)容來源時,Google除了正常結(jié)果列表外,還可能顯示三行、兩列共6個內(nèi)頁鏈接,稱為全站鏈接(Sitelinks)
- 為權(quán)重高的網(wǎng)站提供了多幾倍的訪問入口,視覺上的醒目也大大提高了點擊率。
2.3.5 框計算和One-box> 由Google開始,稱為One-box > 百度傾向于框計算
- 框計算或One-box能回答的問題:通常是可結(jié)構(gòu)化的數(shù)據(jù)
諸如天氣、體育比賽成績、計算器、計量單位換算、距離計算、航班火車信息等
2.3.6 富摘要- 使用schema、RDFa、Microdata、Microformats等數(shù)據(jù)標注的頁面,
搜索引擎會嘗試從頁面提取結(jié)構(gòu)化數(shù)據(jù),以富摘要(Rich Snippet)形式展現(xiàn)在結(jié)果列表中, - 這種排版格式無疑也會提高關(guān)注度和點擊率。
在富摘要中顯示合適的信息,有助于說服用戶點擊結(jié)果
2.3.7 圖文展現(xiàn)- 從2013年年底開始,百度越來越多地使用圖文展現(xiàn)方式
- 圖片絕大部分是從頁面正文中選取的,并且要內(nèi)容相關(guān)、清晰、橫寬比例適當。
小部分可能來自于百度站長平臺正在內(nèi)測的Logo提交功能。 - 圖文展現(xiàn)作用:
直觀
提高用戶體驗
容易快速判斷頁面內(nèi)容
頁面吸引視線、提高點擊率
2.3.8 知心搜索和知識圖譜 - 2012年Google推出知識圖譜。2013年百度推出知心搜索。
- 知心搜索和知識圖譜
基于語義識別技術(shù) 將網(wǎng)上不同來源的知識點整合起來 以更系統(tǒng)的方式展現(xiàn)給用戶 必要的地方鏈接相應(yīng)的頁面或搜索結(jié)果 搜索人名、地名、實體、事件、專業(yè)詞匯等知識類查詢詞時經(jīng)常出現(xiàn)這種結(jié)果
2.3.9 面包屑導(dǎo)航- Google結(jié)果列表中經(jīng)常出現(xiàn)面包屑導(dǎo)航格式,原本顯示URL的地方,改為面包屑導(dǎo)航。
- 面包屑的每一級名稱都是指向?qū)?yīng)分類頁面的鏈接,可以直接點擊訪問分類頁面。
- 2014年12月,Google取消了這些鏈接,面包屑名稱只是純文字,不能點擊。
2.4 搜索引擎工作原理簡介(1)爬行和抓取:
搜索引擎蜘蛛通過跟蹤鏈接發(fā)現(xiàn)和訪問網(wǎng)頁,讀取頁面HTML代碼,存入數(shù)據(jù)庫。
(2)預(yù)處理:
索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進行文字提取、中文分詞、索引、倒排索引等處理,以備排名程序調(diào)用。
(3)排名:
用戶輸入查詢詞后,排名程序調(diào)用索引庫數(shù)據(jù),計算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。
2.4.1 爬行和抓取- 爬行和抓取是搜索引擎工作的第一步,完成數(shù)據(jù)收集的任務(wù)。
1.蜘蛛蜘蛛(spider)或機器人(bot):搜索引擎用來爬行和訪問頁面的程序
搜索引擎蜘蛛訪問網(wǎng)站頁面時類似于普通用戶使用的瀏覽器。
蜘蛛程序發(fā)出頁面訪問請求后,服務(wù)器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。
搜索引擎使用多個蜘蛛并發(fā)分布爬行
- 先訪問網(wǎng)站根目錄下的robots.txt文件。
如果robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。 - 蜘蛛有標明自己身份的用戶代理名稱
可以在日志文件中看到搜索引擎的特定用戶代理,從而辨識搜索引擎蜘蛛。
(1)
百度蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.htm)
(2)
360蜘蛛:Mozilla/5.0(Windows; U; Windows NT 5.1; zh-CN;)Firefox/1.5.0.11;360Spider
(3)
英文雅虎:Mozilla/5.0
?
(compatible;Yahoo!Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp)
(4)
Google蜘蛛:Mozilla/5.0 (compatible; Googlebot/2.1;+http://www.google.com/bot.html)
(5)
Google移動蜘蛛:Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)
(6)
微軟Bing蜘蛛:Mozilla/5.0 (compatible; bingbot/2.0;+http://www.bing.com/bingbot.htm)
(7)
搜狗蜘蛛:Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07)
(8)
有道蜘蛛:Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)
2.跟蹤鏈接整個互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁面組成
搜索引擎蜘蛛跟蹤頁面上的鏈接,從一個頁面爬到下一個頁面,就好像蜘蛛在蜘蛛網(wǎng)上爬行那樣
- 爬行遍歷策略分為兩種,一種是深度優(yōu)先,另一種是廣度優(yōu)先
(1) 深度優(yōu)先:蜘蛛沿著發(fā)現(xiàn)的鏈接一直向前爬行,直到前面再也沒有其他鏈接,然后返回到第一個頁面,沿著另一個鏈接再一直往前爬行
(2) 廣度優(yōu)先:蜘蛛在一個頁面上發(fā)現(xiàn)多個鏈接時,不是順著一個鏈接一直向前,而是把頁面上所有第一層鏈接都爬一遍,然后再沿著第二層頁面上發(fā)現(xiàn)的鏈接爬向第三層頁面。
- 最大的搜索引擎也只是爬行和收錄了互聯(lián)網(wǎng)的一小部分。
3.吸引蜘蛛- 要想讓自己的更多頁面被收錄,就要想方設(shè)法吸引蜘蛛來抓取
- 幾方面影響蜘蛛抓取頁面的因素。
1.網(wǎng)站和頁面權(quán)重。
2.頁面更新度。
3.導(dǎo)入鏈接。
4.與首頁點擊距離。 ##網(wǎng)站上權(quán)重最高的是首頁
5.URL結(jié)構(gòu)。 ##短的、層次淺的URL被直觀認為在網(wǎng)站上的權(quán)重相對較高
4.地址庫- 搜索引擎會建立一個地址庫,記錄已經(jīng)被發(fā)現(xiàn)、但還沒有抓取的頁面,以及已經(jīng)被抓取的頁面。
蜘蛛在頁面上發(fā)現(xiàn)鏈接后并不是馬上就去訪問,而是將URL存入地址庫,然后統(tǒng)一安排抓取。
(1)人工錄入的種子網(wǎng)站 (2)蜘蛛從HTML中解析出新的鏈接URL,與地址庫中的數(shù)據(jù)進行對比,地址庫中沒有的網(wǎng)址,存入待訪問地址庫。 (3)通過搜索引擎網(wǎng)頁提交表格提交進來的網(wǎng)址。 (4)通過XML網(wǎng)站地圖、站長平臺提交的網(wǎng)址。
搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的
5.文件存儲搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。
其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。
每個URL都有一個獨特的文件編號。
6.爬行時的復(fù)制內(nèi)容檢測- 蜘蛛在爬行和抓取文件時也會進行一定程度的復(fù)制內(nèi)容檢測。
遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時,很可能不再繼續(xù)爬行。
2.4.2 預(yù)處理“預(yù)處理”簡稱為“索引”,索引是預(yù)處理最主要的內(nèi)容。
搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理,必須經(jīng)過預(yù)處理,為最后的查詢排名做好準備。
1.提取文字- 搜索引擎以文字內(nèi)容為基礎(chǔ)。蜘蛛抓取到的頁面HTML代碼,預(yù)處理首先要做的是從HTML文件中去除標簽、程序,提取出可以用于排名處理的頁面文字內(nèi)容。
<div id="post-1100" class="post-1100 post hentry category-seo"> <div class="posttitle"> <h2><a href="
http://www.gzhytextile.com/h-nd-9.html#_np=105_337" rel="bookmark" title="什么是經(jīng)編網(wǎng)眼布">什么是經(jīng)編網(wǎng)眼布</a></h2>
除去HTML代碼后,剩下的用于排名的文字只是這一行:
什么是經(jīng)編網(wǎng)眼布
- 除了可見文字,搜索引擎也會提取出一些特殊的包含文字信息的代碼
Meta標簽中的文字、圖片替代文字、Flash文件的替代文字、鏈接錨文字等。
2.中文分詞- 分詞是中文搜索引擎特有的步驟。搜索引擎存儲和處理頁面內(nèi)容及用戶查詢都是以詞為基礎(chǔ)的。
- 中文分詞方法基本上有兩種,一種是基于詞典匹配,另一種是基于統(tǒng)計。
(1). 基于詞典匹配的方法是:將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,切分出一個單詞。
按照掃描方向,基于詞典的匹配法可以分為:
正向匹配和逆向匹配按照匹配長度優(yōu)先級的不同,又可以分為:
最大匹配和最小匹配將掃描方向和長度優(yōu)先混合,又可以產(chǎn)生正向最大匹配、逆向最大匹配等不同方法。
詞典匹配方法計算簡單,其準確度在很大程度上取決于詞典的完整性和更新情況
(2). 基于統(tǒng)計的分詞方法:分析大量文字樣本,計算出字與字相鄰出現(xiàn)的統(tǒng)計概率,幾個字相鄰出現(xiàn)越多,就越可能形成一個單詞。
基于統(tǒng)計的方法的優(yōu)勢是對新出現(xiàn)的詞反應(yīng)更快速,也有利于消除歧義
基于詞典匹配和基于統(tǒng)計的分詞方法各有優(yōu)劣,分詞系統(tǒng)都是混合使用兩種方法的,快速高效,又能識別生詞、新詞,消除歧義。
- 中文分詞的準確性往往影響搜索引擎排名的相關(guān)性。
- 搜索引擎對頁面的分詞取決于詞庫的規(guī)模、準確性和分詞算法的好壞,而不是取決于頁面本身如何
唯一能做的是在頁面上用某種形式提示搜索引擎,
比如在頁面標題、h1標簽及黑體中出現(xiàn)關(guān)鍵詞
3.去停止詞停止詞:頁面內(nèi)容中都會有一些出現(xiàn)頻率很高,卻對內(nèi)容沒有任何影響的詞
中文常見的:
如“的”、“地”、“得”之類的助詞,
“啊”、“哈”、“呀”之類的感嘆詞,
“從而”、“以”、“卻”之類的副詞或介詞
英文中的常見停止詞有the, a, an, to, of等
- 搜索引擎在索引頁面之前會去掉這些停止詞,使索引數(shù)據(jù)主題更為突出,減少無謂的計算量。
4.消除噪聲對頁面主題也沒有什么貢獻,對頁面主題只能起到分散作用,這些區(qū)塊都屬于
噪聲比如版權(quán)聲明文字、導(dǎo)航條、廣告等
搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內(nèi)容。
5.去重- 搜索引擎需要對頁面進行去重處理。
在進行索引前還需要識別和刪除重復(fù)內(nèi)容,這個過程就稱為“去重”。 - “去重”的基本方法是對頁面特征關(guān)鍵詞計算指紋:
從頁面主體內(nèi)容中選取最有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率最高的關(guān)鍵詞),
然后計算這些關(guān)鍵詞的數(shù)字指紋。
關(guān)鍵詞選取是在分詞、去停止詞、消噪之后。
6.正向索引正向索引也可以簡稱為索引。
搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鍵詞形成詞表結(jié)構(gòu)存儲進索引庫。簡化的索引詞表形式如圖所示:
每個文件都對應(yīng)一個文件ID,文件內(nèi)容被表示為一串關(guān)鍵詞的集合。實這樣的數(shù)據(jù)結(jié)構(gòu)就稱為
正向索引。
7.倒排索引正向索引還不能直接用于排名。
搜索引擎會將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引把文件對應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射,如表圖所示:
在倒排索引中關(guān)鍵詞是主鍵,每個關(guān)鍵詞都對應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個關(guān)鍵詞。
8.鏈接關(guān)系計算鏈接關(guān)系計算也是預(yù)處理中很重要的一部分。
所有的主流搜索引擎排名因素中都包含網(wǎng)頁之間的鏈接流動信息。
Google PR值就是這種鏈接關(guān)系的最主要體現(xiàn)之一。
9.特殊文件處理除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。
目前的搜索引擎還不能處理圖片和視頻,對Flash這類非文字內(nèi)容,以及腳本和程序只能進行有限的處理。
10.質(zhì)量判斷在預(yù)處理階段,搜索引擎會對頁面內(nèi)容質(zhì)量、鏈接質(zhì)量等作出判斷。
質(zhì)量判斷包含很多因素,并不局限于針對關(guān)鍵詞的提取和計算,或者針對鏈接進行數(shù)值計算。
比如對頁面內(nèi)容的判斷,很可能包括了用戶體驗、頁面排版、廣告布局、語法、頁面打開速度等,
也可能會涉及模式識別、機器學(xué)習(xí)、人工智能等方法。
2.4.3 排名用戶在搜索框填入查詢詞后,排名程序調(diào)用索引庫數(shù)據(jù),計算排名顯示給用戶,排名過程是與用戶直接互動的。
1.搜索詞處理(1)中文分詞?!獙⒉樵冏址D(zhuǎn)換為以詞為基礎(chǔ)的關(guān)鍵詞組合
(2)去停止詞。——最大限度地提高排名相關(guān)性及效率。
(3)指令處理?!J處理方式是在關(guān)鍵詞之間使用“與”邏輯。
(4)拼寫錯誤矯正。
(5)整合搜索觸發(fā)。
(6)搜索框提示?!鶕?jù)熱門搜索數(shù)據(jù)給出多組可能的查詢詞
2.文件匹配以詞為基礎(chǔ)的關(guān)鍵詞集合,文件匹配階段就是找出含有所有搜索關(guān)鍵詞的所有文件。
3.初始子集的選擇用于最后相關(guān)性計算的初始頁面子集的選擇,依靠其他特征而不是相關(guān)性,其中最主要的就是頁面權(quán)重。
4.相關(guān)性計算- 計算相關(guān)性是排名過程中最重要的一步。相關(guān)性計算是搜索引擎算法中最令SEO感興趣的部分。
- 影響相關(guān)性的主要因素包括以下幾方面:
(1)關(guān)鍵詞常用程度。
越常用的詞對搜索詞的意義貢獻越小,越不常用的詞對搜索詞的意義貢獻越大。
搜索引擎對搜索詞串中的關(guān)鍵詞并不是一視同仁地處理,而是根據(jù)常用程度進行加權(quán)。
不常用的詞加權(quán)系數(shù)高,常用詞加權(quán)系數(shù)低,排名算法對不常用的詞給予更多關(guān)注。
(2)詞頻及密度。
在沒有關(guān)鍵詞堆積的情況下,搜索詞在頁面中出現(xiàn)的次數(shù)越多,密度越高,說明頁面與搜索詞越相關(guān)。
(3)關(guān)鍵詞位置及形式。
關(guān)鍵詞出現(xiàn)在比較重要的位置,說明頁面與關(guān)鍵詞越相關(guān),如標題標簽、黑體、H1等
(4)關(guān)鍵詞距離。
切分后的關(guān)鍵詞完整匹配地出現(xiàn),說明與搜索詞最相關(guān)。
(5)鏈接分析及頁面權(quán)重。
頁面有越多以搜索詞為錨文字的導(dǎo)入鏈接,說明頁面的相關(guān)性越強。
5.排名過濾及調(diào)整一些有作弊嫌疑的頁面,雖然按照正常的權(quán)重和相關(guān)性計算排到前面,但搜索引擎的懲罰算法卻可能在最后一步把這些頁面調(diào)到后面去。
6.排名顯示調(diào)用原始頁面的標題標簽、說明標簽、快照日期等數(shù)據(jù)顯示 有時候動態(tài)生成頁面摘要
7.搜索緩存把最常見的搜索詞及結(jié)果存入緩存,用戶搜索時直接從緩存中調(diào)用
8.查詢及點擊日志搜索用戶的IP地址、搜索的查詢詞、搜索時間,以及點擊了哪些結(jié)果頁面,搜索引擎都記錄形成日志。
日志文件中的數(shù)據(jù)對搜索引擎判斷搜索結(jié)果質(zhì)量、調(diào)整搜索算法、預(yù)期搜索趨勢等有重要意義
2.5 鏈接原理- 現(xiàn)在的搜索引擎都使用鏈接分析技術(shù)減少垃圾,提高用戶體驗。
- 在排名中計入鏈接因素,使傳統(tǒng)關(guān)鍵詞匹配無法排名的文件能夠被處理。
通過鏈接信息,搜索引擎就可以了解圖片和視頻的內(nèi)容從而排名。 - 鏈接因素現(xiàn)在已經(jīng)超過頁面內(nèi)容的重要性。不過理解鏈接關(guān)系比較抽象。
鏈接對排名的影響就無法直觀了解,也很難進行統(tǒng)計,只能做定性觀察和分析。
2.5.1 李彥宏超鏈分析專利李彥宏1997年就提交了一份名為“超鏈文件檢索系統(tǒng)和方法”的專利申請。
提出了與傳統(tǒng)信息檢索系統(tǒng)不同的基于鏈接的排名方法。
- 除了索引頁面之外,還建立一個鏈接詞庫,記錄鏈接錨文字的一些相關(guān)信息,
如錨文字中包含哪些關(guān)鍵詞,發(fā)出鏈接的頁面索引,包含特定錨文字的鏈接總數(shù),包含特定關(guān)鍵詞的鏈接都指向哪些頁面。
詞庫不僅包含關(guān)鍵詞原型,也包含同一個詞干的其他衍生關(guān)鍵詞。
- 根據(jù)鏈接數(shù)據(jù),尤其是錨文字,計算出基于鏈接的文件相關(guān)性。
在用戶搜索時,將得到的基于鏈接的相關(guān)性與基于關(guān)鍵詞匹配的傳統(tǒng)相關(guān)性綜合使用,得到更準確的排名。
2.5.2 HITS算法HITS是英文Hyperlink-Induced Topic Search的縮寫,意譯為“超鏈誘導(dǎo)主題搜索”。
HITS算法由Jon Kleinberg于1997年提出,并申請了專利。
- 按照HITS算法,用戶輸入查詢詞后,算法對返回的匹配頁面計算兩種值:
一種是樞紐值(Hub Scores),另一種是權(quán)威值(Authority Scores),這兩個值是互相依存、互相影響的。
樞紐值,指的是頁面上所有導(dǎo)出鏈接指向頁面的權(quán)威值之和。
權(quán)威值指的是所有導(dǎo)入鏈接所在頁面的樞紐值之和。
- HITS算法是針對特定查詢詞的,所以稱為主題搜索。
- HITS算法的最大缺點是,它在查詢階段進行計算,而不是在抓取或預(yù)處理階段。
2.5.3 TrustRank算法TrustRank是基于鏈接關(guān)系的排名算法。TrustRank可以翻譯為“信任指數(shù)”。
TrustRank算法最初來自于2004年斯坦福大學(xué)和雅虎的一項聯(lián)合研究,用來檢測垃圾網(wǎng)站,并且于2006年申請專利。
Google商標中的TrustRank指的是Google檢測含有惡意代碼網(wǎng)站的方法,而不是指排名算法中的信任指數(shù)。
- TrustRank算法基于一個基本假設(shè):好的網(wǎng)站很少會鏈接到壞的網(wǎng)站。反之則不成立
很多垃圾網(wǎng)站會鏈接到高權(quán)威、高信任指數(shù)的網(wǎng)站,試圖提高自己的信任指數(shù)。
- 計算TrustRank值首先要選擇一批種子網(wǎng)站,然后人工查看網(wǎng)站,設(shè)定一個初始TrustRank值。
挑選種子網(wǎng)站有兩種方式:
一種是選擇導(dǎo)出鏈接最多的網(wǎng)站,因為TrustRank算法就是計算指數(shù)隨著導(dǎo)出鏈接的衰減。
另一種挑選種子網(wǎng)站的方法是選PR值高的網(wǎng)站,因為PR值越高,在搜索結(jié)果頁面出現(xiàn)的概率就越大。
- 根據(jù)測算,挑選出兩百個左右網(wǎng)站作為種子,就可以比較精確地計算出所有網(wǎng)站的TrustRank值。
計算TrustRank隨鏈接關(guān)系減少的公式有兩種方式:
A.一種是隨鏈接次數(shù)衰減,也就是說如果第一層頁面TrustRank指數(shù)是100,第二層頁面衰減為90,第三層衰減為80。
B.第二種計算方法是按導(dǎo)出鏈接數(shù)目分配TrustRank值,也就是說,如果一個頁面的TrustRank值是100,頁面上有5個導(dǎo)出鏈接,每個鏈接將傳遞20%的TrustRank值。
衰減和分配這兩種計算方法通常綜合使用,整體效果都是隨著鏈接層次的增加,TrustRank值逐步降低。
- 得出網(wǎng)站和頁面的TrustRank值后,可以通過兩種方式影響排名:
一種是把傳統(tǒng)排名算法挑選出的相關(guān)頁面,根據(jù)TrustRank值比較,重新做排名調(diào)整。
另一種是設(shè)定一個最低的TrustRank值門檻,只有超過這個門檻的頁面,才被認為有足夠的質(zhì)量進入排名,低于門檻的頁面將被認為是垃圾頁面,從搜索結(jié)果中過濾出去。
現(xiàn)在的搜索引擎排名算法中,TrustRank概念使用更為廣泛,常常影響大部分網(wǎng)站的整體排名。
在搜索引擎算法中,TrustRank值也通常表現(xiàn)在域名級別,整個域名的信任指數(shù)越高,整體排名能力就越強。
2.5.4 Google PRPR是PageRank的縮寫。
Google PR理論是所有基于鏈接的搜索引擎理論中最有名的。
PR是Google創(chuàng)始人之一拉里佩奇發(fā)明的,用于表示頁面重要性的概念。
即,反向鏈接越多的頁面就是越重要的頁面,因此PR值也就越高。
1.PR的概念和計算互聯(lián)網(wǎng)由結(jié)點及鏈接組成的有向圖,頁面就是一個個結(jié)點,頁面之間的有向鏈接傳遞著頁面的重要性。
一個鏈接傳遞的PR值決定于鏈接所在頁面的PR值,發(fā)出鏈接的頁面本身PR值越高,所能傳遞出去的PR也越高。
傳遞的PR值也取決于頁面上的導(dǎo)出鏈接數(shù)目。
- 一個頁面的PR值取決于導(dǎo)入鏈接總數(shù),鏈接源頁面的PR值,以及鏈接源頁面上的導(dǎo)出鏈接數(shù)目。
- PR值計算公式是:
PR(A)=(1-d)+d(PR(t1)/C(t1)+ … +PR(tn)/C(tn))
A代表頁面A。
PR(A)則代表頁面A的PR值。
d為阻尼指數(shù)。通常認為d=0.85。
t1…tn代表鏈接向頁面A的頁面t1到tn。
C代表頁面上的導(dǎo)出鏈接數(shù)目。
C(t1)即為頁面t1上的導(dǎo)出鏈接數(shù)目。
從概念及計算公式都可以看到,PR值必須經(jīng)過多次迭代計算才能得到。
2.PR的兩個比喻模型一個比喻是投票。
鏈接就像民主投票一樣,A頁面鏈接到B頁面,就意味著A頁面對B頁面投了一票,使得B頁面的重要性提高。
同時,A頁面本身的PR值決定了A所能投出去的投票力,PR值越高的頁面,投出的票也更重要。
傳統(tǒng)基于關(guān)鍵詞匹配的算法是看頁面自己說頁面內(nèi)容是什么,基于鏈接的PR則是看別人怎么評價一個頁面。
第二個是隨機沖浪比喻。
所謂PR值,就是一個頁面在這種隨機沖浪訪問中被訪問到的概率。
一個頁面導(dǎo)入鏈接越多,被訪問到的概率就越高,因此PR值也越高。
3.工具條PR工具條PR值并不是真實PR值的精確反映。
A.真實PR值是一個準確的、大于0.15、沒有上限的數(shù)字,工具條上顯示的PR值已經(jīng)規(guī)范化為0~10這11個數(shù)字,是一個整數(shù)。
B.真正的PR值是不間斷計算更新中的,工具條PR值只是某一個時間點上真實PR值的簡化快照輸出。
c.工具條PR與反向鏈接數(shù)目呈對數(shù)關(guān)系,而不是線性關(guān)系。
4.關(guān)于PR的幾個誤解- 準確地說PageRank這個名字應(yīng)該翻譯為佩奇級別,而不是頁面級別。
不過約定俗成,再加上巧妙的一語雙關(guān),大家都把PR稱為頁面級別。
有反向鏈接就有PR,沒有反向鏈接就沒有PR。
- 工具條PR值更新與頁面排名變化在時間上沒有對應(yīng)關(guān)系。
5.PR的意義PR是Google排名算法中的重要因素之一。除了直接影響排名,PR的重要性還體現(xiàn)在下面幾點:
(1)網(wǎng)站收錄深度和總頁面數(shù)。
(2)訪問及更新頻率。
(3)重復(fù)內(nèi)容判定。
(4)排名初始子集的選擇。
2.5.5 Hilltop算法Hilltop算法是由Krishna Baharat在2000年左右所研究的,于2001年申請了專利,并且把專利授權(quán)給Google使用.
- Hilltop算法可以簡單理解為與主題相關(guān)的PR值。
Hilltop算法同樣是計算鏈接關(guān)系,不過它更關(guān)注來自主題相關(guān)頁面的鏈接權(quán)重。
在Hilltop算法中把主題相關(guān)頁面稱為專家文件。
按Hilltop算法的最初構(gòu)想,一個頁面至少要有兩個來自專家文件的鏈接,才能返回一定的Hilltop值,不然返回的Hilltop值將為零。
根據(jù)專家文件鏈接計算的分值被稱為LocalRank。
排名程序根據(jù)LocalRank值,對原本傳統(tǒng)排名算法計算的排名做重新調(diào)整,給出最后排名。這是搜索引擎排名階段最后的過濾和調(diào)整步驟。
Hilltop算法提示SEO,建設(shè)外部鏈接時更應(yīng)該關(guān)注主題相關(guān),并且本身排名就不錯的網(wǎng)站和頁面。
2.6 用戶怎樣瀏覽和點擊搜索結(jié)果2.6.1 英文搜索結(jié)果頁面頁面瀏覽最主要的研究方法是視線跟蹤(eye-tracking),使用特殊的設(shè)備跟蹤用戶目光在結(jié)果頁面上的瀏覽及點擊數(shù)據(jù)。
2.6.2 中文搜索結(jié)果頁面中文搜索結(jié)果點擊率沒有英文那樣急劇下降的趨勢。
預(yù)估中文關(guān)鍵詞流量時,不能照搬英文點擊數(shù)據(jù),要參考自己網(wǎng)站的點擊數(shù)據(jù)。
2.6.3 整合搜索及個人化搜索用戶視線及點擊的最新趨勢幾個提示:
A. 自然排名位置依然至關(guān)重要。用戶即使不知道自然排名會在搜索結(jié)果的什么地方出現(xiàn),還會主動去尋找。
B.雖然其他干擾因素吸引了大量注意力,但還沒有吸引同等比例的點擊,點擊還是集中在自然排名上。
C.盡一切力量、方法豐富自己頁面的顯示格式,加圖片、加視頻、加入新聞源、加schema標記形成富摘要和知心搜索/知識圖譜、加地圖和本地信息等。
D.現(xiàn)在不僅僅排名位置重要,展現(xiàn)方式也越來越重要。
2.7 高級搜索指令2.7.1 雙引號把搜索詞放在雙引號中,代表完全匹配搜索。
搜索結(jié)果返回的頁面包含雙引號中出現(xiàn)的所有詞,連順序也必須完全匹配。
百度和Google都支持這個指令。
使用雙引號搜索可以更準確地找到特定關(guān)鍵詞的競爭對手。
2.7.2 減號減號(-)代表搜索不包含減號后面的詞的頁面。
使用這個指令時,減號前面必須是空格,減號后面沒有空格,緊跟著需要排除的詞。
百度和Google都支持這個指令。
使用減號也可以更準確地找到需要的文件,尤其是某些詞有多種意義時。
2.7.3 星號星號(*)是常用的通配符,也可以用在搜索中。
百度不支持*號搜索指令。
2.7.4 inurl:inurl:指令用于搜索查詢詞出現(xiàn)在URL中的頁面。
inurl:指令支持中文和英文。
由于關(guān)鍵詞出現(xiàn)在URL中對排名有一定影響,使用inurl:搜索可以更準確地找到競爭對手。
2.7.5 inanchor:inanchor:指令返回的結(jié)果是導(dǎo)入鏈接錨文字中包含搜索詞的頁面。
百度不支持inanchor:指令。
2.7.6 intitle:intitle:指令返回的是頁面Title中包含關(guān)鍵詞的頁面。
百度和Google都支持intitle:指令。
Title是目前頁面優(yōu)化的最重要因素。
做SEO的人無論要做哪個詞的排名,都會把關(guān)鍵詞放進Title中。
因此使用intitle指令找到的文件才是更準確的競爭頁面。
如果關(guān)鍵詞只出現(xiàn)在頁面可見文字中,而沒有出現(xiàn)在Title中,大部分情況是并沒有針對關(guān)鍵詞進行優(yōu)化,也不是有力的競爭對手。
2.7.7 allintitle:allintitle:搜索返回的是頁面標題中包含多組關(guān)鍵詞的文件。
例如,allintitle:SEO搜索引擎優(yōu)化,
就相當于:intitle:SEO intitle:搜索引擎優(yōu)化,
返回的是標題中既包含“SEO”,也包含“搜索引擎優(yōu)化”的頁面。
2.7.8 allinurl:與allintitle:類似。
allinurl:SEO搜索引擎優(yōu)化,
就相當于:
inurl:SEO inurl:搜索引擎優(yōu)化
2.7.9 filetype:filetype用于搜索特定的文件格式。
百度和Google都支持filetype:指令。
百度只支持下面幾種文件格式:pdf, doc, xls, ppt, rtf, all。其中的“all”表示搜索百度所有支持的文件類型。
Google則支持所有能索引的文件格式,包括HTML、PHP等。
filetype:指令用來搜索特定的資源,比如PDF電子書、Word文件等非常有用。2.7.10 site:site:用來搜索某個域名下的所有文件。
比如搜索site:
http://seozac.com返回的就是
http://seozac.com這個域名下的所有頁面。
這個指令是查詢網(wǎng)站收錄頁面數(shù)的最簡單方法。
不過site:指令很不準確,只能作為參考。
百度site:指令還顯示了來自百度站長平臺的信息和鏈接。
2.7.11 link:link:用來搜索某個url的反向鏈接,既包括內(nèi)部鏈接,也包括外部鏈接。
搜索:link:
http://seozac.com,返回的就是
http://seozac.com的反向鏈接。
搜索:link: seozac.com-site:
http://seozac.com,返回的則是
http://seozac.com的外部鏈接,已去除
http://seozac.com域名本身的頁面
Google的link:指令返回的鏈接只是Google索引庫中的一部分,而且是近乎隨機的一部分,所以用link:指令查反向鏈接幾乎沒有用。
百度則不支持link:指令。
2.7.12 linkdomain:linkdomain:指令只適用于雅虎,返回的是某個域名的反向鏈接。
當年雅虎的反向鏈接數(shù)據(jù)還比較準確,是SEO人員研究競爭對手外部鏈接情況的重要工具之一。
隨著雅虎放棄自己的搜索技術(shù),這個指令已作廢。
2.7.13 related:related:指令只適用于Google,返回的結(jié)果是與某個網(wǎng)站有關(guān)聯(lián)的頁面。
這種關(guān)聯(lián)到底指的是什么,Google并沒有明確說明,一般認為指的是有共同外部鏈接的網(wǎng)站。
2.7.14 綜合使用高級搜索指令例1:inurl:gov減肥
返回的就是URL中包含“gov”,頁面中有“減肥”這個詞的頁面。
例2:inurl:.
http://edu.cn交換鏈接
返回的是來自.
http://edu.cn,也就是學(xué)校域名上的包含“交換鏈接”這個詞的頁面
例3:inurl:.
http://edu.cn intitle:交換鏈接
返回的則是來自
http://edu.cn域名,標題中包含“交換鏈接”這四個字的頁面
例4:inurl:
http://edu.cn/forum/*register
返回的結(jié)果是在.
http://edu.cn域名上,url中包含“forum”以及“register”這兩個單詞的頁面
例5:減肥inurl:links
返回的是與減肥有關(guān)且URL中包含“l(fā)inks”這個單詞的頁面。
很多站長把交換鏈接頁面命名為links.html等,所以這個指令返回的就是與減肥主題相關(guān)的交換鏈接頁面。
例6:allinurl:gov.cn+links
返回的是URL中包含“gov.cn”和“l(fā)inks”的頁面,也就是政府域名上的交換鏈接頁面。
關(guān)鍵詞:索引,知識,基礎(chǔ),須知