降低工作難度
輕松快速抓取頁面
準(zhǔn)確提取頁面內(nèi)容頁面權(quán)重意味權(quán)威度高、內(nèi)容可靠
參與相關(guān)性計(jì)算的基本條件2.1搜索引擎與目錄搜索引擎自動化蜘蛛爬行
頁面收錄
排序收錄數(shù)量多質(zhì)量" />
時(shí)間:2023-03-27 10:56:01 | 來源:電子商務(wù)
時(shí)間:2023-03-27 10:56:01 來源:電子商務(wù)
減少搜索引擎工作量
降低工作難度
輕松快速抓取頁面
準(zhǔn)確提取頁面內(nèi)容
意味權(quán)威度高、內(nèi)容可靠
參與相關(guān)性計(jì)算的基本條件
蜘蛛爬行
頁面收錄
排序
搜索廣告在網(wǎng)絡(luò)營銷行業(yè)經(jīng)常稱為PPC,由廣告商針對關(guān)鍵詞進(jìn)行競價(jià),
SEO最關(guān)注的是占據(jù)頁面主體的自然搜索結(jié)果。
統(tǒng)計(jì)數(shù)據(jù)顯示,自然搜索結(jié)果總點(diǎn)擊訪問數(shù)要遠(yuǎn)遠(yuǎn)大于廣告點(diǎn)擊數(shù)。
整合內(nèi)容的優(yōu)化也是SEO可以考慮的方向。
某些權(quán)重比較高的網(wǎng)站
最權(quán)威的內(nèi)容來源
顯示三行、兩列共6個(gè)內(nèi)頁鏈接
對某些權(quán)重比較高的網(wǎng)站,當(dāng)用戶搜索一個(gè)查詢詞,這個(gè)網(wǎng)站的結(jié)果是最權(quán)威的內(nèi)容來源時(shí),Google除了正常結(jié)果列表外,還可能顯示三行、兩列共6個(gè)內(nèi)頁鏈接,稱為全站鏈接(Sitelinks)
> 由Google開始,稱為One-box > 百度傾向于框計(jì)算
諸如天氣、體育比賽成績、計(jì)算器、計(jì)量單位換算、距離計(jì)算、航班火車信息等
基于語義識別技術(shù) 將網(wǎng)上不同來源的知識點(diǎn)整合起來 以更系統(tǒng)的方式展現(xiàn)給用戶 必要的地方鏈接相應(yīng)的頁面或搜索結(jié)果 搜索人名、地名、實(shí)體、事件、專業(yè)詞匯等知識類查詢詞時(shí)經(jīng)常出現(xiàn)這種結(jié)果
搜索引擎蜘蛛通過跟蹤鏈接發(fā)現(xiàn)和訪問網(wǎng)頁,讀取頁面HTML代碼,存入數(shù)據(jù)庫。(2)預(yù)處理:
索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進(jìn)行文字提取、中文分詞、索引、倒排索引等處理,以備排名程序調(diào)用。(3)排名:
用戶輸入查詢詞后,排名程序調(diào)用索引庫數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。2.4.1 爬行和抓取
搜索引擎蜘蛛訪問網(wǎng)站頁面時(shí)類似于普通用戶使用的瀏覽器。
蜘蛛程序發(fā)出頁面訪問請求后,服務(wù)器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。
搜索引擎使用多個(gè)蜘蛛并發(fā)分布爬行
百度蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.htm)
(2) 360蜘蛛:Mozilla/5.0(Windows; U; Windows NT 5.1; zh-CN;)Firefox/1.5.0.11;360Spider
(3) 英文雅虎:Mozilla/5.0
? (compatible;Yahoo!Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp)
(4) Google蜘蛛:Mozilla/5.0 (compatible; Googlebot/2.1;+http://www.google.com/bot.html)
(5) Google移動蜘蛛:Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)
(6) 微軟Bing蜘蛛:Mozilla/5.0 (compatible; bingbot/2.0;+http://www.bing.com/bingbot.htm)
(7) 搜狗蜘蛛:Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07)
(8) 有道蜘蛛:Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)
整個(gè)互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁面組成
搜索引擎蜘蛛跟蹤頁面上的鏈接,從一個(gè)頁面爬到下一個(gè)頁面,就好像蜘蛛在蜘蛛網(wǎng)上爬行那樣
1.網(wǎng)站和頁面權(quán)重。
2.頁面更新度。
3.導(dǎo)入鏈接。
4.與首頁點(diǎn)擊距離。 ##網(wǎng)站上權(quán)重最高的是首頁
5.URL結(jié)構(gòu)。 ##短的、層次淺的URL被直觀認(rèn)為在網(wǎng)站上的權(quán)重相對較高
蜘蛛在頁面上發(fā)現(xiàn)鏈接后并不是馬上就去訪問,而是將URL存入地址庫,然后統(tǒng)一安排抓取。
(1)人工錄入的種子網(wǎng)站 (2)蜘蛛從HTML中解析出新的鏈接URL,與地址庫中的數(shù)據(jù)進(jìn)行對比,地址庫中沒有的網(wǎng)址,存入待訪問地址庫。 (3)通過搜索引擎網(wǎng)頁提交表格提交進(jìn)來的網(wǎng)址。 (4)通過XML網(wǎng)站地圖、站長平臺提交的網(wǎng)址。
搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的
搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。
其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。
每個(gè)URL都有一個(gè)獨(dú)特的文件編號。
遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時(shí),很可能不再繼續(xù)爬行。
<div id="post-1100" class="post-1100 post hentry category-seo"> <div class="posttitle"> <h2><a href="http://www.gzhytextile.com/h-nd-9.html#_np=105_337" rel="bookmark" title="什么是經(jīng)編網(wǎng)眼布">什么是經(jīng)編網(wǎng)眼布</a></h2>
除去HTML代碼后,剩下的用于排名的文字只是這一行:什么是經(jīng)編網(wǎng)眼布
按照掃描方向,基于詞典的匹配法可以分為:正向匹配和逆向匹配詞典匹配方法計(jì)算簡單,其準(zhǔn)確度在很大程度上取決于詞典的完整性和更新情況
按照匹配長度優(yōu)先級的不同,又可以分為:最大匹配和最小匹配
將掃描方向和長度優(yōu)先混合,又可以產(chǎn)生正向最大匹配、逆向最大匹配等不同方法。
唯一能做的是在頁面上用某種形式提示搜索引擎,
比如在頁面標(biāo)題、h1標(biāo)簽及黑體中出現(xiàn)關(guān)鍵詞
如“的”、“地”、“得”之類的助詞,英文中的常見停止詞有the, a, an, to, of等
“啊”、“哈”、“呀”之類的感嘆詞,
“從而”、“以”、“卻”之類的副詞或介詞
比如版權(quán)聲明文字、導(dǎo)航條、廣告等搜索引擎需要識別并消除這些噪聲,排名時(shí)不使用噪聲內(nèi)容。
從頁面主體內(nèi)容中選取最有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率最高的關(guān)鍵詞),
然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋。
關(guān)鍵詞選取是在分詞、去停止詞、消噪之后。
比如對頁面內(nèi)容的判斷,很可能包括了用戶體驗(yàn)、頁面排版、廣告布局、語法、頁面打開速度等,
也可能會涉及模式識別、機(jī)器學(xué)習(xí)、人工智能等方法。
越常用的詞對搜索詞的意義貢獻(xiàn)越小,越不常用的詞對搜索詞的意義貢獻(xiàn)越大。(2)詞頻及密度。
搜索引擎對搜索詞串中的關(guān)鍵詞并不是一視同仁地處理,而是根據(jù)常用程度進(jìn)行加權(quán)。
不常用的詞加權(quán)系數(shù)高,常用詞加權(quán)系數(shù)低,排名算法對不常用的詞給予更多關(guān)注。
在沒有關(guān)鍵詞堆積的情況下,搜索詞在頁面中出現(xiàn)的次數(shù)越多,密度越高,說明頁面與搜索詞越相關(guān)。(3)關(guān)鍵詞位置及形式。
關(guān)鍵詞出現(xiàn)在比較重要的位置,說明頁面與關(guān)鍵詞越相關(guān),如標(biāo)題標(biāo)簽、黑體、H1等(4)關(guān)鍵詞距離。
切分后的關(guān)鍵詞完整匹配地出現(xiàn),說明與搜索詞最相關(guān)。(5)鏈接分析及頁面權(quán)重。
頁面有越多以搜索詞為錨文字的導(dǎo)入鏈接,說明頁面的相關(guān)性越強(qiáng)。
調(diào)用原始頁面的標(biāo)題標(biāo)簽、說明標(biāo)簽、快照日期等數(shù)據(jù)顯示 有時(shí)候動態(tài)生成頁面摘要
搜索用戶的IP地址、搜索的查詢詞、搜索時(shí)間,以及點(diǎn)擊了哪些結(jié)果頁面,搜索引擎都記錄形成日志。
日志文件中的數(shù)據(jù)對搜索引擎判斷搜索結(jié)果質(zhì)量、調(diào)整搜索算法、預(yù)期搜索趨勢等有重要意義
提出了與傳統(tǒng)信息檢索系統(tǒng)不同的基于鏈接的排名方法。
如錨文字中包含哪些關(guān)鍵詞,發(fā)出鏈接的頁面索引,包含特定錨文字的鏈接總數(shù),包含特定關(guān)鍵詞的鏈接都指向哪些頁面。
詞庫不僅包含關(guān)鍵詞原型,也包含同一個(gè)詞干的其他衍生關(guān)鍵詞。
在用戶搜索時(shí),將得到的基于鏈接的相關(guān)性與基于關(guān)鍵詞匹配的傳統(tǒng)相關(guān)性綜合使用,得到更準(zhǔn)確的排名。
樞紐值,指的是頁面上所有導(dǎo)出鏈接指向頁面的權(quán)威值之和。
權(quán)威值指的是所有導(dǎo)入鏈接所在頁面的樞紐值之和。
Google商標(biāo)中的TrustRank指的是Google檢測含有惡意代碼網(wǎng)站的方法,而不是指排名算法中的信任指數(shù)。
很多垃圾網(wǎng)站會鏈接到高權(quán)威、高信任指數(shù)的網(wǎng)站,試圖提高自己的信任指數(shù)。
一種是選擇導(dǎo)出鏈接最多的網(wǎng)站,因?yàn)門rustRank算法就是計(jì)算指數(shù)隨著導(dǎo)出鏈接的衰減。
另一種挑選種子網(wǎng)站的方法是選PR值高的網(wǎng)站,因?yàn)镻R值越高,在搜索結(jié)果頁面出現(xiàn)的概率就越大。
A.一種是隨鏈接次數(shù)衰減,也就是說如果第一層頁面TrustRank指數(shù)是100,第二層頁面衰減為90,第三層衰減為80。衰減和分配這兩種計(jì)算方法通常綜合使用,整體效果都是隨著鏈接層次的增加,TrustRank值逐步降低。
B.第二種計(jì)算方法是按導(dǎo)出鏈接數(shù)目分配TrustRank值,也就是說,如果一個(gè)頁面的TrustRank值是100,頁面上有5個(gè)導(dǎo)出鏈接,每個(gè)鏈接將傳遞20%的TrustRank值。
一種是把傳統(tǒng)排名算法挑選出的相關(guān)頁面,根據(jù)TrustRank值比較,重新做排名調(diào)整。現(xiàn)在的搜索引擎排名算法中,TrustRank概念使用更為廣泛,常常影響大部分網(wǎng)站的整體排名。
另一種是設(shè)定一個(gè)最低的TrustRank值門檻,只有超過這個(gè)門檻的頁面,才被認(rèn)為有足夠的質(zhì)量進(jìn)入排名,低于門檻的頁面將被認(rèn)為是垃圾頁面,從搜索結(jié)果中過濾出去。
在搜索引擎算法中,TrustRank值也通常表現(xiàn)在域名級別,整個(gè)域名的信任指數(shù)越高,整體排名能力就越強(qiáng)。
即,反向鏈接越多的頁面就是越重要的頁面,因此PR值也就越高。
鏈接就像民主投票一樣,A頁面鏈接到B頁面,就意味著A頁面對B頁面投了一票,使得B頁面的重要性提高。第二個(gè)是隨機(jī)沖浪比喻。
同時(shí),A頁面本身的PR值決定了A所能投出去的投票力,PR值越高的頁面,投出的票也更重要。
傳統(tǒng)基于關(guān)鍵詞匹配的算法是看頁面自己說頁面內(nèi)容是什么,基于鏈接的PR則是看別人怎么評價(jià)一個(gè)頁面。
所謂PR值,就是一個(gè)頁面在這種隨機(jī)沖浪訪問中被訪問到的概率。
一個(gè)頁面導(dǎo)入鏈接越多,被訪問到的概率就越高,因此PR值也越高。
A.真實(shí)PR值是一個(gè)準(zhǔn)確的、大于0.15、沒有上限的數(shù)字,工具條上顯示的PR值已經(jīng)規(guī)范化為0~10這11個(gè)數(shù)字,是一個(gè)整數(shù)。
B.真正的PR值是不間斷計(jì)算更新中的,工具條PR值只是某一個(gè)時(shí)間點(diǎn)上真實(shí)PR值的簡化快照輸出。
c.工具條PR與反向鏈接數(shù)目呈對數(shù)關(guān)系,而不是線性關(guān)系。
不過約定俗成,再加上巧妙的一語雙關(guān),大家都把PR稱為頁面級別。
有反向鏈接就有PR,沒有反向鏈接就沒有PR。
按Hilltop算法的最初構(gòu)想,一個(gè)頁面至少要有兩個(gè)來自專家文件的鏈接,才能返回一定的Hilltop值,不然返回的Hilltop值將為零。根據(jù)專家文件鏈接計(jì)算的分值被稱為LocalRank。
排名程序根據(jù)LocalRank值,對原本傳統(tǒng)排名算法計(jì)算的排名做重新調(diào)整,給出最后排名。這是搜索引擎排名階段最后的過濾和調(diào)整步驟。Hilltop算法提示SEO,建設(shè)外部鏈接時(shí)更應(yīng)該關(guān)注主題相關(guān),并且本身排名就不錯(cuò)的網(wǎng)站和頁面。
A. 自然排名位置依然至關(guān)重要。用戶即使不知道自然排名會在搜索結(jié)果的什么地方出現(xiàn),還會主動去尋找。2.7 高級搜索指令
B.雖然其他干擾因素吸引了大量注意力,但還沒有吸引同等比例的點(diǎn)擊,點(diǎn)擊還是集中在自然排名上。
C.盡一切力量、方法豐富自己頁面的顯示格式,加圖片、加視頻、加入新聞源、加schema標(biāo)記形成富摘要和知心搜索/知識圖譜、加地圖和本地信息等。
D.現(xiàn)在不僅僅排名位置重要,展現(xiàn)方式也越來越重要。
搜索結(jié)果返回的頁面包含雙引號中出現(xiàn)的所有詞,連順序也必須完全匹配。使用雙引號搜索可以更準(zhǔn)確地找到特定關(guān)鍵詞的競爭對手。
百度和Google都支持這個(gè)指令。
使用這個(gè)指令時(shí),減號前面必須是空格,減號后面沒有空格,緊跟著需要排除的詞。使用減號也可以更準(zhǔn)確地找到需要的文件,尤其是某些詞有多種意義時(shí)。
百度和Google都支持這個(gè)指令。
百度不支持*號搜索指令。
inurl:指令支持中文和英文。由于關(guān)鍵詞出現(xiàn)在URL中對排名有一定影響,使用inurl:搜索可以更準(zhǔn)確地找到競爭對手。
百度不支持inanchor:指令。
百度和Google都支持intitle:指令。Title是目前頁面優(yōu)化的最重要因素。
做SEO的人無論要做哪個(gè)詞的排名,都會把關(guān)鍵詞放進(jìn)Title中。
因此使用intitle指令找到的文件才是更準(zhǔn)確的競爭頁面。
如果關(guān)鍵詞只出現(xiàn)在頁面可見文字中,而沒有出現(xiàn)在Title中,大部分情況是并沒有針對關(guān)鍵詞進(jìn)行優(yōu)化,也不是有力的競爭對手。
例如,allintitle:SEO搜索引擎優(yōu)化,
就相當(dāng)于:intitle:SEO intitle:搜索引擎優(yōu)化,
返回的是標(biāo)題中既包含“SEO”,也包含“搜索引擎優(yōu)化”的頁面。
allinurl:SEO搜索引擎優(yōu)化,
就相當(dāng)于:
inurl:SEO inurl:搜索引擎優(yōu)化
百度和Google都支持filetype:指令。百度只支持下面幾種文件格式:pdf, doc, xls, ppt, rtf, all。其中的“all”表示搜索百度所有支持的文件類型。
比如搜索site:http://seozac.com這個(gè)指令是查詢網(wǎng)站收錄頁面數(shù)的最簡單方法。
返回的就是http://seozac.com這個(gè)域名下的所有頁面。
不過site:指令很不準(zhǔn)確,只能作為參考。百度site:指令還顯示了來自百度站長平臺的信息和鏈接。
搜索:link: http://seozac.com,返回的就是http://seozac.com的反向鏈接。Google的link:指令返回的鏈接只是Google索引庫中的一部分,而且是近乎隨機(jī)的一部分,所以用link:指令查反向鏈接幾乎沒有用。
搜索:link: seozac.com-site:http://seozac.com,返回的則是http://seozac.com的外部鏈接,已去除http://seozac.com域名本身的頁面
返回的就是URL中包含“gov”,頁面中有“減肥”這個(gè)詞的頁面。例2:inurl:.http://edu.cn交換鏈接
返回的是來自.http://edu.cn,也就是學(xué)校域名上的包含“交換鏈接”這個(gè)詞的頁面例3:inurl:.http://edu.cn intitle:交換鏈接
返回的則是來自http://edu.cn域名,標(biāo)題中包含“交換鏈接”這四個(gè)字的頁面例4:inurl:http://edu.cn/forum/*register
返回的結(jié)果是在.http://edu.cn域名上,url中包含“forum”以及“register”這兩個(gè)單詞的頁面例5:減肥inurl:links
返回的是與減肥有關(guān)且URL中包含“l(fā)inks”這個(gè)單詞的頁面。例6:allinurl:gov.cn+links
很多站長把交換鏈接頁面命名為links.html等,所以這個(gè)指令返回的就是與減肥主題相關(guān)的交換鏈接頁面。
返回的是URL中包含“gov.cn”和“l(fā)inks”的頁面,也就是政府域名上的交換鏈接頁面。
關(guān)鍵詞:索引
客戶&案例
營銷資訊
關(guān)于我們
微信公眾號
版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。