時(shí)間:2023-03-02 23:39:01 | 來源:建站知識
時(shí)間:2023-03-02 23:39:01 來源:建站知識
搜索引擎是如何判斷頁面文章內(nèi)容是否原創(chuàng)的:本人最近在操作一個非主流站,內(nèi)容是采集的,開始收錄還好,后來不久就被k了,幾萬數(shù)據(jù)的站百度收錄只剩幾十。當(dāng)然,我也知道一直采集也不是辦法,可是人力有限,不可能去一條條加,也不現(xiàn)實(shí)。所以想搜索一下搜索引擎是怎么判定原創(chuàng)與否的,但很可惜,這方面的內(nèi)容實(shí)在不多。然后我去以搜索工程師的角度去想了想,不禁一身冷汗啊,因?yàn)榕卸ㄔ瓌?chuàng)與否實(shí)在太簡單了。我就按我的思維順序分析一下,供參考。
下面我以這個文章為例來講解。標(biāo)題:南昊北京科技有限公司是專業(yè)的光標(biāo)閱讀機(jī)生產(chǎn)商。內(nèi)容:南昊科技研發(fā)的光標(biāo)閱讀機(jī)讀卡快,質(zhì)量優(yōu),服務(wù)好。我們的公司地址在北京市XXXX。蜘蛛通過超鏈接文本來到我們的網(wǎng)站,并通過站內(nèi)鏈接來到此篇文章頁。搜索引擎判斷分析開始。
1.標(biāo)題的分析?,F(xiàn)在好多的網(wǎng)頁都有明顯的優(yōu)化痕跡,帶有很多的長尾詞,但是這些在后邊位置的長尾詞應(yīng)該只是告訴引擎本頁面這是關(guān)于什么內(nèi)容的,因?yàn)檫@樣的話引擎會認(rèn)為有太多重復(fù),顯然這是一個不正確的做法。實(shí)際應(yīng)該為有一個截取函數(shù),比如只截取前邊40個字符作為分析內(nèi)容。最終,假設(shè)引擎截取的是:南昊北京科技有限公司是專業(yè)的光標(biāo)閱讀機(jī)。
首先要做的就是判斷這個標(biāo)題是不是唯一,怎么判斷呢,放心有辦法。我們都知道引擎分類是按詞條目來分的,那條目要怎么來呢。簡單:相關(guān)搜索詞條目。如下圖:
引擎會把截取到的標(biāo)題按這個相關(guān)搜索詞去他的數(shù)據(jù)庫中逐一分析匹對。舉個例子吧,從標(biāo)題中取到光標(biāo)閱讀機(jī)這個詞,然后和相關(guān)搜索詞匹對,如果數(shù)據(jù)庫中已經(jīng)存有了這個標(biāo)題,就會認(rèn)為此標(biāo)題不唯一,待匹對文章內(nèi)容。如果光標(biāo)閱讀機(jī)這個詞匹對完畢,再會截取南昊北京,再會以此類推,進(jìn)行匹對……直到分析完引擎認(rèn)為標(biāo)題所含全部的關(guān)鍵詞。
最終標(biāo)題的匹對結(jié)果有兩種:一,標(biāo)題數(shù)據(jù)庫暫無此內(nèi)容,待考察內(nèi)容。二,標(biāo)題數(shù)據(jù)庫中已存在此內(nèi)容,待考察內(nèi)容。
2.內(nèi)容的分析?;舅悸窇?yīng)該和標(biāo)題的分析是差不多的,但是也有差別,困為內(nèi)容包含的信息畢竟比標(biāo)題要復(fù)雜,五花八門的多,也要有更復(fù)雜的算法。
前邊已經(jīng)說了我們的內(nèi)容是:南昊科技研發(fā)的光標(biāo)閱讀機(jī)讀卡快,質(zhì)量優(yōu),服務(wù)好。我們的公司地址在北京市XXXX。因?yàn)槲恼聝?nèi)容一般很長,所以不可能去對關(guān)鍵詞進(jìn)行分析,他只好去對一句話或者一段話進(jìn)行分析匹對。但是這個匹對范圍應(yīng)該還是標(biāo)題中有相關(guān)搜索詞的文章數(shù)據(jù)庫中進(jìn)行分析匹對。
先大體說一下他的分析方法:隨機(jī)截取隨機(jī)長的字段,然后就行此字段前后內(nèi)容的分析,如果當(dāng)前頁與引擎內(nèi)容數(shù)據(jù)庫中有相同字段的且前后段也相同的話,就會認(rèn)為這個文章有抄襲,非原創(chuàng)的嫌疑。這個分析過程一般要重復(fù)幾次,假如分析了10次,有9次在截取字段前后都能在已有內(nèi)容數(shù)據(jù)庫中有相同內(nèi)容,再加上標(biāo)題又相同,這樣的話,你這篇文章就會被認(rèn)定為非原創(chuàng)了。
下面我們來模擬一下。
引擎第一次截取到了“光標(biāo)閱讀機(jī)讀卡快,”,然后通過相關(guān)搜索詞來到文章數(shù)據(jù)庫,已有數(shù)據(jù)庫字段前為“科技研發(fā)的”,字段后為“質(zhì)量優(yōu)”,取出這兩個字段與我們當(dāng)前頁面進(jìn)行匹對。若有相同內(nèi)容,記為0,沒有相同內(nèi)容,記為1。一次匹對完畢。
然后再截取“公司地址”,進(jìn)行操作,再次得到一個結(jié)果0或1,以此類推。直到完成引擎設(shè)置的匹對循環(huán)次數(shù)。如果匹對10次,有7次,或8次,或10次都能找到相同內(nèi)容,那么就會認(rèn)為你的這篇不是原創(chuàng)了……
再往遠(yuǎn)了說,如果判定這是一篇原創(chuàng),那么引擎會在他的域名權(quán)重?cái)?shù)據(jù)庫中對該域名進(jìn)行+1操作,顯然,越來越多的原創(chuàng),權(quán)重也就越來越高,排名也就越來越好了。如億企邦,chinaZ。
我想通過標(biāo)題與內(nèi)容的這樣關(guān)鍵詞匹對,只要進(jìn)行足夠次數(shù)的匹對,大膽擴(kuò)展相關(guān)數(shù)據(jù)庫匹對范圍,一篇文章是不是原創(chuàng)就能分辨出來了。事實(shí)上,現(xiàn)在的處理器是越來越快又便宜,再加上搜索引擎工程師都是高學(xué)歷的,算法的提高改善,還有那經(jīng)驗(yàn)的積累。搜索引擎對文章原創(chuàng)與否進(jìn)行判斷,就像剁大白菜一樣簡單。
不想還行,一想真是嚇一跳,得到的結(jié)論是采集站必死!原創(chuàng)吧還是,最不濟(jì)標(biāo)題起碼也要改吧??纯窗?,要是有時(shí)間了再分享一下如何做好引擎分析不出來的偽原創(chuàng)文章。
以上只是小弟淺顯分析,實(shí)際算法畢竟復(fù)雜得多,僅供參考!另AD一下:,我操作的一個站誠招友情鏈接,企業(yè)站為佳,Pr剛更新為1了,QQ:419844484,加好友請注明友鏈。
關(guān)鍵詞:內(nèi)容,文章,索引,判斷
客戶&案例
營銷資訊
關(guān)于我們
微信公眾號
版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。