国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 電子商務 > 搜索引擎是如何判斷頁面文章內(nèi)容是否原創(chuàng)的

搜索引擎是如何判斷頁面文章內(nèi)容是否原創(chuàng)的

時間:2023-03-07 11:36:01 | 來源:電子商務

時間:2023-03-07 11:36:01 來源:電子商務

本人最近在操作一個非主流站,內(nèi)容是采集的,開始收錄還好,后來不久就被k了,幾萬數(shù)據(jù)的站百度收錄只剩幾十。當然,我也知道一直采集也不是辦法,可是人力有限,不可能去一條條加,也不現(xiàn)實。所以想搜索一下搜索引擎是怎么判定原創(chuàng)與否的,但很可惜,這方面的內(nèi)容實在不多。然后我去以搜索工程師的角度去想了想,不禁一身冷汗啊,因為判定原創(chuàng)與否實在太簡單了。我就按我的思維順序分析一下,供參考。

下面我以這個文章為例來講解。標題:南昊北京科技有限公司是專業(yè)的光標閱讀機生產(chǎn)商。內(nèi)容:南昊科技研發(fā)的光標閱讀機讀卡快,質(zhì)量優(yōu),服務好。我們的公司地址在北京市XXXX。蜘蛛通過超鏈接文本來到我們的網(wǎng)站,并通過站內(nèi)鏈接來到此篇文章頁。搜索引擎判斷分析開始。

1.標題的分析。現(xiàn)在好多的網(wǎng)頁都有明顯的優(yōu)化痕跡,帶有很多的長尾詞,但是這些在后邊位置的長尾詞應該只是告訴引擎本頁面這是關于什么內(nèi)容的,因為這樣的話引擎會認為有太多重復,顯然這是一個不正確的做法。實際應該為有一個截取函數(shù),比如只截取前邊40個字符作為分析內(nèi)容。最終,假設引擎截取的是:南昊北京科技有限公司是專業(yè)的光標閱讀機。

首先要做的就是判斷這個標題是不是唯一,怎么判斷呢,放心有辦法。我們都知道引擎分類是按詞條目來分的,那條目要怎么來呢。簡單:相關搜索詞條目。如下圖:

引擎會把截取到的標題按這個相關搜索詞去他的數(shù)據(jù)庫中逐一分析匹對。舉個例子吧,從標題中取到光標閱讀機這個詞,然后和相關搜索詞匹對,如果數(shù)據(jù)庫中已經(jīng)存有了這個標題,就會認為此標題不唯一,待匹對文章內(nèi)容。如果光標閱讀機這個詞匹對完畢,再會截取南昊北京,再會以此類推,進行匹對……直到分析完引擎認為標題所含全部的關鍵詞。

最終標題的匹對結果有兩種:一,標題數(shù)據(jù)庫暫無此內(nèi)容,待考察內(nèi)容。二,標題數(shù)據(jù)庫中已存在此內(nèi)容,待考察內(nèi)容。

2.內(nèi)容的分析?;舅悸窇摵蜆祟}的分析是差不多的,但是也有差別,困為內(nèi)容包含的信息畢竟比標題要復雜,五花八門的多,也要有更復雜的算法。

前邊已經(jīng)說了我們的內(nèi)容是:南昊科技研發(fā)的光標閱讀機讀卡快,質(zhì)量優(yōu),服務好。我們的公司地址在北京市XXXX。因為文章內(nèi)容一般很長,所以不可能去對關鍵詞進行分析,他只好去對一句話或者一段話進行分析匹對。但是這個匹對范圍應該還是標題中有相關搜索詞的文章數(shù)據(jù)庫中進行分析匹對。

先大體說一下他的分析方法:隨機截取隨機長的字段,然后就行此字段前后內(nèi)容的分析,如果當前頁與引擎內(nèi)容數(shù)據(jù)庫中有相同字段的且前后段也相同的話,就會認為這個文章有抄襲,非原創(chuàng)的嫌疑。這個分析過程一般要重復幾次,假如分析了10次,有9次在截取字段前后都能在已有內(nèi)容數(shù)據(jù)庫中有相同內(nèi)容,再加上標題又相同,這樣的話,你這篇文章就會被認定為非原創(chuàng)了。

下面我們來模擬一下。

引擎第一次截取到了“光標閱讀機讀卡快,”,然后通過相關搜索詞來到文章數(shù)據(jù)庫,已有數(shù)據(jù)庫字段前為“科技研發(fā)的”,字段后為“質(zhì)量優(yōu)”,取出這兩個字段與我們當前頁面進行匹對。若有相同內(nèi)容,記為0,沒有相同內(nèi)容,記為1。一次匹對完畢。

然后再截取“公司地址”,進行操作,再次得到一個結果0或1,以此類推。直到完成引擎設置的匹對循環(huán)次數(shù)。如果匹對10次,有7次,或8次,或10次都能找到相同內(nèi)容,那么就會認為你的這篇不是原創(chuàng)了……

再往遠了說,如果判定這是一篇原創(chuàng),那么引擎會在他的域名權重數(shù)據(jù)庫中對該域名進行+1操作,顯然,越來越多的原創(chuàng),權重也就越來越高,排名也就越來越好了。如A5,chinaZ。

我想通過標題與內(nèi)容的這樣關鍵詞匹對,只要進行足夠次數(shù)的匹對,大膽擴展相關數(shù)據(jù)庫匹對范圍,一篇文章是不是原創(chuàng)就能分辨出來了。事實上,現(xiàn)在的處理器是越來越快又便宜,再加上搜索引擎工程師都是高學歷的,算法的提高改善,還有那經(jīng)驗的積累。搜索引擎對文章原創(chuàng)與否進行判斷,就像剁大白菜一樣簡單。

不想還行,一想真是嚇一跳,得到的結論是采集站必死!原創(chuàng)吧還是,最不濟標題起碼也要改吧??纯窗?,要是有時間了再分享一下如何做好引擎分析不出來的偽原創(chuàng)文章。

以上只是小弟淺顯分析,實際算法畢竟復雜得多,僅供參考!另AD一下:,我操作的一個站誠招友情鏈接,企業(yè)站為佳,Pr剛更新為1了,QQ:419844484,加好友請注明友鏈。

關鍵詞:內(nèi)容,文章,索引,判斷

74
73
25
news

版權所有? 億企邦 1997-2025 保留一切法律許可權利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關閉