時(shí)間:2023-03-08 13:14:01 | 來(lái)源:電子商務(wù)
時(shí)間:2023-03-08 13:14:01 來(lái)源:電子商務(wù)
前段時(shí)間參加武漢的一個(gè)seo圈子的小聚會(huì),閑聊嗨皮之余,連同幾個(gè)百度的工程師一起,具體的分析了下有關(guān)百度原創(chuàng)識(shí)別算法,在技術(shù)方面的一些細(xì)節(jié),覺(jué)得蠻有意思的,就寫(xiě)出來(lái)大家一起溝通下,求拍矮個(gè)芝麻磚.
搜索引擎為什么如此重視原創(chuàng)?
早期的搜索引擎算法中,其實(shí)并沒(méi)有原創(chuàng)這一項(xiàng)的判斷.但是隨著后來(lái)采集,轉(zhuǎn)載的大規(guī)范泛濫,導(dǎo)致了用戶很難搜索到自己真正想要的內(nèi)容.大量的重復(fù)內(nèi)容充斥在搜索結(jié)果中,讓人眼花繚亂.
首先,由于后期采集技術(shù)的興起,大量的轉(zhuǎn)載內(nèi)容充斥網(wǎng)絡(luò).轉(zhuǎn)載,必然會(huì)對(duì)原創(chuàng)產(chǎn)生一定的損傷,比如去掉圖片,刪掉一些重要的段落,或者充斥大量非原作者的注釋信息.不管這么做是為了什么,但是都會(huì)降低內(nèi)容的質(zhì)量,使得一個(gè)關(guān)鍵詞搜索到的內(nèi)容前十幾頁(yè)都是同樣的內(nèi)容,也就使得搜索變的很無(wú)用.因此促使了搜索引擎對(duì)于原創(chuàng)內(nèi)容進(jìn)行分級(jí)顯示.
由于后期采集技術(shù)的逐漸強(qiáng)大,可以自動(dòng)將一些同義詞進(jìn)行替換和修改,也就造成了轉(zhuǎn)載文章的內(nèi)容質(zhì)量進(jìn)一步下降.網(wǎng)絡(luò)上充斥著大量的無(wú)法閱讀的文章.也就更加促使了搜索引擎對(duì)于優(yōu)質(zhì)原創(chuàng)內(nèi)容的篩選.
其實(shí)讓矮個(gè)芝麻最為糾結(jié)的一件事情就是,寫(xiě)了一篇文章,被人轉(zhuǎn)走,改改頭部底部,就變成了一篇很是霸氣的文章.久而久之,很是打擊作者對(duì)于文章創(chuàng)新的積極性.這也是搜索引擎費(fèi)盡心機(jī)試圖尋找到原創(chuàng)文章的源頭,予以優(yōu)先顯示的最初原因.尊重作者的版權(quán),否則一篇文章的被轉(zhuǎn)載,大量的流量被引流到其他的網(wǎng)站,將會(huì)直接影響到作者的收益.
搜索引擎如何判斷一篇文章是否為原創(chuàng)?
1.1轉(zhuǎn)載的良心,轉(zhuǎn)載保留外連,作者名,聲明轉(zhuǎn)載等
個(gè)人覺(jué)得,這是一種純良心的做法.因?yàn)樵谵D(zhuǎn)載走的時(shí)候,刪掉你的信息是很輕松的.當(dāng)然,大量的采集可能不會(huì)刪掉原作者留下的版權(quán)聲明.這就給了搜索引擎一個(gè)很好的識(shí)別方式.首先,一般的門(mén)戶在轉(zhuǎn)載文章后,都會(huì)很禮貌的在標(biāo)題后面留下一個(gè)[轉(zhuǎn)]字.比較厚道一點(diǎn)的,還會(huì)在文章的底部或者頭部留下轉(zhuǎn)載源的鏈接.
轉(zhuǎn)載源不一定是原創(chuàng),但肯定更加有利于搜索引擎尋找到這篇文章的最終源頭.目前已知的做法的,標(biāo)題留 [轉(zhuǎn)] ,底部留原作者的文章鏈接,文章的信息中顯示轉(zhuǎn)載于那個(gè)作者或者網(wǎng)站.這是目前最為主流的識(shí)別方式.
1.2技術(shù)層面的識(shí)別
當(dāng)然,這么有禮貌的轉(zhuǎn)載也只是轉(zhuǎn)載采集大軍中的一部分.還有相當(dāng)大的一部分轉(zhuǎn)載,會(huì)掐頭去尾改標(biāo)題,外連作者就更不要提了,直接在采集過(guò)程中屏蔽替換掉.或許這是國(guó)人山寨采集的一種習(xí)慣吧,就像QQ的icq,百度的谷歌,支付寶的貝寶...所以說(shuō)對(duì)于這種行為,在這咱也不予評(píng)價(jià).
搜索引擎對(duì)于這類文章的識(shí)別方式就更多的是通過(guò)技術(shù)層面的東西.最為優(yōu)先級(jí)的就是,那篇文章優(yōu)先被搜索引擎蜘蛛抓到.同時(shí),文章中留下的時(shí)間,對(duì)于百度蜘蛛來(lái)說(shuō)是有迷惑性的.也就是說(shuō)你轉(zhuǎn)載一篇5月18號(hào)發(fā)的帖子,把時(shí)間改成5月16號(hào),百度蜘蛛是有一定概率被欺騙的.
同時(shí),對(duì)于改標(biāo)題這方面,百度有一個(gè)很模糊的算法.具體的做法就是對(duì)比標(biāo)題和內(nèi)容的關(guān)聯(lián)性.具體的判斷做法尚不清楚,但根據(jù)以往的經(jīng)驗(yàn)來(lái)看,如果標(biāo)題和內(nèi)容完全沒(méi)有關(guān)系,這篇文章很容易被百度忽視掉.這就說(shuō)明搜索引擎對(duì)于這方面還是有一定的識(shí)別度的.同時(shí),對(duì)于略有區(qū)別的兩篇文章,百度可以根據(jù)內(nèi)容的通順程度,判斷出哪一篇的質(zhì)量更高.
采集內(nèi)容很難識(shí)別,搜索引擎的算法有待提高
到這,很多人可能覺(jué)得搜索引擎的識(shí)別算法已經(jīng)很強(qiáng)大了.但是事實(shí)是,采集的文章還是很難被識(shí)別.
1.1采集工具的偽原創(chuàng)學(xué)習(xí)能力很強(qiáng)大
因?yàn)楝F(xiàn)在的采集工具對(duì)于同義詞,語(yǔ)句是否通順的機(jī)器自我學(xué)習(xí)能力也是很強(qiáng)大的.現(xiàn)在采集的一篇文章經(jīng)過(guò)采集工具的處理,即便是個(gè)人,也只是覺(jué)得語(yǔ)句略微僵硬,也很難感覺(jué)出這篇文章是出自軟件之手,所以這也是搜索引擎目前很頭痛的一點(diǎn),因?yàn)檫@種文章的質(zhì)量,畢竟要比原創(chuàng)差太多了.
1.2網(wǎng)頁(yè)結(jié)構(gòu)過(guò)于復(fù)雜,html結(jié)構(gòu)難以識(shí)別
雖然有很多的網(wǎng)站在做符合搜索引擎優(yōu)化方面的規(guī)范,但是內(nèi)容區(qū)域和欄目,熱門(mén)主題的推薦,廣告等內(nèi)容在html中的分離并不明顯.這也就增加了搜索引擎對(duì)于內(nèi)容的讀取后的識(shí)別分離.通過(guò)web手機(jī)版的優(yōu)化閱讀就可以看出,目前百度其實(shí)還是會(huì)經(jīng)常會(huì)無(wú)法區(qū)分哪些是文章的標(biāo)題,哪些是作者,內(nèi)容,發(fā)布時(shí)間等.這也就造成了最終對(duì)于原創(chuàng)內(nèi)容的對(duì)比,存在一定的偏差.
1.3文章制造工具,直接生成原創(chuàng)文章
目前網(wǎng)絡(luò)上流行著很多原創(chuàng)文章制造工具,比如直接從英文文章利用谷歌翻譯翻譯過(guò)來(lái),利用語(yǔ)句的匹配自動(dòng)匹配出一篇對(duì)于搜索引擎的蜘蛛看來(lái)是一篇完美的文章,但是對(duì)于用戶來(lái)說(shuō),除了大量的關(guān)鍵詞堆砌,毫無(wú)意義.
一系列的文章,最終決定了目前的搜索引擎,矮個(gè)芝麻覺(jué)得搜索引擎還是需要加大對(duì)于原創(chuàng)內(nèi)容的識(shí)別投入,因?yàn)楝F(xiàn)如今的采集和偽原創(chuàng)技術(shù),可以遠(yuǎn)遠(yuǎn)的走在前列哦~矮個(gè)芝麻博客.
關(guān)鍵詞:技術(shù),細(xì)則,識(shí)別,索引
客戶&案例
營(yíng)銷資訊
關(guān)于我們
客戶&案例
營(yíng)銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。