時(shí)間:2022-07-06 20:36:01 | 來(lái)源:建站知識(shí)
時(shí)間:2022-07-06 20:36:01 來(lái)源:建站知識(shí)
首先,可以作個(gè)實(shí)驗(yàn),試著分別百度和谷歌一下“闌夕”,看看第一頁(yè)的結(jié)果。
在對(duì)比結(jié)果之前,我先介紹一下搜索引擎的工作原理吧。在互聯(lián)網(wǎng)海量的信息空間中,搜索引擎會(huì)釋放出蜘蛛(Spider),依照自身的檢索程序(Indexer),蜘蛛在網(wǎng)絡(luò)上四處爬行,將獲得的信息不斷的回報(bào)給服務(wù)器數(shù)據(jù)庫(kù),然后再由搜索引擎根據(jù)自己的核心算法來(lái)建立起與用戶查詢條件相匹配的記錄,最后返回排序結(jié)果給進(jìn)行查詢操作的用戶。
從最到的雅虎,到Google,再到百度,它們之所以能夠成為舉世聞名的搜索引擎公司,不可缺少的一個(gè)條件就是各自都擁有自己的核心算法,這是搜索引擎賴以生存的基石,例如Google的PageRank專利和百度的超鏈分析專利。
打個(gè)比方,當(dāng)用戶搜索“火箭對(duì)爵士”時(shí),互聯(lián)網(wǎng)上可能存在四個(gè)帶有這五個(gè)字的網(wǎng)頁(yè),這四個(gè)網(wǎng)頁(yè)的內(nèi)容分別是:
1、一篇博客里的一句話“在看完火箭對(duì)爵士的比賽之后我就跟老杜打電話去了,我跟他說(shuō)……”;
2、門戶網(wǎng)站為火箭對(duì)爵士的比賽制作的專題直播及評(píng)論;
3、該門戶網(wǎng)站該項(xiàng)專題直播及評(píng)論的鏡像站點(diǎn);
4、該門戶網(wǎng)站在上個(gè)賽季為火箭對(duì)爵士的比賽制作的專題直播及評(píng)論;
當(dāng)蜘蛛爬到了這四個(gè)結(jié)果后,會(huì)將結(jié)果反饋給搜索引擎的數(shù)據(jù)庫(kù),這時(shí)搜索引擎就要給這四個(gè)網(wǎng)頁(yè)進(jìn)行排序了,根據(jù)它的核心算法,排列出給用戶帶來(lái)最佳體驗(yàn)的搜索結(jié)果順序。這個(gè)排序并不是絕對(duì)的,但最優(yōu)秀的搜索引擎應(yīng)該排列出用戶最想看到的順序,比如在這個(gè)舉例中,完美的搜索引擎應(yīng)該排出的是“2-3-4-1”或“2-3-1-4”這樣的結(jié)果,因?yàn)橛脩?ldquo;火箭對(duì)爵士”時(shí),多數(shù)想要了解的是比賽的信息,所以“2”顯然應(yīng)該列為第一項(xiàng);“3”等同于“2”的復(fù)制站點(diǎn),權(quán)重低于“2”但內(nèi)容依然充足,所以列為第二項(xiàng);“4”的內(nèi)容雖然足夠充分,但信息陳舊,列為第三或第四項(xiàng);而“1”的關(guān)鍵詞與文章內(nèi)容很明顯匹配度不高,所以同樣也列為靠后的第三或第四項(xiàng)。如果結(jié)果排序并非如此,那么這就說(shuō)明這個(gè)搜索引擎的算法還不夠完善。
那么,現(xiàn)在回到本文開頭的實(shí)驗(yàn)結(jié)果上來(lái),“闌夕”是我在互聯(lián)網(wǎng)上的筆名,同時(shí)是個(gè)十分偏罕的詞語(yǔ),很少為人所用到,受干擾較小。在谷歌的搜索結(jié)果中,第一頁(yè)第一項(xiàng)就是我在新浪的主博客首頁(yè),往下依次有我在TechWeb的次博客、我在豆瓣的主頁(yè)、我在鮮果的博客抓取頻道、我在天涯來(lái)吧的個(gè)人資料,中間穿插了一些署名轉(zhuǎn)載文章,主次分明一目了然。但是再看看百度的搜索結(jié)果,排第一和第三的是兩個(gè)署名轉(zhuǎn)載,第二項(xiàng)是我在豆瓣的主頁(yè),第四項(xiàng)是個(gè)采集站(用來(lái)采集抓取QQ空間內(nèi)容),第五、第七項(xiàng)“闌夕”都只是文章中頻率很低的詞語(yǔ),我的主博客和次博客的首頁(yè)都未出現(xiàn)。
谷歌和百度所使用的算法是不同的,所以它們兩家搜索引擎的搜索結(jié)果也不會(huì)相同。但由此看去,提供結(jié)果更加準(zhǔn)確的定然是谷歌無(wú)疑,假如有用戶要搜索我的筆名,優(yōu)先推送的很顯然應(yīng)該是我的博客和主頁(yè),而百度所推送的結(jié)果雜亂無(wú)章,給搜索者所提供的是一份十分糟糕的解決方案。
為什么說(shuō)我的博客就一定要排在“闌夕”搜索結(jié)果的第一位呢?這不是我的自戀情節(jié)做怪,而是因?yàn)槲以诨ヂ?lián)網(wǎng)上身為“闌夕”的信息更新全部都在博客上完成,這份速度和權(quán)重都是沒(méi)有其他網(wǎng)頁(yè)可以相比的,當(dāng)然“闌夕”這個(gè)詞匯的冷僻性也保證了這一點(diǎn)。換句話說(shuō),假如在搜索“韓寒”時(shí),搜索引擎給出的結(jié)果第一項(xiàng)是韓寒的某個(gè)粉絲團(tuán)網(wǎng)站,而不是韓寒的博客,我們也可以說(shuō)這個(gè)搜索引擎是不稱職的,因?yàn)楸M管韓寒的這個(gè)粉絲團(tuán)網(wǎng)站可能一天會(huì)產(chǎn)生超過(guò)1000篇帶有“韓寒”這兩個(gè)字的內(nèi)容,而韓寒?dāng)?shù)天才更新一次博客,但用戶搜索“韓寒”時(shí)更為關(guān)注的顯然是韓寒這個(gè)人物,同時(shí)韓寒的博客也擁有著數(shù)量巨大的反向鏈接,它的權(quán)重將高于其他與他有關(guān)的網(wǎng)頁(yè)。
但是我在本文所使用的標(biāo)題是《百度的原罪:人工干預(yù)》,而非《百度的原罪:糟糕的算法》。這是因?yàn)槲也⒉毁|(zhì)疑百度的算法導(dǎo)致它在建立檢索“闌夕”的數(shù)據(jù)庫(kù)及結(jié)果排序時(shí)出現(xiàn)了混亂與落后,這不是百度算法的原因。
因?yàn)樵?008年12月之前,百度搜索“闌夕”我的主博客都是排在前三項(xiàng)以內(nèi)的。然而,去年12月之后,我的博客就從百度消失了,權(quán)重變得很低,很多相關(guān)搜索結(jié)果都排得非常靠后。11月24日,我在天涯和博客上發(fā)表了一篇名為《從牛根生、李彥宏、黃光裕的危機(jī)看中國(guó)企業(yè)家的道德》的評(píng)論文章,我沒(méi)有說(shuō)百度因?yàn)槲艺f(shuō)了它董事長(zhǎng)的壞話就把我的博客給斬草除根了,但從事情的發(fā)展過(guò)程來(lái)看,這篇文章無(wú)疑是個(gè)顯著的分界點(diǎn)。
我也當(dāng)然不相信百度的算法技術(shù)能夠判斷文章的傾向。唯一解釋得通的是,百度數(shù)量龐大的人工編輯在日常工作中對(duì)“闌夕”這個(gè)關(guān)鍵詞做了處理,就和他們平日里重復(fù)操作的上萬(wàn)次處理那樣。
同時(shí)也正是因?yàn)榘俣扔兄斯じ深A(yù)搜索結(jié)果的策略,所以才會(huì)有三鹿與百度的危機(jī)公關(guān)合作、拒絕百度營(yíng)銷人員推銷競(jìng)價(jià)排名后網(wǎng)站突然從百度搜索結(jié)果上消失、甚至你用國(guó)外的IP在百度MP3搜索格萊美的部分音樂(lè)試聽下載都全無(wú)結(jié)果——但是用國(guó)內(nèi)的IP搜索結(jié)果卻是完好無(wú)損的一抓一大把。
我肯定人工干預(yù)搜索結(jié)果是有著好處的,人永遠(yuǎn)比機(jī)器要更加人性化、更加具備機(jī)動(dòng)性,比如中國(guó)的法律不容許色情信息的存在,但是搜索算法和蜘蛛都無(wú)法判斷詞匯及圖片的性質(zhì),所以人工干預(yù)能夠及時(shí)的清除一些搜索引擎照常抓取的違法色情信息。但百度的人工干預(yù)手段更多的是使用在助力其營(yíng)銷或保護(hù)其口碑上面,這也使搜索引擎喪失了其根本理念:客觀、中立、公正。
Google則是始終主張技術(shù)第一,算法不夠完善,OK,沒(méi)問(wèn)題,我不斷的研發(fā)、完善Google的算法,它不可能成為人腦,但我盡全力使它無(wú)限接近人腦的程度。面對(duì)海量的信息,人工永遠(yuǎn)是弱小的,只有通過(guò)人工開發(fā)出技術(shù)和工具,運(yùn)用到檢索信息上,產(chǎn)生有序和有益的結(jié)構(gòu),這才是最符合科技的本質(zhì)的。
同時(shí),人工干預(yù)也大大的降低了百度的輿論口碑,這是百度無(wú)論在它的搜索結(jié)果中隱藏多少罵聲都無(wú)法改變的事實(shí)。很簡(jiǎn)單,如果網(wǎng)上出現(xiàn)一篇批評(píng)百度的文章,很少有人會(huì)說(shuō)作者是谷歌的槍手,但如果網(wǎng)上出現(xiàn)一篇批評(píng)谷歌的文章,可能會(huì)有不少人將作者指為谷歌的槍手。這是一個(gè)印象問(wèn)題,制造這種印象的就是百度和谷歌自己。
最近,有不少博客在義務(wù)的推廣谷歌的“一個(gè)雞蛋”公益活動(dòng),有位推薦這項(xiàng)活動(dòng)的博客(賴寶)因?yàn)殂氪ň杩罱Y(jié)果(政府官員的華宮豪車)而對(duì)“一個(gè)雞蛋”這類捐助活動(dòng)也是持有著懷疑和猶豫,我在文后留言說(shuō):“汶川捐款的實(shí)際操作打擊了很多人,你也是其中一個(gè)。但愚以為Google的一個(gè)雞蛋公益活動(dòng)不會(huì)如你所懷疑的那樣是作秀或者有存在暗箱,如果在這個(gè)互聯(lián)網(wǎng)連Google都無(wú)法相信,那么就沒(méi)哪個(gè)公司能夠被信任了。”他的回復(fù)是:“同。我就是看到是Google的才轉(zhuǎn)過(guò)來(lái)的。要是Baidu的話……”
同樣的還有百度和Google在做產(chǎn)品上的差異。百度利用人工干預(yù)結(jié)果將自己的貼吧、知道、百科等網(wǎng)頁(yè)權(quán)重調(diào)得相當(dāng)之高,以至于在搜索某些關(guān)鍵詞(比如“張靚穎”),第一頁(yè)甚至有超過(guò)一般都是百度自己的產(chǎn)品網(wǎng)頁(yè),這也被某些網(wǎng)友戲稱為“百度站內(nèi)搜索”。換而言之,百度利用搜索入口來(lái)強(qiáng)行推廣自己的產(chǎn)品增強(qiáng)用戶黏性,體現(xiàn)的是對(duì)自己產(chǎn)品的不自信,它并不相信自己能夠做到讓網(wǎng)友輸入tieba.baidu.com、zhidao.baidu.com、baike.baidu.com來(lái)進(jìn)入這些產(chǎn)品頁(yè)面。但Google的電子郵箱產(chǎn)品G-Mail則讓人看到了什么叫做卓越,當(dāng)G-Mail剛剛推出時(shí),利用邀請(qǐng)注冊(cè)的病毒式推廣很快的獲得了一批為數(shù)不少的基礎(chǔ)用戶,可是緊接著為了應(yīng)對(duì)Google的挑戰(zhàn)各大郵箱服務(wù)企業(yè)都將郵箱的儲(chǔ)存空間擴(kuò)大到了1G甚至超過(guò)1G,使G-Mail最吸引人的優(yōu)勢(shì)立刻蕩然無(wú)存,而G-Mail在設(shè)計(jì)上的一些缺陷(結(jié)構(gòu)混亂,速度緩慢)也使Google的投資者建議Google應(yīng)該干掉這個(gè)項(xiàng)目,重新啟動(dòng)做客戶端式的企業(yè)郵箱,G-Mail也被預(yù)言永遠(yuǎn)不會(huì)超過(guò)100萬(wàn)用戶。2008年,G-mail有了1億用戶,而且它的用戶增長(zhǎng)速度超過(guò)了40%,Yahoo只有2%,Microsoft Mail也只有7%。出于對(duì)Google的信任,幾乎所有G-Mail的使用者都相信Google有能力且即將改善G-Mail的服務(wù)和質(zhì)量,而他們最終感受到了,并向好友傳播G-Mail的好處。從頭到尾,Google沒(méi)有刪掉任何“G-Mail真是糟透了”這樣的評(píng)論,它們都掛在Google的搜索結(jié)果那里,Google只是沉下心來(lái)把G-Mail進(jìn)行了改善和更新,然后贊譽(yù)G-Mail的數(shù)量巨大的結(jié)果很迅速的淹沒(méi)了那些負(fù)面言論。
過(guò)分的依賴人工干預(yù)對(duì)百度來(lái)說(shuō)是顆不定時(shí)的炸彈,這和傳說(shuō)中鴕鳥在遇到險(xiǎn)情時(shí)將腦袋埋進(jìn)沙堆是一樣的結(jié)果,有些危機(jī)信息并不是百度將其在搜索結(jié)果中予以屏蔽就是不存在了的,相反,當(dāng)網(wǎng)友使用百度搜索不到客觀、豐富的結(jié)果,他會(huì)認(rèn)為百度的搜索水準(zhǔn)很差勁。
不論是不給錢就封站,還是競(jìng)價(jià)排名,這些2008年年底讓人詬病的缺點(diǎn)也都是百度的人工干預(yù)所產(chǎn)生的。在電影《魔鬼代言人》的片尾,阿爾·帕西諾再次化身撒旦,面對(duì)再度受到誘惑的基努李維斯的背影,英俊而邪魅的笑說(shuō),“啊,虛榮,是我最愛(ài)的原罪”。當(dāng)百度將人工操作視為提供搜索結(jié)果的“核心技術(shù)”時(shí),谷歌、搜狗、有道以及其他百度的競(jìng)爭(zhēng)對(duì)手都露出了同樣的笑容,沒(méi)有什么比目睹自己最大的競(jìng)爭(zhēng)對(duì)手自掘墳?zāi)挂佑淇斓母惺芰恕?/p>
另外附上隨州網(wǎng)友論壇www.suizhou8.com尋求友情連接
關(guān)鍵詞:干預(yù)
客戶&案例
營(yíng)銷資訊
關(guān)于我們
客戶&案例
營(yíng)銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。