是不是谷歌的簡體中文搜索結(jié)果質(zhì)量被百度趕上了?
時間:2023-04-02 07:48:01 | 來源:電子商務(wù)
時間:2023-04-02 07:48:01 來源:電子商務(wù)
搜索的質(zhì)量評估通常是看幾個指標(biāo):
- 相關(guān)度 -- 請受過訓(xùn)練的人來評估每個引擎的前幾個結(jié)果是否相關(guān),評估時不參考結(jié)果的來源、引擎的品牌等。
- 索引規(guī)模 -- 每個引擎知道自己的規(guī)模,也就是有多少網(wǎng)頁(除去重復(fù)的),但是不知道對方的規(guī)模,可是可以根據(jù)兩方搜索結(jié)果的爬取,得知有多少網(wǎng)頁是我有他無,或他有我無,從此得知大約兩個引擎的索引規(guī)模。比較有挑戰(zhàn)的一點是如果索引規(guī)模大了可能導(dǎo)致相關(guān)度下降(因為有些長尾結(jié)果會排序太靠前)。
- 速度 -- 就是輸入搜索詞,得到結(jié)果的時間。很多測試告訴我們0.2秒的速度會導(dǎo)致用戶滿意度的落差,和未來使用的頻率。
- 新鮮度 -- 就是能爬到多新的內(nèi)容,而且要有一定規(guī)模(只有新聞內(nèi)容不算夠新)。
在2005-2006年我剛加入谷歌時,谷歌和百度的比較:
- 相關(guān)度領(lǐng)先百度2個點(大約是今天的英語谷歌和微軟的差距,就是說不大),但是我的理解是當(dāng)時百度自認(rèn)這方面領(lǐng)先谷歌。這是有可能的,因為每個公司內(nèi)部評估不同,就像今天微軟內(nèi)部自認(rèn)為英語相關(guān)度已經(jīng)超過谷歌一樣。
- 谷歌規(guī)模較大,但是很多重要的內(nèi)容都沒有(例如論壇)。(這里比較的是中文索引,但是其實谷歌的索引是全球所有語言都儲存的,因此任何搜索可能搜出任何語言和國家的結(jié)果)
- 速度遠(yuǎn)遠(yuǎn)慢于百度。
- 新鮮度落后百度。
經(jīng)過兩年的努力,在2008年,谷歌和百度的比較:
- 相關(guān)度遠(yuǎn)遠(yuǎn)領(lǐng)先7個點(大約是谷歌英語剛出來時和雅虎的差距)。
- 索引規(guī)模是百度的10倍左右(當(dāng)然,對絕大部分常見搜索詞是感覺不出差別的),并且彌補了有些爬取的錯誤和落差。
- 速度大約和百度一樣,雖然許多服務(wù)器不在國內(nèi)。
- 新鮮度達(dá)到6分鐘之內(nèi),也就是說一個網(wǎng)頁上線6分鐘后就可以被搜到(如果是PR值夠高的話)。
發(fā)現(xiàn)谷歌的進(jìn)步后,百度也開始更多的花功夫提升搜索質(zhì)量,在相關(guān)度和索引規(guī)模都有進(jìn)步。當(dāng)然,谷歌也推出Google Instant、real-time search、universal search。今天,我相信谷歌還是領(lǐng)先的,只是過去一年中國團(tuán)隊不再做中文搜索,差距應(yīng)該縮小了,領(lǐng)先程度肯定沒有2008年多。
最后,除了上面的科學(xué)評估,還要考慮一些別的因素:
- 以上評估是請有經(jīng)驗和有高教育水平的人。教育水平越高越喜歡谷歌。在博士群體,谷歌遠(yuǎn)遠(yuǎn)高于百度,但是隨著教育水平下降,分辨能力也下降,在高中水平的人中,就分不出差別(這里沒有品牌因素,是無品牌評估),而高教育水平的是占較少比例的。
- 如果加上品牌,用戶就會認(rèn)為百度的精確度是超過超過谷歌的,就算是在2008年搜索質(zhì)量差別最大的時候。也就是說,看不到品牌時,用戶70%投谷歌較精確的話,加上品牌,就可能只有45%投谷歌了。
- 上述評估沒有考慮到貼吧、知道、MP3等的影響。這些功能參雜在搜索結(jié)果里,會讓百度更被認(rèn)可,因而提升它的perceived 質(zhì)量。
- 谷歌今天有不少結(jié)果出不來,這對一個搜索引擎是致命的,因為大部分用戶會把這個現(xiàn)象怪罪到谷歌身上,因而影響谷歌在用戶心中的“質(zhì)量”。