時(shí)間:2023-02-06 15:12:01 | 來(lái)源:電子商務(wù)
時(shí)間:2023-02-06 15:12:01 來(lái)源:電子商務(wù)
百度作為第一大中文搜索引擎,它的分詞技術(shù)一直都有很多人在研究,中科院軟件所張俊林寫(xiě)的那篇《百度分析算法分析》的文章堪稱(chēng)經(jīng)典,把它比喻為百度搜索引擎中文分詞研究的《圣經(jīng)》也不為過(guò),每一個(gè)SEOer都應(yīng)該仔細(xì)的閱讀一下。我今天要說(shuō)的不是關(guān)于百度的問(wèn)題,而是百度的最大競(jìng)爭(zhēng)對(duì)手——Google(谷歌),在測(cè)試Google中文分詞算法的時(shí)候,發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象,今天與廣大的SEO朋友們分享。
Google分詞算法值得我們好好研究一下。郭現(xiàn)保個(gè)人認(rèn)為,Google的搜索結(jié)果頁(yè)(SERP)與搜索關(guān)鍵字的相關(guān)性,明顯大于百度,這是因?yàn)镚oogle把搜索關(guān)鍵字都拆分成最基本的詞組和單字后,在根據(jù)相關(guān)性去匹配數(shù)據(jù)庫(kù)的中內(nèi)容,而且Google拆分后的最基本詞組,完全是根據(jù)詞典里的詞組匹配的,也是說(shuō)它符合國(guó)家語(yǔ)言文字工作委員會(huì)的規(guī)范和標(biāo)準(zhǔn)的,這只限于普通詞組(公眾人名、著名品牌名)。
實(shí)例1:測(cè)試Google是否有專(zhuān)業(yè)名詞庫(kù)
在Google搜索“搜索引擎關(guān)鍵字”,Google會(huì)把這個(gè)關(guān)鍵字短語(yǔ)拆分為“搜索—引擎—關(guān)鍵—字”,這是因?yàn)?ldquo;搜索引擎”和“關(guān)鍵字”都是網(wǎng)絡(luò)專(zhuān)業(yè)詞組,可能Google沒(méi)有專(zhuān)業(yè)詞組庫(kù),所以就被拆分成了“搜索—引擎—關(guān)鍵—字”。
實(shí)例2:測(cè)試Google拆分長(zhǎng)關(guān)鍵字
在Google搜索“他舅WAP流量統(tǒng)計(jì)分析”,Google把這個(gè)關(guān)鍵字短語(yǔ)拆分為“他—舅—wap—流量—統(tǒng)計(jì)—分析”六部分,“WAP”是一個(gè)英文詞組,包括Google和其他搜索引擎一般是不拆分英文詞組的(就算它不是英文單詞),“流量”、“統(tǒng)計(jì)”、“分析”都是符合國(guó)家語(yǔ)言規(guī)范的標(biāo)準(zhǔn)詞組,“他舅”只是中國(guó)老百姓一個(gè)口頭稱(chēng)謂用語(yǔ),不符合國(guó)家語(yǔ)言規(guī)范,在詞典中根本就查不到這,所以Google就把“他舅”拆分成了兩個(gè)單字。
實(shí)例3:測(cè)試品牌名是否被Google收錄為詞組
在Google搜索“海爾冰箱”、“惠普電腦”、“華為通訊”、“美的電器”,“五糧液酒”,“夏利汽車(chē)”、“北京同仁堂”這七個(gè)都是著名的品牌,結(jié)果是“海爾”、“惠普”、“華為”、“五糧液”、“同仁堂”都是單獨(dú)的詞組,沒(méi)有被拆分為單字,“夏利”、“美的”這兩個(gè)品牌卻被拆分成了單字。不是所有品牌都能被Google作為一個(gè)詞組收錄進(jìn)品牌詞庫(kù),Google有自己的收錄標(biāo)準(zhǔn)的。
實(shí)例4:測(cè)試Google是否會(huì)拆分成語(yǔ)
下面我們搜索一下韓喬生的經(jīng)典名句“迅雷不及掩耳之勢(shì)”和“山清水秀麗”,結(jié)果“迅雷不及掩耳之勢(shì)”這個(gè)短句被拆分成了“迅雷—不及—掩耳盜鈴—之—勢(shì)”,“迅雷”是一個(gè)符合漢語(yǔ)言規(guī)范的標(biāo)準(zhǔn)詞組,不是指下載工具那個(gè)“迅雷”,“不及”也是一個(gè)詞組,“掩耳盜鈴”也是符合國(guó)家語(yǔ)言規(guī)范的成語(yǔ),“之勢(shì)”不是標(biāo)準(zhǔn)詞組,所以就被拆分為兩個(gè)單字。“山清水秀麗”被拆分為了“山清水秀—麗”,“山清水秀”是一個(gè)成語(yǔ)沒(méi)有拆分。Google把成語(yǔ)作為幾個(gè)基本詞組,不會(huì)進(jìn)一步拆分。
實(shí)例5:測(cè)試普通之間是否有權(quán)重高低之分
搜索“山河水災(zāi)”這個(gè)關(guān)鍵字短語(yǔ),結(jié)果Google拆分為“山河”和“水災(zāi)”兩個(gè)詞組;然后搜素“山河水災(zāi)情”這個(gè)關(guān)鍵字短語(yǔ),結(jié)果Google拆分為“山河”、“水”、“災(zāi)情”三部分,“水”字沒(méi)有和“災(zāi)”組成詞組,反而“災(zāi)”和“情”組成了詞組,這說(shuō)“災(zāi)情”這個(gè)詞的權(quán)重高于“水災(zāi)”的權(quán)重。這說(shuō)明詞組之間也是有權(quán)重之分的。
根據(jù)實(shí)例測(cè)試推斷:Google會(huì)把搜索的關(guān)鍵字(短語(yǔ))拆分為最基本的詞組,這些普通詞組都是符合漢語(yǔ)言規(guī)范的標(biāo)準(zhǔn)詞組,不像百度那樣收錄“人造名詞”。Google的詞組大致可分為普通名詞、地名、人名等幾類(lèi),關(guān)鍵字(短語(yǔ))都是從左向右,按權(quán)重高低拆分。這些詞組權(quán)重從低到高依次如下:人名<普通詞組<地名<成語(yǔ)<領(lǐng)導(dǎo)人名字。進(jìn)一步測(cè)試品牌名和人名的權(quán)重是一樣,都是最低的,這只是一個(gè)大致順序,因?yàn)橥活?lèi)詞組還會(huì)根據(jù)日常使用的頻率進(jìn)一步的分級(jí),每一級(jí)的分配不同的權(quán)重,所以同一類(lèi)詞組之間也有權(quán)重高低之分。
根據(jù)Google分詞原理我們可以看出,Google的搜索結(jié)果頁(yè)相關(guān)性要高百度,因?yàn)镚oogle使用關(guān)鍵字完全匹配和關(guān)鍵字分詞匹配兩個(gè)條件,去數(shù)據(jù)庫(kù)中搜索相關(guān)數(shù)據(jù)。
這只是我一點(diǎn)膚淺的研究,有什么不足之處請(qǐng)高手們多多指點(diǎn),歡迎來(lái)信進(jìn)行討論,我的郵箱地址是:chinaxxm@yahoo.cn
關(guān)鍵詞:研究,實(shí)例,中文
客戶(hù)&案例
營(yíng)銷(xiāo)資訊
關(guān)于我們
客戶(hù)&案例
營(yíng)銷(xiāo)資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。