国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 電子商務(wù) > 王克江:詳細案例解說百度中文分詞原理

王克江:詳細案例解說百度中文分詞原理

時間:2023-02-02 22:44:01 | 來源:電子商務(wù)

時間:2023-02-02 22:44:01 來源:電子商務(wù)

搜索引擎算法的改變迎來的中文分詞原理的變化,下面idsem團隊成員王克江以中文分詞原理來解說百度中文分詞原理的分詞規(guī)則,分享如下:

一、中文分詞原理的解說

1、基于理解的分詞方法

基于理解的分詞方法就是機器模擬人來理解詞語,在語言知識及其詞庫的配合下,機器執(zhí)行語句控制,詞意控制,以及分詞控制來模擬人來讀取網(wǎng)頁信息??梢岳斫獬蓹C器模擬人分詞。

2、基于字符串匹配的分詞方法

基于字符串匹配分詞是與詞庫進行對比按照不同的掃描方式進行分詞,掃描方式分為四種:

1)正向最大匹配法(由左到右的方向)

2)逆向最大匹配法(由右到左的方向)

3)最少切分(使每一句中切出的詞數(shù)最小)

4)雙向最大匹配法(進行由左到右、由右到左兩次掃描)

為了提高分詞精確度,又出現(xiàn)了標(biāo)志和特征掃描。標(biāo)志分詞以標(biāo)志作為為斷點,可將原字符串分為較小的串再來進機械分詞;特征分詞將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標(biāo)注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整,從而極大地提高切分的準(zhǔn)確率。

3、基于統(tǒng)計的分詞方法

基于統(tǒng)計的分詞方法目前有兩種方式:互現(xiàn)信息統(tǒng)計分詞、機械學(xué)習(xí)統(tǒng)計分詞 互現(xiàn)信息統(tǒng)計分詞:在去除噪聲的前提下統(tǒng)計詞語出現(xiàn)的頻率以及詞語相鄰的位置,根據(jù)相鄰原則以及詞語出現(xiàn)的頻率形式詞語。

機械學(xué)習(xí)統(tǒng)計分詞:在有大量已經(jīng)分詞的文本前提下,利用統(tǒng)計機器學(xué)習(xí)模型學(xué)習(xí)詞語切分的規(guī)律,實現(xiàn)對未知文本的切分,也可以成為訓(xùn)練統(tǒng)計分詞。

4、歧義詞語的識別

歧義分詞包括交集型歧義和組合型歧義在此就不做具體介紹您可以參考”中文分詞”百科

5、新詞識別

新詞識別主要指專業(yè)術(shù)語或者是命名實體比如”人名、地名、機構(gòu)名、商標(biāo)”等在百度詞庫用定位為專有詞庫。

在為大家解說玩中文分詞以后,那么百度是如何進行中文分詞的呢,下面用具體例子詳細介紹

二、圖例詳細解說百度如何進行中文分詞

百度中文分詞實例演示圖

 

1、如圖所示”林夕閣軟文”匹配成詞,體現(xiàn)了百度”基于理解的分詞方法”,機器模擬人理解出現(xiàn)了誤區(qū)。

2、在admin5的URL描述中我們可以發(fā)現(xiàn)”林夕閣”"軟文”單獨成詞,那么在標(biāo)題中”林夕閣軟文”成詞不光是進行了”理解分詞”還參與了統(tǒng)計分詞”互現(xiàn)信息”。

3、在標(biāo)題中先出現(xiàn)了”王克江”又出現(xiàn)了”林夕閣軟文”體現(xiàn)了正向最大匹配的基于字符串的分詞方法。

4、4個返回結(jié)果相對比我們發(fā)現(xiàn)了”王克江”作為一個人名專有成詞。

5、在”林夕閣軟文”這個分詞中又體現(xiàn)了歧義分詞,林夕閣本身是做互聯(lián)網(wǎng)名人專訪的,但是從這個分詞我們可以看出,百度還未解決歧義分詞。

那么綜合上述5條,我們可以總結(jié)出,百度中文分詞是綜合了中文分詞的所有形式,主要掃描方式是正向最大匹配。但是當(dāng)百度改變算法以后,逆向最大匹配的掃描的方式也參與了百度的中文分詞。

舉例如下

 

百度中文分詞新規(guī)律演示圖

如圖觀察”小剛的爸爸”匹配成詞,這個足以說明百度目前的分詞方式已經(jīng)綜合了正向最大匹配和逆向最大匹配的掃描方式。

總結(jié):了解中文分詞,分析百度中文分詞方式對網(wǎng)絡(luò)營銷以及軟文寫作有著重要的作用,當(dāng)然,百度的算法也在不斷改變,分詞也在改進,只要我們抓住核心,以用戶體驗為基準(zhǔn),網(wǎng)絡(luò)營銷就不會在糾結(jié)。

版權(quán):本文由idsem團隊首席策劃王克江手攥,版權(quán)歸屬idsem團隊王克江所有,望您尊重!!!

文章來源:

關(guān)鍵詞:中文,原理,詳細

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉