N-Gram:該模型基于這樣一種假設,第n個詞的出現(xiàn)只與前面N-1個詞相關" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 信息時代 > 語言模型簡介

語言模型簡介

時間:2022-03-01 15:45:01 | 來源:信息時代

時間:2022-03-01 15:45:01 來源:信息時代

語言模型主要分為規(guī)則模型和統(tǒng)計模型兩種。統(tǒng)計語言模型是用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram簡單有效,被廣泛使用。

N-Gram:該模型基于這樣一種假設,第n個詞的出現(xiàn)只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

語言模型的性能通常用交叉熵和復雜度(Perplexity)來衡量。交叉熵的意義是用該模型對文本識別的難度,或者從壓縮的角度來看,每個詞平均要用幾個位來編碼。復雜度的意義是用該模型表示這一文本平均的分支數(shù),其倒數(shù)可視為每個詞的平均概率。平滑是指對沒觀察到的N元組合賦予一個概率值,以保證詞序列總能通過語言模型得到一個概率值。通常使用的平滑技術有圖靈估計、刪除插值平滑、Katz平滑和Kneser-Ney平滑。

關鍵詞:模型,語言

74
73
25
news

版權所有? 億企邦 1997-2022 保留一切法律許可權利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關閉