文本分類(數(shù)據(jù)庫(kù))
時(shí)間:2022-11-29 16:30:01 | 來(lái)源:信息時(shí)代
時(shí)間:2022-11-29 16:30:01 來(lái)源:信息時(shí)代
文本分類 : 在給定的分類體系下對(duì)文本的內(nèi)容的分類。文本分類的定義具有如下幾層含義: ①分類體系是由人工預(yù)先設(shè)定的,而且類別可以有層次關(guān)系。②文本和類別是一對(duì)多的關(guān)系,亦即一篇文本可以被分類到數(shù)個(gè)類別。
1. 文本分類方法
各種文本分類方法,一般具有相似的分類過(guò)程。其分類過(guò)程大體如下: ①文本特征抽取; ②使用訓(xùn)練文本集訓(xùn)練分類器;③分類器對(duì)新文本進(jìn)行分類。
2.文本特征抽取
文本特征抽取是指從無(wú)結(jié)構(gòu)文本中,抽取一些代表有代表性的特征,從而可以用這些特性來(lái)表示文本,降低文本處理難度,訓(xùn)練文本分類器,進(jìn)行文本分類。文本特征選取這一過(guò)程又可以細(xì)分為三個(gè)部分: 文本預(yù)處理、文本表示和降維。
(1)文本預(yù)處理:文本文件通常各種各樣的不規(guī)則格式,既有有無(wú)結(jié)構(gòu)的字符串形式文本,又有半結(jié)構(gòu)化的HTML、XML格式,還有其他各種專有格式。文本預(yù)處理的目的提高文本質(zhì)量,統(tǒng)一文本格式,減低文本處理難度。常用的文本預(yù)處理方法有:去除文本中的格式化信息,去除停用詞,詞根還原,數(shù)據(jù)清洗,多語(yǔ)言處理。
(2)文本表示:1969年,Gerard Sahon和McGill提出向量空間模型(vector space model),在這種模型中,文本集被表示為由特征項(xiàng)構(gòu)成的向量空間。文本dj被表示為向量空間中的一個(gè)點(diǎn),文本集可以表示成一個(gè)特征矩陣A。
AM×N=(aik) dj=(a1j,a2j,…,amj)。
其中,a
ij表示特征項(xiàng)i在文檔d
j中的權(quán)重,N表示文檔個(gè)數(shù),M表示特征維數(shù)。每一維代表從文本中抽取得到的某個(gè)特征項(xiàng)。典型的特征項(xiàng)包括一個(gè)字,一個(gè)詞,一個(gè)短語(yǔ),一個(gè)n元組,甚至是一個(gè)概念。權(quán)重a
ij的選取非常關(guān)鍵,它能對(duì)分類結(jié)果產(chǎn)生很大的影響。人們通常通過(guò)如下兩條經(jīng)驗(yàn)規(guī)則來(lái)選取權(quán)重: ①特征項(xiàng)在文本中出現(xiàn)的概率越高,該特征項(xiàng)與文本的主題越相關(guān)。②特征項(xiàng)在文檔集中出現(xiàn)的次數(shù)越多,它與文本的主題越不相關(guān)。
在此,引入兩個(gè)定義f
ik和n
i,其中f
ik代表特征項(xiàng)i在文本k中出現(xiàn)頻率,n
i代表特征項(xiàng)i在文本集中出現(xiàn)的頻率。
基于TF-IDF的權(quán)重的基本思想是權(quán)重與特征項(xiàng)在文本中的出現(xiàn)頻率成正比,與特征項(xiàng)在文本集中的出現(xiàn)頻率成反比,
TFC權(quán)重是在TF-IDF的基礎(chǔ)上,進(jìn)一步進(jìn)行了歸一化處理:
LFC權(quán)重采用取對(duì)數(shù)的方法,降低f
ik的作用:
基于商的權(quán)重計(jì)算方法如下: 其中,
是特征項(xiàng)i的熵,如果特征項(xiàng)只在一個(gè)文檔中出現(xiàn),那么熵等于0; 如果特征項(xiàng)在所有文本上均勻分布,熵等于-1,
(3)降維:就是把文本從高維空間映射到低維空間,以減少處理復(fù)雜度,提高分類效率。降維方法大體可以分為兩類: 特征選擇和特征重構(gòu)。
特征選擇方法的基本思想是從文本中去除一些信息量比較少,對(duì)分類結(jié)果影響不大的特征項(xiàng),從而減少特征項(xiàng)數(shù)目。常用的特征提取方法有詞頻閥值、信息增益、互信息量、χ
2統(tǒng)計(jì)、交叉熵、幾率比等方法。
特征重構(gòu)方法通過(guò)組合,轉(zhuǎn)化原特征項(xiàng),得到一組新的特征項(xiàng),而不是簡(jiǎn)單的選擇原特征項(xiàng)的一個(gè)子集。特征重構(gòu)方法的代表方法是隱性語(yǔ)義索引方法。
3.文本分類算法
國(guó)內(nèi)外已有很多的文本分類算法,如貝葉斯分類、K-近鄰法、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、投票分類、決策樹、線性最小方差匹配、Rocchio算法,基于語(yǔ)義網(wǎng)絡(luò)的概念推理網(wǎng)等。
(1)貝葉斯分類:是一種以貝葉斯假設(shè)為理論基礎(chǔ)的概率模型算法。樸素貝葉斯算法首先計(jì)算特征項(xiàng)屬于每個(gè)類別的先驗(yàn)概率。在分類新文本時(shí),根據(jù)該先驗(yàn)概率計(jì)算該文本屬于每個(gè)類別的后驗(yàn)概率,最后取后驗(yàn)概率最大的類別作為該文本所屬的類別。
(2)K-近鄰法: 是由Cover和Hart于1968年提出的,在文本分類方面得到了廣泛的研究與應(yīng)用。它通過(guò)計(jì)算文本間的相似度,找出訓(xùn)練集合中與測(cè)試文本最相近的k個(gè)文本。即新文本的k個(gè)近鄰,然后根據(jù)這k個(gè)文本的類別判定新文本的類別。
(3)支持向量機(jī)方法: 是由V. Vapnik領(lǐng)導(dǎo)的AT&Be11實(shí)驗(yàn)室研究小組開發(fā)出來(lái)的一種很有潛力的分類技術(shù),適合于大樣本集的分類。SVM是結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的近似實(shí)現(xiàn),基本思想是使用簡(jiǎn)單的線性分類器劃分樣本空間。對(duì)于在當(dāng)前特征空間中不可分的模式,則使用一個(gè)核函數(shù)把樣本映射到一個(gè)高維空間中,使得樣本能夠線性可分。