在文本信息檢索中,常常用文檔中含" />
時(shí)間:2022-11-28 14:30:01 | 來(lái)源:信息時(shí)代
時(shí)間:2022-11-28 14:30:01 來(lái)源:信息時(shí)代
文本信息檢索 : 根據(jù)相似匹配度量模式,將用戶(hù)的查詢(xún)請(qǐng)求與文本文檔集合中的內(nèi)容進(jìn)行相似度比較,查找出一組相似度高的信息反饋給用戶(hù)的一種信息檢索。
在文本信息檢索中,常常用文檔中含有的詞匯集合來(lái)近似表示文檔的內(nèi)容。但并不是全部詞匯都可以用來(lái)描述文檔。例如,漢語(yǔ)中的“的”、“和”,英語(yǔ)中的冠詞、前置詞等一類(lèi)詞匯一般情況下可以認(rèn)為與文檔內(nèi)容無(wú)關(guān)。因此,用一組詞匯近似描述文檔時(shí),提取能夠描述文檔內(nèi)容的特征詞就顯得極為重要。我們稱(chēng)這種特征詞為索引項(xiàng)(indexing term),從文檔中提取索引項(xiàng)的處理稱(chēng)為索引(indexing)。索引方法一般有兩種: 人工索引(manual indexing)和自動(dòng)索引(automatic indexing)。人工索引是指人工從文檔中提取出重要的特征詞。當(dāng)處理大量的文檔集合時(shí),需要多人提取各自認(rèn)為是重要的文檔特征詞的工作,這就難以保證文檔特征詞的一致性。此外,人工提取成本太高,自動(dòng)索引也就應(yīng)運(yùn)而生。自動(dòng)索引就是計(jì)算機(jī)自動(dòng)地從文檔中提取特征詞。
通常,索引項(xiàng)用文檔中出現(xiàn)的單詞表示。因此,為了從文檔中提取索引項(xiàng)首先就要確定構(gòu)成文檔的連續(xù)字符中的哪一部分是單詞。單詞的確定隨書(shū)寫(xiě)文檔的語(yǔ)言不同處理方法極為不同。英語(yǔ)、法語(yǔ)等歐美語(yǔ)言由于詞與詞之間有空隔分隔,單詞確定較為容易,而漢語(yǔ)、日語(yǔ)等語(yǔ)言因?yàn)樵~間無(wú)空格,確定單詞本身就極為困難。對(duì)于漢語(yǔ)、日語(yǔ)等詞間無(wú)間格的語(yǔ)言,為了能正確提取單詞需先進(jìn)行詞法分析(morphological analysis)。詞法分析是將構(gòu)成文檔的字符序列分割成單詞,并對(duì)各個(gè)單詞賦予詞性和詞形變化等信息。在詞法分析中,既有用文檔中的詞與詞典中單詞進(jìn)行匹配來(lái)確定單詞的方法,也有先從大規(guī)模文本文檔數(shù)據(jù)庫(kù)中求出字符或詞的出現(xiàn)概率,再根據(jù)求得的概率確定單詞的方法。文檔的索引單位除單詞之外,還有許多其他的索引單位。典型的方法是,從字符序列開(kāi)始,一字字地向右取,取N個(gè)字符的N元組索引(N-gram indexing)方法。特別是,當(dāng)N=1,2,3時(shí),分別稱(chēng)為單元組(unigram),即按字索引方法、雙元組(bigram)和三元組(trigram)索引。在提取索引項(xiàng)時(shí),一般還需進(jìn)行停用詞處理、詞干提取(stemming)等技術(shù)。
索引項(xiàng)加權(quán)是對(duì)各個(gè)索引項(xiàng)賦予使查全率和查準(zhǔn)率提高的權(quán)重。為了提高查全率,盡量為多數(shù)文檔中的高頻索引項(xiàng)加較重的權(quán)值;為了提高查準(zhǔn)率,盡量為只在少數(shù)特殊的文檔中出現(xiàn)的索引項(xiàng)加較重的權(quán)值。設(shè)有n個(gè)文檔D1,D2,…,Dn從這些文檔中共提取了m個(gè)索引項(xiàng)w1,w2,…,wm。索引項(xiàng)wi在文檔Dj中的權(quán)重dij按以下三項(xiàng)指標(biāo):局部權(quán)重lij(local weight)、全局權(quán)重gi(global weight)、文檔規(guī)范化系數(shù)nj(document normalization factor)加權(quán)。即,索引項(xiàng)的權(quán)重用上述三項(xiàng)指標(biāo)按下式計(jì)算:
dij=lijgi/nj。
客戶(hù)&案例
營(yíng)銷(xiāo)資訊
關(guān)于我們
客戶(hù)&案例
營(yíng)銷(xiāo)資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。