在文本信息檢索中,常常用文檔中含" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢(xún) 在線咨詢(xún)
18143453325 在線咨詢(xún)
所在位置: 首頁(yè) > 營(yíng)銷(xiāo)資訊 > 信息時(shí)代 > 文本信息檢索(數(shù)據(jù)庫(kù))

文本信息檢索(數(shù)據(jù)庫(kù))

時(shí)間:2022-11-28 14:30:01 | 來(lái)源:信息時(shí)代

時(shí)間:2022-11-28 14:30:01 來(lái)源:信息時(shí)代

    文本信息檢索 : 根據(jù)相似匹配度量模式,將用戶(hù)的查詢(xún)請(qǐng)求與文本文檔集合中的內(nèi)容進(jìn)行相似度比較,查找出一組相似度高的信息反饋給用戶(hù)的一種信息檢索。
在文本信息檢索中,常常用文檔中含有的詞匯集合來(lái)近似表示文檔的內(nèi)容。但并不是全部詞匯都可以用來(lái)描述文檔。例如,漢語(yǔ)中的“的”、“和”,英語(yǔ)中的冠詞、前置詞等一類(lèi)詞匯一般情況下可以認(rèn)為與文檔內(nèi)容無(wú)關(guān)。因此,用一組詞匯近似描述文檔時(shí),提取能夠描述文檔內(nèi)容的特征詞就顯得極為重要。我們稱(chēng)這種特征詞為索引項(xiàng)(indexing term),從文檔中提取索引項(xiàng)的處理稱(chēng)為索引(indexing)。索引方法一般有兩種: 人工索引(manual indexing)和自動(dòng)索引(automatic indexing)。人工索引是指人工從文檔中提取出重要的特征詞。當(dāng)處理大量的文檔集合時(shí),需要多人提取各自認(rèn)為是重要的文檔特征詞的工作,這就難以保證文檔特征詞的一致性。此外,人工提取成本太高,自動(dòng)索引也就應(yīng)運(yùn)而生。自動(dòng)索引就是計(jì)算機(jī)自動(dòng)地從文檔中提取特征詞。
通常,索引項(xiàng)用文檔中出現(xiàn)的單詞表示。因此,為了從文檔中提取索引項(xiàng)首先就要確定構(gòu)成文檔的連續(xù)字符中的哪一部分是單詞。單詞的確定隨書(shū)寫(xiě)文檔的語(yǔ)言不同處理方法極為不同。英語(yǔ)、法語(yǔ)等歐美語(yǔ)言由于詞與詞之間有空隔分隔,單詞確定較為容易,而漢語(yǔ)、日語(yǔ)等語(yǔ)言因?yàn)樵~間無(wú)空格,確定單詞本身就極為困難。對(duì)于漢語(yǔ)、日語(yǔ)等詞間無(wú)間格的語(yǔ)言,為了能正確提取單詞需先進(jìn)行詞法分析(morphological analysis)。詞法分析是將構(gòu)成文檔的字符序列分割成單詞,并對(duì)各個(gè)單詞賦予詞性和詞形變化等信息。在詞法分析中,既有用文檔中的詞與詞典中單詞進(jìn)行匹配來(lái)確定單詞的方法,也有先從大規(guī)模文本文檔數(shù)據(jù)庫(kù)中求出字符或詞的出現(xiàn)概率,再根據(jù)求得的概率確定單詞的方法。文檔的索引單位除單詞之外,還有許多其他的索引單位。典型的方法是,從字符序列開(kāi)始,一字字地向右取,取N個(gè)字符的N元組索引(N-gram indexing)方法。特別是,當(dāng)N=1,2,3時(shí),分別稱(chēng)為單元組(unigram),即按字索引方法、雙元組(bigram)和三元組(trigram)索引。在提取索引項(xiàng)時(shí),一般還需進(jìn)行停用詞處理、詞干提取(stemming)等技術(shù)。
索引項(xiàng)加權(quán)是對(duì)各個(gè)索引項(xiàng)賦予使查全率和查準(zhǔn)率提高的權(quán)重。為了提高查全率,盡量為多數(shù)文檔中的高頻索引項(xiàng)加較重的權(quán)值;為了提高查準(zhǔn)率,盡量為只在少數(shù)特殊的文檔中出現(xiàn)的索引項(xiàng)加較重的權(quán)值。設(shè)有n個(gè)文檔D1,D2,…,Dn從這些文檔中共提取了m個(gè)索引項(xiàng)w1,w2,…,wm。索引項(xiàng)wi在文檔Dj中的權(quán)重dij按以下三項(xiàng)指標(biāo):局部權(quán)重lij(local weight)、全局權(quán)重gi(global weight)、文檔規(guī)范化系數(shù)nj(document normalization factor)加權(quán)。即,索引項(xiàng)的權(quán)重用上述三項(xiàng)指標(biāo)按下式計(jì)算:

dij=lijgi/nj。


其中,局部權(quán)重lij是按索引項(xiàng)wi在文檔Dj中的出現(xiàn)頻率計(jì)算的權(quán)重。以提高查全率為目的,給文檔中頻繁出現(xiàn)的索引項(xiàng)賦予較大的權(quán)值。全局權(quán)重gi是按索引項(xiàng)在文檔集合中的分布確定的權(quán)重。以提高查準(zhǔn)率為目的,為集中在特定文檔中出現(xiàn)的索引項(xiàng)賦予較大的權(quán)值。文檔規(guī)范化系數(shù)nj是隨著文檔的長(zhǎng)度加長(zhǎng),其中含有的索引項(xiàng)數(shù)也隨之增加,因此,長(zhǎng)文檔的索引項(xiàng)就會(huì)有較大的權(quán)重。nj是為消除這種長(zhǎng)文檔的影響而導(dǎo)入的文檔規(guī)范化系數(shù)。
在文本信息檢索中,檢索系統(tǒng)采用的查詢(xún)和文檔集合內(nèi)部表示、相似匹配的方式?jīng)Q定所采用的檢索策略和模式,構(gòu)建檢索模型。例如,向量空間模型用多維向量表示文檔和查詢(xún)請(qǐng)求,文檔和用戶(hù)查詢(xún)的相似度度量就是向量間的相似度計(jì)算。向量的元素是索引項(xiàng)的權(quán)重,它表示各個(gè)索引項(xiàng)對(duì)描述文檔內(nèi)容貢獻(xiàn)程度的大小。例如,一個(gè)詞在所有的文檔中都出現(xiàn)的話,用這個(gè)詞作為索引項(xiàng)就沒(méi)有什么意義,因?yàn)樗荒苊枋霾煌臋n的差別。所以,在向量空間模型中,索引項(xiàng)的提取和索引項(xiàng)的加權(quán)對(duì)文檔內(nèi)容的描述是極其重要的。
全文檢索模型有順序檢索和索引檢索兩種類(lèi)型。所謂順序檢索,是指當(dāng)有一個(gè)查詢(xún)時(shí),表示檢索對(duì)象的文檔和查詢(xún)的關(guān)鍵詞間直接進(jìn)行字符串匹配。這種方式對(duì)大規(guī)模的文檔來(lái)說(shuō),存在時(shí)間效率上的問(wèn)題。但由于不需要事先作處理,對(duì)于內(nèi)容不斷變化的文檔來(lái)說(shuō)較為合適。例如,順序檢索在編輯器和字處理器等方面得到廣泛的應(yīng)用。
索引檢索需要事先進(jìn)行預(yù)處理工作,從文檔中提取索引項(xiàng)并建立一個(gè)索引表。為了容易進(jìn)行檢索,表中存放索引項(xiàng)及其在文檔中相應(yīng)位置的信息。檢索時(shí)由于不是直接在文檔中,而是僅僅在索引表中檢索,所以具有快速檢索大規(guī)模文檔的優(yōu)點(diǎn)。一般,隨著文檔量的增加,索引的存儲(chǔ)量也會(huì)增加,自然就帶來(lái)建立索引表的開(kāi)銷(xiāo)增大。不過(guò),由于近年來(lái)計(jì)算機(jī)的高性能化和存儲(chǔ)器的低價(jià)格化,與建立索引的預(yù)處理工作相比,人們更重視高速的檢索性能。所以,Internet的搜索引擎等系統(tǒng)在檢索大規(guī)模的文檔時(shí)都采用了索引檢索。
文本信息檢索技術(shù)已被后來(lái)發(fā)展的多媒體信息檢索技術(shù)繼承和改進(jìn)。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉