文本檢索(數(shù)據(jù)庫(kù))
時(shí)間:2022-11-29 22:30:01 | 來(lái)源:信息時(shí)代
時(shí)間:2022-11-29 22:30:01 來(lái)源:信息時(shí)代
文本檢索 : 一種基于文本的信息檢索技術(shù)。文本檢索的目的是對(duì)用戶的請(qǐng)求給出相關(guān)的資料。
1. 文本檢索
評(píng)價(jià)文本檢索系統(tǒng)性能的一個(gè)關(guān)鍵概念是“相關(guān)性”(relevance)。它是用來(lái)判斷獲取的文檔集合對(duì)于用戶需求滿足的程度。相關(guān)性是一個(gè)主觀的概念。相關(guān)性的度量不僅僅依賴于用戶的查詢和所搜索的文檔的集合,還與用戶的個(gè)人需求、偏好、知識(shí)、語(yǔ)言等有關(guān)系。通常將“查準(zhǔn)率”和“查全率”這兩個(gè)指標(biāo)共同用來(lái)衡量檢索系統(tǒng)的性能。查準(zhǔn)率表明系統(tǒng)的精確性。查全率反映了系統(tǒng)的覆蓋性。
查準(zhǔn)率(precision): 是信息檢索的性能指標(biāo),定義為被檢索到的相關(guān)文檔數(shù)除以所有要檢索的文檔數(shù)。
查全率(recall): 是信息檢索的另一個(gè)性能指標(biāo)。定義為查找到的相關(guān)文檔數(shù)除以集合中全部相關(guān)文檔數(shù)的值。
在實(shí)際應(yīng)用中,有些用戶更加注重查準(zhǔn)率,而另外一些用戶更加注重查全率。文獻(xiàn)引用了一個(gè)綜合查全率與查準(zhǔn)率的指標(biāo)E來(lái)衡量系統(tǒng)的性能。
其中,P是查準(zhǔn)率,R為查全率,α是一個(gè)0~1的參數(shù)。α為0的時(shí)候,只考慮查全率,α為1的時(shí)候只考慮查準(zhǔn)率。
查準(zhǔn)率比較易于度量。對(duì)于所獲取的文檔集合,只要判斷每一篇文檔是否和給定查詢相關(guān)就可以了,其計(jì)算是比較直接的。而對(duì)于查全率的計(jì)算就相對(duì)困難一些,因?yàn)檫@意味著對(duì)于給定查詢,必須計(jì)算整個(gè)文檔集合中相關(guān)文檔的數(shù)目。當(dāng)文檔集合過(guò)大時(shí),這是不可行的。
2.文本檢索模型
常用的文本檢索模型主要有三個(gè):
(1)布爾邏輯模型:是最簡(jiǎn)單的檢索模型,也是其他檢索模型的基礎(chǔ)。設(shè)文本集D=(d
1,d
2,d
3,…,d
n),其中d
i(i=1,2,…,n)為文本集中某一文檔;又設(shè)Ti=(t
i1,t
i2,…,t
im)為d
i的標(biāo)引詞集合,則對(duì)于形如Q=W
1∧W
2∧…∧Wk的檢索式,如果W
1∈T
i,W
2∈T
i,…,W
k∈T
i,則d
i為查詢Q的命中文檔,否則d
i為Q的不命中文檔; 而對(duì)于形如Q=W
1∧W
2∧…∧W
k的檢索式,如果至少存在某個(gè)W
j∈T
i(j=1,2,…,k),則d
i為Q的命中文檔,否則d
i為不命中文檔。用戶根據(jù)所檢索關(guān)鍵字在檢索結(jié)果中的邏輯關(guān)系遞交查詢,查詢模塊根據(jù)布爾邏輯的基本運(yùn)算法則來(lái)給出查詢結(jié)果。布爾檢索模型原理簡(jiǎn)單易理解,容易在計(jì)算機(jī)上實(shí)現(xiàn)并且具有檢索速度快的優(yōu)點(diǎn)。但是最終給出的查詢結(jié)果沒(méi)有相關(guān)性排序,不能全面反映用戶的需求。
(2) 向量空間模型:將文檔映射為一個(gè)特征向量V(d)=(t
1,ω
1(d);…;t
n,ω
n(d)),其中t
i(i=1,2,…,n)為一列互不相同的詞條項(xiàng),ω
i(d)為t
i在d中的權(quán)值,一般被定義為t
i在d中出現(xiàn)頻率tf
i(d)的函數(shù),即ω
i(d)=Ψ(tf
i(d))。在文本檢索中常用的詞條權(quán)值計(jì)算方法為TF-IDF函數(shù)其中,N為所有文檔的數(shù)目,n
i為含有詞條t
i的文檔數(shù)目。TF-IDF公式有很多變種,下面是一個(gè)常用的TF-IDF公式:
根據(jù)TF-IDF公式,文檔集中包含某一詞條的文檔越多,說(shuō)明它區(qū)分文檔類別屬性的能力越低,其權(quán)值越小; 另一方面,某一文檔中某一詞條出現(xiàn)的頻率越高,說(shuō)明它區(qū)分文檔內(nèi)容屬性的能力越強(qiáng),其權(quán)值越大。
兩文檔之間的相似度可以用其對(duì)應(yīng)的向量之間的夾角余弦來(lái)表示,即文檔d
i,d
j的相似度可以表示為
進(jìn)行查詢的過(guò)程中,先將查詢條件Q進(jìn)行向量化,主要依據(jù)布爾模型: 當(dāng)t
i在查詢條件Q中時(shí),將對(duì)應(yīng)的第i坐標(biāo)置為1,否則置為0從而文檔d與查詢Q的相似度為
在查詢過(guò)程中,可以計(jì)算出每個(gè)文檔與查詢的相似度,進(jìn)而可以根據(jù)相似度的大小,將查詢的結(jié)果進(jìn)行排序。向量空間模型可以實(shí)現(xiàn)文檔的自動(dòng)分類和對(duì)查詢結(jié)果的相似度排序,能夠有效提高檢索效率;它的缺點(diǎn)是相似度的計(jì)算量大,當(dāng)有新文檔加入時(shí),則必須重新計(jì)算詞的權(quán)值。
(3)概率檢索模型:是在布爾邏輯模型的基礎(chǔ)上為解決檢索中存在的一些不確定性而引入的。概率檢索模型有多種形式,常見(jiàn)的為第二概率檢索模型,首先設(shè)定標(biāo)引詞的概率值,一般是對(duì)檢索作業(yè)重復(fù)若干次,每一次檢索用戶對(duì)檢出文檔進(jìn)行相關(guān)性判斷。再利用這種反饋信息,根據(jù)每個(gè)詞在相關(guān)文檔集合和無(wú)關(guān)文檔集合的分布情況來(lái)計(jì)算它們的相關(guān)概率,將詞的權(quán)值設(shè)計(jì)為:
其中,P、P′分別表示某詞在相關(guān)文檔集和無(wú)關(guān)文檔集中出現(xiàn)的概率。某一文檔的權(quán)值則是它所含的標(biāo)引詞權(quán)值之和,于是,文檔d與用戶查詢Q相關(guān)概率可定義為:
其中,p
w和p′
w分別為w在相關(guān)文檔和無(wú)關(guān)文檔中的概率。上式中右邊和式是對(duì)所有出現(xiàn)在文檔d和查詢Q中的詞w求和,即w∈d∩Q。
概率模型有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),它采用相關(guān)反饋原理來(lái)克服不確定性推理的缺點(diǎn),如難以估計(jì)參數(shù),文件和查詢的表達(dá)較困難等。