概率推理模型(數(shù)據(jù)庫(kù))
時(shí)間:2022-12-22 18:30:01 | 來(lái)源:信息時(shí)代
時(shí)間:2022-12-22 18:30:01 來(lái)源:信息時(shí)代
概率推理模型 : 一種采用貝葉斯公式進(jìn)行推理計(jì)算的經(jīng)典信息檢索模型,在文本數(shù)據(jù)庫(kù)中被廣泛用于文本檢索和文本查詢。
1.概率推理模型
概率推理模型,亦稱為二值獨(dú)立檢索模型,主要使用貝葉斯公式進(jìn)行推理計(jì)算。概率推理模型與布爾模型,向量模型并稱為三大信息檢索模型。
信息檢索模型是一個(gè)四元組(D,Q,F,R(qi,di)),其中: D是文本集合中一組文本的邏輯視圖,稱為文本表示;Q是一組用戶信息需求的邏輯視圖,稱為查詢; F是一種機(jī)制,用于構(gòu)建文本表示、查詢以及它們之間關(guān)系的模型: R(qi,di)是排序函數(shù),該函數(shù)輸出一個(gè)與查詢qi∈Q和文本di∈D有關(guān)的實(shí)數(shù),從而定義了一個(gè)順序。
構(gòu)建機(jī)制F基于概率論,并且排序函數(shù)R由概率運(yùn)算和貝葉斯理論組成的信息檢索模型,被稱為概率推理模型。
主要思想是: 給定一個(gè)用戶查詢q和文本集合中的文本di,概率模型試圖通過(guò)估計(jì)用戶找出與文本di相關(guān)文本的概率,并使得總體的相關(guān)概率最大來(lái)判斷相關(guān)文本集合。(相關(guān)文本就是用戶查詢中感興趣的文本,一般指查詢結(jié)果文本)概率推理模型的優(yōu)點(diǎn)是: 理論上,文本可以根據(jù)它們的相關(guān)概率按遞減順序排列。主要缺點(diǎn)是: ①需要最初把文本集合分為相關(guān)集合和不相關(guān)集合兩類。②未考慮文本中標(biāo)引詞的出現(xiàn)頻率。③假設(shè)標(biāo)引詞相互獨(dú)立。
根據(jù)貝葉斯定理:
文本詞條的獨(dú)立假設(shè): P(A·B)=P(A)·P(B);當(dāng)且僅當(dāng)A與B相互獨(dú)立。得出推論:如果文本中的各個(gè)標(biāo)引詞相互獨(dú)立,則有
P(dj)=P(k1)…P(kt)。
設(shè)標(biāo)引詞的權(quán)重為二值的,即: w
ij∈{0,1},w
iq∈{0,1}。R表示已知的相關(guān)文本集(或最初的猜測(cè)集),表示R的補(bǔ)集,P(R|d
j)表示文本d
j與查詢g相關(guān)的概率,P(|d
j)表示文本d
j與查詢q不相關(guān)的概率。定義文本d
j與查詢q的相似度為:
根據(jù)貝葉斯定理有:
假設(shè)標(biāo)引詞獨(dú)立,則有:
這是概率推理模型中排序計(jì)算的主要表達(dá)式。取對(duì)數(shù),在相同背景下,忽略對(duì)所有因子保持恒定不變的因子,則有:
其中,p(k
i|R)對(duì)所有的標(biāo)引詞k
i是恒定不變的,通常取為0.5,即p(k
i|R)=0.5。
不相關(guān)文本中的標(biāo)引詞k
i的分布可以通過(guò)文本集中標(biāo)引詞的分布來(lái)估計(jì),即
其中,n
i表示包含標(biāo)引詞k
i的文本數(shù),N表示集合中的文本總數(shù)。
初始值確定后,根據(jù)與查詢q相關(guān)的大小進(jìn)行初步排序,取前若干個(gè)文本作為相關(guān)查詢集合。之后通過(guò)如下方法進(jìn)行改進(jìn)(即開(kāi)始遞歸計(jì)算):
用V表示概率模型初步檢出并經(jīng)過(guò)排序的文本子集,V
i表示V中包含標(biāo)引詞k
i的文本數(shù)。改進(jìn)p(k
i|R)和p(k
i|)的過(guò)程如下: 用已經(jīng)檢出的文本中標(biāo)引詞k
i的分布來(lái)估計(jì)p(k
i|R); 假定所有未檢出的文本都是不相關(guān)的來(lái)估計(jì)p(k
i|)。因此有:
如此遞歸重復(fù)這一過(guò)程,得到理想結(jié)果集合。對(duì)于較小的V和V
i,會(huì)出現(xiàn)計(jì)算問(wèn)題,如V=1和V
i=0,可做一些改進(jìn):
2.概率推理模型的改進(jìn)與分類
(1) 貝葉斯網(wǎng)絡(luò)模型: 一種使用貝葉斯網(wǎng)絡(luò)進(jìn)行文本查詢推理的概率模型。貝葉斯網(wǎng)絡(luò)是一個(gè)具有概率分布的有向無(wú)環(huán)圖(DAG),它是由結(jié)點(diǎn)和有向弧段組成的。其中的結(jié)點(diǎn)代表事件或變量,弧段代表結(jié)點(diǎn)之間的因果關(guān)系或概率關(guān)系,而弧段是有向的,不構(gòu)成回路。
(2)推理網(wǎng)絡(luò)模型: 一種基于認(rèn)識(shí)論觀點(diǎn)的概率網(wǎng)絡(luò)模型。概率論中兩大學(xué)派分別以頻率論和認(rèn)識(shí)論的觀點(diǎn)為基礎(chǔ)。頻率論的觀點(diǎn)是將概率看成是與概率定律相關(guān)的統(tǒng)計(jì); 認(rèn)識(shí)論的觀點(diǎn)是將概率理解為一種信任度。推理網(wǎng)絡(luò)模型是基于認(rèn)識(shí)論的,它將隨機(jī)變量與標(biāo)引詞、文本及用戶查詢聯(lián)系在一起。對(duì)文本d
i相關(guān)的隨機(jī)變量表示為對(duì)這個(gè)文本觀測(cè)的事件。對(duì)文本d
i的觀測(cè)可以為標(biāo)引詞的隨機(jī)變量給出一個(gè)信任度。標(biāo)引詞變量和文本變量用網(wǎng)絡(luò)中的結(jié)點(diǎn)表示,文本結(jié)點(diǎn)和對(duì)應(yīng)的標(biāo)引詞結(jié)點(diǎn)之間以有向邊連接。通過(guò)觀測(cè)文本的出現(xiàn),來(lái)增加網(wǎng)絡(luò)中對(duì)應(yīng)標(biāo)引詞的信任度。
(3)信任度網(wǎng)絡(luò)模型: 一種推理網(wǎng)絡(luò)模型的擴(kuò)展。信任度網(wǎng)絡(luò)模型采用一個(gè)明確定義的樣本空間,因此其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)略微有別于推理網(wǎng)絡(luò)模型。在信任度網(wǎng)絡(luò)中,文本部分和查詢部分是相互分離的。