時(shí)間:2022-12-12 10:30:02 | 來(lái)源:信息時(shí)代
時(shí)間:2022-12-12 10:30:02 來(lái)源:信息時(shí)代
半結(jié)構(gòu)化索引 : 對(duì)主要是XML數(shù)據(jù)的半結(jié)構(gòu)化數(shù)據(jù)所建立的索引。結(jié)構(gòu)匯總(structural summary)類(lèi)索引,以XML-樹(shù)結(jié)構(gòu)中結(jié)點(diǎn)的路徑信息為基礎(chǔ),采取某種化簡(jiǎn)方式,使得化簡(jiǎn)后的樹(shù)結(jié)構(gòu)只維護(hù)不同的路徑信息,而不會(huì)存在具有相同路徑的兩個(gè)結(jié)點(diǎn)。該類(lèi)索引仍然采取標(biāo)簽有向圖的結(jié)構(gòu)。當(dāng)基于結(jié)構(gòu)匯總進(jìn)行XML查詢(xún)處理時(shí),避免了對(duì)XML中標(biāo)簽路徑相同的結(jié)點(diǎn)需要重新遍歷所有相同路徑的缺陷。
T-索引(T-index): 即模板索引(template index),它是一個(gè)通用的用于半結(jié)構(gòu)化數(shù)據(jù)的索引結(jié)構(gòu)。T-索引具有以下特點(diǎn): ①允許在空間與通用性之間進(jìn)行權(quán)衡。②索引構(gòu)建效率比較高。③索引本身占用空間不是很大。④具有很好的推廣性。
T-索引的關(guān)鍵思想在于,將數(shù)據(jù)庫(kù)對(duì)象按等價(jià)類(lèi)(equivalence class)進(jìn)行分組,每個(gè)類(lèi)包含與路徑模板(path template)定義相同的路徑。由于計(jì)算完全的等價(jià)關(guān)系代價(jià)很高,因此T-索引只考慮計(jì)算效率較高的半雙擬(bisimulation)或雙擬(simulation)關(guān)系,為便于描述,本索引中所提到的等價(jià)關(guān)系均指這種半雙擬或雙擬等價(jià)關(guān)系。
如果存在一個(gè)半雙擬關(guān)系~,即v~u,則兩個(gè)結(jié)點(diǎn)v和u是半相似(bisimilar)的,寫(xiě)為v≈bu。同樣的,如果存在兩個(gè)雙擬關(guān)系≤,即v≤u和u≤v,則兩個(gè)結(jié)點(diǎn)v和u是相似(similar)的,寫(xiě)為v≈su。實(shí)際上,有一個(gè)簡(jiǎn)單的判斷相互半相似的推論。如果兩個(gè)結(jié)點(diǎn)是相互半相似的,則進(jìn)入它們的輸入邊(in-coming path)是相同的。
基于上述這種等價(jià)關(guān)系,利用非確定性自動(dòng)機(jī)(non-deterministic automaton)可以構(gòu)建一個(gè)T-索引,自動(dòng)機(jī)中的狀態(tài)代表等價(jià)類(lèi),狀態(tài)遷移對(duì)應(yīng)于類(lèi)中對(duì)象間的邊。在T-索引中,半結(jié)構(gòu)化數(shù)據(jù)被建模成一個(gè)邊帶有標(biāo)記的圖(labeled graph),圖中結(jié)點(diǎn)對(duì)應(yīng)數(shù)據(jù)庫(kù)中的對(duì)象,邊對(duì)應(yīng)對(duì)象的屬性。標(biāo)記圖用DB=(V,E,R)形式化表示,其中V表示圖的頂點(diǎn),是有限的頂點(diǎn)集合; E表示圖中相鄰結(jié)點(diǎn)之間的邊,是帶標(biāo)記的邊集合;R是根結(jié)點(diǎn)集合,從R中某個(gè)根結(jié)點(diǎn)ri出發(fā)可達(dá)V中以ri為根的所有相關(guān)頂點(diǎn)。
一個(gè)路徑模板t具有T1x1T2x2…Tnxn表達(dá)形式,其中每個(gè)T或者是一個(gè)正則路徑表達(dá)式(regular path expression),或者是P和F二個(gè)占位符之一。P可用正則路徑表達(dá)式來(lái)替換,F可用公式替換。一個(gè)查詢(xún)由一條查詢(xún)路徑和一組變量集合構(gòu)成,其表示形式為“select xi1,xi2,…,xik from P1x1P2x2…Pnxn”,查詢(xún)路徑就是對(duì)路徑模板的實(shí)例化。比如,一個(gè)真實(shí)的查詢(xún)具有形式“select x from(*.Restaurant) x(Menu.*.Dinner.*.Lasagna) y” ,其中(*.Restaurant)和(Menu.*.Dinner.*.Lasagna)就是路徑模板實(shí)例。如果令t=Px1Px2…Pxk,那么t1=Px就是1-索引,t2=*x1Px2就是2-索引。
實(shí)際上,有一個(gè)簡(jiǎn)單的判斷1-索引和2-索引的推論。1-索引就是從根結(jié)點(diǎn)root進(jìn)入某個(gè)結(jié)點(diǎn)v的所有路徑均相同。2-索引就是一對(duì)結(jié)點(diǎn)(對(duì)應(yīng)一條標(biāo)記路徑的起始點(diǎn)和終止點(diǎn))具有相同的標(biāo)記路徑。圖1和圖2給出了1-索引和2-索引。在圖1中,(a)為數(shù)據(jù)圖;(b)為該數(shù)據(jù)圖對(duì)應(yīng)的1-索引;(c)為數(shù)據(jù)圖對(duì)應(yīng)的強(qiáng)數(shù)據(jù)向?qū)?data guide)。
圖1 1-索引
圖2 2-索引
圖3 一系列A(K)索引
客戶(hù)&案例
營(yíng)銷(xiāo)資訊
關(guān)于我們
客戶(hù)&案例
營(yíng)銷(xiāo)資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。