1. 文檔結構(document structure)
一種文檔結構就是一種文檔視圖。" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 信息時代 > 文本模型(數(shù)據(jù)庫)

文本模型(數(shù)據(jù)庫)

時間:2022-11-30 04:30:01 | 來源:信息時代

時間:2022-11-30 04:30:01 來源:信息時代

    文本模型 : 文本數(shù)據(jù)庫系統(tǒng)的基礎,又稱文本數(shù)據(jù)庫模型(text database model)。由文本的結構和文本的內(nèi)容兩部分構成:
1. 文檔結構(document structure)
一種文檔結構就是一種文檔視圖。文檔查詢語言通常是基于某一種具體的文檔結構。下面給出了三種文檔結構。
(1) 固定結構:在固定結構的文檔視圖下,一個文檔由多個固定的域構成,每個域包含具體的文本。比如一張表單,域是無序、不重復的,域間不允許重疊和嵌套。查詢針對某一個域或幾個域進行??梢哉f,目前大多數(shù)的文本檢索系統(tǒng)就是基于這樣一種文檔結構模型。如果文檔可以嚴格地劃分為固定的域,而且各個域不只限于文本,也可以是數(shù)字、日期等基本數(shù)據(jù)類型,對文檔的查詢針對所有的域進行,則這種文檔結構模型實際上就是關系模型。一個文本數(shù)據(jù)庫相當于一張表,表中的每一行對應于一個文檔,而每一列則對應于文檔的一個域。這種模型導致關系模型和文本檢索模型的結合。
(2)超文本: 從結構上看,超文本是最自由的。一個超文本庫相當于一個有向圖,每個結點包含有文本和該結點與其他結點的連接以及該結點內(nèi)部不同位置之間的連接。Web的發(fā)展使得超文本成為當前一種主要的文本表現(xiàn)方式。
(3)層次結構:層次結構是一種處于固定結構和超文本之間的文本結構模型。這種結構模型更自然、真實地反映了文檔的內(nèi)在結構特征。
2.基于結構和內(nèi)容的文本數(shù)據(jù)庫模型。
(1)文檔層次結構(document hierarchy structure)Hd:指構成文檔內(nèi)容的各組成部分之間的結構關系。這種結構既符合文檔的結構特征,也符合人們的習慣。一個文檔層次結構對應一棵倒置的樹,樹結點代表文檔結構元素; 樹枝表示所連接的上下對應結點之間的包含與被包含關系。文檔層次結構樹中同一結點下的各個子結點的排列順序對應于這些子結點所代表的文檔內(nèi)容在文檔中出現(xiàn)的順序。同一結點下的各個子結點的排列順序對應于這些子結點所代表的文檔內(nèi)容在文檔中的出現(xiàn)順序,但表現(xiàn)為存儲數(shù)據(jù)時不能直接顯現(xiàn)出來。
(2)固定結構:文檔層次結構樹中的每一結點都有一個隱含的位置屬性,該屬性用于表示該結點代表的文檔內(nèi)容在文檔中與其他兄弟結點(和它具有相同的父結點)所代表的文檔內(nèi)容的物理空間位置關系。這一屬性在文檔入庫時被賦值。
(3) 文檔類層次結構(document category hierarchy structure)Hc: 指文檔內(nèi)容所反映的主題類別構成的層次關系。文檔類層次結構也可以用一棵樹表示。樹結點代表具體的類別;樹枝表示所連接的上下對應類結點之間的父子關系。和文檔層次結構不同,文檔類層次結構中兄弟類結點之間不存在順序關系。
(4)文本數(shù)據(jù)庫層次結構(text database hierarchy structure)H: 由文本數(shù)據(jù)庫中文檔層次結構Hd和文檔類層次結構Hc所構成。由于文檔層次結構和文檔類層次結構都對應于一棵樹,所以文本數(shù)據(jù)庫層次結構也對應于一棵樹,稱為文本數(shù)據(jù)庫層次結構樹。
文檔結構類型: 把文本數(shù)據(jù)庫層次結構樹中的每一結點作為一種文檔結構數(shù)據(jù)類型,簡稱文檔結構類型。設根結點為n1,對于任意一結點ni,若從n1到ni的層次路徑上的其他結點依次為n2,n3,…,ni-1,則ni對應的文檔結構類型表示為n1,n2,…,ni。用T表示文本數(shù)據(jù)庫層次結構樹H中全部文檔結構類型的集合,它由兩部分構成,一部分來自于文檔類結構樹Hc;另一部分來自文檔結構樹Hd,它們分別記為Tc和Td,因此有: T=Tc∪Td。若d是類型t(t∈T)的一個數(shù)據(jù)實例,則表示為d:t。
(5)父類型、子類型、基類型:若有兩個文檔結構類型t1和t2,t1=n1,n2,…,ni(i≥1),t2=n1,n2,…,nj(1≤j≤i),則稱t2為t1的父類型,或者t1為t2的子類型。進一步地,若i≠j,則t2為t1的真父類型,或者t2為t1的真子類型; 若i=j+1,則t2為t1的直接父類型,或者t1為t2的直接子類型。沒有真子類的文檔結構類型稱為基本文檔結構類型,簡稱為基類型。所有的基類型實際上就是字符串類型。若結構類型t的全部直接子類型為{t1,t2,…,tn},則記為t={t1,t2,…,tn};若有數(shù)據(jù)實例d=(d1:t1,d2:t2,…,dn:tn),則d為t的一個數(shù)據(jù)實例。需要特別指出的是: ①在Tc中,各文檔結構類型管理的數(shù)據(jù)對象是文檔,即文檔是最小的數(shù)據(jù)單元;而在Td中,各文檔結構類型管理的數(shù)據(jù)對象為滿足一定邊界條件的字符串。在這里,文檔是最大的數(shù)據(jù)單元。②在Tc中,文檔結構類型和文檔類是等價的。Tc中具有父子關系的文檔結構類型所管轄的文檔數(shù)據(jù)對象(即文檔)并不存在父子關系,但它們管轄的文檔集合具有包含關系——子類型對應的文檔集合包含在父類型對應的文檔集合之中;而在Td中,具有父子關系的文檔結構類型在同一文檔實例中所對應的文本內(nèi)容(即字符串)具有父子(包含)關系。
3.包含、存在與相關
在文本檢索中,判斷某一詞是否出現(xiàn)在文檔中,或者文檔的某一部分內(nèi)容是否包含在另一部分之中,這些都是文本數(shù)據(jù)庫常有的操作。為此,給出有關包含、存在與相關的定義。
(1)包含: 給定Td中的兩個文檔數(shù)據(jù)實例d: t和d=(d1:t1,d2:t2,…,dn:tn):t′,若d:t包含在d:t′中,記為d:td′:t′,則應滿足如下條件之一:①d:t=d′:t′;②d:t⊂d′:t′(1≤i≤n)。
(2)存在: 給定一個詞w和Td中的一個文檔數(shù)據(jù)實例d:t, 若w存在于d中, 記為w∃d, 則應滿足如下條件之一:
①t為基類,w是串d中的一個詞;
②存在d:t⊂d′:t′, 且w∃d′了。
相鄰:給定Td中的數(shù)據(jù)實例d=(d1:t1,d2:t2,…,dn:tn),若di:ti和dj:tj(1≤i,j≤n)在文檔中所處的空間位置是鄰接的,則di:ti和dj:tj滿足相鄰關系,記為(di:ti)↑(dj:tj)。若di:ti在dj:tj之前,則有(di:ti)<(dj:tj);反之,(di:ti)>(dj:tj)。
(3)相關:相關指兩個文檔數(shù)據(jù)對象的文本內(nèi)容在語義上的相似關系。預先給定一個相似性測度函數(shù)Sim和一個最低相似度門限值min_S,對于Td中的兩個文檔數(shù)據(jù)實例d1:t1,和d2:t2,若它們的相似度Sim(d1,t1)≥min_S,則d1:t1和d2:t2是相關的。
目前對相似度的估算要么基于向量空間模型,要么基于概率模型。不管是哪一種模型,文檔數(shù)據(jù)對象的內(nèi)容必須映射到同一表示空間,或者說同一文檔屬性空間。
4.文本數(shù)據(jù)庫模型的定義
一個文本數(shù)據(jù)庫D可以表示為一個四元組(H,T,C,E),其中,H為文本數(shù)據(jù)庫層次結構,H=Hd∪Hc; T為文檔結構類型的集合,T=Td∪Tc; C表示文本數(shù)據(jù)庫的內(nèi)容,為文本數(shù)據(jù)庫中所有文檔數(shù)據(jù)實例的集合,即C={d:t|t∈Td},∑為構成文檔內(nèi)容的字符集。若(d1:t1,d2:t2,…,dn:tn):t∈C,則有di:ti∈C(1≤i≤n); 若t有真父類型存在, 則一定有d′:t′∈C, 且d:t⊂d′:t′; 若有di:ti∈C, 則一定有d:Doc和c:tc(tc∈Tc)存在, 且有di:ti⊂d:Doc和d∈c。
文本數(shù)據(jù)庫定義中定義了數(shù)據(jù)的一致性和完備性: ①若一個文檔數(shù)據(jù)對象在庫中,則它所有的子對象也在庫中; ②若庫中的一個文檔對象有父對象存在,則庫中至少有一個文檔對象包含它;③對于庫中的任意文檔數(shù)據(jù)對象di,必有一個文檔對象d(Doc類型)和文檔類c存在,d包含di且屬于c類中。

74
73
25
news

版權所有? 億企邦 1997-2022 保留一切法律許可權利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關閉