(1)流式文檔:一種最簡單的文檔結(jié)構(gòu)。它在文字上沒有排列順序" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 信息時代 > 情報數(shù)據(jù)庫的文檔結(jié)構(gòu)(數(shù)據(jù)庫)

情報數(shù)據(jù)庫的文檔結(jié)構(gòu)(數(shù)據(jù)庫)

時間:2022-11-07 02:30:01 | 來源:信息時代

時間:2022-11-07 02:30:01 來源:信息時代

    情報數(shù)據(jù)庫的文檔結(jié)構(gòu) : 情報數(shù)據(jù)庫中每條記錄的編排方式,主要有四種文檔結(jié)構(gòu),即流式文檔、順排文檔、索引文檔和倒排文檔。
(1)流式文檔:一種最簡單的文檔結(jié)構(gòu)。它在文字上沒有排列順序,連續(xù)地存放數(shù)據(jù)記錄,不考慮各記錄間的相互關(guān)系。表1所示即為一個流式文檔。由于這種文檔結(jié)構(gòu)中記錄的排列順序可以任意,因而,當(dāng)把新記錄插入該類文檔時,可以把新記錄增加到文檔的最后,無需改變文檔中原有記錄的順序。在流式文檔中無法預(yù)先知道目標(biāo)記錄所在位置,檢索系統(tǒng)需要順序查找整個文檔,因而檢索效率較低,平均需要匹配(n+1)/2次才能檢索到目標(biāo)記錄,這里n代表文檔中記錄的數(shù)目。

表1 流式文檔


位置號作者題名主題詞
1張立公計算機(jī)情報技術(shù)導(dǎo)論計算機(jī),情報學(xué)
2賴茂生計算機(jī)情報檢索計算機(jī),情報檢索
   
M康耀紅現(xiàn)代情報檢索理論情報檢索,方法論
   
P張琪玉情報語言學(xué)基礎(chǔ)情報檢索,語言學(xué)
新記錄鄒志仁信息學(xué)概論情報學(xué)


(2)順排文檔:又稱為鏈?zhǔn)轿臋n或線性文檔,文檔中的全部記錄按順序存放,記錄的物理位置由鍵值決定。與流式文檔相比,兩者具有相同的邏輯單位,只是流式文檔沒有特定的順序。表2所示即為一個按照作者姓氏筆畫順序排列的順排文檔。當(dāng)把新記錄插入該文檔時,要按照原先的順序存放到適當(dāng)?shù)奈恢蒙?具體的做法是自插入位置起,其后的記錄要向后移動。由于順排文檔是按照鍵值的順序排序的,因而其檢索效率可以大大提高。一種典型的方法是折半查找法(即二分查找法),這種方法可以把所需的檢索步驟減少到log2(n+1),即對一個包含1023條記錄的文檔,使用折半查找法,平均只需匹配10次即可找到目標(biāo)記錄,若用順序掃描的方法來查找,則平均需要512次匹配。

表2 順排文檔


位置號作者題名主題詞
1康耀紅現(xiàn)代情報檢索理論情報檢索,方法論
2賴茂生計算機(jī)情報檢索計算機(jī),情報檢索
   
新記錄H鄒志仁信息學(xué)概論情報學(xué)
   
J張立公計算機(jī)情報技術(shù)導(dǎo)論計算機(jī),情報學(xué)
K張琪玉情報語言學(xué)基礎(chǔ)情報檢索,語言學(xué)
   


(3)索引文檔:文獻(xiàn)在情報數(shù)據(jù)庫中的存儲可以分為兩個區(qū): 數(shù)據(jù)區(qū)和索引區(qū)。數(shù)據(jù)區(qū)存放文檔記錄,稱為主文檔。索引區(qū)存放記錄相應(yīng)字段的索引信息,指出記錄在數(shù)據(jù)區(qū)的存儲地址,稱為索引文檔。在順排文檔中,如果檢索字段不是順排文檔排序所依據(jù)的字段,此時折半查找算法將無法使用。在順排文檔的基礎(chǔ)上建立索引文檔則可以顯著提高檢索系統(tǒng)的響應(yīng)速度,因為使用索引文檔,對于某一特定文獻(xiàn)的查找,僅需查找一次索引和一次主文檔即可。例如,表3就是針對表2在姓名字段上建立的音序索引,用戶在檢索時,只需要給出作者姓名拼音,然后就可以在這個索引中快速找到記錄的存儲位置。

表3 順排文檔的索引


作者姓名音序文獻(xiàn)位置
Kang1
Lai2
ZhangJ


(4)倒排文檔:這是一種特殊的索引文檔,它將記錄中所有的可檢字段或?qū)傩灾?如作者、題名、主題詞等)抽出,按照某種順序重新加以組織后得到的一種文檔。倒排文檔與順排文檔的區(qū)別在于,順排文檔是以完整記錄作為處理和檢索的單元,倒排文檔則以記錄中的字段作為處理和檢索的單元。表4、表5是表2順排文檔的倒排文檔。

表4 主題詞倒排文檔


主題詞記錄號
方法論1
計算機(jī)2,J
情報檢索1,2,K
情報學(xué)H,J
語言學(xué)K
 


表5 作者倒排文檔


作者記錄號
康耀紅1
賴茂生2
鄒志仁H
張立公J
張琪玉K
 


倒排文檔可以實現(xiàn)對文獻(xiàn)的快速查找,因為只需檢查索引就可以確定哪些文獻(xiàn)是與查詢請求相關(guān)的,而不是查找真正的文獻(xiàn)。此外,索引是按關(guān)鍵字值的順序排列的。例如,用戶要查詢關(guān)于“情報檢索”方面的主題,就可先檢查索引來確定“情報檢索”主題的位置。在表4的例子中,就把條目1、2、K識別出來,作為檢索的候選條目。文檔中記錄的組織方式對檢索效率影響很大,與順排文檔相比,使用倒排文檔要高效得多,不過倒排文檔的建立和維護(hù)開銷較大。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉