時間:2022-11-07 00:30:01 | 來源:信息時代
時間:2022-11-07 00:30:01 來源:信息時代
情報數(shù)據(jù)庫 : 在情報檢索系統(tǒng)中起支撐作用的數(shù)據(jù)庫。根據(jù)ISO/DIS 5127(文獻(xiàn)與情報工作術(shù)語)的定義,情報數(shù)據(jù)庫是至少由一種文檔(file)組成、能滿足特定目的或特定數(shù)據(jù)處理系統(tǒng)需要的數(shù)據(jù)集合。
情報數(shù)據(jù)庫的發(fā)展與信息檢索的發(fā)展緊密相連。最早的情報檢索系統(tǒng)可以追溯到1954年美國海軍軍械試驗中心在IBM7O1上首次進行的情報檢索實驗,其后經(jīng)歷了脫機批處理、聯(lián)機檢索、光碟檢索與網(wǎng)絡(luò)化檢索等四個階段。在這個過程中,情報數(shù)據(jù)庫存儲的內(nèi)容從早先的文獻(xiàn)替代物發(fā)展到文獻(xiàn)全文; 數(shù)據(jù)類型從文本發(fā)展到多媒體; 數(shù)據(jù)量從小規(guī)模發(fā)展到海量; 文檔的組織方式也先后經(jīng)歷了流式文檔、順排文檔、索引文檔、倒排文檔等形式,前兩者是完整的順序信息記錄,后兩者則是將前面文檔中的可檢屬性抽出重排而派生出的數(shù)據(jù)記錄。
根據(jù)情報數(shù)據(jù)庫內(nèi)容的形式可以將其劃分為四大類:
(1)書目文獻(xiàn)數(shù)據(jù)庫(bibliographic databases):存儲某個領(lǐng)域原始文獻(xiàn)的書目,即二次文獻(xiàn)數(shù)據(jù)庫,記錄內(nèi)容通常包括文獻(xiàn)的題名、著者、出處、文摘、關(guān)鍵詞等。書目文獻(xiàn)數(shù)據(jù)庫大多是早先印刷型檢索工具的機讀版,如工程索引(EI compendex)、科學(xué)文摘(INSPEC)、化學(xué)文摘(CA search)等。
(2)事實型數(shù)據(jù)庫(factual database):也稱為指南數(shù)據(jù)庫(dictionary databases),主要記錄機構(gòu)、人物、產(chǎn)品、項目簡況等事實數(shù)據(jù)。通過該類數(shù)據(jù)庫可以檢索到公司、組織的地址、電話、產(chǎn)品目錄、研究項目或名人簡歷等信息。
(3)數(shù)值型數(shù)據(jù)庫(numeric databases):數(shù)值型數(shù)據(jù)庫中信息內(nèi)容的表示形式主要是數(shù)值型數(shù)據(jù),通常用于記錄試驗、測量、計算、工程設(shè)計、經(jīng)濟分析和工業(yè)規(guī)劃等方面的數(shù)據(jù)。該類數(shù)據(jù)庫有時也會含有一些文字形式的信息內(nèi)容,但數(shù)量極少且只用于定義數(shù)值數(shù)據(jù),有學(xué)者稱這類數(shù)據(jù)庫為文本-數(shù)值型數(shù)據(jù)庫(textual-numeric databases)。
(4)全文數(shù)據(jù)庫(full-text databases):是將經(jīng)典著作、學(xué)術(shù)期刊、重要的會議錄、法律法規(guī)、新聞報道以及百科全書、手冊、年鑒等的全部文字和非文字內(nèi)容轉(zhuǎn)換成計算機可讀形式的數(shù)據(jù)庫,簡稱全文庫。全文數(shù)據(jù)庫可以解決用戶在檢索書目文獻(xiàn)數(shù)據(jù)庫后難以獲取原始文獻(xiàn)的困難,能向用戶提供一步到位的信息服務(wù)。近年來,全文數(shù)據(jù)庫建設(shè)速度很快,在各類數(shù)據(jù)庫中所占的比例逐年上升。
四類情報數(shù)據(jù)庫中,書目文獻(xiàn)數(shù)據(jù)庫與指南數(shù)據(jù)庫提供的信息通常不完備,用戶在這些數(shù)據(jù)庫中獲取有關(guān)文獻(xiàn)替代物的信息后還需進一步查找原始文獻(xiàn),不能提供一步到位的信息服務(wù)。數(shù)值型數(shù)據(jù)庫與全文數(shù)據(jù)庫提供的信息則相對完備,用戶一般不必再檢索其他信息源即可滿足信息需求。
除了上述四種基本的情報數(shù)據(jù)庫類型之外,還有多種混合類型,主要有光碟數(shù)據(jù)庫以及引文數(shù)據(jù)庫等。目前,隨著多媒體技術(shù)的迅速發(fā)展和廣泛應(yīng)用,將圖形、圖像、文字、動畫、聲音等多媒體數(shù)據(jù)與數(shù)據(jù)庫技術(shù)相結(jié)合所衍生出來的多媒體數(shù)據(jù)庫已經(jīng)比較成熟,該種類型的情報數(shù)據(jù)庫有利于多媒體數(shù)據(jù)的存取、管理和應(yīng)用,受到用戶的普遍歡迎。另外,根據(jù)情報數(shù)據(jù)庫內(nèi)容的來源又可以將其劃分為圖書、期刊、報告、會議文獻(xiàn)、專利文獻(xiàn)、標(biāo)準(zhǔn)文獻(xiàn)、學(xué)位論文、產(chǎn)品資料、技術(shù)檔案以及報紙等類型的專用數(shù)據(jù)庫。
盡管情報數(shù)據(jù)庫已經(jīng)得到了廣泛的應(yīng)用,但其技術(shù)本身仍然處于不斷的發(fā)展之中,具體表現(xiàn)為以下幾大發(fā)展趨勢:
(1)社會化:情報數(shù)據(jù)庫的內(nèi)容從科學(xué)技術(shù)向經(jīng)濟管理、社會生活等各個領(lǐng)域拓展。目前,情報數(shù)據(jù)庫已從科學(xué)技術(shù)領(lǐng)域擴大到企業(yè)、管理、市場、新聞、法律、社會生活等各個領(lǐng)域。
(2)產(chǎn)業(yè)化: 情報數(shù)據(jù)庫作為一種智力型的產(chǎn)品,其生產(chǎn)和服務(wù)的市場產(chǎn)值越來越大,從產(chǎn)值或產(chǎn)業(yè)結(jié)構(gòu)來看,情報數(shù)據(jù)庫行業(yè)已經(jīng)具有產(chǎn)業(yè)化的規(guī)模和地位。
(3)資源化:情報數(shù)據(jù)庫的發(fā)展和對社會各領(lǐng)域的滲透,提高了信息產(chǎn)業(yè)的社會地位。人類的知識可以創(chuàng)造無窮的物質(zhì)財富,情報數(shù)據(jù)庫則是控制和處理知識的重要工具。
(4)加工深度化:信息技術(shù)在不斷更新?lián)Q代,情報數(shù)據(jù)庫采用新信息技術(shù)的周期越來越短,新興的網(wǎng)絡(luò)技術(shù)、智能技術(shù)、多媒體與超媒體技術(shù)已經(jīng)滲透到情報數(shù)據(jù)庫的內(nèi)核,信息技術(shù)的交叉融合提高了信息加工和利用的深度。
為了方便用戶的檢索利用,需要對情報數(shù)據(jù)庫中的信息進行標(biāo)引(indexing)。標(biāo)引是將信息中具有檢索特征的詞語或標(biāo)志(也稱為索引點)抽出制成索引(index)的過程。標(biāo)引可分為手工標(biāo)引和自動標(biāo)引兩大類。標(biāo)引的控制一般依據(jù)情報檢索語言進行,具體的檢索語言又可分為先組式和后組式,前者以各種分類法、標(biāo)題詞法等為代表,后者以停用詞表、單元詞法、敘詞法和關(guān)鍵詞法等為代表。手工標(biāo)引一般多采用分類法、標(biāo)題詞法、單元詞法以及敘詞法等檢索語言。
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。