全文數(shù)據(jù)的應(yīng)用早在20世紀(jì)80年代就已經(jīng)開始,當(dāng)時(shí)主要是對文檔進(jìn)行“全文檢索”" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 信息時(shí)代 > 全文本數(shù)據(jù)管理標(biāo)準(zhǔn)(數(shù)據(jù)庫)

全文本數(shù)據(jù)管理標(biāo)準(zhǔn)(數(shù)據(jù)庫)

時(shí)間:2022-11-07 18:30:01 | 來源:信息時(shí)代

時(shí)間:2022-11-07 18:30:01 來源:信息時(shí)代

    全文本數(shù)據(jù)管理標(biāo)準(zhǔn) : 對全文本多媒體數(shù)據(jù)進(jìn)行規(guī)范化管理與應(yīng)用的技術(shù)標(biāo)準(zhǔn)。全文本有時(shí)也簡稱“全文”。
全文數(shù)據(jù)的應(yīng)用早在20世紀(jì)80年代就已經(jīng)開始,當(dāng)時(shí)主要是對文檔進(jìn)行“全文檢索”。到了90年代一些全文檢索軟件的提供商開始考慮全文數(shù)據(jù)庫的應(yīng)用,提出查詢語言。后來,ISO/IEC JTC1/SC32下屬第四工作組(WG4)負(fù)責(zé)研究SQL/MM,制訂了ISO/IEC 13249系列標(biāo)準(zhǔn)的第二部分,ISO/IEC13249-2 Information Technology—Database Languages—SQL Multimedia and Application Package—Part2:Full -Text,即“信息技術(shù)——數(shù)據(jù)庫語言——SQL多媒體和應(yīng)用包——第二部分節(jié)勝利: 全文本”,簡稱SQL/MM全文。
SQL/MM全文標(biāo)準(zhǔn)定義了一些用戶定義類型(即UDTs),支持全文本數(shù)據(jù)的存儲和檢索,滿足基于詞、短語的全文檢索和檢索詞的鄰近擴(kuò)展、模糊擴(kuò)展、基于詞庫擴(kuò)展以及文本分類和文本鑒別搜索模式構(gòu)造的需要。
全文本(full-text)類用于構(gòu)造文本和文本搜索的搜索模式。全文本類提供文本構(gòu)造,用于測試文本是否包含特定的模式,以及將文本轉(zhuǎn)換為字符串。
結(jié)構(gòu)化搜索模式(structured search pattern)類用于構(gòu)造結(jié)構(gòu)化的搜索模式;FullText_Token類用于定義有效標(biāo)記(tokens),即由分隔符分隔的字符串。
在標(biāo)準(zhǔn)中定義的類及其相關(guān)的過程都是為了使全文數(shù)據(jù)的管理與應(yīng)用的操作處理簡便、有效,具有智能檢索或知識檢索的功能。
內(nèi)容管理、決策支持、數(shù)據(jù)挖掘、數(shù)據(jù)倉庫等系統(tǒng)可以使用全文標(biāo)準(zhǔn)。
全文標(biāo)準(zhǔn)的目標(biāo)是希望能夠在圖書館、報(bào)業(yè)、多媒體、科學(xué)研究以及其他領(lǐng)域中應(yīng)用。
SQL/MM全文標(biāo)準(zhǔn)盡量做到與語言無關(guān)。在標(biāo)準(zhǔn)的描述中,許多問題都規(guī)定為“由實(shí)現(xiàn)定義”。在應(yīng)用到中文全文檢索時(shí),必須要描述中文自身特點(diǎn)所出現(xiàn)的問題和處理方法。
中文全文檢索的方法主要按字和詞為索引單元分成字和詞兩種。按字是指對于文本中的每一個(gè)字都建立索引,按詞是指對于文本中的每一個(gè)詞都建立索引。對于各種不同的語言而言,字有不同的含義,比如英文中字與詞實(shí)際上是合一的,而中文中字與詞有很大分別。英文等西方文字由于按照空格切分詞,因此實(shí)現(xiàn)上與按字處理類似。中文等東方文字則首先需要對文本中的字串切分成詞,以達(dá)到按詞索引的目的。SQL/MM全文標(biāo)準(zhǔn)中定義的查詢是基于詞這個(gè)基本語法單位,而詞是由“標(biāo)記化工具(tokenizer)”輸出的,這個(gè)工具在中文環(huán)境下可以理解為“分詞” 。
對于國內(nèi)全文數(shù)據(jù)庫廠商來說,要按照SQL/MM全文標(biāo)準(zhǔn)制定的要求去實(shí)現(xiàn),顯然缺乏相應(yīng)的基礎(chǔ),即SQL以及SQL/MM框架本身的實(shí)現(xiàn)。而這部分技術(shù),是基于結(jié)構(gòu)化數(shù)據(jù)管理即SQL標(biāo)準(zhǔn)的要求,這對全文數(shù)據(jù)管理來說并不一定是必需的。SQL/MM全文標(biāo)準(zhǔn),根本上是對關(guān)系數(shù)據(jù)管理標(biāo)準(zhǔn)的完善和補(bǔ)充。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉