1. 中文文本數(shù)據(jù)庫的功能
概括地說,中文文本數(shù)據(jù)庫系統(tǒng)的功能結(jié)構(gòu)包括管理和" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 信息時代 > 中文文本數(shù)據(jù)庫系統(tǒng)(數(shù)據(jù)庫)

中文文本數(shù)據(jù)庫系統(tǒng)(數(shù)據(jù)庫)

時間:2022-12-09 02:30:01 | 來源:信息時代

時間:2022-12-09 02:30:01 來源:信息時代

    中文文本數(shù)據(jù)庫系統(tǒng) : 存儲和管理大量中文文本信息的數(shù)據(jù)庫系統(tǒng),它提供文本的表達、組織、存儲和訪問功能。
1. 中文文本數(shù)據(jù)庫的功能
概括地說,中文文本數(shù)據(jù)庫系統(tǒng)的功能結(jié)構(gòu)包括管理和信息服務(wù)兩大功能。從管理上講,包括文檔管理和索引管理,主要表現(xiàn)為文檔的增、刪和改以及由此引起的動態(tài)索引維護。索引的建立與維護涉及內(nèi)容索引和結(jié)構(gòu)索引; 結(jié)構(gòu)索引既有文檔內(nèi)部結(jié)構(gòu)索引,又有文檔類別結(jié)構(gòu)索引。由于文本信息量的急劇膨脹,中文文本數(shù)據(jù)庫對文檔的管理不能僅限于平面式的管理,而應(yīng)該是多層次的,根據(jù)文檔類別的層次結(jié)構(gòu)進行管理無疑是一種有效的方法。信息服務(wù)是中文文本數(shù)據(jù)庫的主要功能,中文文本數(shù)據(jù)庫系統(tǒng)應(yīng)該支持:
(1)對中文文本數(shù)據(jù)庫和文檔的瀏覽:一個中文文本數(shù)據(jù)庫包含大量的文檔。文本信息按如下層次結(jié)構(gòu)組織:文檔類別→文檔→篇章→節(jié)→段→字符。在用戶沒有明確的查詢需求下,瀏覽能夠使用戶對數(shù)據(jù)庫中的文本信息有一個粗線條式的了解。
(2)基于不同文檔層次或文本粒度的檢索: 例如,對文檔類或文檔篇章進行檢索等。
(3)基于不同模型的文本檢索:包括基于精確匹配的全文檢索和基于向量空間模型的相關(guān)檢索。
(4)文檔處理:包括文檔分類和文檔聚類。分類和聚類一方面是文檔管理的需要; 另一方面是幫助文本檢索。
(5)文本內(nèi)容的多視圖表現(xiàn):即在不同的層次上表現(xiàn)文本內(nèi)容。
2. 文本數(shù)據(jù)庫的操作模式
在文本數(shù)據(jù)庫中,由于引入了文檔的結(jié)構(gòu)和文檔結(jié)構(gòu)類型,使得文本數(shù)據(jù)庫有了模式的概念。一個文本數(shù)據(jù)庫具有相對固定的層次結(jié)構(gòu),也就是模式。但是,文本數(shù)據(jù)庫中的文本內(nèi)容可以千變?nèi)f化。用戶通過文檔結(jié)構(gòu)類型訪問文本信息,無需關(guān)心文檔的索引模型與結(jié)構(gòu)。對用戶來說,只需給出查詢目標(biāo)和條件,就可以獲得所需的信息,而不用確切知道文本結(jié)構(gòu)和內(nèi)容的索引模式。文本數(shù)據(jù)庫系統(tǒng)的這種特性,使文本數(shù)據(jù)具有邏輯獨立性。
通常,用戶對文本數(shù)據(jù)庫的操作模式主要是瀏覽和檢索。瀏覽是一種粗略的檢索,檢索則是一種比較精細的信息獲取。兩者互為補充,且在操作上是互動的。具體操作方式有: ①單純的瀏覽; ②單純的檢索; ③先瀏覽,后檢索; ④先檢索,后瀏覽;⑤邊檢索,邊瀏覽。
文本數(shù)據(jù)庫系統(tǒng)提供獨立的瀏覽和檢索環(huán)境(界面)。檢索環(huán)境(界面)既有面向查詢語言的,又有面向按鈕操作的。
3. 文本的事務(wù)處理
對于文本數(shù)據(jù)庫來說,文檔的增、刪與改是不可避免的,而且會經(jīng)常發(fā)生,對于一個成功的文本數(shù)據(jù)庫系統(tǒng)來說,事務(wù)處理是難以回避的。在文本數(shù)據(jù)庫中,增加或刪除一個文檔,涉及大量的索引信息的更新,其中包括全文索引和結(jié)構(gòu)索引。與此相對應(yīng),在關(guān)系數(shù)據(jù)庫中,修改一個記錄,所涉及的數(shù)據(jù)更改量和影響的范圍要少得多。從這一意義上講,可以稱文檔更新事務(wù)為“重”事務(wù),而傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)更新事務(wù)為“輕”事務(wù)。盡管文本數(shù)據(jù)庫事務(wù)具有“重”和“長”的特點,但文本查詢還有另外一面: 對于相關(guān)查詢來說,由于本身具有不確定性。因此,在查詢過程中,讀些臟數(shù)據(jù)對查詢結(jié)果影響并不十分嚴(yán)重。因此,可以對事務(wù)進行一些簡化處理。
4. 中文文本處理
(1)中文的特殊性:中文與英文等文本有著不同的特點,這是區(qū)別中文文本數(shù)據(jù)和其他英文文本數(shù)據(jù)庫的特征。中文與英文的主要區(qū)別有: ①漢語不同于英語、德語、法語等印歐語言。英語等在書寫時,詞與詞之間用空格分開,因而詞與詞之間的界限在書面上是十分明顯的。而漢語在書寫時,詞與詞之間不留空白。一個漢語句子就是一大串前后相繼的漢字的字符串,詞與詞之間沒有明確的界限。中文文本中詞與詞之間沒有間隔,且中文詞的定義和取舍沒有公認(rèn)的結(jié)果,因此無法直接應(yīng)用英文系統(tǒng)中的按詞索引方法;②中文詞沒有形態(tài)變化,因此我們不用關(guān)心英文系統(tǒng)的較繁瑣的詞形轉(zhuǎn)換技術(shù);③中文字符數(shù)量比英文字符要多得多,因此某些索引模型,比如Pat樹會變得很龐大,不適宜用于中文文本。
(2) 中文分詞:詞是語言中最小的能獨立運用的單位,利用計算機把漢語的一個句子、一篇文章、一部著作中的單詞,逐一地切分出來,才有可能對漢語進行進一步分析。在漢語的自然語言處理中,凡是涉及句法、語義的研究項目,都要以詞為基本單位來進行。句法研究組詞成句的規(guī)律,沒有詞就談不上有句,因而也就無所謂句法。語義是語言中的概念與概念之間的關(guān)系,而詞是表達概念的,沒有詞也就無所謂語義研究。因此,詞是漢語語法或語義研究的中心問題,也是漢語自然語言處理的關(guān)鍵問題。正因如此,中文分詞是中文信息處理系統(tǒng)的基礎(chǔ),有著廣泛的應(yīng)用。在文本校對、簡體/繁體轉(zhuǎn)換、拼音標(biāo)注、語音合成、文本檢索、文本分類、自然語言接口和自動文摘等方面,無處不滲透著分詞系統(tǒng)的應(yīng)用。
現(xiàn)有的分詞算法可分為三大類: 基于字典匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法?;谧值淦ヅ涞姆衷~是按照一定的策略將一段漢字串與一個預(yù)先準(zhǔn)備好的漢語詞典中的詞條進行匹配,若在詞典中找到某個字符串,則識別出一個詞?;谧值浞衷~方法按照匹配方向可以分為正向匹配(按照漢字書寫順序從高左到右匹配)、逆向匹配(從右到左匹配)、雙向匹配(先從一個方向匹配,再同另外一個方向匹配)。按照匹配字串方法,可以分為最長匹配和最短匹配。雖然基于詞典的分詞算法的分詞準(zhǔn)確率不夠理想,但是算法的效率高,比較適合實施分詞和大規(guī)模分詞。事實上,基于詞典的方法在實際中文處理系統(tǒng)中,例如,中文文本數(shù)據(jù)庫和搜索引擎中得到了大規(guī)模的引用。理解式分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。基于統(tǒng)計的分詞方法一般不依賴于詞典,而是將原文中任意前后緊鄰的兩個字作為一個詞進行出現(xiàn)頻率的統(tǒng)計,出現(xiàn)的次數(shù)越高,成為一個詞的可能性也就越大。在頻率超過某個預(yù)先設(shè)定的閥值時就將其作為一個詞進行索引。這種方法能夠有效地提取出未登錄詞。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高,但并不是詞的常用字組,并且對常用詞的識別精度差,時空開銷大。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉