国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷資訊 > 信息時(shí)代 > 全文數(shù)據(jù)庫(kù)(數(shù)據(jù)庫(kù))

全文數(shù)據(jù)庫(kù)(數(shù)據(jù)庫(kù))

時(shí)間:2022-11-08 00:30:01 | 來(lái)源:信息時(shí)代

時(shí)間:2022-11-08 00:30:01 來(lái)源:信息時(shí)代

    全文數(shù)據(jù)庫(kù) : 將經(jīng)典著作、學(xué)術(shù)期刊、重要的會(huì)議錄、法律法規(guī)、新聞報(bào)道以及百科全書(shū)、手冊(cè)、年鑒等的全部文字和非文字內(nèi)容轉(zhuǎn)換成計(jì)算機(jī)可讀形式的數(shù)據(jù)庫(kù),簡(jiǎn)稱全文庫(kù)。1973年,美國(guó)米德公司建成了世界上第一個(gè)面向公眾查詢的大型全文數(shù)據(jù)庫(kù)Lexis,標(biāo)志著一個(gè)新的情報(bào)檢索領(lǐng)域的誕生。20世紀(jì)80年代中期開(kāi)始,國(guó)外全文數(shù)據(jù)庫(kù)的建設(shè)呈現(xiàn)出迅猛發(fā)展的勢(shì)頭,據(jù)統(tǒng)計(jì),在美國(guó),全文數(shù)據(jù)庫(kù)占所有數(shù)據(jù)庫(kù)的比例從1985年的28%增加到1995年的52%,其數(shù)量是書(shū)目文獻(xiàn)數(shù)據(jù)庫(kù)的兩倍,而書(shū)目文獻(xiàn)數(shù)據(jù)庫(kù)所占的比例則從57%下降到24%。國(guó)外的全文學(xué)術(shù)期刊數(shù)據(jù)庫(kù)已經(jīng)分布到各個(gè)學(xué)科領(lǐng)域,例如Wiley InterScience、SpringerLink以及PQDD(Pro Quest Digital Dissertation)等不一而足。目前,國(guó)內(nèi)已有“中國(guó)學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù)”、“書(shū)生之家數(shù)字圖書(shū)館”和“超星數(shù)字圖書(shū)館”等圖書(shū)、期刊全文數(shù)據(jù)庫(kù)建成投入使用。與其他類型的數(shù)據(jù)庫(kù)相比,全文數(shù)據(jù)庫(kù)的檢索需要一些獨(dú)特的支撐技術(shù),比如針對(duì)中文文本的自動(dòng)分詞技術(shù)以及自動(dòng)標(biāo)引技術(shù):
1. 自動(dòng)分詞技術(shù)
與英語(yǔ)等語(yǔ)言不同,漢語(yǔ)詞與詞之間沒(méi)有空格等標(biāo)記,要實(shí)現(xiàn)全文數(shù)據(jù)庫(kù)的檢索,首先需要做的工作就是分詞。詞是最小的、能獨(dú)立活動(dòng)的、有意義的語(yǔ)言成分??梢詫F(xiàn)有的分詞算法分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。
(1)基于字符串匹配的分詞方法:這種方法又叫做機(jī)械分詞法,它是按照一定的策略將待分析的漢字串與機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,字符串匹配分詞方法可以分為正向匹配和逆向匹配; 按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最小(最短)匹配; 按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。具體的方法主要有以下幾種:
最大匹配法(maximum matching method,MM法): 在計(jì)算機(jī)中存放一個(gè)已知的詞表,這個(gè)詞表叫做底表,從被切分的語(yǔ)料中,按給定的順序截取一個(gè)定長(zhǎng)的字符串,通常為6~8個(gè)漢字,這個(gè)字符串的長(zhǎng)度叫做最大詞長(zhǎng),把這個(gè)具有最大詞長(zhǎng)的字符串與底表中的詞相匹配,若匹配成功,則可確定這個(gè)字符串為詞,然后指針向給定的方向移動(dòng)與已經(jīng)識(shí)別出的詞長(zhǎng)相應(yīng)個(gè)數(shù)的漢字,繼續(xù)進(jìn)行匹配,否則,則把該字符串逐次減去一個(gè)字符,再與底表中的詞進(jìn)行匹配,直到成功為止。MM法的優(yōu)點(diǎn)是原理簡(jiǎn)單,易于在計(jì)算機(jī)上實(shí)現(xiàn),實(shí)現(xiàn)復(fù)雜度比較低,缺點(diǎn)是最大詞長(zhǎng)難于確定; 如果定得過(guò)長(zhǎng),則算法的時(shí)間復(fù)雜度顯著提高,如果定得太短,則不能切分長(zhǎng)度大于它的詞,導(dǎo)致切分正確率降低。
逆向最大匹配法(reverse maximum matching method,RMM法):這種方法的原理與MM法相同,不同的是切詞的掃描方向,如果MM法的方向?yàn)閺淖笙蛴胰∽址M(jìn)行匹配,則RMM法的切詞方向就是從右到左取字符串進(jìn)行匹配。
其他的基于字符串匹配的方法還包括: 逐詞遍歷匹配法、雙向掃描法、最佳匹配法以及設(shè)立切分標(biāo)記法等。
對(duì)于機(jī)械分詞方法,可以建立一個(gè)通用模型,形式化地表示為ASM(d,a,m),即automatic segmentation model。其中:
d: 匹配方向,+1表示正向,-1表示逆向;
a: 每次匹配失敗后增加/減少字串長(zhǎng)度(字符數(shù)),+1為增字,-1為減字;
m: 最大/最小匹配標(biāo)志,+1為最大匹配,-1為最小匹配。
例如,ASM(+,-,+)就是正向減字最大匹配法(即MM方法),ASM(-,-,+)就是逆向減字最大匹配法(即RMM方法),等等。對(duì)于現(xiàn)代漢語(yǔ)來(lái)說(shuō),只有m=+1是實(shí)用的方法。
(2)基于理解的分詞方法:通常的分析系統(tǒng)都力圖在分詞階段消除所有歧義切分現(xiàn)象,而有些系統(tǒng)則在后續(xù)過(guò)程中來(lái)處理歧義切分問(wèn)題,其分詞過(guò)程只是整個(gè)語(yǔ)言理解過(guò)程的一小部分。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。它通常包括三個(gè)部分: 分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過(guò)程。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段,聯(lián)想-回溯法就是其中的一種。
(3)基于統(tǒng)計(jì)的分詞方法:從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好地反映成詞的可信度??梢詫?duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息為:M(X,Y)=logP(X,Y)/(P(X).P(Y))。其中,P(X,Y)是漢字X、Y的相鄰共現(xiàn)概率,P(X)、P(Y)分別是X、Y在語(yǔ)料中出現(xiàn)的概率。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能是一個(gè)詞。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。
目前,無(wú)論哪種分詞方法都不能完全消解歧義切分,因此,自動(dòng)分詞還需要做的一個(gè)非常重要的工作就是消解歧義。
2. 自動(dòng)標(biāo)引技術(shù)
常用的自動(dòng)標(biāo)引技術(shù)包括:
(1)詞典法標(biāo)引:包括部件詞典法、關(guān)鍵詞詞表法,停用詞表法等多種方法。部件詞典標(biāo)引在全文檢索系統(tǒng)中運(yùn)用較多,所謂部件詞典是指由許多“部件詞”及其“詞性”組成的表。由于現(xiàn)代漢語(yǔ)中的絕大部分詞都可由一字詞和二字詞組配而成,故用體積很小的一個(gè)“二字部件詞典”和一個(gè)“一字部件詞典”就可以代替龐大的詞庫(kù),然后依據(jù)該詞典對(duì)全文進(jìn)行抽詞,再按照詞性組配連接組詞,最后完成標(biāo)引。
(2)單漢字標(biāo)引: 由于中文語(yǔ)法復(fù)雜,因此中文詞處理的難度較大。而中文文本中單個(gè)漢字是構(gòu)成詞、句、段、節(jié)、章的基本單元,具有無(wú)窮的組配能力?;诖?國(guó)內(nèi)學(xué)者以單漢字作為計(jì)算機(jī)處理的自然單元,對(duì)全文的單漢字進(jìn)行索引,將標(biāo)引與檢索的基本單元從詞降到字一級(jí),利用相鄰度、通配符檢索等功能將漢字組合成詞,從而繞過(guò)詞的切分問(wèn)題。
(3)特殊標(biāo)引:①屬性標(biāo)引:即在標(biāo)識(shí)標(biāo)引詞時(shí),同時(shí)注明該詞的屬性。詞的屬性有人名、地名、年代等,分別用一個(gè)字母來(lái)代表一種屬性。②加注標(biāo)引: 即在全文文本中對(duì)上下文隱含的人名、地名、年代等知識(shí)項(xiàng)的代詞、尊稱等加以注解說(shuō)明。加注標(biāo)引可以充分提供檢索入口點(diǎn),挖掘文獻(xiàn)的信息含量,節(jié)省檢索者的智力勞動(dòng)。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉