国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

所在位置: 首頁(yè) > 營(yíng)銷(xiāo)資訊 > 信息時(shí)代 > 全文本類(lèi)型(數(shù)據(jù)庫(kù))

全文本類(lèi)型(數(shù)據(jù)庫(kù))

時(shí)間:2022-11-07 12:30:01 | 來(lái)源:信息時(shí)代

時(shí)間:2022-11-07 12:30:01 來(lái)源:信息時(shí)代

    全文本類(lèi)型 : SQL/MM全文標(biāo)準(zhǔn)中針對(duì)全文檢索應(yīng)用制定的一個(gè)結(jié)構(gòu)化用戶(hù)定義類(lèi)型。該類(lèi)型支持全文數(shù)據(jù)值的構(gòu)造,用于測(cè)試一個(gè)全文數(shù)據(jù)是否和一個(gè)指定的查詢(xún)模式相匹配,及實(shí)現(xiàn)全文數(shù)據(jù)到普通SQL字符串的轉(zhuǎn)換。Full Text類(lèi)型的規(guī)范包含一組方法,用于與全文檢索相適應(yīng)的操作。如,構(gòu)造一個(gè)SQL表:
CREATE TABLE information(
docno INTEGER,
document FULLTEXT)
其中,docno列包含了獲取某個(gè)文檔標(biāo)識(shí)符的值,而document列包含了全文文檔,它是全文本類(lèi)型。以下是一個(gè)檢索文檔的查詢(xún)語(yǔ)句的示例:
SELECT docno
FROM information
WHERE document.CONTAINS
(“International”)=1
該查詢(xún)語(yǔ)句從information表中對(duì)每個(gè)文檔進(jìn)行檢索操作,由document列中應(yīng)用的CONTAINS方法返回一個(gè)值,“1”代表真,即包含了指定的模式,在這個(gè)示例中是一個(gè)單詞“International”。上述操作的結(jié)果將是包含“International”的所有全文文檔的標(biāo)識(shí)符值的集合。
全文本類(lèi)型與一般的計(jì)算機(jī)語(yǔ)言中的字符串類(lèi)型在操作是不同的。首先,字符串類(lèi)型可以是定長(zhǎng)或變長(zhǎng)而全文類(lèi)型的長(zhǎng)度總是變長(zhǎng)。其次,在數(shù)據(jù)庫(kù)的查找操作上,字符串類(lèi)型總是通過(guò)整個(gè)值來(lái)查找,全文本類(lèi)型有其特殊的查找方式。全文查找會(huì)建立詞或詞組之間的位置相鄰關(guān)系,以及是否出現(xiàn)在同一個(gè)文檔內(nèi)。
全文本類(lèi)型的查找運(yùn)算不同于簡(jiǎn)單字符串類(lèi)型。全文檢索(full-text search)與基于模式匹配(SQL中的 ‘%’ 串模糊匹配)的搜索有很大的不同:
(1)短語(yǔ)(一個(gè)單詞的序列)全文檢索不是子串檢索。使用子串檢索(Substring search)包含字符串“l(fā)ease” 的新聞條目,會(huì)返回一個(gè)包含“Foobar Corporation releases the 20.9 version…”的新聞條目,而對(duì)短語(yǔ)“l(fā)ease”的全文檢索不會(huì)出現(xiàn)這樣的結(jié)果。
(2)全文檢索支持基于語(yǔ)義和基于位置的檢索,而子串檢索不能。例如,使用全文檢索能實(shí)現(xiàn)“查找所有包含與 ‘mouse’ 有相同詞義的詞(查找‘mouse’ 和 ‘mice’ )的新聞條目”和“查找在同一個(gè)自然段內(nèi)包含詞 ‘XML’和‘Full-text’ 的新聞條目”。
(3)全文檢索有計(jì)算相關(guān)度或者相關(guān)性功能。在檢索的時(shí)候,希望把與檢索詞最相關(guān)的結(jié)果排列在結(jié)果列表前面。在SQL/MM全文標(biāo)準(zhǔn)中,把相關(guān)性概念應(yīng)用到結(jié)構(gòu)化檢索中,利用計(jì)算相關(guān)度功能,給出每篇檢索命中文檔的相關(guān)度。
(4)在SQL/MM全文標(biāo)準(zhǔn)中,有一個(gè)標(biāo)記化的概念。由標(biāo)記器返回的字符、元語(yǔ)法、字符序列,它是作為被查詢(xún)的基本單元。一個(gè)單詞由一到多個(gè)連續(xù)的字符組成。字不能由標(biāo)點(diǎn)或者空格分開(kāi),單詞可能交疊。短語(yǔ)是有序詞的一個(gè)序列,可以包含任意數(shù)量的單詞。
(5)文本執(zhí)行標(biāo)記化,也就是分成單詞序列、自然段序列、標(biāo)點(diǎn)符號(hào)單元和空格。
(6)文本標(biāo)記化時(shí),可以用函數(shù)和操作符表示出單詞的相對(duì)位置,也識(shí)別了包含單詞的句子和段落。標(biāo)記化函數(shù)和操作符可以表示出單詞的一部分(通配符、詞干)或者詞根。
SQL/MM全文標(biāo)準(zhǔn)中Full-Text類(lèi)型和語(yǔ)種相關(guān),實(shí)現(xiàn)時(shí)需指定以下與語(yǔ)言相關(guān)的內(nèi)容: 詞邊界、句子邊界、段落邊界的識(shí)別方法; 同音詞; 拼寫(xiě)近似詞;停用詞; 詞的規(guī)范化。
Full-Text類(lèi)型定義的屬性和方法如下:
Contents: 私有屬性,存放全文內(nèi)容的字符串。
FT Language: 公有屬性,語(yǔ)種。
Contains(): 在文檔中搜索包含匹配模式或字符串的值。
Score(): 在文檔中搜索包含匹配模式或字符串的值,并返回相關(guān)度。
NumberOfMatches():返回文檔中與給定模式或字符串相匹配的次數(shù)。
Tokenize(): 將文檔轉(zhuǎn)換為規(guī)范化的FullText Token序列。
TokenizePosition() : 將文檔轉(zhuǎn)換為FT_TokenPosition序列。
Segmentize(): 將文檔轉(zhuǎn)換為FullText序列(分段)。
TokenizeAndStem(): 將文檔轉(zhuǎn)換為規(guī)范化和語(yǔ)干精簡(jiǎn)過(guò)的FullText Token序列。在中文語(yǔ)言環(huán)境下,等價(jià)于Tokenize方法。
TokenizePositionAndStem():將文檔轉(zhuǎn)換為規(guī)范化和語(yǔ)干精簡(jiǎn)過(guò)的FT TokenPosition序列。在中文語(yǔ)言環(huán)境中,等價(jià)于TokenizePosition方法。
FullText_to_Character():將FullText類(lèi)型的文檔轉(zhuǎn)換為Character類(lèi)型的字符串。
FT_Pattern: 符合匹配模式表達(dá)式規(guī)范的字符串。
FT_Token: 用以定義合法的文本串。
FT_TokenPosition: 包含了FT Token和位置數(shù)據(jù)。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉