国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 信息時代 > 數(shù)據(jù)挖掘語言(數(shù)據(jù)庫)

數(shù)據(jù)挖掘語言(數(shù)據(jù)庫)

時間:2022-11-22 04:30:01 | 來源:信息時代

時間:2022-11-22 04:30:01 來源:信息時代

    數(shù)據(jù)挖掘語言 : 一種用于描述數(shù)據(jù)挖掘工作的計算機(jī)語言,根據(jù)功能和側(cè)重點不同,將其分為三種類型: 數(shù)據(jù)挖掘查詢語言(如DMQL); 數(shù)據(jù)挖掘建模語言(如PMML); 通用數(shù)據(jù)挖掘語言(如OLE DB for DM)。
數(shù)據(jù)挖掘查詢語言由數(shù)據(jù)挖掘原語組成,數(shù)據(jù)挖掘原語用來定義一個數(shù)據(jù)挖掘任務(wù)。用戶使用數(shù)據(jù)挖掘原語與數(shù)據(jù)挖掘系統(tǒng)通信,使得知識發(fā)現(xiàn)更有效。
一個數(shù)據(jù)挖掘查詢由以下五種基本的數(shù)據(jù)挖掘原語定義:
(1)任務(wù)相關(guān)數(shù)據(jù)原語:這是被挖掘的數(shù)據(jù)庫的一部分。挖掘的數(shù)據(jù)不是整個數(shù)據(jù)庫,只是和具體商業(yè)問題相關(guān)、或者用戶感興趣的數(shù)據(jù)集,即是數(shù)據(jù)庫中一部分表,以及表中感興趣的屬性。該原語包括以下具體的內(nèi)容: 數(shù)據(jù)庫或數(shù)據(jù)倉庫的名稱;數(shù)據(jù)庫表或數(shù)據(jù)倉庫的立方體; 數(shù)據(jù)選擇的條件;相關(guān)的屬性或維; 數(shù)據(jù)分組定義。
(2)被挖掘的知識的種類原語:該原語指定被執(zhí)行的數(shù)據(jù)挖掘的功能,在DMQL中將挖掘知識分為五種類型,即五種知識的表達(dá): 特征規(guī)則、辨別規(guī)則、關(guān)聯(lián)規(guī)則、分類/預(yù)測、聚類。
(3)背景知識原語:用戶能夠指定背景知識,或者關(guān)于被挖掘的領(lǐng)域知識。這些知識對于引導(dǎo)知識發(fā)現(xiàn)過程和評估發(fā)現(xiàn)的模式非常有用。背景知識原語包括: 概念層次(concept hierarchy)、對數(shù)據(jù)關(guān)系的用戶信任度。
(4)興趣度測量原語:該原語將不感興趣的模式從知識中排除出去。興趣度測量能夠用來引導(dǎo)數(shù)據(jù)挖掘過程,或者在發(fā)現(xiàn)后評估被發(fā)現(xiàn)的模式。不同種類的知識有不同種類的興趣度測量方法。例如,對關(guān)聯(lián)規(guī)則來說,興趣度測量包括支持度(support)和置信度(confidence)。低于用戶指定的支持度和置信度閾值的規(guī)則被認(rèn)為是不感興趣的。興趣度測量原語包括簡單性(simplicity)、正確性(certainty)、實用性(utility)和新穎性(novelty)。
(5)被發(fā)現(xiàn)模式的表示和可視化原語:這個原語定義被發(fā)現(xiàn)的模式顯示的方式,用戶能夠選擇不同的知識表示形式。該原語包括: 規(guī)則、表格、報告、圖表、圖形、決策樹和立方體; 向下鉆入和向上累積(drill-down and roll-up)。
數(shù)據(jù)挖掘建模語言是對數(shù)據(jù)挖掘模型進(jìn)行描述和定義的語言。它使得數(shù)據(jù)挖掘系統(tǒng)在模型定義和描述方面有標(biāo)準(zhǔn)可以遵循,實現(xiàn)了各系統(tǒng)之間可以共享模型。這樣既可以解決目前各數(shù)據(jù)挖掘系統(tǒng)之間封閉性的問題,又可以在其他應(yīng)用系統(tǒng)中間嵌入數(shù)據(jù)挖掘模型,解決孤立的知識發(fā)現(xiàn)問題。如數(shù)據(jù)挖掘建模語言——預(yù)言模型標(biāo)記語言PMML。
PMML由以下幾個部分組成: 標(biāo)題(header)、數(shù)據(jù)字典(data dictionary)、數(shù)據(jù)流(data flow)、挖掘模式(mining schema)、數(shù)據(jù)轉(zhuǎn)換(data transformations)、預(yù)測模型(predictive model)、模型組合定義(ensembles of models)、選擇聯(lián)合模型和模型組合的規(guī)則,以及異常處理規(guī)則(rules for exception handling)。
通用數(shù)據(jù)挖掘語言合并了數(shù)據(jù)挖掘查詢語言和數(shù)據(jù)挖掘建模語言兩種語言的特點,既具有定義模型的功能,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進(jìn)行交互和特殊的挖掘。通用數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化是解決目前數(shù)據(jù)挖掘行業(yè)出現(xiàn)問題的最優(yōu)的解決方案。2000年3月,微軟公司推出OLE DB for DM作為一種通用數(shù)據(jù)挖掘語言。
OLE DB for DM的規(guī)范包括創(chuàng)建原語以及許多重要數(shù)據(jù)挖掘模型的定義和使用(包括預(yù)測模型和聚集)。它是一個基于SQL預(yù)測的協(xié)議,為軟件商和應(yīng)用開發(fā)人員提供了一個開放的接口,該接口將數(shù)據(jù)挖掘工具和能力更有效地和商業(yè)以及電子商務(wù)應(yīng)用集成。同時,OLE DB for DM已經(jīng)與DMG發(fā)布的PMML標(biāo)準(zhǔn)結(jié)合。OLE DB for DM支持多種流行的數(shù)據(jù)挖掘算法。
OLE DB for DM定義了重要的新的概念和特點,填補(bǔ)了數(shù)據(jù)挖掘技術(shù)和關(guān)系數(shù)據(jù)庫管理系統(tǒng)之間的縫隙,包括: 數(shù)據(jù)挖掘模型(data mining model,DMM); 預(yù)測聯(lián)接操作(predication join operation);OLE DB for DM模式行集合(schema row sets)。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉