20世紀(jì)80年代隨著信息技術(shù)在社會(huì)各個(gè)領(lǐng)域廣泛應(yīng)用,一些行業(yè)的數(shù)據(jù)庫逐漸積累數(shù)據(jù),且日益增多。" />
時(shí)間:2022-11-21 00:30:02 | 來源:信息時(shí)代
時(shí)間:2022-11-21 00:30:02 來源:信息時(shí)代
數(shù)據(jù)挖掘標(biāo)準(zhǔn) : 挖掘從大量數(shù)據(jù)中發(fā)現(xiàn)隱藏的、先前未知且可用的相互關(guān)系的數(shù)據(jù)過程規(guī)范。
20世紀(jì)80年代隨著信息技術(shù)在社會(huì)各個(gè)領(lǐng)域廣泛應(yīng)用,一些行業(yè)的數(shù)據(jù)庫逐漸積累數(shù)據(jù),且日益增多。面對(duì)這種情況,探尋如何從海量數(shù)據(jù)中提取一些相關(guān)的信息或知識(shí),在更深層次利用數(shù)據(jù)的問題,數(shù)據(jù)庫所提供的查詢功能已難以解決。因此,就出現(xiàn)了利用數(shù)據(jù)庫的數(shù)據(jù),融合人工智能、統(tǒng)計(jì)學(xué)、并行計(jì)算等多學(xué)科技術(shù)的研究,開始有了數(shù)據(jù)倉庫、數(shù)據(jù)挖掘。數(shù)據(jù)挖掘?qū)λ诰蚍治龅臄?shù)據(jù)不需要作任何期待結(jié)果的假設(shè),而它挖掘所發(fā)現(xiàn)交付的知識(shí),可用于對(duì)數(shù)據(jù)更好的理解,指導(dǎo)實(shí)際問題的求解,從而產(chǎn)生應(yīng)用的顯著效果,受到普遍的關(guān)注。于是,到1999年ISO/IEC JTC1 SC32在制訂SQL99標(biāo)準(zhǔn)之后,為進(jìn)一步規(guī)范和推動(dòng)數(shù)據(jù)挖掘的應(yīng)用發(fā)展,在SQL/MM應(yīng)用包標(biāo)準(zhǔn)系列提出制訂了數(shù)據(jù)挖掘部分的標(biāo)準(zhǔn),即 ISO/IEC 13249-6:Information technology—Database languages—SQL multimedia and application packages—Part 6: Data mining。
數(shù)據(jù)挖掘標(biāo)準(zhǔn)提出并規(guī)范了目前廣泛接受應(yīng)用的四種數(shù)據(jù)挖掘技術(shù)(data mining techniques):
(1)規(guī)則發(fā)現(xiàn)(rule discovery): 分為關(guān)聯(lián)規(guī)則(association rule)和序列規(guī)則(sequence rule)發(fā)現(xiàn)。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是尋找事物之間的關(guān)聯(lián)。如,它可從一組(假設(shè)是商品采購)事務(wù)包含的一組數(shù)據(jù)項(xiàng)中發(fā)現(xiàn)規(guī)則如下: 如果采購事務(wù)包含項(xiàng)X和項(xiàng)Y,則在全部采購事務(wù)的N%中包含采購事務(wù)的項(xiàng)Z。序列規(guī)則發(fā)現(xiàn)類似于關(guān)聯(lián)規(guī)則發(fā)現(xiàn),是尋找事物之間的序列關(guān)系。如,同樣可從消費(fèi)者購物的一組事務(wù)所包含的一組數(shù)據(jù)項(xiàng)中,進(jìn)一步對(duì)這些事務(wù)的每個(gè)消費(fèi)者給以標(biāo)識(shí)。發(fā)現(xiàn)規(guī)則如下: 如果消費(fèi)者的采購事務(wù)包含項(xiàng)X和項(xiàng)Y,則在其后同樣的消費(fèi)者在采購事務(wù)中占全部消費(fèi)者N%的也包含項(xiàng)Z。
(2)聚類(clustering): 根據(jù)對(duì)象之間的相似性把對(duì)象分組。例如,給出帶有一組字段的一組輸入行,找出帶有公共特征的輸入行的組,這些組稱之為簇。特征化的每個(gè)簇通過輸入字段值和排列輸入字段,使大多有區(qū)別的那些字段首先出現(xiàn)。
(3)分類(classification): 按照分析對(duì)象的屬性、特征,建立不同的分類模型、類別標(biāo)識(shí)用來預(yù)測(cè)事物。如,給出一組輸入行,它帶有一組字段和分類標(biāo)志的特定字段,計(jì)算分類模型實(shí)現(xiàn)在沒有分類標(biāo)志而通過使用模型和一組輸入字段值能預(yù)測(cè)分類標(biāo)志。優(yōu)化模型以使分類標(biāo)志能用字段值的最小數(shù)預(yù)測(cè)。
(4)回歸(regression): 除了預(yù)測(cè)值的類型之外,它類似于分類。計(jì)算回歸模型允許預(yù)知數(shù)值,是連續(xù)值的預(yù)測(cè),而不是類的預(yù)測(cè),發(fā)現(xiàn)變量和屬性間的依賴關(guān)系。如,給定一個(gè)變易集的值,x1,x2,x3,…,xn,希望預(yù)測(cè)變量y的值。預(yù)測(cè)值不可能與在使用構(gòu)建模型中數(shù)據(jù)包含的任何值是同一個(gè)值。
數(shù)據(jù)挖掘運(yùn)行是使用數(shù)據(jù)挖掘的設(shè)置對(duì)數(shù)據(jù)挖掘模型的計(jì)算。數(shù)據(jù)挖掘標(biāo)準(zhǔn)依據(jù)數(shù)據(jù)挖掘技術(shù)可處理運(yùn)行的過程,提出并規(guī)范了通常所用的四個(gè)計(jì)算階段:
(1)訓(xùn)練階段(training phase): 這是所有數(shù)據(jù)挖掘技術(shù)公用的,用于計(jì)算數(shù)據(jù)挖掘模型的階段。該階段在建立模型前需要準(zhǔn)備數(shù)據(jù)并做預(yù)處理。在預(yù)處理時(shí)要定義識(shí)別字段分配給有關(guān)的信息,如挖掘類型和特定的控制字段。在分類和回歸技術(shù)中用的訓(xùn)練階段還要有一個(gè)確認(rèn)處理,稱確認(rèn)階段,作為數(shù)據(jù)挖掘分類和回歸技術(shù)訓(xùn)練階段的一部分。它給數(shù)據(jù)挖掘模型輸入另外的數(shù)值組,可作為測(cè)試階段的描述,其結(jié)果作為實(shí)例以決定運(yùn)算法則結(jié)束時(shí)間。
(2)模型自查階段(model introspection phase):也是所有數(shù)據(jù)挖掘技術(shù)普遍使用,用以解釋和評(píng)估模型。將模型與目標(biāo)一起細(xì)查,揭示訓(xùn)練階段中數(shù)據(jù)的相關(guān)性,以期達(dá)到兩個(gè)目的: ①找出數(shù)據(jù)中潛在的規(guī)律,有助于進(jìn)一步解釋模型; ②找出有統(tǒng)計(jì)價(jià)值的特性,有助于評(píng)估模型的質(zhì)量。
(3)測(cè)試階段(testing phase): 只用于分類和回歸。測(cè)試時(shí)為模型的對(duì)象字段讀入系列數(shù)值組,在應(yīng)用中評(píng)估每個(gè)數(shù)值組,將預(yù)測(cè)數(shù)值和對(duì)象字段里的實(shí)際數(shù)值做比較,其結(jié)果可為使用者或應(yīng)用提供實(shí)例,以此決定模型以質(zhì)量為基礎(chǔ)能否應(yīng)用于實(shí)際。
(4)應(yīng)用階段(application phase): 模型應(yīng)用期間輸入數(shù)據(jù)組用來評(píng)估模型,或用較多的數(shù)據(jù)組來計(jì)算模型。為了能正確地使用模型的輸入值,必須將其分配到訓(xùn)練階段確認(rèn)的相關(guān)字段中。一個(gè)預(yù)定課題的模型應(yīng)用,產(chǎn)生一個(gè)表可以控制相關(guān)的其他課題。模型由一個(gè)或多個(gè)規(guī)則的特定輸入而得出推論,推論結(jié)果可與附加特性一并提交。特定情況下,推論是對(duì)模型可信度的支持。
這幾個(gè)階段不是一次完成的,數(shù)據(jù)挖掘運(yùn)行當(dāng)包括訓(xùn)練階段時(shí)調(diào)用訓(xùn)練階段運(yùn)行,當(dāng)包括測(cè)試階段時(shí)調(diào)用測(cè)試階段運(yùn)行。其中某些階段要反復(fù)多次,各項(xiàng)功能也不是獨(dú)立實(shí)現(xiàn)的,有時(shí)要幾種方法互相聯(lián)系才能發(fā)揮作用。
數(shù)據(jù)挖掘標(biāo)準(zhǔn)提出并規(guī)范了基于SQL99之后按用戶定義類型組織的數(shù)據(jù),用戶定義類型典型的應(yīng)用是對(duì)數(shù)據(jù)倉庫,應(yīng)用一般需要在不同的數(shù)據(jù)集合上靈活地執(zhí)行不同的任務(wù),標(biāo)準(zhǔn)提供了很多不同的用戶定義類型以配合不同的應(yīng)用方式。
數(shù)據(jù)挖掘不僅在不同的計(jì)算階段需要有不同的用戶定義類型,而且,不同的數(shù)據(jù)挖掘技術(shù)也需要不同的用戶定義類型。這些用戶定義類型有的與挖掘技術(shù)無關(guān),有的與挖掘技術(shù)有關(guān)。與挖掘技術(shù)無關(guān)的是作為挖掘數(shù)據(jù)、邏輯性數(shù)據(jù)規(guī)格說明和挖掘應(yīng)用數(shù)據(jù)表征信息的這類用戶定義類型,它們無挖掘技術(shù)的詳細(xì)說明,不提供與計(jì)算任何挖掘相關(guān)信息的任何方法,只能用于定義其后數(shù)據(jù)挖掘功能所需要的元數(shù)據(jù)。其類型有:
(1)挖掘數(shù)據(jù):是對(duì)包含在表或視圖中的真實(shí)數(shù)據(jù)提取的類型。這個(gè)類型的值代表隨后數(shù)據(jù)挖掘訓(xùn)練、測(cè)試和應(yīng)用運(yùn)行訪問真實(shí)表的元數(shù)據(jù)。
邏輯性數(shù)據(jù)規(guī)格說明的,定義由數(shù)據(jù)挖掘訓(xùn)練、數(shù)據(jù)挖掘測(cè)試或數(shù)據(jù)挖掘應(yīng)用運(yùn)行所用的輸入字段的類型。它允許數(shù)據(jù)挖掘字段相關(guān)信息的詳細(xì)規(guī)格說明。
(2)應(yīng)用數(shù)據(jù):是按照收容應(yīng)用數(shù)據(jù)挖掘模型所用的數(shù)據(jù)的容器而引入的類型。
除了上述用戶定義類型之外,其余都與挖掘技術(shù)本身有關(guān),用在定義數(shù)據(jù)挖掘技術(shù)的挖掘處理過程。這類用戶定義類型屬于:
(1)挖掘任務(wù)類型: 類似于啟動(dòng)數(shù)據(jù)挖掘訓(xùn)練、測(cè)試或應(yīng)用運(yùn)行去計(jì)算、測(cè)試或應(yīng)用數(shù)據(jù)挖掘模型實(shí)際需要預(yù)先提供信息的類型。
(2)挖掘模型類型:定義按照提取定義的用作當(dāng)前數(shù)據(jù)挖掘模型的類型。它提供像應(yīng)用或測(cè)試模型一樣的方法,訪問模型的特性。
(3)數(shù)據(jù)挖掘測(cè)試結(jié)果類型:是為持有用作數(shù)據(jù)挖掘模型測(cè)試運(yùn)行計(jì)算結(jié)果信息而引入的類型。
(4)數(shù)據(jù)挖掘應(yīng)用結(jié)果類型:也是因?yàn)閿?shù)據(jù)挖掘模型的應(yīng)用能返回多重值而引入的類型。
(5)數(shù)據(jù)挖掘設(shè)置類型:是為保存需要詳細(xì)指明數(shù)據(jù)挖掘運(yùn)行的所有信息而引入的類型。具體支持的設(shè)置類型有分類設(shè)置、聚類設(shè)置、回歸設(shè)置和規(guī)則設(shè)置類型。
(6)規(guī)則過濾類型:是保存必需詳細(xì)說明的關(guān)聯(lián)或序列規(guī)則子集的所有信息的類型。
數(shù)據(jù)挖掘標(biāo)準(zhǔn)按照關(guān)聯(lián)、聚類、分類和回歸四種數(shù)據(jù)挖掘技術(shù),都分別詳細(xì)地定義了數(shù)據(jù)挖掘所需要的各種用戶定義類型,同時(shí)提出了對(duì)應(yīng)的例程與方法。標(biāo)準(zhǔn)也提出了對(duì)相符性的支持,在技術(shù)和結(jié)構(gòu)上構(gòu)成了數(shù)據(jù)挖掘完整的標(biāo)準(zhǔn)。
客戶&案例
營銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。