時(shí)間:2022-11-20 18:30:01 | 來(lái)源:信息時(shí)代
時(shí)間:2022-11-20 18:30:01 來(lái)源:信息時(shí)代
數(shù)據(jù)挖掘 : 從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從各種數(shù)據(jù)源中選取和集成用于數(shù)據(jù)挖掘的數(shù)據(jù);規(guī)律尋找是用某種方法將數(shù)據(jù)中的規(guī)律找出來(lái); 規(guī)律表示是用盡可能符合用戶習(xí)慣的方式(如可視化)將找出的規(guī)律表示出來(lái)。數(shù)據(jù)挖掘在自身發(fā)展的過(guò)程中,吸收了數(shù)理統(tǒng)計(jì)、數(shù)據(jù)庫(kù)和人工智能等領(lǐng)域中的大量技術(shù)。與數(shù)據(jù)挖掘非常接近的術(shù)語(yǔ)是知識(shí)發(fā)現(xiàn)。
數(shù)據(jù)挖掘方法分為描述性和預(yù)測(cè)性兩類。描述性數(shù)據(jù)挖掘提供數(shù)據(jù)的一般規(guī)律; 預(yù)測(cè)性數(shù)據(jù)挖掘產(chǎn)生關(guān)于數(shù)據(jù)的預(yù)測(cè)。
數(shù)據(jù)挖掘的主要內(nèi)容有: 關(guān)聯(lián)分析、演變分析、聚類分析、分類分析和異常分析等五大類。用于數(shù)據(jù)挖掘工作的主要算法有: 用于關(guān)聯(lián)分析的Apriori算法、FP-Growth算法、Apriori Tid算法、ML-T2算法、ML-SH算法、ML-CH算法等; 用于聚類分析的k-Means算法、k-medoids算法、CLARANS算法、CURE算法、Chameleon算法、BIRCH算法、CLIQUE算法、CLASSIT算法等; 用于分類的ID3算法、C4.5算法、CART算法、SLIQ算法、SPRINT算法、Rain Forest算法、BAYESIAN算法、神經(jīng)網(wǎng)絡(luò)方法等; 用于異常檢測(cè)的LOF算法、NL算法、FindAllOutsD算法等。
數(shù)據(jù)挖掘可以是針對(duì)一般的數(shù)據(jù)源也可以針對(duì)特殊應(yīng)用的數(shù)據(jù)源。針對(duì)一般數(shù)據(jù)源的挖掘主要有序列數(shù)據(jù)挖掘、流數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘等; 針對(duì)特殊應(yīng)用數(shù)據(jù)源的挖掘有交易數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、生物數(shù)據(jù)挖掘、金融數(shù)據(jù)挖掘、氣象數(shù)據(jù)挖掘、統(tǒng)計(jì)數(shù)據(jù)挖掘、電信數(shù)據(jù)挖掘等。
數(shù)據(jù)挖掘概念最早出現(xiàn)在1989年8月舉行的第11屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上,稱為知識(shí)發(fā)現(xiàn)(KDD)。兩者的概念和內(nèi)涵并沒(méi)有太大分別,就目前術(shù)語(yǔ)的使用情況來(lái)看,人工智能領(lǐng)域主要使用術(shù)語(yǔ)知識(shí)發(fā)現(xiàn),而數(shù)據(jù)庫(kù)領(lǐng)域和工業(yè)界主要使用術(shù)語(yǔ)數(shù)據(jù)挖掘。
隨著KDD在學(xué)術(shù)界和工業(yè)界的影響越來(lái)越大,國(guó)際KDD組委會(huì)于1995年把專題討論會(huì)更名為國(guó)際會(huì)議,在加拿大蒙特利爾市召開(kāi)了第一屆KDD國(guó)際學(xué)術(shù)會(huì)議,以后每年召開(kāi)一次。還有許多數(shù)據(jù)挖掘年會(huì),包括PAKDD,PKDD,SIAM-Data Mining等。1997年開(kāi)始的PAKDD (Pacific-Asia Conference on Knowledge Discovery and Data Mining)是亞太地區(qū)數(shù)據(jù)挖掘會(huì)議。1997年開(kāi)始的PKDD(European Symposium on Principles of Data Mining and Knowledge Discovery)是歐洲數(shù)據(jù)挖掘討論會(huì)。2001年開(kāi)始的SIAM-Data Mining(Society for Industrial and Applied Mathematics)是SIAM組織召開(kāi)的數(shù)據(jù)挖掘討論會(huì),專注于科學(xué)數(shù)據(jù)的數(shù)據(jù)挖掘。此外,數(shù)據(jù)庫(kù)、人工智能、信息處理、知識(shí)工程等領(lǐng)域的國(guó)際學(xué)術(shù)刊物也紛紛開(kāi)辟了KDD專題或?qū)?EEE的Knowledge and Data Engineering會(huì)刊在1993年出版了KDD技術(shù)???。不僅如此,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discovery Nuggets最為權(quán)威(http://www.kdnuggets.com)。
關(guān)于數(shù)據(jù)挖掘軟件主要的實(shí)驗(yàn)室系統(tǒng)有: 加拿大Simon Fraser大學(xué)“智能數(shù)據(jù)庫(kù)系統(tǒng)研究室”研制并開(kāi)發(fā)的數(shù)據(jù)挖掘系統(tǒng)DBMiner; 新加坡國(guó)立大學(xué)計(jì)算機(jī)學(xué)院研制并開(kāi)發(fā)的CBA和IAS;澳大利亞國(guó)立大學(xué)研制并開(kāi)發(fā)的數(shù)據(jù)挖掘系統(tǒng)原型Dmtools;英國(guó)Ulster大學(xué)研制的MIMIC、CERENA、Net Model等系統(tǒng);德國(guó)Dortmund大學(xué)計(jì)算機(jī)系人工智能實(shí)驗(yàn)室的歐共體IST項(xiàng)目Mining Mart; 美國(guó)卡內(nèi)基梅隆大學(xué)自動(dòng)學(xué)習(xí)和發(fā)現(xiàn)中心關(guān)于數(shù)據(jù)挖掘技術(shù)在制造業(yè)和多媒體數(shù)據(jù)庫(kù)應(yīng)用的研究; 哥倫比亞大學(xué)研究的入侵檢測(cè)系統(tǒng)IDS等。
關(guān)于數(shù)據(jù)挖掘軟件主要的商業(yè)產(chǎn)品系統(tǒng)有:SPSS公司的Clementine,SAS公司的Enterprise Miner,IBM公司的Intelligent Miner,SGI公司的Mineset,Sybase公司的Warehouse Studio,Rule Quest Research公司的See5,還有Cover Story,EXPLORA,Knowledge Discovery Workbench,D Miner,Quest等。
Grossman從技術(shù)體系上將數(shù)據(jù)挖掘軟件劃分為四代。
第一代: 支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法,用于挖掘向量數(shù)據(jù)(vector-valued data)。在做挖掘時(shí),數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理。典型的軟件如Salford Systems 公司早期的CART系統(tǒng)(www.salford-systems.com)。
第二代: 與數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)集成,支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),和它們具有高性能的接口,具有高的可擴(kuò)展性。能夠挖掘大數(shù)據(jù)集及更復(fù)雜的數(shù)據(jù)集。通過(guò)支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語(yǔ)言增加系統(tǒng)的靈活性。典型的系統(tǒng)如DBMiner,能通過(guò)DMQL挖掘語(yǔ)言進(jìn)行挖掘操作。
第三代: 由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)測(cè)模型,能夠自動(dòng)地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)測(cè)模型相聯(lián)合提供決策支持的功能。另一個(gè)特點(diǎn)是能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且有效地和操作型系統(tǒng)集成。
第四代: 挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)等產(chǎn)生的各種類型的數(shù)據(jù)。目前還在研究階段,還沒(méi)有產(chǎn)品。
數(shù)據(jù)挖掘的標(biāo)準(zhǔn)化目前包括以下三個(gè)標(biāo)準(zhǔn):
CRISP-DM: 交叉行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn)(CRoss-Industry Standard Process for Data Mining)。它由SPSS、NCR以及DaimlerChrysler三個(gè)公司于1996年提出。其中,SPSS是數(shù)據(jù)挖掘軟件商,NCR是數(shù)據(jù)倉(cāng)庫(kù)廠商,DaimlerChrsler是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘應(yīng)用商。CRISP-DM過(guò)程模型注重技術(shù)的應(yīng)用,在1999年發(fā)布了CRISP-DM1.0。之后,CRISP-DM被各個(gè)數(shù)據(jù)挖掘軟件商用來(lái)指導(dǎo)其開(kāi)發(fā)數(shù)據(jù)挖掘軟件。
PMML: 預(yù)測(cè)模型標(biāo)記語(yǔ)言(Predictive Model Markup Language,PMML)。它由數(shù)據(jù)挖掘協(xié)會(huì)(The Data Mining Group,http://www.dmg.org,DMG)開(kāi)發(fā)。PMML是對(duì)數(shù)據(jù)挖掘模型進(jìn)行描述和定義的語(yǔ)言,已經(jīng)被W3C接受,成為國(guó)際標(biāo)準(zhǔn)。
OLE DB For DM:是微軟公司在2000年3月推出的數(shù)據(jù)挖掘標(biāo)準(zhǔn)。OLE DB for DM的規(guī)范包括創(chuàng)建原語(yǔ)以及許多重要數(shù)據(jù)挖掘模型的定義和使用(包括預(yù)測(cè)模型和聚集)。它是一個(gè)基于SQL預(yù)測(cè)的協(xié)議,為軟件商和應(yīng)用開(kāi)發(fā)人員提供了一個(gè)開(kāi)放的接口,該接口將數(shù)據(jù)挖掘工具和能力更有效地和商業(yè)以及電子商務(wù)應(yīng)用集成。同時(shí),OLE DB for DM已經(jīng)與DMG發(fā)布的PMML標(biāo)準(zhǔn)結(jié)合。
客戶&案例
營(yíng)銷資訊
關(guān)于我們
客戶&案例
營(yíng)銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。