數(shù)據(jù)挖掘

關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

15158846557 在線咨詢 在線咨詢
15158846557 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷資訊 > 信息時(shí)代 > 數(shù)據(jù)挖掘過(guò)程

數(shù)據(jù)挖掘過(guò)程

時(shí)間:2022-02-18 22:24:01 | 來(lái)源:信息時(shí)代

時(shí)間:2022-02-18 22:24:01 來(lái)源:信息時(shí)代

關(guān)聯(lián)規(guī)則挖掘過(guò)程主要包含兩個(gè)階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(FrequentItemsets),第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(AssociationRules)。

數(shù)據(jù)挖掘

關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項(xiàng)目組(LargeItemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對(duì)于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support),以一個(gè)包含A與B兩個(gè)項(xiàng)目的2-itemset為例,我們可以經(jīng)由公式(1)求得包含{A,B}項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(MinimumSupport)門檻值時(shí),則{A,B}稱為高頻項(xiàng)目組。一個(gè)滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequentk-itemset),一般表示為L(zhǎng)argek或Frequentk。算法并從Largek的項(xiàng)目組中再產(chǎn)生Largek 1,直到無(wú)法再找到更長(zhǎng)的高頻項(xiàng)目組為止。

關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(AssociationRules)。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來(lái)產(chǎn)生規(guī)則,在最小信賴度(MinimumConfidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組{A,B}所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。

就沃爾瑪案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對(duì)交易資料庫(kù)中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個(gè)門檻值,在此假設(shè)最小支持度min_support=5%且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時(shí)滿足以上兩個(gè)條件。若經(jīng)過(guò)挖掘過(guò)程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時(shí)購(gòu)買的交易行為。Confidence(尿布,啤酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會(huì)同時(shí)購(gòu)買啤酒。因此,今后若有某消費(fèi)者出現(xiàn)購(gòu)買尿布的行為,超市將可推薦該消費(fèi)者同時(shí)購(gòu)買啤酒。這個(gè)商品推薦的行為則是根據(jù)「尿布,啤酒」關(guān)聯(lián)規(guī)則,因?yàn)榫驮摮羞^(guò)去的交易紀(jì)錄而言,支持了'大部份購(gòu)買尿布的交易,會(huì)同時(shí)購(gòu)買啤酒'的消費(fèi)行為。

從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫(kù)中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個(gè)區(qū)間的值對(duì)應(yīng)于某個(gè)值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過(guò)程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。

分類

按照不同情況,關(guān)聯(lián)規(guī)則可以進(jìn)行分類如下:

1.基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。

布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來(lái),對(duì)數(shù)值型字段進(jìn)行處理,將其進(jìn)行動(dòng)態(tài)的分割,或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如:性別='女'=>職業(yè)='秘書',是布爾型關(guān)聯(lián)規(guī)則;性別='女'=>avg(收入)=2300,涉及的收入是數(shù)值類型,所以是一個(gè)數(shù)值型關(guān)聯(lián)規(guī)則。

2.基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。

在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒(méi)有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè)不同的層次的;而在多層的關(guān)聯(lián)規(guī)則中,對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。例如:IBM臺(tái)式機(jī)=>Sony打印機(jī),是一個(gè)細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺(tái)式機(jī)=>Sony打印機(jī),是一個(gè)較高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。

數(shù)據(jù)挖掘

3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。

在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個(gè)維,如用戶購(gòu)買的物品;而在多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會(huì)涉及多個(gè)維。換成另一句話,單維關(guān)聯(lián)規(guī)則是處理單個(gè)屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個(gè)屬性之間的某些關(guān)系。例如:啤酒=>尿布,這條規(guī)則只涉及到用戶的購(gòu)買的物品;性別='女'=>職業(yè)='秘書',這條規(guī)則就涉及到兩個(gè)字段的信息,是兩個(gè)維上的一條關(guān)聯(lián)規(guī)則。

算法

1.Apriori算法:使用候選項(xiàng)集找頻繁項(xiàng)集

Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。

該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來(lái)。為了生成所有頻集,使用了遞推的方法。

可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫(kù),是Apriori算法的兩大缺點(diǎn)。

2.基于劃分的算法

Savasere等設(shè)計(jì)了一個(gè)基于劃分的算法。這個(gè)算法先把數(shù)據(jù)庫(kù)從邏輯上分成幾個(gè)互不相交的塊,每次單獨(dú)考慮一個(gè)分塊并對(duì)它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來(lái)生成所有可能的頻集,最后計(jì)算這些項(xiàng)集的支持度。這里分塊的大小選擇要使得每個(gè)分塊可以被放入主存,每個(gè)階段只需被掃描一次。而算法的正確性是由每一個(gè)可能的頻集至少在某一個(gè)分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個(gè)處理器生成頻集。產(chǎn)生頻集的每一個(gè)循環(huán)結(jié)束后,處理器之間進(jìn)行通信來(lái)產(chǎn)生全局的候選k-項(xiàng)集。通常這里的通信過(guò)程是算法執(zhí)行時(shí)間的主要瓶頸;而另一方面,每個(gè)獨(dú)立的處理器生成頻集的時(shí)間也是一個(gè)瓶頸。

3.FP-樹頻集算法

針對(duì)Apriori算法的固有缺陷,J.Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法:FP-樹頻集算法。采用分而治之的策略,在經(jīng)過(guò)第一遍掃描之后,把數(shù)據(jù)庫(kù)中的頻集壓縮進(jìn)一棵頻繁模式樹(FP-tree),同時(shí)依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫(kù),每個(gè)庫(kù)和一個(gè)長(zhǎng)度為1的頻集相關(guān),然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時(shí)候,也可以結(jié)合劃分的方法,使得一個(gè)FP-tree可以放入主存中。實(shí)驗(yàn)表明,F(xiàn)P-growth對(duì)不同長(zhǎng)度的規(guī)則都有很好的適應(yīng)性,同時(shí)在效率上較之Apriori算法有巨大的提高。

應(yīng)用

就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測(cè)銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營(yíng)銷?,F(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫(kù)中顯示,某個(gè)高信用限額的客戶更換了地址,這個(gè)客戶很有可能新近購(gòu)買了一棟更大的住宅,因此會(huì)有可能需要更高信用限額,更高端的新信用卡,或者需要一個(gè)住房改善貸款,這些產(chǎn)品都可以通過(guò)信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時(shí)候,數(shù)據(jù)庫(kù)可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時(shí)也可以顯示出顧客會(huì)對(duì)什么產(chǎn)品感興趣。

同時(shí),一些知名的電子商務(wù)站點(diǎn)也從強(qiáng)大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購(gòu)物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進(jìn)行挖掘,然后設(shè)置用戶有意要一起購(gòu)買的捆綁包。也有一些購(gòu)物網(wǎng)站使用它們?cè)O(shè)置相應(yīng)的交叉銷售,也就是購(gòu)買某種商品的顧客會(huì)看到相關(guān)的另外一種商品的廣告。

但是目前在我國(guó),'數(shù)據(jù)海量,信息缺乏'是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對(duì)的尷尬。目前金融業(yè)實(shí)施的大多數(shù)數(shù)據(jù)庫(kù)只能實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等較低層次的功能,卻無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對(duì)這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個(gè)客戶、消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場(chǎng)的變化趨勢(shì)??梢哉f(shuō),關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國(guó)的研究與應(yīng)用并不是很廣泛深入。

近年來(lái),電信業(yè)從單純的語(yǔ)音服務(wù)演變?yōu)樘峁┒喾N服務(wù)的綜合信息服務(wù)商。隨著網(wǎng)絡(luò)技術(shù)和電信業(yè)務(wù)的發(fā)展,電信市場(chǎng)競(jìng)爭(zhēng)也日趨激烈,電信業(yè)務(wù)的發(fā)展提出了對(duì)數(shù)據(jù)挖掘技術(shù)的迫切需求,以便幫助理解商業(yè)行為,識(shí)別電信模式,捕捉盜用行為,更好地利用資源,提高服務(wù)質(zhì)量并增強(qiáng)自身的競(jìng)爭(zhēng)力。下面運(yùn)用一些簡(jiǎn)單的實(shí)例說(shuō)明如何在電信行業(yè)使用數(shù)據(jù)挖掘技術(shù)??梢允褂蒙厦嫣岬降腒均值、EM等聚類算法,針對(duì)運(yùn)營(yíng)商積累的大量用戶消費(fèi)數(shù)據(jù)建立客戶分群模型,通過(guò)客戶分群模型對(duì)客戶進(jìn)行細(xì)分,找出有相同特征的目標(biāo)客戶群,然后有針對(duì)性地進(jìn)行營(yíng)銷。而且,聚類算法也可以實(shí)現(xiàn)離群點(diǎn)檢測(cè),即在對(duì)用戶消費(fèi)數(shù)據(jù)進(jìn)行聚類的過(guò)程中,發(fā)現(xiàn)一些用戶的異常消費(fèi)行為,據(jù)此判斷這些用戶是否存在欺詐行為,決定是否采取防范措施。可以使用上面提到的C4.5、SVM和貝葉斯等分類算法,針對(duì)用戶的行為數(shù)據(jù),對(duì)用戶進(jìn)行信用等級(jí)評(píng)定,對(duì)于信用等級(jí)好的客戶可以給予某些優(yōu)惠服務(wù)等,對(duì)于信用等級(jí)差的用戶不能享受促銷等優(yōu)惠??梢允褂妙A(yù)測(cè)相關(guān)的算法,對(duì)電信客戶的網(wǎng)絡(luò)使用和客戶投訴數(shù)據(jù)進(jìn)行建模,建立預(yù)測(cè)模型,預(yù)測(cè)大客戶離網(wǎng)風(fēng)險(xiǎn),采取激勵(lì)和挽留措施防止客戶流失??梢允褂孟嚓P(guān)分析找出選擇了多個(gè)套餐的客戶在套餐組合中的潛在規(guī)律,哪些套餐容易被客戶同時(shí)選取,例如,選擇了流量套餐的客戶中大部分選擇了彩鈴業(yè)務(wù),然后基于相關(guān)性的法則,對(duì)選擇流量但是沒(méi)有選擇彩鈴的客戶進(jìn)行交叉營(yíng)銷,向他們推銷彩鈴業(yè)務(wù)。

研究

由于許多應(yīng)用問(wèn)題往往比超市購(gòu)買問(wèn)題更復(fù)雜,大量研究從不同的角度對(duì)關(guān)聯(lián)規(guī)則做了擴(kuò)展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時(shí)態(tài)關(guān)系,多表挖掘等。近年來(lái)圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個(gè)方面,即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問(wèn)題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。

類似區(qū)別

一個(gè)經(jīng)常問(wèn)的問(wèn)題是,數(shù)據(jù)挖掘和OLAP到底有何不同。下面將會(huì)解釋,他們是完全不同的工具,基于的技術(shù)也大相徑庭。

OLAP是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么(whathappened),OLAP則更進(jìn)一步告訴你下一步會(huì)怎么樣(Whatnext)、和如果我采取這樣的措施又會(huì)怎么樣(Whatif)。用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否正確。比如,一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個(gè)初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來(lái)驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒(méi)有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。

也就是說(shuō),OLAP分析師是建立一系列的假設(shè),然后通過(guò)OLAP來(lái)證實(shí)或推翻這些假設(shè)來(lái)最終得到自己的結(jié)論。OLAP分析過(guò)程在本質(zhì)上是一個(gè)演繹推理的過(guò)程。但是如果分析的變量達(dá)到幾十或上百個(gè),那么再用OLAP手動(dòng)分析驗(yàn)證這些假設(shè)將是一件非常困難和痛苦的事情。

數(shù)據(jù)挖掘與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。他在本質(zhì)上是一個(gè)歸納的過(guò)程。比如,一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問(wèn)題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來(lái)沒(méi)有想過(guò)或試過(guò)的其他因素,比如年齡。

數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來(lái)的結(jié)論采取行動(dòng)之前,你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給公司帶來(lái)什么樣的影響,那么OLAP工具能回答你的這些問(wèn)題。

而且在知識(shí)發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途??梢詭湍闾剿鲾?shù)據(jù),找到哪些是對(duì)一個(gè)問(wèn)題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識(shí)發(fā)現(xiàn)的過(guò)程。

相關(guān)技術(shù)

數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計(jì)分析的進(jìn)步所帶來(lái)的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測(cè)。

數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測(cè)的準(zhǔn)確度還是令人滿意的,但對(duì)使用者的要求很高。而隨著計(jì)算機(jī)計(jì)算能力的不斷增強(qiáng),我們有可能利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力只通過(guò)相對(duì)簡(jiǎn)單和固定的方法完成同樣的功能。

一些新興的技術(shù)同樣在知識(shí)發(fā)現(xiàn)領(lǐng)域取得了很好的效果,如神經(jīng)元網(wǎng)絡(luò)和決策樹,在足夠多的數(shù)據(jù)和計(jì)算能力下,他們幾乎不用人的關(guān)照自動(dòng)就能完成許多有價(jià)值的功能。

數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來(lái),使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問(wèn)題。

相關(guān)影響

使數(shù)據(jù)挖掘這件事情成為可能的關(guān)鍵一點(diǎn)是計(jì)算機(jī)性能價(jià)格比的巨大進(jìn)步。在過(guò)去的幾年里磁盤存儲(chǔ)器的價(jià)格幾乎降低了99%,這在很大程度上改變了企業(yè)界對(duì)數(shù)據(jù)收集和存儲(chǔ)的態(tài)度。如果每兆的價(jià)格是¥10,那存放1TB的價(jià)格是¥10,000,000,但當(dāng)每兆的價(jià)格降為1毛錢時(shí),存儲(chǔ)同樣的數(shù)據(jù)只有¥100,000!

計(jì)算機(jī)計(jì)算能力價(jià)格的降低同樣非常顯著。每一代芯片的誕生都會(huì)把CPU的計(jì)算能力提高一大步。內(nèi)存RAM也同樣降價(jià)迅速,幾年之內(nèi)每兆內(nèi)存的價(jià)格由幾百塊錢降到現(xiàn)在只要幾塊錢。通常PC都有64M內(nèi)存,工作站達(dá)到了256M,擁有上G內(nèi)存的服務(wù)器已經(jīng)不是什么新鮮事了。

在單個(gè)CPU計(jì)算能力大幅提升的同時(shí),基于多個(gè)CPU的并行系統(tǒng)也取得了很大的進(jìn)步。目前幾乎所有的服務(wù)器都支持多個(gè)CPU,這些SMP服務(wù)器簇甚至能讓成百上千個(gè)CPU同時(shí)工作。

基于并行系統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)也給數(shù)據(jù)挖掘技術(shù)的應(yīng)用帶來(lái)了便利。如果你有一個(gè)龐大而復(fù)雜的數(shù)據(jù)挖掘問(wèn)題要求通過(guò)訪問(wèn)數(shù)據(jù)庫(kù)取得數(shù)據(jù),那么效率最高的辦法就是利用一個(gè)本地的并行數(shù)據(jù)庫(kù)。

所有這些都為數(shù)據(jù)挖掘的實(shí)施掃清了道路,隨著時(shí)間的延續(xù),我們相信這條道路會(huì)越來(lái)越平坦。

相關(guān)問(wèn)題

硬要去區(qū)分DataMining和Statistics的差異其實(shí)是沒(méi)有太大意義的。一般將之定義為DataMining技術(shù)的CART、CHAID或模糊計(jì)算等等理論方法,也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生,換另一個(gè)角度看,DataMining有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。但是為什么DataMining的出現(xiàn)會(huì)引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言,DataMining有下列幾項(xiàng)特性:

1.處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢(shì),且無(wú)須太專業(yè)的統(tǒng)計(jì)背景去使用DataMining的工具;

2.數(shù)據(jù)分析趨勢(shì)為從大型數(shù)據(jù)庫(kù)抓取所需數(shù)據(jù)并使用專屬計(jì)算機(jī)分析軟件,DataMining的工具更符合企業(yè)需求;

3.純就理論的基礎(chǔ)點(diǎn)來(lái)看,DataMining和統(tǒng)計(jì)分析有應(yīng)用上的差別,畢竟DataMining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計(jì)學(xué)家檢測(cè)用的。

若將DataWarehousing(數(shù)據(jù)倉(cāng)庫(kù))比喻作礦坑,DataMining就是深入礦坑采礦的工作。畢竟DataMining不是一種無(wú)中生有的魔術(shù),也不是點(diǎn)石成金的煉金術(shù),若沒(méi)有夠豐富完整的數(shù)據(jù),是很難期待DataMining能挖掘出什么有意義的信息的。

要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技的進(jìn)步,功能完善的數(shù)據(jù)庫(kù)系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉(cāng)庫(kù),簡(jiǎn)單地說(shuō),就是搜集來(lái)自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí)就是一個(gè)經(jīng)過(guò)處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫(kù),用以儲(chǔ)存決策支持系統(tǒng)(DecisionSupportSystem)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)是在組織中,在正確的時(shí)間,將正確的數(shù)據(jù)交給正確的人。

許多人對(duì)于DataWarehousing和DataMining時(shí)常混淆,不知如何分辨。其實(shí),數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)新主題,利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì)算和思考,讓作業(yè)方式改變,決策方式也跟著改變。

數(shù)據(jù)倉(cāng)庫(kù)本身是一個(gè)非常大的數(shù)據(jù)庫(kù),它儲(chǔ)存著由組織作業(yè)數(shù)據(jù)庫(kù)中整合而來(lái)的數(shù)據(jù),特別是指事務(wù)處理系統(tǒng)OLTP(On-LineTransactionalProcessing)所得來(lái)的數(shù)據(jù)。將這些整合過(guò)的數(shù)據(jù)置放于數(shù)據(jù)倉(cāng)庫(kù)中,而公司的決策者則利用這些數(shù)據(jù)作決策;但是,這個(gè)轉(zhuǎn)換及整合數(shù)據(jù)的過(guò)程,是建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)最大的挑戰(zhàn)。因?yàn)閷⒆鳂I(yè)中的數(shù)據(jù)轉(zhuǎn)換成有用的的策略性信息是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的重點(diǎn)。綜上所述,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該具有這些數(shù)據(jù):整合性數(shù)據(jù)(integrateddata)、詳細(xì)和匯總性的數(shù)據(jù)(detailedandsummarizeddata)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉(cāng)庫(kù)挖掘出對(duì)決策有用的信息與知識(shí),是建立數(shù)據(jù)倉(cāng)庫(kù)與使用DataMining的最大目的,兩者的本質(zhì)與過(guò)程是兩回事。換句話說(shuō),數(shù)據(jù)倉(cāng)庫(kù)應(yīng)先行建立完成,Datamining才能有效率的進(jìn)行,因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)本身所含數(shù)據(jù)是干凈(不會(huì)有錯(cuò)誤的數(shù)據(jù)參雜其中)、完備,且經(jīng)過(guò)整合的。因此兩者關(guān)系或許可解讀為DataMining是從巨大數(shù)據(jù)倉(cāng)庫(kù)中找出有用信息的一種過(guò)程與技術(shù)。大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿到數(shù)據(jù)挖掘庫(kù)或數(shù)據(jù)集市中(見圖1)。

從數(shù)據(jù)倉(cāng)庫(kù)中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。就如我們后面會(huì)講到的,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)已經(jīng)清理過(guò),那很可能在做數(shù)據(jù)挖掘時(shí)就沒(méi)必要在清理一次了,而且所有的數(shù)據(jù)不一致的問(wèn)題都已經(jīng)被你解決了。

數(shù)據(jù)挖掘庫(kù)可能是你的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯上的子集,而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫(kù)。但如果你的數(shù)據(jù)倉(cāng)庫(kù)的計(jì)算資源已經(jīng)很緊張,那你最好還是建立一個(gè)單獨(dú)的數(shù)據(jù)挖掘庫(kù)。

當(dāng)然為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)不是必需的。建立一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù),把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問(wèn)題,然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時(shí)間花上百萬(wàn)的錢才能完成。只是為了數(shù)據(jù)挖掘,你可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫(kù)導(dǎo)到一個(gè)只讀的數(shù)據(jù)庫(kù)中,就把它當(dāng)作數(shù)據(jù)集市,然后在他上面進(jìn)行數(shù)據(jù)挖掘。

所謂OLAP(OnlineAnalyticalProcess)意指由數(shù)據(jù)庫(kù)所連結(jié)出來(lái)的在線分析處理程序。有些人會(huì)說(shuō):「我已經(jīng)有OLAP的工具了,所以我不需要DataMining?!故聦?shí)上兩者間是截然不同的,主要差異在于DataMining用在產(chǎn)生假設(shè),OLAP則用于查證假設(shè)。簡(jiǎn)單來(lái)說(shuō),OLAP是由使用者所主導(dǎo),使用者先有一些假設(shè),然后利用OLAP來(lái)查證假設(shè)是否成立;而DataMining則是用來(lái)幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時(shí),使用者是自己在做探索(Exploration),但DataMining是用工具在幫助做探索。

舉個(gè)例子來(lái)看,一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí),可能會(huì)先假設(shè)嬰兒尿布和嬰兒奶粉會(huì)是常被一起購(gòu)買的產(chǎn)品,接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真,又成立的證據(jù)有多明顯;但DataMining則不然,執(zhí)行DataMining的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果,透過(guò)Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時(shí)購(gòu)買的意料外之發(fā)現(xiàn),這是OLAP所做不到的。

DataMining常能挖掘出超越歸納范圍的關(guān)系,但OLAP僅能利用人工查詢及可視化的報(bào)表來(lái)確認(rèn)某些關(guān)系,是以DataMining此種自動(dòng)找出甚至不會(huì)被懷疑過(guò)的數(shù)據(jù)模型與關(guān)系的特性,事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制,OLAP可以和DataMining互補(bǔ),但這項(xiàng)特性是DataMining無(wú)法被OLAP取代的。

1、數(shù)據(jù)挖掘環(huán)境

數(shù)據(jù)挖掘是指一個(gè)完整的過(guò)程,該過(guò)程從大型數(shù)據(jù)庫(kù)中挖掘先前未知的,有效的,可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí). 數(shù)據(jù)挖掘環(huán)境可示意如下圖:

數(shù)據(jù)挖掘環(huán)境框圖.gif

2、數(shù)據(jù)挖掘過(guò)程圖

下圖描述了數(shù)據(jù)挖掘的基本過(guò)程和主要步驟

數(shù)據(jù)挖掘的基本過(guò)程和主要步驟

3、數(shù)據(jù)挖掘過(guò)程工作量

在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對(duì)象是整個(gè)過(guò)程的基礎(chǔ),它驅(qū)動(dòng)了整個(gè)數(shù)據(jù)挖掘過(guò)程,也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問(wèn).圖2各步驟是按一定順序完成的,當(dāng)然整個(gè)過(guò)程中還會(huì)存在步驟間的反饋.數(shù)據(jù)挖掘的過(guò)程并不是自動(dòng)的,絕大多數(shù)的工作需要人工完成.圖3給出了各步驟在整個(gè)過(guò)程中的工作量之比.可以看到,60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上,這說(shuō)明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán)格要求,而后挖掘工作僅占總工作量的10%.

圖3數(shù)據(jù)挖掘過(guò)程工作量比例

4、數(shù)據(jù)挖掘過(guò)程簡(jiǎn)介

過(guò)程中各步驟的大體內(nèi)容如下:

(1).確定業(yè)務(wù)對(duì)象

清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的.

(2).數(shù)據(jù)準(zhǔn)備

1)、數(shù)據(jù)的選擇

搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù).

2)、數(shù)據(jù)的預(yù)處理

研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型.

3)、數(shù)據(jù)的轉(zhuǎn)換

將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對(duì)挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵.

(3).數(shù)據(jù)挖掘

對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成.

(4).結(jié)果分析

解釋并評(píng)估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù).

(5).知識(shí)的同化

將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去.

5、數(shù)據(jù)挖掘需要的人員

數(shù)據(jù)挖掘過(guò)程的分步實(shí)現(xiàn),不同的步會(huì)需要是有不同專長(zhǎng)的人員,他們大體可以分為三類.

業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求.

數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù).

數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中收集數(shù)據(jù).

從上可見,數(shù)據(jù)挖掘是一個(gè)多種專家合作的過(guò)程,也是一個(gè)在資金上和技術(shù)上高投入的過(guò)程.這一過(guò)程要反復(fù)進(jìn)行牞在反復(fù)過(guò)程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)先問(wèn)題的解決方案。數(shù)據(jù)重組和細(xì)分添加和拆分記錄選取數(shù)據(jù)樣本可視化數(shù)據(jù)探索聚類分析神經(jīng)網(wǎng)絡(luò)、決策樹數(shù)理統(tǒng)計(jì)、時(shí)間序列結(jié)論綜合解釋評(píng)價(jià)數(shù)據(jù)知識(shí)數(shù)據(jù)取樣數(shù)據(jù)探索數(shù)據(jù)調(diào)整模型化評(píng)價(jià)。

DataMining是近年來(lái)數(shù)據(jù)庫(kù)應(yīng)用技術(shù)中相當(dāng)熱門的議題,看似神奇、聽來(lái)時(shí)髦,實(shí)際上卻也不是什么新東西,因其所用之諸如預(yù)測(cè)模型、數(shù)據(jù)分割,連結(jié)分析(LinkAnalysis)、偏差偵測(cè)(DeviationDetection)等,美國(guó)早在二次世界大戰(zhàn)前就已應(yīng)用運(yùn)用在人口普查及軍事等方面。

隨著信息科技超乎想象的進(jìn)展,許多新的計(jì)算機(jī)分析工具問(wèn)世,例如關(guān)系型數(shù)據(jù)庫(kù)、模糊計(jì)算理論、基因算法則以及類神經(jīng)網(wǎng)絡(luò)等,使得從數(shù)據(jù)中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實(shí)行的程序。

一般而言,DataMining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表,統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù),尤其DataMining對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù),是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來(lái)精簡(jiǎn)變量的因素分析(FactorAnalysis)、用來(lái)分類的判別分析(DiscriminantAnalysis),以及用來(lái)區(qū)隔群體的分群分析(ClusterAnalysis)等,在DataMining過(guò)程中特別常用。

在改良技術(shù)方面,應(yīng)用較普遍的有決策樹理論(DecisionTrees)、類神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)以及規(guī)則歸納法(RulesInduction)等。決策樹是一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型,根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則,一般多運(yùn)用在對(duì)客戶數(shù)據(jù)的分析上,例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合,常用分類方法為CART(ClassificationandRegressionTrees)及CHAID(Chi-SquareAutomaticInteractionDetector)兩種。

類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns)。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì),與傳統(tǒng)回歸分析相比,好處是在進(jìn)行分析時(shí)無(wú)須限定模式,特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出;缺點(diǎn)則在于其分析過(guò)程為一黑盒子,故常無(wú)法以可讀之模型格式展現(xiàn),每階段的加權(quán)與轉(zhuǎn)換亦不明確,是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)。

規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式,這是一種由一連串的「如果…/則…(If/Then)」之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù),在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問(wèn)題,通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除,以避免產(chǎn)生無(wú)意義的邏輯規(guī)則。

DataMining實(shí)際應(yīng)用功能可分為三大類六分項(xiàng)來(lái)說(shuō)明:Classification和Clustering屬于分類區(qū)隔類;Regression和Time-series屬于推算預(yù)測(cè)類;Association和Sequence則屬于序列規(guī)則類。

Classification是根據(jù)一些變量的數(shù)值做計(jì)算,再依照結(jié)果作分類。(計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為'可能會(huì)響應(yīng)'或是'可能不會(huì)響應(yīng)'兩類)。Classification常被用來(lái)處理如前所述之郵寄對(duì)象篩選的問(wèn)題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來(lái)研究它們的特征,然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。這些我們用來(lái)尋找特征的已分類數(shù)據(jù)可能是來(lái)自我們的現(xiàn)有的客戶數(shù)據(jù),或是將一個(gè)完整數(shù)據(jù)庫(kù)做部份取樣,再經(jīng)由實(shí)際的運(yùn)作來(lái)測(cè)試;譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫(kù)的部份取樣來(lái)建立一個(gè)ClassificationModel,再利用這個(gè)Model來(lái)對(duì)數(shù)據(jù)庫(kù)的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。

Clustering用在將數(shù)據(jù)分群,其目的在于將群間的差異找出來(lái),同時(shí)也將群內(nèi)成員的相似性找出來(lái)。Clustering與Classification不同的是,在分析前并不知道會(huì)以何種方式或根據(jù)來(lái)分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來(lái)解讀這些分群的意義。

Regression是使用一系列的現(xiàn)有數(shù)值來(lái)預(yù)測(cè)一個(gè)連續(xù)數(shù)值的可能值。若將范圍擴(kuò)大亦可利用LogisticRegression來(lái)預(yù)測(cè)類別變量,特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具,推估預(yù)測(cè)的模式已不在止于傳統(tǒng)線性的局限,在預(yù)測(cè)的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。

Time-SeriesForecasting與Regression功能類似,只是它是用現(xiàn)有的數(shù)值來(lái)預(yù)測(cè)未來(lái)的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都與時(shí)間有關(guān)。Time-SeriesForecasting的工具可以處理有關(guān)時(shí)間的一些特性,譬如時(shí)間的周期性、階層性、季節(jié)性以及其它的一些特別因素(如過(guò)去與未來(lái)的關(guān)連性)。

Association是要找出在某一事件或是數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現(xiàn)在該事件中的機(jī)率有多少。(例如:如果顧客買了火腿和柳橙汁,那么這個(gè)顧客同時(shí)也會(huì)買牛奶的機(jī)率是85%。)

SequenceDiscovery與Association關(guān)系很密切,所不同的是SequenceDiscovery中事件的相關(guān)是以時(shí)間因素來(lái)作區(qū)隔(例如:如果A股票在某一天上漲12%,而且當(dāng)天股市加權(quán)指數(shù)下降,則B股票在兩天之內(nèi)上漲的機(jī)率是68%)。

DataMining在各領(lǐng)域的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)擁有具分析價(jià)值與需求的數(shù)據(jù)倉(cāng)儲(chǔ)或數(shù)據(jù)庫(kù),皆可利用Mining工具進(jìn)行有目的的挖掘分析。一般較常見的應(yīng)用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊業(yè)以及醫(yī)療服務(wù)等。

于銷售數(shù)據(jù)中發(fā)掘顧客的消費(fèi)習(xí)性,并可藉由交易紀(jì)錄找出顧客偏好的產(chǎn)品組合,其它包括找出流失顧客的特征與推出新產(chǎn)品的時(shí)機(jī)點(diǎn)等等都是零售業(yè)常見的實(shí)例;直效行銷強(qiáng)調(diào)的分眾概念與數(shù)據(jù)庫(kù)行銷方式在導(dǎo)入DataMining的技術(shù)后,使直效行銷的發(fā)展性更為強(qiáng)大,例如利用DataMining分析顧客群之消費(fèi)行為與交易紀(jì)錄,結(jié)合基本數(shù)據(jù),并依其對(duì)品牌價(jià)值等級(jí)的高低來(lái)區(qū)隔顧客,進(jìn)而達(dá)到差異化行銷的目的;制造業(yè)對(duì)DataMining的需求多運(yùn)用在品質(zhì)控管方面,由制造過(guò)程中找出影響產(chǎn)品品質(zhì)最重要的因素,以期提高作業(yè)流程的效率。

近來(lái)電話公司、信用卡公司、保險(xiǎn)公司以及股票交易商對(duì)于詐欺行為的偵測(cè)(FraudDetection)都很有興趣,這些行業(yè)每年因?yàn)樵p欺行為而造成的損失都非??捎^,DataMining可以從一些信用不良的客戶數(shù)據(jù)中找出相似特征并預(yù)測(cè)可能的詐欺交易,達(dá)到減少損失的目的。財(cái)務(wù)金融業(yè)可以利用DataMining來(lái)分析市場(chǎng)動(dòng)向,并預(yù)測(cè)個(gè)別公司的營(yíng)運(yùn)以及股價(jià)走向。DataMining的另一個(gè)獨(dú)特的用法是在醫(yī)療業(yè),用來(lái)預(yù)測(cè)手術(shù)、用藥、診斷、或是流程控制的效率。

如果將Web視為CRM的一個(gè)新的Channel,則WebMining便可單純看做DataMining應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)的泛稱。

該如何測(cè)量一個(gè)網(wǎng)站是否成功?哪些內(nèi)容、優(yōu)惠、廣告是人氣最旺的?主要訪客是哪些人?什么原因吸引他們前來(lái)?如何從堆積如山之大量由網(wǎng)絡(luò)所得數(shù)據(jù)中找出讓網(wǎng)站運(yùn)作更有效率的操作因素?以上種種皆屬WebMining分析之范疇。WebMining不僅只限于一般較為人所知的logfile分析,除了計(jì)算網(wǎng)頁(yè)瀏覽率以及訪客人次外,舉凡網(wǎng)絡(luò)上的零售、財(cái)務(wù)服務(wù)、通訊服務(wù)、政府機(jī)關(guān)、醫(yī)療咨詢、遠(yuǎn)距教學(xué)等等,只要由網(wǎng)絡(luò)連結(jié)出的數(shù)據(jù)庫(kù)夠大夠完整,所有Off-Line可進(jìn)行的分析,WebMining都可以做,甚或更可整合Off-Line及On-Line的數(shù)據(jù)庫(kù),實(shí)施更大規(guī)模的模型預(yù)測(cè)與推估,畢竟憑借網(wǎng)際網(wǎng)絡(luò)的便利性與滲透力再配合網(wǎng)絡(luò)行為的可追蹤性與高互動(dòng)特質(zhì),一對(duì)一行銷的理念是最有機(jī)會(huì)在網(wǎng)絡(luò)世界里完全落實(shí)的。

整體而言,WebMining具有以下特性:1.數(shù)據(jù)收集容易且不引人注意,所謂凡走過(guò)必留下痕跡,當(dāng)訪客進(jìn)入網(wǎng)站后的一切瀏覽行為與歷程都是可以立即被紀(jì)錄的;2.以交互式個(gè)人化服務(wù)為終極目標(biāo),除了因應(yīng)不同訪客呈現(xiàn)專屬設(shè)計(jì)的網(wǎng)頁(yè)之外,不同的訪客也會(huì)有不同的服務(wù);3.可整合外部來(lái)源數(shù)據(jù)讓分析功能發(fā)揮地更深更廣,除了logfile、cookies、會(huì)員填表數(shù)據(jù)、線上調(diào)查數(shù)據(jù)、線上交易數(shù)據(jù)等由網(wǎng)絡(luò)直接取得的資源外,結(jié)合實(shí)體世界累積時(shí)間更久、范圍更廣的資源,將使分析的結(jié)果更準(zhǔn)確也更深入。

利用DataMining技術(shù)建立更深入的訪客數(shù)據(jù)剖析,并賴以架構(gòu)精準(zhǔn)的預(yù)測(cè)模式,以期呈現(xiàn)真正智能型個(gè)人化的網(wǎng)絡(luò)服務(wù),是WebMining努力的方向。

CRM(CustomerRelationshipManagement)是近來(lái)引起熱烈討論與高度關(guān)切的議題,尤其在直效行銷的崛起與網(wǎng)絡(luò)的快速發(fā)展帶動(dòng)下,跟不上CRM的腳步如同跟不上時(shí)代。事實(shí)上CRM并不算新發(fā)明,奧美直效行銷推動(dòng)十?dāng)?shù)年的CO(CustomerOwnership)就是現(xiàn)在大家談的CRM—客戶關(guān)系管理。

DataMining應(yīng)用在CRM的主要方式可對(duì)應(yīng)在GapAnalysis之三個(gè)部分:

針對(duì)AcquisitionGap,可利用CustomerProfiling找出客戶的一些共同的特征,希望能藉此深入了解客戶,藉由ClusterAnalysis對(duì)客戶進(jìn)行分群后再通過(guò)PatternAnalysis預(yù)測(cè)哪些人可能成為我們的客戶,以幫助行銷人員找到正確的行銷對(duì)象,進(jìn)而降低成本,也提高行銷的成功率。

針對(duì)SalesGap,可利用BasketAnalysis幫助了解客戶的產(chǎn)品消費(fèi)模式,找出哪些產(chǎn)品客戶最容易一起購(gòu)買,或是利用SequenceDiscovery預(yù)測(cè)客戶在買了某一樣產(chǎn)品之后,在多久之內(nèi)會(huì)買另一樣產(chǎn)品等等。利用DataMining可以更有效的決定產(chǎn)品組合、產(chǎn)品推薦、進(jìn)貨量或庫(kù)存量,甚或是在店里要如何擺設(shè)貨品等,同時(shí)也可以用來(lái)評(píng)估促銷活動(dòng)的成效。

針對(duì)RetentionGap,可以由原客戶后來(lái)卻轉(zhuǎn)成競(jìng)爭(zhēng)對(duì)手的客戶群中,分析其特征,再根據(jù)分析結(jié)果到現(xiàn)有客戶數(shù)據(jù)中找出可能轉(zhuǎn)向的客戶,然后設(shè)計(jì)一些方法預(yù)防客戶流失;更有系統(tǒng)的做法是藉由NeuralNetwork根據(jù)客戶的消費(fèi)行為與交易紀(jì)錄對(duì)客戶忠誠(chéng)度進(jìn)行Scoring的排序,如此則可區(qū)隔流失率的等級(jí)進(jìn)而配合不同的策略。

CRM不是設(shè)一個(gè)(800)客服專線就算了,更不僅只是把一堆客戶基本數(shù)據(jù)輸入計(jì)算機(jī)就夠,完整的CRM運(yùn)作機(jī)制在相關(guān)的硬軟件系統(tǒng)能健全的支持之前,有太多的數(shù)據(jù)準(zhǔn)備工作與分析需要推動(dòng)。企業(yè)透過(guò)DataMining可以分別針對(duì)策略、目標(biāo)定位、操作效能與測(cè)量評(píng)估等四個(gè)切面之相關(guān)問(wèn)題,有效率地從市場(chǎng)與顧客所搜集累積之大量數(shù)據(jù)中挖掘出對(duì)消費(fèi)者而言最關(guān)鍵、最重要的答案,并賴以建立真正由客戶需求點(diǎn)出發(fā)的客戶關(guān)系管理。

DataMining工具市場(chǎng)大致可分為三類:

一般分析目的用的軟件包

K-Miner(神通數(shù)據(jù)挖掘分析系統(tǒng),MPP SMP并行計(jì)算架構(gòu))

AlpineMiner(AlpineDataLabs)

TipDM(頂尖數(shù)據(jù)挖掘平臺(tái))

GDM(Geni-SageDataMiningAnalysisSystem,博通數(shù)據(jù)挖掘分析系統(tǒng))

SASEnterpriseMiner

KXEN(凱森)

IBMIntelligentMiner

UnicaPRW

SPSSClementine

SGIMineSet

OracleDarwin

AngossKnowledgeSeeker

2.針對(duì)特定功能或產(chǎn)業(yè)而研發(fā)的軟件

KD1(針對(duì)零售業(yè))

OptionsChoices(針對(duì)保險(xiǎn)業(yè))

HNC(針對(duì)信用卡詐欺或呆帳偵測(cè))

UnicaModel1(針對(duì)行銷業(yè))

iEMSystem(針對(duì)流程行業(yè)的實(shí)時(shí)歷史數(shù)據(jù))

3.整合DSS(DecisionSupportSystems)/OLAP/DataMining的大型分析系統(tǒng)

CognosScenarioandBusinessObjects

國(guó)際相關(guān)

1.ACMTransactionsonKnowledgeDiscoveryfromData(TKDD)

2.IEEETransactionsonKnowledgeandDataEngineering(TKDE)

3.DataMiningandKnowledgeDiscovery

4.KnowledgeandInformationSystems

5.DataKnowledgeEngineering

1.SIGMOD:ACMConferenceonManagementofData(ACM)

2.VLDB:InternationalConferenceonVeryLargeDataBases(MorganKaufmann/ACM)

3.ICDE:IEEEInternationalConferenceonDataEngineering(IEEEComputerSociety)

4.SIGKDD:ACMKnowledgeDiscoveryandDataMining(ACM)

5.WWW:InternationalWorldWideWebConferences(W3C)

6.CIKM:ACMInternationalConferenceonInformationandKnowledgeManagement(ACM)

7.PKDD:EuropeanConferenceonPrinciplesandPracticeofKnowledgeDiscoveryinDatabases(Springer-VerlagLNAI)

數(shù)據(jù)挖掘研究HansJournalofDataMining是一本關(guān)注數(shù)據(jù)挖掘領(lǐng)域最新進(jìn)展的國(guó)際中文期刊,由漢斯出版社發(fā)行,主要刊登數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)安全、知識(shí)工程等計(jì)算機(jī)信息系統(tǒng)建設(shè)相關(guān)內(nèi)容的學(xué)術(shù)論文和成果評(píng)述。本刊支持思想創(chuàng)新、學(xué)術(shù)創(chuàng)新,倡導(dǎo)科學(xué),繁榮學(xué)術(shù),集學(xué)術(shù)性、思想性為一體,旨在為了給世界范圍內(nèi)的科學(xué)家、學(xué)者、科研人員提供一個(gè)傳播、分享和討論數(shù)據(jù)挖掘領(lǐng)域內(nèi)不同方向問(wèn)題與發(fā)展的交流平臺(tái)。

研究領(lǐng)域:

數(shù)據(jù)挖掘

·數(shù)據(jù)結(jié)構(gòu)

·數(shù)據(jù)安全與計(jì)算機(jī)安全

·數(shù)據(jù)庫(kù)

·數(shù)據(jù)處理

·知識(shí)工程

·計(jì)算機(jī)信息管理系統(tǒng)

·計(jì)算機(jī)決策支持系統(tǒng)

·計(jì)算機(jī)應(yīng)用其他學(xué)科

·模式識(shí)別

·人工智能其他學(xué)科

編委信息

主編

丁曉青教授清華大學(xué)

編委會(huì)

蔣嶷川教授東南大學(xué)

李道亮教授中國(guó)農(nóng)業(yè)大學(xué)

賴劍煌教授中山大學(xué)

劉金山教授華南農(nóng)業(yè)大學(xué)

李紹滋教授廈門大學(xué)

呂紹高副教授西南財(cái)經(jīng)大學(xué)

馬懋德副教授新加坡南洋理工大學(xué)

莫宏偉教授哈爾濱工程大學(xué)

樸昌浩教授重慶郵電大學(xué)

譚文安教授南京航空航天大學(xué)

王加陽(yáng)教授中南大學(xué)

汪衛(wèi)教授復(fù)旦大學(xué)

楊力華教授中山大學(xué)

楊曉忠教授華北電力大學(xué)

張道強(qiáng)教授南京航空航天大學(xué)

《數(shù)據(jù)挖掘》期刊論文已被以下數(shù)據(jù)庫(kù)收錄:

維普

萬(wàn)方

全國(guó)期刊聯(lián)合目錄數(shù)據(jù)庫(kù)(UNICAT)

中國(guó)科學(xué)院國(guó)家科學(xué)圖書館

讀秀學(xué)術(shù)

DOAJ

OpenJ-Gate

GoogleScholar

AcademicJournalsDatabase

TheElektronischeZeitschriftenbibliothek(EZB)

NewJour

SJSU

Worldwidescience

Ulrichsweb

Washington

trueserials

WorldCat

NYULibraries

Scirus

Journalseek

IndexCopernicus

CornellUniversityLibrary

OpenAccessLibrary

關(guān)鍵詞:過(guò)程,挖掘,數(shù)據(jù)

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉