數(shù)據(jù)挖掘經(jīng)典算法
時(shí)間:2022-02-18 22:27:01 | 來源:信息時(shí)代
時(shí)間:2022-02-18 22:27:01 來源:信息時(shí)代
1.C4.5:是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法。
2.K-means算法:是一種聚類算法。
3.SVM:一種監(jiān)督式學(xué)習(xí)的方法,廣泛運(yùn)用于統(tǒng)計(jì)分類以及回歸分析中
4.Apriori:是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。
5.EM:最大期望值法。
6.pagerank:是google算法的重要內(nèi)容。
7.Adaboost:是一種迭代算法,其核心思想是針對同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器然后把弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器。
8.KNN:是一個(gè)理論上比較成熟的的方法,也是最簡單的機(jī)器學(xué)習(xí)方法之一。
9.NaiveBayes:在眾多分類方法中,應(yīng)用最廣泛的有決策樹模型和樸素貝葉斯(NaiveBayes)
10.Cart:分類與回歸樹,在分類樹下面有兩個(gè)關(guān)鍵的思想,第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法,第二個(gè)是用驗(yàn)證數(shù)據(jù)進(jìn)行減枝。
關(guān)聯(lián)規(guī)則規(guī)則定義
在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前,我們先來看一個(gè)有趣的故事:'尿布與啤酒'的故事。
在一家超市里,有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個(gè)笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對其顧客的購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:'跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在'尿布與啤酒'背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。
數(shù)據(jù)挖掘
按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的課題,最近幾年已被業(yè)界所廣泛研究。
關(guān)鍵詞:經(jīng)典,挖掘,數(shù)據(jù)