給定一個(gè)數(shù)據(jù)集D,D中的屬性有{A1,A2,…,Ai,…,Ad},D={X1,X2,…,Xi,…,Xn},其中,Xi(1≤i≤n)是D中" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷資訊 > 信息時(shí)代 > 分類分析(數(shù)據(jù)庫(kù))

分類分析(數(shù)據(jù)庫(kù))

時(shí)間:2022-12-22 02:30:01 | 來(lái)源:信息時(shí)代

時(shí)間:2022-12-22 02:30:01 來(lái)源:信息時(shí)代

    分類分析 : 找出描述并區(qū)分?jǐn)?shù)據(jù)類的模型,并使用該模型預(yù)測(cè)給定數(shù)據(jù)所屬數(shù)據(jù)類的過(guò)程。
給定一個(gè)數(shù)據(jù)集D,D中的屬性有{A1,A2,…,Ai,…,Ad},D={X1,X2,…,Xi,…,Xn},其中,Xi(1≤i≤n)是D中的一個(gè)數(shù)據(jù)對(duì)象,由d個(gè)屬性值組成:Xi=(xi1,xi2,…,xij,…,xid),其中xij表示對(duì)象Xi中的屬性,d是屬性個(gè)數(shù)(或?qū)ο罂臻g的維數(shù))。以及一個(gè)類集合C={C1,C2,…,Cj,…,Ck}(1<=j<=k)。
分類(classify): 找到從數(shù)據(jù)集D到類集合C的映射f:D→C,即將數(shù)據(jù)集合D中的數(shù)據(jù)對(duì)象Xi分配到某個(gè)類Cj中的過(guò)程,有Ci={Xi|f(Xi)=Ci,1≤i≤n,且Xi∈D}。
訓(xùn)練數(shù)據(jù)集(training dataset): 給定一個(gè)數(shù)據(jù)集D和一組具有不同特征的類集合C,數(shù)據(jù)集中為建立模型而被分析的數(shù)據(jù)對(duì)象的集合稱為訓(xùn)練數(shù)據(jù)集。每個(gè)對(duì)象屬于一個(gè)預(yù)定義的類,由相關(guān)屬性(或特征值)組成,由一個(gè)稱作類別屬性的屬性確定。
訓(xùn)練樣本(training samples):訓(xùn)練數(shù)據(jù)集中的單個(gè)數(shù)據(jù)對(duì)象稱為訓(xùn)練樣本,訓(xùn)練樣本隨機(jī)地由數(shù)據(jù)集選取,每個(gè)訓(xùn)練樣本有一個(gè)類別標(biāo)記。一個(gè)具體訓(xùn)練樣本的形式為(v1,v2,…,vi,…,vd;Cj),其中,vi表示屬性值,Cj表示類別。
構(gòu)造分類器的過(guò)程分為訓(xùn)練和測(cè)試兩個(gè)步驟。一般來(lái)說(shuō),測(cè)試階段的代價(jià)遠(yuǎn)遠(yuǎn)低于訓(xùn)練階段。具體過(guò)程如下:
(1)模型訓(xùn)練階段: 分析輸入數(shù)據(jù),通過(guò)在訓(xùn)練數(shù)據(jù)集中數(shù)據(jù)表現(xiàn)出來(lái)的特性,為每一個(gè)類找到一種準(zhǔn)確的描述或模型。通常學(xué)習(xí)模型用決策樹、分類規(guī)則或數(shù)學(xué)公式的形式提供。
(2)測(cè)試階段(使用模型分類階段):利用類別的描述或模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類。首先用測(cè)試數(shù)據(jù)評(píng)估分類規(guī)則的準(zhǔn)確率(正確被模型分類的測(cè)試樣本的百分比),如果準(zhǔn)確率是可以接受的,則模型可用于對(duì)類標(biāo)號(hào)未知的新的數(shù)據(jù)對(duì)象進(jìn)行分類。
分類模型的構(gòu)造方法主要有機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法等。機(jī)器學(xué)習(xí)方法包括決策樹法和規(guī)則歸納法等,決策樹法對(duì)應(yīng)的表示為決策樹,規(guī)則歸納法對(duì)應(yīng)表示為產(chǎn)生式規(guī)則; 統(tǒng)計(jì)方法包括貝葉斯法和非參數(shù)法(近鄰學(xué)習(xí)或基于事例的學(xué)習(xí)),對(duì)應(yīng)的知識(shí)表示為判別函數(shù)和原型事例; 神經(jīng)網(wǎng)絡(luò)方法主要是BP算法,它的模型表示是前向反饋神經(jīng)網(wǎng)絡(luò)模型(由代表神經(jīng)元的節(jié)點(diǎn)和代表連接權(quán)值的邊組成的一種體系結(jié)構(gòu)); 另外,還有粗糙集(rough set)方法,其知識(shí)表示是產(chǎn)生式規(guī)則。
評(píng)價(jià)分類模型的尺度主要有: 預(yù)測(cè)準(zhǔn)確度、計(jì)算復(fù)雜度和模型描述的簡(jiǎn)潔度。
分類的效果還與數(shù)據(jù)的特點(diǎn)有關(guān),如噪聲大、存在空缺值、樣本分布稀疏、屬性間的相關(guān)性強(qiáng)、存在離散值屬性或連續(xù)值屬性或混合式的屬性。
決策樹是一種具有較高準(zhǔn)確度且簡(jiǎn)單易于理解的分類方法。它是一種樹性結(jié)構(gòu),基本組成部分包括根節(jié)點(diǎn)、葉節(jié)點(diǎn)、分割點(diǎn)(split point)、分支(split)。樹的最頂層節(jié)點(diǎn)是根節(jié)點(diǎn),是整個(gè)決策樹的開始;葉節(jié)點(diǎn)代表類或類的分布,對(duì)應(yīng)一個(gè)類別屬性Ci的值; 非葉節(jié)點(diǎn)對(duì)應(yīng)一個(gè)分割點(diǎn),表示對(duì)一個(gè)或多個(gè)屬性的測(cè)試,用于決定數(shù)據(jù)樣本的分支,每個(gè)分割點(diǎn)都有一個(gè)分支判斷規(guī)則(splitting predicate): 對(duì)連續(xù)屬性A,分支判斷規(guī)則形式是value(A)<x(x是A值域中的一個(gè)值); 而對(duì)離散屬性A,分支判斷規(guī)則形式則為value(A) ∈x(x⊂domain(A))。每個(gè)分支代表一個(gè)測(cè)試輸出,要么是一個(gè)新的分割點(diǎn),要么是樹的結(jié)尾(葉節(jié)點(diǎn))。
決策樹(decision tree):給定一個(gè)數(shù)據(jù)對(duì)象集D={X1,X2,…,Xi,…,Xn},其中Xi=(xi1,xi2,…,xij,…,xid)(1≤i≤n),數(shù)據(jù)集中的屬性有{A1,A2,…,Ai,…,Ad),類集合C={C1,C2,…,Cj,…,Ck}(1<=j<=k),與數(shù)據(jù)集D相關(guān)的決策樹具有如下性質(zhì):
(1)每個(gè)非葉節(jié)點(diǎn)選用一個(gè)屬性Ai進(jìn)行分割。
(2)每個(gè)分支是一個(gè)測(cè)試輸出。
(3)每個(gè)葉節(jié)點(diǎn)表示一個(gè)類分布,由一個(gè)類Cj標(biāo)記。
根據(jù)決策樹屬性不同,決策樹有以下特點(diǎn):
(1)決策樹內(nèi)節(jié)點(diǎn)的測(cè)試屬性是單變量的,即每個(gè)內(nèi)結(jié)點(diǎn)只包含一個(gè)屬性; 或是多變量的,即存在包含多個(gè)屬性的節(jié)點(diǎn)。
(2)根據(jù)測(cè)試屬性的不同屬性值的個(gè)數(shù),使得每個(gè)內(nèi)節(jié)點(diǎn)有兩個(gè)或多個(gè)分支。如果每個(gè)內(nèi)節(jié)點(diǎn)只有兩個(gè)分支稱為二叉決策樹,如CART算法得到的決策樹每個(gè)節(jié)點(diǎn)有兩個(gè)分支即為二叉樹;允許節(jié)點(diǎn)含有多于兩個(gè)子節(jié)點(diǎn)的樹稱為多叉樹,如ID3和C4.5算法得到的都是多叉樹。
(3)每個(gè)屬性值的類型可能是數(shù)值類型,也可能是離散(枚舉)類型的。
(4)分類結(jié)果既可能是兩類又可能是多類,如果二叉樹的結(jié)果只能有兩類則稱為布爾決策樹。
使用決策樹解決分類問(wèn)題包括兩個(gè)主要步驟:
(1)使用訓(xùn)練數(shù)據(jù)集構(gòu)造決策樹。
(2)對(duì)數(shù)據(jù)集中的每個(gè)數(shù)據(jù)樣本利用決策樹決定其所屬類別。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉