數(shù)據(jù)挖掘使用
時間:2022-02-18 22:18:01 | 來源:信息時代
時間:2022-02-18 22:18:01 來源:信息時代
·分類(Classification)
數(shù)據(jù)挖掘
·估計(Estimation)
·預(yù)測(Prediction)
·相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules)
·聚類(Clustering)
·復(fù)雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等)
首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進行分類。
例子:
a.信用卡申請者,分類為低、中、高風(fēng)險
b.故障診斷:中國寶鋼集團與上海天律信息技術(shù)有限公司合作,采用數(shù)據(jù)挖掘技術(shù)對鋼材生產(chǎn)的全流程進行質(zhì)量監(jiān)控和分析,構(gòu)建故障地圖,實時分析產(chǎn)品出現(xiàn)瑕疵的原因,有效提高了產(chǎn)品的優(yōu)良率。
注意:類的個數(shù)是確定的,預(yù)先定義好的
估計與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。
數(shù)據(jù)挖掘
例子:
a.根據(jù)購買模式,估計一個家庭的孩子個數(shù)
b.根據(jù)購買模式,估計一個家庭的收入
c.估計realestate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進行分類。例如:銀行對家庭貸款業(yè)務(wù),運用估值,給各個客戶記分(Score0~1)。然后,根據(jù)閾值,將貸款級別分類。
通常,預(yù)測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預(yù)言。從這種意義上說,預(yù)言其實沒有必要分為一個單獨的類。預(yù)言其目的是對未來未知變量的預(yù)測,這種預(yù)測是需要時間來驗證的,即必須經(jīng)過一定時間后,才知道預(yù)言準(zhǔn)確性是多少。
決定哪些事情將一起發(fā)生。
例子:
a.超市中客戶在購買A的同時,經(jīng)常會購買B,即A=>B(關(guān)聯(lián)規(guī)則)
b.客戶在購買A后,隔一段時間,會購買B(序列分析)
聚類是對記錄分組,把相似的記錄在一個聚集里。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。
例子:
a.一些特定癥狀的聚集可能預(yù)示了一個特定的疾病
b.租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群
聚集通常作為數(shù)據(jù)挖掘的第一步。例如,'哪一種類的促銷對客戶響應(yīng)最好?',對于這一類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。
是對數(shù)據(jù)挖掘結(jié)果的表示方式。一般只是指數(shù)據(jù)可視化工具,包含報表工具和商業(yè)智能分析產(chǎn)品(BI)的統(tǒng)稱。譬如通過YonghongZ-Suite等工具進行數(shù)據(jù)的展現(xiàn),分析,鉆取,將數(shù)據(jù)挖掘的分析結(jié)果更形象,深刻的展現(xiàn)出來。
關(guān)鍵詞:使用,挖掘,數(shù)據(jù)