(1)數(shù)據(jù)選擇(data selection): 從現(xiàn)有的數(shù)據(jù)中,結(jié)合挖掘需求,確" />
時(shí)間:2022-11-21 06:30:01 | 來(lái)源:信息時(shí)代
時(shí)間:2022-11-21 06:30:01 來(lái)源:信息時(shí)代
數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備 : 為一個(gè)數(shù)據(jù)挖掘應(yīng)用準(zhǔn)備數(shù)據(jù),包括數(shù)據(jù)選擇、數(shù)據(jù)清洗、數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)加載等工作內(nèi)容。
(1)數(shù)據(jù)選擇(data selection): 從現(xiàn)有的數(shù)據(jù)中,結(jié)合挖掘需求,確定哪些數(shù)據(jù)是和數(shù)據(jù)分析相關(guān)的,使用哪部分?jǐn)?shù)據(jù)進(jìn)行分析,包括對(duì)表、屬性、記錄等的選擇。在實(shí)際的應(yīng)用中,數(shù)據(jù)的選擇可以根據(jù)系統(tǒng)目標(biāo)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)類型和算法要求等來(lái)確定,如某些算法只能使用數(shù)值屬性或分類屬性。
(2)數(shù)據(jù)清洗(data cleaning): 對(duì)于選擇出的數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗工作,將數(shù)據(jù)轉(zhuǎn)變成“干凈”的數(shù)據(jù)。包括修正錯(cuò)誤和缺失的數(shù)據(jù)、處理空值以及過(guò)濾噪音和無(wú)關(guān)數(shù)據(jù)等。
(3)數(shù)據(jù)抽取(data extracting): 從數(shù)據(jù)源中,如商業(yè)數(shù)據(jù)庫(kù)或Web服務(wù)器日志等,根據(jù)數(shù)據(jù)選擇的屬性、表格、規(guī)則,使用數(shù)據(jù)庫(kù)技術(shù)或抽取方法,抽取相應(yīng)的數(shù)據(jù)。
(4)數(shù)據(jù)轉(zhuǎn)換(data transforming):包括:①構(gòu)建數(shù)據(jù): 如某些模型需要生成派生屬性,或者將已有屬性轉(zhuǎn)換為需要的形式,或者生成某些新的記錄代替某部分舊記錄; ②數(shù)據(jù)集成和聚集: 如把一張用戶具體銷售信息表的信息聚集為粒度較大的表,或者是,兩個(gè)或兩個(gè)以上的表格包含的信息常常是關(guān)于同一個(gè)對(duì)象的,可以把它們組合成一個(gè)表格; ③格式化數(shù)據(jù): 轉(zhuǎn)換為建模工具所需要的標(biāo)準(zhǔn)形式。
(5)數(shù)據(jù)加載(data loading): 將轉(zhuǎn)換后的干凈、正確、標(biāo)準(zhǔn)的數(shù)據(jù)加載到數(shù)據(jù)集中,成為數(shù)據(jù)挖掘工具可以使用的工作數(shù)據(jù)集。
客戶&案例
營(yíng)銷資訊
關(guān)于我們
客戶&案例
營(yíng)銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。