Fayyad過程模型的主要步驟如下:
(1)數據選擇:從現(xiàn)有的數據中" />
時間:2022-11-21 18:30:01 | 來源:信息時代
時間:2022-11-21 18:30:01 來源:信息時代
數據挖掘過程模型 : 用于指導數據挖掘應用建設過程的框架。目前提出的過程模型主要有: Fayyad過程模型和CRISP-DM過程模型。
Fayyad過程模型的主要步驟如下:
(1)數據選擇:從現(xiàn)有的數據中,確定哪些數據是和本次數據分析相關的。
(2)數據預處理:對于選擇出的數據,進行數據清洗工作,將數據轉變成“干凈”的數據。
(3)數據轉換:將“干凈”的數據轉換成數據挖掘算法所需要的格式。
(4)數據挖掘:使用合適的數據挖掘算法完成數據分析。
(5)解釋和評估:以適當的可視化技術和知識表示技術將模式以合適的形式提供給用戶,讓用戶能夠對模型結果作出解釋,同時能夠評估模型的有效性。
CRISP-DM過程模型分為6個步驟:
(1)業(yè)務理解(business understanding):開始階段專注于從商業(yè)的角度理解項目目標和需求,然后將這種知識轉換成一種數據挖掘的問題定義,并設計出達到目標的一個初步計劃。
(2)數據理解(data understanding): 先收集初始數據,然后進行熟悉數據的各種活動,包括識別數據的質量問題,找到對數據的基本觀察,或假設隱含的信息來檢測出感興趣的數據子集。
(3)數據預處理(data preparation): 覆蓋了從初步數據構造最終數據(將要輸入建模工具的數據)的所有活動。數據預處理任務很可能要執(zhí)行多次,并且沒有任何規(guī)定的順序。任務包括表、記錄屬性的選擇以及為了適合建模工具的要求對數據進行的轉換(transformation)和凈化(cleaning)。
(4)建模(modeling):選擇和應用各種建模技術,并將其參數校正到優(yōu)化值。通常,對同一個數據挖掘問題類型有幾種可用的技術。某些技術對數據的形式有具體的要求。因此,常常要退回到數據準備階段。
(5)模型評估(evaluation): 評價模型,對所建模型再次考察其執(zhí)行的步驟,并確信其正確地達到了預定目標。
(6)模型部署(deployment): 用一種用戶可以使用的方式來組織和表示所獲得的知識。根據要求,可以簡單到只生成一份報告,或復雜到實現(xiàn)一個可重復的數據挖掘過程。在許多情況下,這將由客戶而不是分析員來實施。
CRISP-DM過程模型比Fayyad模型增加了“業(yè)務理解”和“模型部署”這兩個步驟,完善并改進了Fayyad模型。CRISP-DM模型也證明了數據挖掘是一個循環(huán)迭代的過程。目前大部分的數據挖掘系統(tǒng)都遵循CRISP-DM過程模型標準來執(zhí)行和完成數據挖掘任務。