時間:2022-11-14 12:30:02 | 來源:信息時代
時間:2022-11-14 12:30:02 來源:信息時代
數(shù)據(jù)倉庫建模 : 數(shù)據(jù)倉庫模型的設計過程。通過規(guī)范化、形式化的框架來表現(xiàn)數(shù)據(jù),用以支持高性能數(shù)據(jù)查詢。目前,兩類主流的數(shù)據(jù)倉庫建模方法包括: Inmon提出的基于關系模型的建模方法和Kimball提出的基于多維模型的建模方法。
1.基于關系模型的建模方法
由于關系模型自身具有良好的可擴展性、靈活性、可維護性、非冗余性等特點,以及現(xiàn)有主流數(shù)據(jù)倉庫管理系統(tǒng)產品仍然采用關系數(shù)據(jù)模型的現(xiàn)實,Inmon提出了基于關系模型及其規(guī)范化理論的數(shù)據(jù)倉庫建模方法。
基于關系模型的建模方法,將數(shù)據(jù)倉庫數(shù)據(jù)模型分為三個層次:高層模型(稱為實體聯(lián)系圖,entity relationship diagram,ERD)、中層模型(稱為數(shù)據(jù)項集,data item set,DIS)和底層模型(稱為物理模型)。
高層模型刻畫實體和聯(lián)系的特征,用ERD表示,主要描述系統(tǒng)邊界、確定主題域及其內容,以及主題域之間的聯(lián)系。在ERD中實體(主題域)位于最高抽象層。確定主題域是否屬于模型的范圍是由集成范圍來決定的。集成范圍定義了數(shù)據(jù)模型的邊界,需要在建模之前進行定義。這個范圍由系統(tǒng)的建模者、管理人員和最終用戶共同決定。整個企業(yè)的ERD由反映企業(yè)內不同人員觀點的多個子ERD合成,企業(yè)內不同群體分別建立各自獨立的高層模型,在此基礎上,共同組成整個企業(yè)的ERD。
中層模型是在高層模型的基礎上建立的,對高層模型中標識的每個主題域(實體),都要建立一個中層模型。按照數(shù)據(jù)的穩(wěn)定性和功能的不同,中層模型可劃分為四個分組: 基本數(shù)據(jù)組、二級數(shù)據(jù)組、類型數(shù)據(jù)組和連接數(shù)據(jù)組。每個分組均包含該主題域的主關鍵字。每個主題域有且僅有一個基本數(shù)據(jù)組,基本數(shù)據(jù)組包含主題域中基本保持不變的屬性,如對“客戶”主題域而言,基本數(shù)據(jù)組包含客戶號、客戶姓名、客戶性別、出生年月等。二級數(shù)據(jù)組包含主題域內相對穩(wěn)定的屬性,例如客戶住址、客戶電話、文化程度等。二級數(shù)據(jù)組內的屬性可能發(fā)生變化,但其變化的頻率相對較低。類型數(shù)據(jù)組包含主題域內經常頻繁發(fā)生變化的屬性,例如,客戶交易記錄等。連接數(shù)據(jù)組用以表示該主題域與其他主題域之間的數(shù)據(jù)聯(lián)系,如“客戶”主題域中包含其與“賬戶”主題域聯(lián)系的數(shù)據(jù)組,用以說明“客戶”主題域與“賬戶”主題域存在著多對多的聯(lián)系。
物理模型是通過擴展中間層模型的物理特性創(chuàng)建而來的。物理I/O是影響數(shù)據(jù)倉庫性能的主要因素。為了減少I/O,首先根據(jù)數(shù)據(jù)量大小和數(shù)據(jù)粒度層次的設計,合理規(guī)劃數(shù)據(jù)的物理存儲體系,確定是否采用多級存儲,其次確定數(shù)據(jù)分區(qū)策略。在此基礎上,按照性能的要求,在物理模型中加入數(shù)據(jù)索引策略、合并數(shù)據(jù)、拆分數(shù)據(jù)、導出數(shù)據(jù)、建立冗余等。
2.基于多維模型的建模方法
多維數(shù)據(jù)模型以多維方式來組織數(shù)據(jù),其數(shù)據(jù)結構包括維和事實,維是觀察數(shù)據(jù)的特定角度,事實通常代表一個業(yè)務度量值。由于多維數(shù)據(jù)模型具有簡潔性、表達能力強的特點,同時在實施上具有見效快的優(yōu)勢,Kimball提出了基于多維模型的建模方法?;诙嗑S模型的建模方法主要包括四個步驟:
(1)選取業(yè)務處理過程:在對業(yè)務需求和可用數(shù)據(jù)理解的基礎上確定建模所涉及的業(yè)務處理的內容。
(2)定義業(yè)務處理所涉及的事實的粒度:對事實表示的實際內容所需的詳細程度給出明確的說明。
(3)確定每個事實相關的維: 定義維及維層次。
(4)確定事實相關的數(shù)值型度量及其聚集函數(shù)。多維數(shù)據(jù)結構的表示方法常見的有數(shù)據(jù)立方體(data cube)和星型模式(star schema)兩種。數(shù)據(jù)立方體通常采用多維數(shù)組的存儲方式來反映多維視圖。星型模式是基于關系模式來展示復雜的多維結構,它將多維結構劃分為兩類表,一類是事實表,用以存放事實的度量和各個維的碼鍵: 另一類是維表,利用一張或者多張表來存放每一維的維層次結構和維屬性。用ERD表示時,相關維表以事實表為中心,分布在其周圍。星型模式是在關系模式的基礎上,通過維表和事實表之間的連接來表達多維數(shù)據(jù)。雪花模式(snowflake schema)是星型模式的擴充,用以表示包含復雜維表結構和復雜事實表結構的情形。