數(shù)據(jù)倉庫(數(shù)據(jù)庫)
時(shí)間:2022-11-14 04:30:01 | 來源:信息時(shí)代
時(shí)間:2022-11-14 04:30:01 來源:信息時(shí)代
數(shù)據(jù)倉庫 : 面向主題的(subject-oriented)、集成的(integrated)、相對(duì)穩(wěn)定的(nonvolatile)、隨時(shí)間變化的(time-variant)數(shù)據(jù)集合,用來支持管理決策。它具有如下特征:
(1)面向主題的:主題是指宏觀分析領(lǐng)域涉及的分析對(duì)象,面向主題的數(shù)據(jù)組織是指在較高抽象層次上對(duì)分析對(duì)象的數(shù)據(jù)給予完整、一致的描述。而傳統(tǒng)的操作型系統(tǒng)是面向功能性應(yīng)用進(jìn)行數(shù)據(jù)組織的。
(2)集成的:數(shù)據(jù)倉庫中的數(shù)據(jù)是從原有多個(gè)分散的數(shù)據(jù)源中抽取來的。數(shù)據(jù)源中的數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,要經(jīng)過必要的轉(zhuǎn)換和集成,以達(dá)到數(shù)據(jù)的一致性,具體包括格式轉(zhuǎn)換、消除沖突與冗余、運(yùn)算、綜合、設(shè)置時(shí)間屬性、設(shè)置缺省值等。在數(shù)據(jù)倉庫的所有特點(diǎn)中,集成是最重要的。
(3)相對(duì)穩(wěn)定的:數(shù)據(jù)倉庫中的數(shù)據(jù)在某個(gè)時(shí)間段內(nèi)保持不變,數(shù)據(jù)定期加載,加載后以快照的形式存在于數(shù)據(jù)倉庫中,一般不再進(jìn)行修改。過期數(shù)據(jù)可根據(jù)需要從數(shù)據(jù)倉庫中移出。
(4)隨時(shí)間變化的:數(shù)據(jù)倉庫的數(shù)據(jù)隨時(shí)間不斷追加、積累,反映較長歷史范圍內(nèi)的數(shù)據(jù)變化,加載到數(shù)據(jù)倉庫中的數(shù)據(jù)均包含時(shí)間屬性。
數(shù)據(jù)倉庫系統(tǒng)是一個(gè)包含多個(gè)層次的體系結(jié)構(gòu),如圖1所示。
圖1 數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)
(1)數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉,通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于數(shù)據(jù)庫管理系統(tǒng)(DBMS)中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息和競爭對(duì)手的信息等。
(2)數(shù)據(jù)的存儲(chǔ)與管理:是整個(gè)數(shù)據(jù)倉庫系統(tǒng)的核心。針對(duì)數(shù)據(jù)源的操作型數(shù)據(jù)和外部數(shù)據(jù),進(jìn)行抽取、清洗、轉(zhuǎn)換、加載到數(shù)據(jù)倉庫中,并按照主題進(jìn)行重組。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉庫和部門級(jí)數(shù)據(jù)倉庫(數(shù)據(jù)集市)。數(shù)據(jù)倉庫在運(yùn)行過程中,按一定時(shí)間周期,進(jìn)行增量加載(刷新)。
(3) OLAP(online analytical processing,聯(lián)機(jī)分析處理)服務(wù)器: 對(duì)分析需要的數(shù)據(jù)在有效集成后,按多維模型予以重組,以便進(jìn)行多角度、多層次的數(shù)據(jù)分析。其具體實(shí)現(xiàn)可以分為: ROLAP(relational OLAP)、MOLAP(multidimensional OLAP)和HOLAP(hybrid OLAP)。
(4)前端工具:主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或OLAP服務(wù)器的應(yīng)用開發(fā)工具。
數(shù)據(jù)倉庫的研究,最早可以追溯到20世紀(jì)70年代MIT(massachusetts institute of technology)對(duì)最優(yōu)技術(shù)架構(gòu)的探索,MIT研究人員首次提出將操作型數(shù)據(jù)處理與分析型數(shù)據(jù)處理相分離,認(rèn)為兩者處于技術(shù)架構(gòu)的不同層次中,并各自擁有獨(dú)立的數(shù)據(jù)存儲(chǔ)和完全不同的設(shè)計(jì)準(zhǔn)則。1988年,針對(duì)日益增長的信息孤島,力求解決全企業(yè)數(shù)據(jù)集成問題,IBM首次提出了“信息倉庫(information warehouse)”的概念,將其定義為:“能夠支持最終用戶全部業(yè)務(wù)管理,并支持?jǐn)?shù)據(jù)質(zhì)量管理的一個(gè)結(jié)構(gòu)化的環(huán)境”,并提供了相關(guān)的工具。1991年,William H Inmon在其出版的“Building the Data Warehouse”一書中,明確給出了數(shù)據(jù)倉庫定義,并被廣為接受,同時(shí)也給出了基于關(guān)系模型的數(shù)據(jù)倉庫建設(shè)的原則和方法,這也奠定了其在數(shù)據(jù)倉庫領(lǐng)域的“數(shù)據(jù)倉庫之父”的地位。1996年,Ralph Kimball發(fā)表“The Data Warehouse Toolkit”,提出了數(shù)據(jù)集市的概念和維度建模的方法,對(duì)如何面向分析需求,優(yōu)化數(shù)據(jù)模型給出了一系列的建設(shè)指導(dǎo),由此形成了基于關(guān)系模型的數(shù)據(jù)倉庫和基于多維模型的數(shù)據(jù)集市的兩大設(shè)計(jì)理念。1998年,William H Inmon出版“Corporate Information Factory”一書,推出了新的業(yè)務(wù)智能(business intelligence,BI)架構(gòu)CIF(corporate information factory),該架構(gòu)包括兩種用于業(yè)務(wù)智能的數(shù)據(jù)結(jié)構(gòu),一個(gè)是數(shù)據(jù)倉庫,另一個(gè)是數(shù)據(jù)集市。William H Inmon認(rèn)為數(shù)據(jù)倉庫主要是存儲(chǔ)來自于不同數(shù)據(jù)源并經(jīng)過集成的數(shù)據(jù),同時(shí)可作為數(shù)據(jù)集市的數(shù)據(jù)源,其有效的設(shè)計(jì)方法是基于實(shí)體—聯(lián)系數(shù)據(jù)模型和規(guī)范化技術(shù),而數(shù)據(jù)集市是服務(wù)于一組特定群體的分析需求的一種數(shù)據(jù)結(jié)構(gòu),目前較為流行的數(shù)據(jù)集市是為聯(lián)機(jī)分析處理而建立的,其有效的設(shè)計(jì)方法是多維數(shù)據(jù)模型。隨著應(yīng)用的深入和信息技術(shù)的發(fā)展,對(duì)數(shù)據(jù)倉庫的實(shí)時(shí)性和智能性提出了更高的要求,實(shí)時(shí)數(shù)據(jù)倉庫(real-time data warehouse)、主動(dòng)數(shù)據(jù)倉庫(active data warehouse)已初現(xiàn)端倪。與此同時(shí),面向復(fù)雜數(shù)據(jù)類型的數(shù)據(jù)倉庫,如空間數(shù)據(jù)倉庫(spatial data warehouse)、時(shí)空數(shù)據(jù)倉庫(spatial-temporal data warehouse)、多媒體數(shù)據(jù)倉庫(multimedia data warehouse)等也在不斷的發(fā)展中。