建立在大數(shù)據(jù)平臺上的現(xiàn)代數(shù)據(jù)倉庫
時間:2022-04-19 14:18:01 | 來源:行業(yè)動態(tài)
時間:2022-04-19 14:18:01 來源:行業(yè)動態(tài)
隨著開源軟件的普及,Hadoop在企業(yè)中得到越來越廣泛的普及,越來越多的企業(yè)開始在Hadoop上建立各種商業(yè)應(yīng)用,在這趨勢之下,一些企業(yè)開始在基于Hadoop的大數(shù)據(jù)平臺進行部分?jǐn)?shù)據(jù)的分析工作。隨之而來的問題就是,同樣都是數(shù)據(jù)分析,是否一定要建立兩個平臺:一個是對應(yīng)傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù),一個對應(yīng)非結(jié)構(gòu)化數(shù)據(jù),能否統(tǒng)一到一個平臺,比如大數(shù)據(jù)平臺。
答案是肯定的,數(shù)據(jù)分析平臺完全可以統(tǒng)一到大數(shù)據(jù)平臺上。實際上,企業(yè)完全可以選擇從一開始就將整個數(shù)據(jù)倉庫規(guī)劃在Hadoop 之上,傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)的主要創(chuàng)始人Ralph Kimball 博士在2015 年發(fā)表專題演講時證實了Hadoop 是可以完全取代MPP 來建立數(shù)據(jù)倉庫的。在全球范圍內(nèi),已經(jīng)有很多企業(yè)將他們的數(shù)據(jù)倉庫完全建立在Hadoop 之上,從而能夠?qū)崿F(xiàn)更加優(yōu)越的可擴展性、更高的性價比,以及更好的靈活性。比如,在實際應(yīng)用中,即使是規(guī)模只有5 個節(jié)點的小集群,使用Hadoop 與其他技術(shù)選項相比,也能夠取得更好的產(chǎn)出、帶來更多的業(yè)務(wù)價值與競爭力。
而就技術(shù)本身而言,相對于已經(jīng)具有數(shù)十年歷史的傳統(tǒng)數(shù)據(jù)倉庫,雖然不能說作為后期之秀的Hadoop平臺已經(jīng)具有了匹敵傳統(tǒng)數(shù)據(jù)倉庫這么完整的生態(tài),但在技術(shù)成熟度上,基于Hadoop的大數(shù)據(jù)平臺已經(jīng)具備了企業(yè)級數(shù)據(jù)倉庫的基本特性。
以Cloudera 分析型數(shù)據(jù)庫版本為例。Cloudera 分析型數(shù)據(jù)庫已經(jīng)在全球最大的900 多家組織機構(gòu)里運行,2018 年8 月Cloudera正式推出了最新一代Cloudera 數(shù)據(jù)倉庫版本。升級后的Cloudera 數(shù)據(jù)倉庫版本提供了企業(yè)級混合云解決方案,包含了混合計算、混合存儲、混合控制三大關(guān)鍵因素,專為實惠經(jīng)濟、強大可擴展的自助服務(wù)分析而構(gòu)建。這款產(chǎn)品覆蓋了數(shù)據(jù)倉庫的整個生命周期,包括數(shù)據(jù)接入、存儲、管理、查詢、運行狀況檢查等等。
Cloudera 數(shù)據(jù)倉庫版本適用于以下三場景:
? 將ETL 任務(wù)從(EDW)企業(yè)數(shù)據(jù)倉庫遷移到Cloudera 大數(shù)據(jù)平臺,極大地釋放EDW 處理能力;
? 自助BI 和探索性分析;
? 對EDW 優(yōu)化,通過 EDW 和Cloudera 大數(shù)據(jù)平臺的混搭結(jié)構(gòu)可以降低數(shù)據(jù)存儲成本,提高數(shù)據(jù)處理和分析能力,充分發(fā)揮兩套系統(tǒng)各自的技術(shù)優(yōu)勢。
采用Cloudera 數(shù)據(jù)倉庫構(gòu)建大數(shù)據(jù)平臺可以帶來前所未有的數(shù)據(jù)規(guī)模和靈活性。首先,Cloudera 提供統(tǒng)一、可擴展的平臺,可以處理不同來源、不同類型的全量數(shù)據(jù),以推動新的業(yè)務(wù)洞察。其次,Cloudera 的平臺提供高性能的SQL 查詢工具,支持大數(shù)據(jù)量高并發(fā)訪問。第三,Cloudera 是唯一一個通過PCI 安全認證的Hadoop 平臺,內(nèi)置安全管控和數(shù)據(jù)治理模塊,可以確保數(shù)據(jù)安全。第四,采用開源技術(shù),可避免技術(shù)鎖定的問題。
國內(nèi)某城市商業(yè)銀行就率先體驗這一遷移的好處。該城商行于2013 年購買了某企業(yè)數(shù)據(jù)倉庫平臺(20TB),建立全行統(tǒng)一的單一業(yè)務(wù)視圖。但是,隨著業(yè)務(wù)量的不斷增長,原有數(shù)據(jù)倉庫方案架構(gòu)封閉、性價比低、應(yīng)用面窄、廠商依賴等諸多問題日益突出。為了避免每年花費大量經(jīng)費來擴展該企業(yè)數(shù)倉平臺基礎(chǔ)設(shè)施,該城商行改用運行在X86 標(biāo)準(zhǔn)硬件上的Cloudera 大數(shù)據(jù)平臺逐步替代。目前,該城商行已經(jīng)將大部分的傳統(tǒng)企業(yè)數(shù)據(jù)倉庫應(yīng)用遷移到Cloudera 大數(shù)據(jù)平臺,包括CRM、監(jiān)管報送、自助化分析、取數(shù)以及風(fēng)險合規(guī)相關(guān)應(yīng)用。同時,也基于大數(shù)據(jù)平臺新建了一些應(yīng)用,例如:實時營銷和欺詐監(jiān)控、在線明細查詢等等。
關(guān)鍵詞:數(shù)據(jù),現(xiàn)代,倉庫