大數(shù)據(jù)時代傳統(tǒng)數(shù)據(jù)倉庫面臨挑戰(zhàn)
時間:2022-04-19 14:03:01 | 來源:行業(yè)動態(tài)
時間:2022-04-19 14:03:01 來源:行業(yè)動態(tài)
數(shù)據(jù)倉庫是企業(yè)邁向智能化的一座橋梁,借助數(shù)據(jù)倉庫對數(shù)據(jù)進行深入挖掘,用以輔助決策、指導生產(chǎn)和經(jīng)營,在企業(yè)智能化的過程中扮演重要角色,成為企業(yè)IT中非常重要的組成部分。
傳統(tǒng)數(shù)據(jù)倉庫典型的部署方式是采用MPP架構(gòu),用專用硬件和商用軟件搭建,因而其前期投入大,后期使用上也要求很高,這也正是不少中小企業(yè)對數(shù)據(jù)倉庫望而卻步的主要原因之一。隨著大數(shù)據(jù)時代的到來,對數(shù)據(jù)進行分析和處理的需求出現(xiàn)了一些新的變化,這些直接影響到數(shù)據(jù)倉庫技術(shù)的演進方向。
其中最大的變化體現(xiàn)在數(shù)據(jù)量和數(shù)據(jù)類型上,隨著移動化和物聯(lián)網(wǎng)的普及,數(shù)據(jù)量出現(xiàn)了爆炸性的增長。根據(jù)Gartner的預測,到2020年全球聯(lián)網(wǎng)設備數(shù)量將達260億臺,每臺設備都是一個數(shù)據(jù)源,如此眾多的設備帶來的海量數(shù)據(jù)對傳統(tǒng)數(shù)據(jù)倉庫的存儲和處理都帶來非常大的挑戰(zhàn)。除了數(shù)據(jù)量之外,今天數(shù)據(jù)類型也日趨復雜,在傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)之外出現(xiàn)了大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),特別是大量非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn),讓主要針對結(jié)構(gòu)化數(shù)據(jù)設計和優(yōu)化的傳統(tǒng)數(shù)據(jù)倉庫不堪重負。
其次,激烈的市場競爭迫切需要快速甚至要求實時做出決策,流式數(shù)據(jù)的處理成為數(shù)據(jù)倉庫的重要需求。實時決策意味著實時計算,這需要新的技術(shù)架構(gòu),不僅要將數(shù)據(jù)流與現(xiàn)有數(shù)據(jù)體系進行對接,還要能夠?qū)ζ溥M行快速的分析。
另外,數(shù)據(jù)倉庫的普及化和平民化也是一個廣泛的需求,未來數(shù)據(jù)倉庫的使用不應只限于IT 部門,所有部門的用戶都要求能自助訪問全真的數(shù)據(jù),甚至希望無需IT 部門的協(xié)助便可以自行進行數(shù)據(jù)準備,而且,這個過程中的高訪問延遲也是不被接受的。
在應對這些新的趨勢時,傳統(tǒng)數(shù)據(jù)倉庫顯得越來越力不從心。傳統(tǒng)數(shù)據(jù)倉庫主要存在以下局限:
? 傳統(tǒng)數(shù)據(jù)倉庫往往采用專用硬件和商用軟件,采購成本較高,同時可擴展性也很差,在線保留全量、海量數(shù)據(jù)的目標難以實現(xiàn);
? 元數(shù)據(jù)定義僵化,難以靈活集成多種數(shù)據(jù)源、支持業(yè)務部門即席查詢的需求;
? 傳統(tǒng)數(shù)據(jù)倉庫的建設周期長,從需求分析到建模再到投入使用,長達數(shù)月甚至上年,難以適應市場的快速變化。第四,隨著數(shù)據(jù)規(guī)模、用戶規(guī)模的不斷增加,數(shù)據(jù)分析挖掘工具處理數(shù)據(jù)時間過長,實時分析(例如,欺詐行為識別)SLA 無法滿足。
在這樣的背景之下,人們開始部署和建設新一代的企業(yè)級數(shù)據(jù)倉庫,這就是基于Hadoop的大數(shù)據(jù)平臺,而大數(shù)據(jù)技術(shù)的不斷進入和成熟加速了新一代企業(yè)級數(shù)據(jù)倉庫的滲透過程。
關(guān)鍵詞:數(shù)據(jù),面臨,挑戰(zhàn)