從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)湖
時(shí)間:2022-03-22 21:54:01 | 來源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-03-22 21:54:01 來源:行業(yè)動(dòng)態(tài)
數(shù)據(jù)湖,顧名思義,就像湖能匯集各種水流一樣,能匯集各種各樣的數(shù)據(jù)。本質(zhì)上,數(shù)據(jù)湖就是一個(gè)集中的數(shù)據(jù)存儲(chǔ)容器,它統(tǒng)一對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),按照需要進(jìn)行分析和處理。
AWS首席云計(jì)算企業(yè)戰(zhàn)略顧問張俠博士介紹,數(shù)據(jù)湖有幾個(gè)特點(diǎn):第一,存儲(chǔ)的是原始的、自然的數(shù)據(jù),可以是結(jié)構(gòu)化的也可以是非結(jié)構(gòu)化的。第二,可以快速地縮放,能保持海量的數(shù)據(jù)。
那么,數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別在哪里呢?張俠認(rèn)為,數(shù)據(jù)倉(cāng)庫(kù)是在數(shù)據(jù)庫(kù)的基礎(chǔ)上,把數(shù)據(jù)經(jīng)過一定的分類、提煉、清洗,整理好放在里面。它對(duì)數(shù)據(jù)有非常嚴(yán)格的要求,而數(shù)據(jù)湖沒有這種限制,任何數(shù)據(jù)都可以保存在里面,一般也不會(huì)預(yù)先做數(shù)據(jù)清洗和提煉。
其次,也是最重要的一點(diǎn),數(shù)據(jù)倉(cāng)庫(kù)是面向已經(jīng)確定的需求,在建立的時(shí)候就知道要做些什么,在建立之初會(huì)對(duì)數(shù)據(jù)進(jìn)行整理,這會(huì)花費(fèi)不少的時(shí)間,而且數(shù)據(jù)倉(cāng)庫(kù)通常采用專用設(shè)備,成本也很高,一旦建好后要調(diào)整比較困難。不過,由于數(shù)據(jù)倉(cāng)庫(kù)是專門面向特定問題而建,因此建好后效率很高。而數(shù)據(jù)湖在建立的時(shí)候并不面向特定需求,它只是提供一個(gè)數(shù)據(jù)的集中保存,一般采用通用設(shè)備,提供的也是通用的數(shù)據(jù)查詢和分析能力,數(shù)據(jù)可以隨時(shí)進(jìn)入數(shù)據(jù)湖。
隨著非結(jié)構(gòu)化數(shù)據(jù)越來越多,越來越多的場(chǎng)景對(duì)分析有時(shí)間要求,而傳統(tǒng)的數(shù)據(jù)庫(kù)方法不管是成本、實(shí)時(shí)性等方面都不能滿足要求,這就是數(shù)據(jù)湖出現(xiàn)的根本原因。
張俠博士做了一個(gè)形象的比喻。他說,建數(shù)據(jù)倉(cāng)庫(kù)就像設(shè)計(jì)一個(gè)河道,我們知道這條河大概會(huì)來多少水,水來了以后我們有一些閘門可以處理。然而,到互聯(lián)網(wǎng)時(shí)代,各種各樣的數(shù)據(jù)洶涌而至,我們很難掌握數(shù)據(jù)到底是什么樣的性質(zhì)、會(huì)有多大量,也不可能花幾個(gè)月、半年的時(shí)間把這些數(shù)據(jù)都整理清楚,規(guī)劃好。在這種情況下,我們就找一大片濕地、洼地建起數(shù)據(jù)湖,沒有河道,把所有數(shù)據(jù)就像湖水一樣、洪水一樣先蓄在這個(gè)湖里面,然后通過一些工具來查詢它。
關(guān)鍵詞:數(shù)據(jù),倉(cāng)庫(kù)