云存儲(chǔ)已在客觀層面扮演數(shù)據(jù)湖角色
時(shí)間:2022-03-20 12:18:01 | 來源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-03-20 12:18:01 來源:行業(yè)動(dòng)態(tài)
因?yàn)閿?shù)據(jù)湖是專為保存那些不適合于其它位置且易丟失的數(shù)據(jù)而設(shè)計(jì),所以當(dāng)您想到數(shù)據(jù)湖時(shí),您可能自然就會(huì)想到Hadoop。我們已經(jīng)將數(shù)據(jù)湖定義為受管理的存儲(chǔ)庫,并致力于讓其成為數(shù)據(jù)的默認(rèn)提取點(diǎn)。但是,我們現(xiàn)在發(fā)現(xiàn)數(shù)據(jù)湖的安裝啟用超過了Hadoop?;蛘哒鏜ike Olson在2014年所預(yù)言的一般Hadoop終將消失。
數(shù)據(jù)湖以聯(lián)動(dòng)查詢工具作為起點(diǎn),現(xiàn)已成為每個(gè)分析數(shù)據(jù)庫的配套項(xiàng)目。我們已經(jīng)見證了JSON數(shù)據(jù)庫通過Spark進(jìn)行擴(kuò)展,從而實(shí)現(xiàn)分析查詢。此外,我們還目睹了各Hadoop供應(yīng)商(例如Cloudera與Hortonworks)將其數(shù)據(jù)管理服務(wù)與HDFS分離。所以,現(xiàn)在數(shù)據(jù)湖即是數(shù)據(jù)存儲(chǔ)的位置所在。
毫無疑問,云供應(yīng)商享有最后的發(fā)言權(quán):在云端,云存儲(chǔ)顯然已成為數(shù)據(jù)的默認(rèn)攝取點(diǎn)。所以,云供應(yīng)商正在致力于讓其云對(duì)象存儲(chǔ)配備直接查詢功能。亞馬遜方面現(xiàn)在已可通過S3直接訪問配有Athena 的SQL 實(shí)際查詢,并可作為Redshift Spectrum數(shù)據(jù)倉庫的擴(kuò)展。Google Cloud早已將其云存儲(chǔ)作為BigQuery的默認(rèn)來源,而Snowflake第三方云數(shù)據(jù)倉庫也是如此。
此外,頗為諷刺的是,云存儲(chǔ)最初其實(shí)專為存儲(chǔ)需求而設(shè)計(jì)。然而,在云對(duì)象存儲(chǔ)占據(jù)了大部分?jǐn)?shù)據(jù)的世界里,催生了企業(yè)要優(yōu)化訪問需求。所以在2018年,我們預(yù)計(jì)幾乎所有的數(shù)據(jù)倉庫與分析數(shù)據(jù)庫都將對(duì)接當(dāng)下流行的云對(duì)象存儲(chǔ)方案,具體包括S3、Azure BLOB Storage與Google Cloud Storage等支持目標(biāo)。
關(guān)鍵詞:數(shù)據(jù),角色,扮演