AWS的數(shù)據(jù)湖解決之道
時(shí)間:2022-03-22 21:45:02 | 來(lái)源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-03-22 21:45:02 來(lái)源:行業(yè)動(dòng)態(tài)
對(duì)于已經(jīng)相對(duì)成熟的數(shù)據(jù)倉(cāng)庫(kù),對(duì)大多數(shù)人而言,數(shù)據(jù)湖還是一個(gè)比較新的概念。人們對(duì)數(shù)據(jù)湖的理解也不盡相同,對(duì)具體應(yīng)該提供哪些功能和服務(wù)認(rèn)識(shí)還不一致,市場(chǎng)上完整的數(shù)據(jù)湖解決方案并不多,現(xiàn)有的不少是基于開(kāi)源的解決方案(如基于HDFS),比較零散,不太完整,AWS是為數(shù)不多能提供比較完整功能的數(shù)據(jù)湖解決方案的廠商。
據(jù)張俠介紹,AWS的數(shù)據(jù)湖解決方案有三大核心元素:Amazon S3/Glacier,AWS Glue和AWS Lake Formation。其中,Amazon S3/Glacier作為數(shù)據(jù)湖的核心存儲(chǔ),它結(jié)合各種RDS服務(wù)、Amazon Aurora、Amazon DynamoDB等數(shù)據(jù)庫(kù)服務(wù)提供對(duì)各類(lèi)型數(shù)據(jù)的存儲(chǔ)能力,數(shù)據(jù)湖就建立這些基礎(chǔ)的存儲(chǔ)能力之上。
AWS Glue是一種全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載 (ETL) 服務(wù)及元數(shù)據(jù)目錄。它讓客戶(hù)更容易準(zhǔn)備數(shù)據(jù),加載數(shù)據(jù)到數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,用于數(shù)據(jù)分析。使用AWS Glue,在幾分鐘之內(nèi)便可以準(zhǔn)備好數(shù)據(jù)用于分析。由于AWS Glue是無(wú)服務(wù)器服務(wù),客戶(hù)在執(zhí)行ETL任務(wù)時(shí),只需要為他們所消耗的計(jì)算資源付費(fèi)。
Amazon Athena是一種交互式查詢(xún)服務(wù),它讓客戶(hù)可以使用標(biāo)準(zhǔn)SQL語(yǔ)言、輕松分析Amazon S3 中的數(shù)據(jù)。由于Athena是一種無(wú)服務(wù)器服務(wù),因此客戶(hù)不需要管理基礎(chǔ)設(shè)施,而且只為他們運(yùn)行的查詢(xún)付費(fèi)。Athena可以自動(dòng)擴(kuò)展,并行執(zhí)行查詢(xún),所以即便是大型數(shù)據(jù)集和復(fù)雜的查詢(xún),也能很快獲得查詢(xún)結(jié)果。
此前,AWS Glue和Amazon Athena服務(wù)還沒(méi)有開(kāi)通。不過(guò),不久前AWS宣布這兩項(xiàng)服務(wù)都已經(jīng)在由西云數(shù)據(jù)運(yùn)營(yíng)的AWS中國(guó) (寧夏) 區(qū)域正式上線(xiàn)。
張俠介紹,數(shù)據(jù)湖的建設(shè)還是比較復(fù)雜的事情,涉及多個(gè)環(huán)節(jié)。比如,數(shù)據(jù)湖需要先把保存在各個(gè)數(shù)據(jù)源的數(shù)據(jù)抽取出來(lái),集中存儲(chǔ)。數(shù)據(jù)湖也不止是要保存數(shù)據(jù),還會(huì)建立起立數(shù)據(jù)的目錄,通過(guò)數(shù)據(jù)的轉(zhuǎn)換、抽取等對(duì)數(shù)據(jù)歸類(lèi),以快速進(jìn)行各種各樣的分析。另外,為了滿(mǎn)足安全、合規(guī)審計(jì)的要求,數(shù)據(jù)湖還會(huì)提供數(shù)據(jù)治理方面的功能。
為了方便企業(yè)順利建成數(shù)據(jù)湖,AWS把整個(gè)流程融入了一個(gè)叫做AWS Lake Formation的服務(wù)。它把建立數(shù)據(jù)湖的流程工作自動(dòng)化,可以幫助企業(yè)在短短的幾天時(shí)間里完成數(shù)據(jù)湖的建設(shè)。該服務(wù)目前還沒(méi)有在中國(guó)正式推出。
除了底層的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)湖的核心要素功能外,AWS還提供非常豐富的數(shù)據(jù)分析工具,包括Amazon Redshift(數(shù)據(jù)倉(cāng)庫(kù))、Amazon EMR(大數(shù)據(jù)分析)、Amazon Elasticsearch(運(yùn)維分析)、Amazon Kinesis(實(shí)時(shí)數(shù)據(jù)分析)等,以及豐富的展現(xiàn)工具,如圖形可視化的Amazon QuickSight、語(yǔ)音和文字互轉(zhuǎn)的Amazon Polly和Amazon Transcribe以及Amazon SageMaker(人工智能)等。