為現(xiàn)代化數(shù)據(jù)戰(zhàn)略鋪平道路的智能湖倉
時間:2022-04-07 07:39:01 | 來源:行業(yè)動態(tài)
時間:2022-04-07 07:39:01 來源:行業(yè)動態(tài)
為了易于分析,企業(yè)開始建設(shè)數(shù)據(jù)湖將所有數(shù)據(jù)放在單一的存儲庫中,這樣就可以基于標(biāo)準(zhǔn)的數(shù)據(jù)格式,以任何規(guī)模、低成本、安全地存儲數(shù)據(jù),便于在以后根據(jù)應(yīng)用程序和最終用戶的需求進行傳輸和轉(zhuǎn)換,現(xiàn)在云中的數(shù)據(jù)湖正在成為許多企業(yè)的主流策略。
為此,亞馬遜云科技制定了現(xiàn)代化數(shù)據(jù)戰(zhàn)略,并與Serverless理念結(jié)合越來越緊密,幫助企業(yè)更好地利用數(shù)據(jù),更敏捷的創(chuàng)新。亞馬遜云科技推出了智能湖倉新方法,"智能湖倉"架構(gòu)不僅打通湖與倉,還將湖、倉、專用數(shù)據(jù)存儲整合為一體。
其實早在 2017 年,智能湖倉架構(gòu)就已初具雛形。當(dāng)時,亞馬遜云科技發(fā)布了Amazon Redshift Spectrum,讓Amazon Redshift具備了打通數(shù)據(jù)倉庫和數(shù)據(jù)湖的能力,實現(xiàn)了跨數(shù)據(jù)湖、數(shù)據(jù)倉庫的數(shù)據(jù)查詢。如今智能湖倉基于Amazon S3構(gòu)建數(shù)據(jù)湖,結(jié)合多種數(shù)據(jù)服務(wù),形成了數(shù)據(jù)的由內(nèi)向外,由外向內(nèi),環(huán)湖運動的數(shù)據(jù)移動方式,集成數(shù)據(jù)倉庫、大數(shù)據(jù)處理、日志分析、機器學(xué)習(xí)數(shù)據(jù)服務(wù)。
正是了解到亞馬遜云科技智能湖倉的技術(shù)優(yōu)勢,為加速創(chuàng)新并大規(guī)模實現(xiàn)數(shù)據(jù)使用,寶馬集團將其本地數(shù)據(jù)湖遷移到由Amazon S3提供支持的數(shù)據(jù)湖,現(xiàn)在寶馬集團可以每天處理來自上百萬輛汽車的TB級遙測數(shù)據(jù),并在問題影響到客戶之前解決問題。為了更好地管理這些數(shù)據(jù),寶馬集團引入了數(shù)據(jù)提供者和數(shù)據(jù)使用者概念,從而提高了其軟件工程團隊的自主性和敏捷性。
數(shù)據(jù)提供者利用亞馬遜云科技的數(shù)據(jù)分析服務(wù)(如 Amazon Kinesis Data Firehose、Amazon Lambda、Amazon Glue 和 Amazon EMR)來接收和轉(zhuǎn)換數(shù)據(jù)。然后,數(shù)據(jù)使用者可以利用諸如 Amazon Athena、Amazon SageMaker、Amazon Glue和Amazon EMR之類的Serverless服務(wù),運用這些數(shù)據(jù)。提供者和使用者均是在自己的賬戶中使用這些服務(wù),只共享可由中央 API 控制的明確定義的接口,這有助于防止出現(xiàn)瓶頸。各數(shù)據(jù)層均存儲在 Amazon S3 存儲桶中,其架構(gòu)已在 Amazon Glue 數(shù)據(jù)目錄中注冊。
現(xiàn)在亞馬遜云科技智能湖倉架構(gòu)中的服務(wù)基本上具備了Serverless特性,將Serverless能力擴展到分析引擎,實現(xiàn)自動添加或減少資源,提供恰到好處的容量,滿足企業(yè)對任何規(guī)模的數(shù)據(jù)分析需求。企業(yè)用戶再也不需要擔(dān)心因為調(diào)整集群大小或為滿足峰值容量而過度配置造成資源的浪費,進而節(jié)省時間并優(yōu)化成本。企業(yè)還可以快速、輕松地開始使用亞馬遜云科技數(shù)據(jù)分析服務(wù),享受Serverless的自動部署、按需擴展和按需付費,不僅降低成本,還可以將數(shù)據(jù)分析服務(wù)擴展到更多用戶,也降低了門檻。
關(guān)鍵詞:道路,數(shù)據(jù),現(xiàn)代化