1、被廣泛關(guān)注的智能湖倉架構(gòu)
時間:2022-03-05 10:12:02 | 來源:行業(yè)動態(tài)
時間:2022-03-05 10:12:02 來源:行業(yè)動態(tài)
理解智能湖倉架構(gòu)的現(xiàn)在和未來,需要先了解它的過去。早在 2017 年,智能湖倉架構(gòu)就已初具雛形。當時,亞馬遜云科技發(fā)布了 Amazon Redshift Spectrum,讓 Amazon Redshift 具備了打通數(shù)據(jù)倉庫和數(shù)據(jù)湖的能力,實現(xiàn)了跨數(shù)據(jù)湖、數(shù)據(jù)倉庫的數(shù)據(jù)查詢。
這件事情啟發(fā)了智能湖倉架構(gòu)的形成。在 2020 年的亞馬遜云科技 re:Invent 大會上,亞馬遜云科技正式發(fā)布智能湖倉。如果從早期的技術(shù)探索開始算起,在 2021 亞馬遜云科技 re:Invent 大會上發(fā)布的 Serverless 能力,代表了智能湖倉架構(gòu)的第 8 輪技術(shù)演進。如今,智能湖倉基于 Amazon S3 構(gòu)建數(shù)據(jù)湖,繞湖集成數(shù)據(jù)倉庫、大數(shù)據(jù)處理、日志分析、機器學習數(shù)據(jù)服務(wù),利用 Amazon Lake Formation、Amazon Glue 等工具可以實現(xiàn)數(shù)據(jù)的自由流動與統(tǒng)一治理。
具體而言,智能湖倉架構(gòu)下,首先需要打破數(shù)據(jù)孤島形成一個數(shù)據(jù)湖;其次,需要圍繞著數(shù)據(jù)湖,在不同應(yīng)用場景為用戶提供相應(yīng)的分析工具;另外,需要確保數(shù)據(jù)在湖、倉以及專門的服務(wù)之間能夠自由移動;此外,需要確保用統(tǒng)一的方式去管理湖里面數(shù)據(jù)的安全性、訪問控制和審計;最終,需要能夠采用低成本的方法將湖、倉各自的優(yōu)勢有效利用起來,并利用人工智能等創(chuàng)新手段進行創(chuàng)新。
就像 Amazon Redshift 在 2012 年發(fā)布時,引導(dǎo)了云原生數(shù)倉的發(fā)展方向一樣,智能湖倉架構(gòu)一經(jīng)發(fā)布就引發(fā)業(yè)內(nèi)廣泛關(guān)注,一方面是因為亞馬遜云科技作為頭部云廠商的行業(yè)地位,另一方面是因為此架構(gòu)在技術(shù)上的創(chuàng)新思路能夠為行業(yè)帶來一些新的思考。
智能湖倉更強調(diào)架構(gòu)而非產(chǎn)品,更強調(diào)數(shù)據(jù)的自由流動與統(tǒng)一治理,以及基于湖倉的智能創(chuàng)新。如今,智能湖倉架構(gòu)不是簡單地將湖與倉打通,而是將湖、倉與專門構(gòu)建的數(shù)據(jù)服務(wù)連接成為一個整體,讓數(shù)據(jù)在其間無縫移動。面對向 TB 級、PB 級,甚至 EB 級增長的數(shù)據(jù),如何存和如何用不再是相對孤立的話題。智能湖倉向行業(yè)傳遞了一個信號:企業(yè)需要統(tǒng)一數(shù)據(jù)分析工具,實現(xiàn)數(shù)據(jù)在整個數(shù)據(jù)平臺的自由流轉(zhuǎn)。
不管是企業(yè)數(shù)據(jù)管理理念的視角,還是在技術(shù)視角下,智能湖倉架構(gòu)被廣泛關(guān)注也意味著,隨著數(shù)據(jù)湖和數(shù)據(jù)倉庫的邊界在逐漸淡化,基于兩者的大數(shù)據(jù)處理體系的架構(gòu)正在被重構(gòu)。