摩根大通如何利用 AWS 云實(shí)現(xiàn)數(shù)據(jù)網(wǎng)格
時間:2022-03-05 05:08:01 | 來源:行業(yè)動態(tài)
時間:2022-03-05 05:08:01 來源:行業(yè)動態(tài)
現(xiàn)在,讓我們來看一看 AWS 上的具體實(shí)現(xiàn)并深入了解一些工具。
正如 Arup Nanda 詳細(xì)描述的那樣,上圖顯示了摩根大通團(tuán)隊使用的參考架構(gòu)。其中顯示了支持其數(shù)據(jù)網(wǎng)格的所有各種AWS服務(wù)和組件。
從 Kinesis 正下方的 Authorization 塊開始。Lake Formation 是數(shù)據(jù)產(chǎn)品所有者的單點(diǎn)權(quán)利,并且有許多與之相關(guān)的存儲桶包括我們剛剛談到的原始區(qū)域、可信存儲桶、精煉存儲桶和針對任何需要的操作調(diào)整的存儲桶。
在這些存儲桶下方,你可以看到數(shù)據(jù)目錄注冊(Data Catalog Registration)塊。這是 Glue Catalog 所在的位置,它會檢查數(shù)據(jù)特征以確定路由器將數(shù)據(jù)放在哪個桶中。例如,如果沒有架構(gòu)(schema),則數(shù)據(jù)會根據(jù)策略進(jìn)入原始存儲桶等。
在這里,你可以看到很多被使用到的AWS服務(wù)、身份、多年沉積下來的Hadoop 工作中的 EMR 集群,Redshift Spectrum 和 Athena。摩根大通將 Athena 用于單線程工作負(fù)載,將 Redshift Spectrum 用于可以相互獨(dú)立查詢的嵌套類型。
現(xiàn)在,請記住,非常重要的一點(diǎn)是,在這個用例中,沒有一個單一的湖形成,而是多個業(yè)務(wù)線被授權(quán)創(chuàng)建自己的湖,這就帶來了挑戰(zhàn)。換句話說,如何才能夠以靈活的方式完成這一切以滿足業(yè)務(wù)負(fù)責(zé)人們的要求?
請注意:這是一篇以 AWS 為中心的博客,介紹了他們推薦如何實(shí)施數(shù)據(jù)網(wǎng)格。
進(jìn)入數(shù)據(jù)網(wǎng)格
摩根大通采用了聯(lián)合湖的概念形成賬戶,并支持該公司的多條業(yè)務(wù)線。每條業(yè)務(wù)線都可以按照自身的需要創(chuàng)建任意數(shù)量的數(shù)據(jù)生產(chǎn)者和消費(fèi)者賬戶,然后將它們匯總到每個塊中心顯示的主要業(yè)務(wù)線湖形成帳戶。如下圖所示,在這個聯(lián)合模型中,所有的數(shù)據(jù)產(chǎn)品都交叉連接在一起。
如上圖中間部分所示,這些都匯總到主Glue目錄中,這樣,任何授權(quán)用戶都可以找到特定數(shù)據(jù)元素的位置。這個超集目錄包含多個源,并在整個數(shù)據(jù)網(wǎng)格中同步。
這讓我們再一次覺得這是一個經(jīng)過深思熟慮的數(shù)據(jù)網(wǎng)格的實(shí)際應(yīng)用。是的,它包含了一些集中管理的概念,但是大部分的責(zé)任已經(jīng)被劃分給了業(yè)務(wù)線。它確實(shí)匯總到一個單一的主目錄,但這是一項(xiàng)元數(shù)據(jù)管理工作,并且似乎是確保聯(lián)合式、自動化治理的必要條件。
重要的是,在摩根大通,首席數(shù)據(jù)官辦公室負(fù)責(zé)確保整個聯(lián)合的治理和合規(guī)性。
關(guān)鍵詞:實(shí)現(xiàn),數(shù)據(jù),利用