Azure Databricks:搞定數(shù)據(jù)規(guī)?;瘑?wèn)題
時(shí)間:2022-04-09 16:45:01 | 來(lái)源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-04-09 16:45:01 來(lái)源:行業(yè)動(dòng)態(tài)
全球數(shù)據(jù)量的指數(shù)級(jí)增長(zhǎng)已經(jīng)成為共識(shí),而要對(duì)如此龐大的數(shù)據(jù)進(jìn)行治理和分析,僅靠人力并不現(xiàn)實(shí),結(jié)合人工智能和機(jī)器學(xué)習(xí)技術(shù),是高效、充分挖掘數(shù)據(jù)價(jià)值的必備手段。但是,在這個(gè)過(guò)程中,新的問(wèn)題也在出現(xiàn)。
微軟大中華區(qū)云計(jì)算和人工智能事業(yè)部總經(jīng)理林家偉表示,問(wèn)題主要來(lái)自三個(gè)方面:第一,是解決方案的復(fù)雜性,雖然針對(duì)數(shù)據(jù)治理和分析的產(chǎn)品、工具數(shù)不勝數(shù),但是對(duì)企業(yè)來(lái)說(shuō)能夠真正滿足需求、對(duì)癥下藥的卻并不多,這讓企業(yè)難以從中得到實(shí)際的價(jià)值;第二,是數(shù)據(jù)的質(zhì)量不高,收集上來(lái)的數(shù)據(jù)往往需要經(jīng)過(guò)清洗、處理才能真正賦能于業(yè)務(wù),但這需要企業(yè)投入大量的精力和成本;第三,是數(shù)據(jù)量的規(guī)模化增長(zhǎng),要求企業(yè)使用更有效的工具和手段去應(yīng)對(duì)。
微軟大中華區(qū)云計(jì)算和人工智能事業(yè)部總經(jīng)理 林家偉
尤其是針對(duì)數(shù)據(jù)規(guī)?;膯?wèn)題,Azure Databricks其實(shí)就是其中一個(gè)解決方案。我們?cè)贏zure上做了大量?jī)?yōu)化,以便客戶能夠在全球部署的平臺(tái)中,直接使用Databricks的服務(wù)。林家偉表示。
無(wú)論在企業(yè)內(nèi)部還是外部,數(shù)據(jù)通常會(huì)有多個(gè)不同來(lái)源,包括傳統(tǒng)數(shù)據(jù)庫(kù)、海量數(shù)據(jù)湖,也包括IoT采集的數(shù)據(jù),有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù)。在使用這些數(shù)據(jù)的過(guò)程中,如何讓不同的角色,比如數(shù)據(jù)工程師、科學(xué)家、機(jī)器學(xué)習(xí)工程師、數(shù)據(jù)分析工程師等,在統(tǒng)一的平臺(tái)上實(shí)現(xiàn)迅速搭建、集群開(kāi)啟、數(shù)據(jù)共享,以及計(jì)算和分析?Azure Databricks就可以做到。并且,由于該平臺(tái)基于的是Apache Spark,使用了內(nèi)存方式進(jìn)行計(jì)算,因此大幅提升了計(jì)算能力。
以全球知名的殼牌石油為例,該公司在全球有44,000家加油站,每一家加油站都有數(shù)個(gè)攝像機(jī)鏡頭,每天24小時(shí)都會(huì)產(chǎn)生拍攝數(shù)據(jù),過(guò)去這些數(shù)據(jù)往往是在后續(xù)做調(diào)查和研究時(shí)才會(huì)使用。但為了增加加油站的安全性,殼牌把實(shí)時(shí)數(shù)據(jù)應(yīng)用到了一個(gè)非常重要的場(chǎng)景幫助加油站更好地禁煙。具體來(lái)說(shuō),利用Azure Databricks,殼牌將所有攝像頭數(shù)據(jù),用流動(dòng)性的方式輸入進(jìn)來(lái),再通過(guò)數(shù)據(jù)科學(xué)家在Azure Databricks已經(jīng)構(gòu)建好的機(jī)器學(xué)習(xí)數(shù)據(jù)模型進(jìn)行預(yù)警,幾乎可以實(shí)時(shí)地在偵測(cè)到有人點(diǎn)煙或拿起香煙時(shí),立即通知加油站站長(zhǎng),以便及時(shí)關(guān)閉加油泵,制止消費(fèi)者在加油站區(qū)域范圍內(nèi)吸煙。
值得一提的是,面向中國(guó)市場(chǎng),微軟還特別發(fā)布了Power BI connector for Azure Databricks,以便一般的商業(yè)用戶分析師也能夠直接通過(guò)Power BI connector去分析在Azure Databricks當(dāng)中的數(shù)據(jù),或者是把相關(guān)數(shù)據(jù)收錄到Synapse中去做分析。此外,Databricks還能夠根據(jù)客戶的身份或行為進(jìn)行權(quán)限管理的控制等等,并集合在一個(gè)統(tǒng)一的平臺(tái)上,擁有和Azure完全一樣的安全性、可控性、魯棒性。林家偉強(qiáng)調(diào)。
總的來(lái)說(shuō),Azure Databricks的核心價(jià)值可以總結(jié)為四點(diǎn):第一,讓數(shù)據(jù)不再混亂、孤立和緩慢;第二,讓機(jī)器學(xué)習(xí)真正服務(wù)于業(yè)務(wù)運(yùn)營(yíng);第三,為BI提供更高質(zhì)量的服務(wù);第四,提供的是企業(yè)級(jí)的就緒服務(wù)。