国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 行業(yè)動態(tài) > 挑戰(zhàn):內(nèi)存規(guī)模限制使 Spark 優(yōu)勢無法充分發(fā)揮

挑戰(zhàn):內(nèi)存規(guī)模限制使 Spark 優(yōu)勢無法充分發(fā)揮

時間:2022-03-28 21:39:01 | 來源:行業(yè)動態(tài)

時間:2022-03-28 21:39:01 來源:行業(yè)動態(tài)

Apache Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎,常用來構(gòu)建大型、低延遲的數(shù)據(jù)分析應(yīng)用程序。Spark一個主要特點在于,其能夠在內(nèi)存中進行計算,這使得其數(shù)據(jù)分析效率往往高于其它計算引擎,但是,服務(wù)器內(nèi)存資源的限制也使得其性能的擴展存在著一定的瓶頸,在超大規(guī)模負載中無法充分發(fā)揮其利用內(nèi)存進行計算的性能優(yōu)勢。

某全球領(lǐng)先的語音識別服務(wù)提供商是最早將Spark應(yīng)用到生產(chǎn)環(huán)境的團隊之一,該公司的語音云通過幾千臺服務(wù)器構(gòu)成的云計算平臺向用戶提供多樣的、實時語音處理能力,日均服務(wù)終端用戶超過15億,日增數(shù)據(jù)超過100TB。
2014年該公司基于Spark和AI技術(shù)構(gòu)建了DMP大數(shù)據(jù)平臺(用戶數(shù)據(jù)管理平臺)。DMP平臺的主要功能就是收集、存儲、分析和挖掘龐大的用戶數(shù)據(jù),以實現(xiàn)廣告精準投放。



客戶業(yè)務(wù)邏輯結(jié)構(gòu)圖

Spark在該公司的大數(shù)據(jù)平臺中主要用于海量用戶數(shù)據(jù)分析,每天支撐穩(wěn)定運行的Spark SQL統(tǒng)計分析指標和SQL腳本有幾千個。但是在將Spark SQL用于海量用戶數(shù)據(jù)分析的過程中,仍然面臨著一些痛點,這些都限制了該公司語音云的數(shù)據(jù)分析能力。

Spark的性能不僅受到CPU、內(nèi)存、網(wǎng)絡(luò)、磁盤等硬件設(shè)備的制約,而且Spark SQL目前還不支持索引,也嚴重影響了Spark SQL在進行大規(guī)模數(shù)據(jù)分析時的性能,索引能夠提升數(shù)據(jù)檢索的效率,降低硬盤的IO瓶頸;

隨著數(shù)據(jù)量越來越大,即席分析的需求越來越強烈,即席查詢是用戶根據(jù)用戶自己的需求,靈活選擇查詢條件,系統(tǒng)能夠根據(jù)用戶的選擇生成響應(yīng)的統(tǒng)計報表和結(jié)果集;在數(shù)據(jù)倉庫和大數(shù)據(jù)分析系統(tǒng)中,即席查詢使用的越多,對系統(tǒng)的性能要求也就越高,如果內(nèi)存能夠緩存更多的熱點數(shù)據(jù),能夠極大的提升即席查詢處理速度并降低響應(yīng)延遲;

數(shù)據(jù)既有隨機讀的需求(即席查詢-Ad-hoc),又有全表掃描的需求(機器學(xué)習(xí));機器學(xué)習(xí)就是通過特定算法從海量的歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而對新的樣本進行分析并對未來做出預(yù)測,在模型訓(xùn)練的過程中會產(chǎn)生大量的中間結(jié)果數(shù)據(jù),通常情況下需要將中間結(jié)果數(shù)據(jù)持久化到文件系統(tǒng)上,如果內(nèi)存能夠緩存更多的中間結(jié)果數(shù)據(jù),可以提升模型訓(xùn)練的速度;

關(guān)鍵詞:優(yōu)勢,無法,充分

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉