大數(shù)據(jù)魔術(shù)的背后是什么?
時(shí)間:2022-03-26 22:54:01 | 來源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-03-26 22:54:01 來源:行業(yè)動(dòng)態(tài)
如你所見,從大數(shù)據(jù)中獲取價(jià)值并不是魔術(shù)。這只與技術(shù)解決方案以及如何應(yīng)用它們有關(guān)。根據(jù)我的經(jīng)驗(yàn),對(duì)于大數(shù)據(jù)處理,我建議使用以下流處理框架:Apache Storm、Spark Streaming和Kafka Streams。當(dāng)然,它們都有不可思議的特點(diǎn),也都有一定的操作局限。根據(jù)我的經(jīng)驗(yàn),以下是每種工具的特點(diǎn)概述。
1. Apache Storm
- 低延遲
- 成熟(經(jīng)過充分測(cè)試和廣泛應(yīng)用)
- 高通量
- 非常適合簡單的流用例
- 可擴(kuò)展,可跨多個(gè)計(jì)算機(jī)集群運(yùn)行的并行計(jì)算
- 容錯(cuò)(自動(dòng)重啟節(jié)點(diǎn),并且跨節(jié)點(diǎn)重新定位工作負(fù)載)
- 本機(jī)流
2. Spark Streaming
- 結(jié)合了批處理和流處理(Lambda體系結(jié)構(gòu)支持)
- 高通量
- 成熟
- 即使發(fā)生故障,記錄也會(huì)被處理一次
- 機(jī)器學(xué)習(xí)庫提供了一組機(jī)器算法,用于分類、回歸、協(xié)同過濾等。
- 默認(rèn)容錯(cuò)
3. Kafka Streams
- 融合了Kafka的最佳功能,不需要單獨(dú)的集群
- 國家管理
- 一次性,端到端(即Kafka既是來源又是目的地)
- 本機(jī)流
- 結(jié)合使用分布式消息傳遞系統(tǒng)和傳統(tǒng)消息傳遞系統(tǒng),實(shí)現(xiàn)存儲(chǔ)和流處理(這提供了更好的流數(shù)據(jù)管道可測(cè)量性、低延遲和更好的存儲(chǔ)功能,并確保了與脫機(jī)系統(tǒng)的集成,該系統(tǒng)是為了防止系統(tǒng)崩潰而存在的。)
對(duì)于上述用例,我建議使用Spark Streaming。它適合該項(xiàng)目,因?yàn)樗雅c高級(jí)分析工具進(jìn)行了集成,并允許你在離散化流的驅(qū)動(dòng)下通過微批處理執(zhí)行流處理。此外,Spark Streaming是Hadoop和Azure HDInsight生態(tài)系統(tǒng)的一部分,因此,如果你已經(jīng)在使用Hadoop,它將可以集成到你的大數(shù)據(jù)堆棧中。