時間:2022-11-12 14:30:01 | 來源:信息時代
時間:2022-11-12 14:30:01 來源:信息時代
實時數(shù)據(jù)流管理 : 事務和數(shù)據(jù)流都具有定時特征或顯式定時限制的數(shù)據(jù)流管理系統(tǒng)。隨著大量的有線和無線傳感器的出現(xiàn),許多實時應用需要操縱連續(xù)和無界的數(shù)據(jù)流。同時這些系統(tǒng)大多要求具有固有的時間約束,即定時限制。對于動態(tài)數(shù)據(jù)流上的查詢提供截止時間的保證是一個具有挑戰(zhàn)性的問題。
基于多種數(shù)據(jù)流應用的經(jīng)驗,M.Stonebraker、U.Cetintemel和S.Zdonik提出了刻畫實時數(shù)據(jù)流管理的8條規(guī)則。這些規(guī)則說明了任何具有大容量低延遲的數(shù)據(jù)流處理應用系統(tǒng)必須具有的特性。這8條規(guī)則如下:
規(guī)則1: 保持數(shù)據(jù)是移動的。
實時數(shù)據(jù)流管理的第一個需求是在數(shù)據(jù)流中處理消息,不需要存儲數(shù)據(jù)流來完成任何操作或操作序列。理想的系統(tǒng)應該使用一種主動處理模型。
規(guī)則2: 對數(shù)據(jù)流用SQL語言進行查詢。
30年來SQL語言一直是數(shù)據(jù)庫語言的標準語言。SQL的成功在于其可以表達復雜的數(shù)據(jù)轉(zhuǎn)換,且語言易學易用,大部分商用數(shù)據(jù)庫都提供了SQL語言接口。擴充SQL語言完成連續(xù)數(shù)據(jù)流的處理是一種切實可行的方案。
規(guī)則3: 處理不完善數(shù)據(jù)流(延遲、缺失和無序的數(shù)據(jù))。
在傳統(tǒng)的數(shù)據(jù)庫中,在查詢數(shù)據(jù)前,數(shù)據(jù)總是存在的。但在實時系統(tǒng)中,因為從不存儲數(shù)據(jù),而現(xiàn)實數(shù)據(jù)流中存在延遲、缺失和無序的數(shù)據(jù),因此必須具有處理不完善數(shù)據(jù)流的機制。
規(guī)則4: 生成可預測和可重復的結(jié)果。
從容錯和恢復的角度來說,產(chǎn)生可預測結(jié)果的能力是非常重要的,不管執(zhí)行的時間,重放和重處理同樣的輸入流應產(chǎn)生同樣的結(jié)果。
規(guī)則5: 集成存儲的和流動的數(shù)據(jù)。
數(shù)據(jù)流處理引擎應具有有效地存儲、訪問和修改狀態(tài)信息的能力,并能集成當前流動的數(shù)據(jù)。對無縫集成來說,當處理其他類型的數(shù)據(jù)時,系統(tǒng)應使用統(tǒng)一語言。
規(guī)則6: 保證數(shù)據(jù)安全性和可用性。
為了保護關(guān)鍵信息的完整性,避免實時處理時的破壞,數(shù)據(jù)流處理系統(tǒng)必須使用高可用性的解決方案。大多數(shù)數(shù)據(jù)流處理應用都涉及到高可用性問題。例如,希望銀行的信息系統(tǒng)永遠不出故障,始終可以使用,出了故障應能及時恢復。
規(guī)則7: 自動劃分和伸縮應用。
為了增加可伸縮性,數(shù)據(jù)流管理系統(tǒng)應具有在多處理器和多機系統(tǒng)上的分布處理能力。理想地,分布應該是自動的和透明的。由于低的性能價格比,分布式操作變得愈加重要。為了利用現(xiàn)代多處理器(或多核)計算機體系結(jié)構(gòu),數(shù)據(jù)流處理系統(tǒng)應該支持多線程操作。
規(guī)則8: 瞬時處理和響應。
為了對大量應用進行實時響應,數(shù)據(jù)流處理系統(tǒng)必須具有高度優(yōu)化的,極小開銷的執(zhí)行引擎。對有用的工作,選擇最優(yōu)的執(zhí)行路徑來最小化開銷比率,可取得高性能。
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。