時(shí)間:2022-11-21 08:30:01 | 來源:信息時(shí)代
時(shí)間:2022-11-21 08:30:01 來源:信息時(shí)代
數(shù)據(jù)流管理系統(tǒng) : 科學(xué)地組織和存儲(chǔ)數(shù)據(jù)流數(shù)據(jù),以高效、實(shí)時(shí)、連續(xù)地獲得快速的、隨時(shí)間變化的、不可預(yù)測的、無界數(shù)據(jù)流數(shù)據(jù)的軟件系統(tǒng)。DSMS已成為近年來數(shù)據(jù)庫領(lǐng)域的一個(gè)熱門研究領(lǐng)域,其含義、功能和結(jié)構(gòu)尚沒有統(tǒng)一的定義。
現(xiàn)實(shí)世界的許多應(yīng)用中,數(shù)據(jù)出現(xiàn)的形式大都是連續(xù)的,而不是有限存儲(chǔ)的數(shù)據(jù)集合,并且用戶更可能需要長期的連續(xù)的查詢,而不是一味的即席查詢。例如,金融分析、網(wǎng)絡(luò)監(jiān)控、通信數(shù)據(jù)管理、傳感器網(wǎng)絡(luò)數(shù)據(jù)處理等。這些應(yīng)用一是需要維護(hù)大量共享數(shù)據(jù)和控制信息,要求系統(tǒng)連續(xù)不斷地自外部環(huán)境采集數(shù)據(jù),并根據(jù)要求進(jìn)行相應(yīng)的處理及存儲(chǔ),然后在規(guī)定的時(shí)間內(nèi)做出響應(yīng),同時(shí)所處理的數(shù)據(jù)往往是“短暫”的,即只在一定的時(shí)間范圍內(nèi)有效; 二是除了傳統(tǒng)的即席查詢,這些應(yīng)用更可能需要連續(xù)查詢,即查詢結(jié)果是以連續(xù)的或間歇性連續(xù)的方式返回,且有時(shí)查詢結(jié)果并不要求是精確的,只要反映數(shù)據(jù)的大概值或變化趨勢等即可。而傳統(tǒng)的數(shù)據(jù)庫技術(shù)難于適應(yīng)對(duì)數(shù)據(jù)流這種新型數(shù)據(jù)的管理要求,為此需要建立一種全新的數(shù)據(jù)管理系統(tǒng),即數(shù)據(jù)流管理系統(tǒng)。
STREAM項(xiàng)目旨在研究通用的數(shù)據(jù)流管理系統(tǒng),主要研究數(shù)據(jù)流查詢語言的語法及語義,數(shù)據(jù)流系統(tǒng)中操作符的調(diào)度與資源優(yōu)化管理問題。其目標(biāo)是建立一個(gè)既可以處理流速非常高的數(shù)據(jù),又能處理成千上萬連續(xù)查詢的通用數(shù)據(jù)流管理系統(tǒng)。在數(shù)據(jù)的流速和查詢負(fù)載超出可獲得資源的情況下,系統(tǒng)優(yōu)化內(nèi)部配置,可以為連續(xù)的查詢提供相對(duì)準(zhǔn)確的近似結(jié)果。系統(tǒng)內(nèi)部的多查詢優(yōu)化策略、有效的資源分配算法和靈活的調(diào)度策略保證了系統(tǒng)的高性能。有限資源和結(jié)果近似性的自動(dòng)平衡是系統(tǒng)最重要的關(guān)鍵技術(shù)。斯坦福大學(xué)在STREAM系統(tǒng)上所做的工作主要包括: 建立了全新的數(shù)據(jù)模型; 擴(kuò)充了SQL語言,建立了適合數(shù)據(jù)流查詢的連續(xù)查詢語言(continuous query language,CQL);實(shí)現(xiàn)了原型系統(tǒng)并對(duì)實(shí)現(xiàn)方法進(jìn)行了理論研究和實(shí)踐,包括時(shí)鐘管理、負(fù)載分流、隊(duì)列緩存和算子調(diào)度等; 在查詢處理和優(yōu)化等方面提出了許多獨(dú)到的見解和方法;也對(duì)數(shù)據(jù)流的信息統(tǒng)計(jì)做了許多研究; 最后還對(duì)建立分布式的數(shù)據(jù)流管理系統(tǒng)進(jìn)行了探索。
Telegraph項(xiàng)目的特點(diǎn)是能夠自適應(yīng)地查詢處理數(shù)據(jù)流,其數(shù)據(jù)流管理系統(tǒng)為Telegraph CQ。Telegraph CQ主要處理對(duì)大量高速變化的數(shù)據(jù)流而進(jìn)行的大量連續(xù)查詢。在該項(xiàng)目的早期工作中已經(jīng)建立了一個(gè)Java版本的適應(yīng)性數(shù)據(jù)流處理系統(tǒng)。Telegraph CQ是一個(gè)通用的數(shù)據(jù)流管理系統(tǒng),在開放式關(guān)系數(shù)據(jù)庫管理系統(tǒng)Postgre SQL基礎(chǔ)上開發(fā)。它繼承了UC Berkeley的Telegraph數(shù)據(jù)流項(xiàng)目開發(fā)成果,以Psoup系統(tǒng)為查詢處理系統(tǒng),以Flux系統(tǒng)作為負(fù)載平衡和容錯(cuò)處理系統(tǒng)。在系統(tǒng)中,注冊(cè)的數(shù)據(jù)流查詢經(jīng)過預(yù)處理后被變換成一個(gè)操作符執(zhí)行序列,而后交給元組路由選擇器Eddy。
Aurora系統(tǒng)構(gòu)建了一個(gè)新型的數(shù)據(jù)處理系統(tǒng),它專門用于監(jiān)控?cái)?shù)據(jù)流。Aurora框架結(jié)構(gòu)簡單獨(dú)特,可以處理三種不同的應(yīng)用: 實(shí)時(shí)監(jiān)控、處理以時(shí)間序列存儲(chǔ)的大量歷史數(shù)據(jù)及兩者的混合。Aurora系統(tǒng)的核心是一個(gè)巨大的算子網(wǎng)絡(luò),對(duì)每一個(gè)使用Aurora系統(tǒng)的數(shù)據(jù)流監(jiān)控應(yīng)用,應(yīng)用管理器創(chuàng)建一個(gè)算子網(wǎng)絡(luò),并同Aurora的總的算子網(wǎng)絡(luò)合并。Aurora系統(tǒng)實(shí)現(xiàn)了算子網(wǎng)絡(luò)優(yōu)化,在運(yùn)行時(shí)具有高效的算子調(diào)度算法,還可以根據(jù)檢測數(shù)據(jù)進(jìn)行負(fù)載分流。另外,他們還正在設(shè)計(jì)一種可升級(jí)的分布式Aurora,命名為Aurora*。Aurora*的主要目標(biāo)在于處理分布式數(shù)據(jù)流,并提出了一些處理分布式數(shù)據(jù)流的算法思想。
COUGAR主要為傳感器數(shù)據(jù)庫,使用面向?qū)ο蟮姆椒ǘx傳感器,產(chǎn)生連續(xù)的查詢結(jié)果。它將傳感器建模為ADTs,同時(shí)它的輸入為一個(gè)時(shí)間序列。
Niagara CQ是University of Wisconsin-Madison和Oregon Graduat Institute聯(lián)合開發(fā)的網(wǎng)絡(luò)數(shù)據(jù)管理Niagara項(xiàng)目當(dāng)中的可擴(kuò)充的連續(xù)查詢子系統(tǒng),允許在動(dòng)態(tài)的Web環(huán)境中建立連續(xù)的XML-QL查詢。由于網(wǎng)絡(luò)的可伸縮性,一個(gè)連續(xù)查詢系統(tǒng)需要支持大量的查詢,但目前不存在達(dá)到這種可擴(kuò)充性的系統(tǒng)。為了解決這個(gè)問題,Niagara CQ將連續(xù)查詢分組,分組的原則是將許多共享相似結(jié)構(gòu)的Web查詢分為一組。分為一組的查詢能夠共享相同的計(jì)算,有效地減少I/O代價(jià)。
與Niagara CQ系統(tǒng)相似,Open CQ系統(tǒng)都支持對(duì)分布于網(wǎng)絡(luò)上的持久性數(shù)據(jù)進(jìn)行連續(xù)的查詢監(jiān)控,如Internet上的Web站點(diǎn)。Open CQ采用一種基于增量視圖維護(hù)的查詢處理方法,而Niagara CQ則在許多查詢中使用了分組連續(xù)查詢技術(shù),該技術(shù)的使用提高了查詢求值的效率。
開發(fā)通用的、面向?qū)ο蟮姆植际綌?shù)據(jù)流管理系統(tǒng)是今后數(shù)據(jù)流管理系統(tǒng)的發(fā)展方向。數(shù)據(jù)流具有突發(fā)性,新一代數(shù)據(jù)流管理系統(tǒng)應(yīng)當(dāng)能夠自適應(yīng)環(huán)境的變化,特別是猝然變化的數(shù)據(jù)流速和流量,因此自適應(yīng)的數(shù)據(jù)流管理系統(tǒng)也是未來的發(fā)展方向。
客戶&案例
營銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。