時間:2022-12-12 20:30:01 | 來源:信息時代
時間:2022-12-12 20:30:01 來源:信息時代
并行數(shù)據(jù)庫物理存儲方法 : 以最小化查詢處理的響應時間,在多處理機之間分布各種數(shù)據(jù)庫對象(關(guān)系、索引等)的數(shù)據(jù)存儲方法,也稱數(shù)據(jù)分布方法。研究表明,數(shù)據(jù)分布對并行數(shù)據(jù)庫系統(tǒng)的性能具有極大的影響。并行數(shù)據(jù)庫存儲方法的目的是把一個數(shù)據(jù)庫對象均勻地分布存儲到多個處理機上,使得在查詢處理過程中系統(tǒng)的并行性能得到充分的發(fā)揮。并行數(shù)據(jù)庫物理存儲方法主要包括一維數(shù)據(jù)分布、多維數(shù)據(jù)分布和傳統(tǒng)物理存儲結(jié)構(gòu)并行化等方法。
1.一維數(shù)據(jù)分布方法
一維數(shù)據(jù)分布方法是最簡單的數(shù)據(jù)分布方法。它通過劃分關(guān)系的一個屬性的域值來劃分整個關(guān)系,得到一組子關(guān)系,然后在多處理機之間分布這些子關(guān)系。主要包括:
(1) round-robin分布方法:把關(guān)系R的第i個元組ri存儲到第(i mod P)個處理機上。如果關(guān)系R上的操作需要存取R的大量元組,則round-robin方法是分布R的最理想方法。但是,round-robin方法不能有效地支持具有低選擇性謂詞的查詢。
(2) Hash分布方法: 首先需要指定關(guān)系的一個屬性A為劃分屬性,然后定義一個以劃分屬性A的值域V為定義域的函數(shù): H: V--〉{1,2,…,P},其中,P是處理機的個數(shù)。這個函數(shù)稱為Hash函數(shù)。對于關(guān)系R的任意元組r,Hash分布方法把元組r存儲到第H(r[A])個處理機上,其中r[A]表示元組r在屬性A上的值。Hash方法既能有效地支持大數(shù)據(jù)量的存取操作,也能有效地支持在劃分屬性上具有低選擇性謂詞的數(shù)據(jù)操作。Hash方法不能保證數(shù)據(jù)均勻地分布在多個處理機上。數(shù)據(jù)的聚集存儲(cluster)是很多應用所需要的。然而,Hash方法的目的是使數(shù)據(jù)隨機地分布在各處理機上,與聚集存儲恰恰相反。
(3) range分布方法:首先指定關(guān)系R的一個屬性A(其值域為有序集合)為劃分屬性,然后,把A的值域劃分為P個區(qū)間I0=[x0,x1],…,IP-1=[xP-1,xP],最后將R劃分為P個子集合S1,…,SP,其中,Si={r|r∈R,r[A]∈Ii},Si分布到第i個處理機上。range分布方法不但可以有效地支持要求大數(shù)據(jù)量存取的查詢和在分布屬性上具有低選擇性謂詞的數(shù)據(jù)操作,也支持數(shù)據(jù)的聚集存儲。但可能引起的問題是數(shù)據(jù)在處理機之間分布不均勻和工作負載不均勻的問題。
2. 多維數(shù)據(jù)分布方法
多維分布方法可以解決一維數(shù)據(jù)分布中存在不能有效支持在非劃分屬性上通過選擇謂詞來實現(xiàn)查詢的問題。以下為常用的多維分布方法:
(1)CMD法: 是一種多維分布方法。首先將d-維空間[0,1)dS劃分為多個d-維超立方體。把S各維的定義域[0,1)劃分為長度為1/np的np個區(qū)間:[lki,hki]表示區(qū)間Iki。每個超方體是d個區(qū)間的笛卡兒乘積:
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。