數(shù)據(jù)粒度的粗細(xì)不但影響存放在數(shù)據(jù)倉庫中數(shù)據(jù)量的大小,同時(shí)也對(duì)查詢性能和所能回答的查詢種" />
時(shí)間:2022-11-20 22:30:01 | 來源:信息時(shí)代
時(shí)間:2022-11-20 22:30:01 來源:信息時(shí)代
數(shù)據(jù)粒度 : 數(shù)據(jù)倉庫中數(shù)據(jù)單元的細(xì)節(jié)程度或綜合程度的級(jí)別,是數(shù)據(jù)倉庫設(shè)計(jì)的關(guān)鍵問題之一。
數(shù)據(jù)粒度的粗細(xì)不但影響存放在數(shù)據(jù)倉庫中數(shù)據(jù)量的大小,同時(shí)也對(duì)查詢性能和所能回答的查詢種類產(chǎn)生限制。數(shù)據(jù)粒度越粗,細(xì)節(jié)程度越低,所能回答細(xì)節(jié)問題的能力就下降,但能夠使得查詢的效率提升; 數(shù)據(jù)粒度越細(xì),細(xì)節(jié)程度越高,所能回答查詢的種類就越多,但會(huì)占用大量的數(shù)據(jù)空間,使得查詢效率降低。
數(shù)據(jù)倉庫開發(fā)者需要解決的重要設(shè)計(jì)問題之一是完成數(shù)據(jù)倉庫中數(shù)據(jù)粒度的確定,這是一個(gè)反復(fù)循環(huán)的過程。一般方法是利用常識(shí),建立數(shù)據(jù)倉庫的一小部分,讓用戶去訪問這些數(shù)據(jù),然后聽取他們的意見,根據(jù)反饋意見再調(diào)整數(shù)據(jù)的粒度。
該過程一般包括:
(1)數(shù)據(jù)量估算:數(shù)據(jù)粒度的確定首先需要粗略估算數(shù)據(jù)倉庫中將來的數(shù)據(jù)行數(shù)和所需直接存取存儲(chǔ)設(shè)備(direct access storage device,DASD)的規(guī)模。在確定將要?jiǎng)?chuàng)建的所有表的基礎(chǔ)上,再估計(jì)每張表中行的長(zhǎng)度(字節(jié)數(shù)),一般估計(jì)出一個(gè)上下界(最大長(zhǎng)度和最小長(zhǎng)度),然后估計(jì)出一年及五年內(nèi)表中行數(shù)可能的最大值和最小值。最后,將各表中行數(shù)可能的最大值和最小值分別乘以數(shù)據(jù)的最大長(zhǎng)度和最小長(zhǎng)度,再累加上索引數(shù)據(jù)占用的空間,就可以估算出最終占用的數(shù)據(jù)空間總量的大小。
(2)溢出存儲(chǔ)器的使用:數(shù)據(jù)倉庫在建立并使用一段時(shí)期后,許多數(shù)據(jù)變得很少使用,稱之為不活躍數(shù)據(jù)(dormant data)。將不活躍數(shù)據(jù)轉(zhuǎn)移到溢出存儲(chǔ)器(overflow storage)上,就可以為高性能、活躍數(shù)據(jù)的有效使用清除障礙,進(jìn)而提高整個(gè)環(huán)境的性能。存放不活躍數(shù)據(jù)的溢出存儲(chǔ)器是數(shù)據(jù)倉庫的一個(gè)重要組成部分,它對(duì)于數(shù)據(jù)粒度的設(shè)計(jì)有很大影響。有了溢出存儲(chǔ)器,設(shè)計(jì)者就可以重點(diǎn)考慮活躍數(shù)據(jù)的粒度級(jí)別設(shè)計(jì)。
(3)數(shù)據(jù)粒度級(jí)別的確定:在很粗粒度級(jí)別上建立基于磁盤的數(shù)據(jù)倉庫,需要大量的資源來處理數(shù)據(jù);在很細(xì)粒度級(jí)別上建立基于磁盤的數(shù)據(jù)倉庫,許多分析必須基于溢出存儲(chǔ)器中的數(shù)據(jù)進(jìn)行。因此,確定合適的粒度級(jí)別首先需要進(jìn)行合理的、有根據(jù)的推測(cè),并反復(fù)分析來改進(jìn)這個(gè)推測(cè)。同時(shí),也需要考慮數(shù)據(jù)倉庫中各個(gè)不同的業(yè)務(wù)分析的需求,使得數(shù)據(jù)倉庫中的粒度粗細(xì)級(jí)別能適應(yīng)絕大多數(shù)業(yè)務(wù)分析需要。
客戶&案例
營(yíng)銷資訊
關(guān)于我們
客戶&案例
營(yíng)銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。