3.現(xiàn)有技術(shù)框架
時間:2022-03-09 14:27:01 | 來源:行業(yè)動態(tài)
時間:2022-03-09 14:27:01 來源:行業(yè)動態(tài)
3.1、現(xiàn)有技術(shù)框架整體介紹
為解決現(xiàn)有的業(yè)務(wù)痛點,同時平衡在實時數(shù)據(jù)處理技術(shù)實現(xiàn)上的難點。我們摒棄了部分技術(shù)組件,采用新的技術(shù)組件搭建整個實時數(shù)倉用于滿足PGW實時會話業(yè)務(wù)。其中StarRocks可以滿足大多場景的需求。
PGW會話業(yè)務(wù)中流式Join問題,一部分我們通過在StarRocks中星型建模的方案的解決,另一部分我們借助關(guān)系型內(nèi)存數(shù)據(jù)庫VoltDB Google Guava Cache,流式組件處理過程中代碼實現(xiàn)。
存量數(shù)據(jù)的排序、實時分析問題。我們借助StarRocksrange分區(qū)以及高效的OLAP性能初步緩解。
最后統(tǒng)一OLAP分析平臺,我們完全借助StarRocks實現(xiàn)。
3.2、StarRocks解決的痛點和挑戰(zhàn)
1.充分利用StarRocks在多表join方面的性能優(yōu)化,如Colocate Join、內(nèi)存表等特性。將原來的流式j(luò)oin方案改為通過星型建模方案,在數(shù)據(jù)服務(wù)層進(jìn)行多表join的聯(lián)邦查詢;
2.通過StarRocks動態(tài)分區(qū)特性對存量數(shù)據(jù)進(jìn)行分區(qū),然后利用Bitmap數(shù)據(jù)類型進(jìn)行精確去重,然后再在各分區(qū)內(nèi)完成排序。排序的結(jié)果進(jìn)一步匯總到一張數(shù)據(jù)表中,和實時到來的數(shù)據(jù)放在一起排序,可以有效地解決數(shù)據(jù)亂序問題,并且保證數(shù)據(jù)分析的效率。
3.StarRocks可作為數(shù)據(jù)服務(wù)層的統(tǒng)一對外引擎,一方面保證查詢性能,另一方面避免了原來多技術(shù)組件帶來的冗余問題,極大降低了系統(tǒng)的管理成本。
4.技術(shù)實現(xiàn)方面:替代Hbase部分業(yè)務(wù),緩解了Hbase分區(qū)分裂帶來的性能問題;通過ES外表引擎,解決ES表不能進(jìn)行join、語法特殊等技術(shù)問題。