轉(zhuǎn)載某篇文章+讀后感,談一談 9 款國產(chǎn)圖數(shù)據(jù)庫
時間:2023-03-13 10:16:01 | 來源:電子商務(wù)
時間:2023-03-13 10:16:01 來源:電子商務(wù)
本人目前做圖的底層存儲引擎“分片和副本分布式可擴(kuò)展”相關(guān)的研究,來滿足業(yè)務(wù)的快速增長。
本文內(nèi)容大量來自被我閱讀的文章。感謝王建奎博士~~
華為
先來說說最神秘的華為吧,華為的圖數(shù)據(jù)庫構(gòu)建在多模數(shù)據(jù)庫中,由高斯實(shí)驗(yàn)室負(fù)責(zé)原型研發(fā),圖數(shù)據(jù)庫的 headcount 由任總欽點(diǎn),圖數(shù)據(jù)庫在華為重要性可想而知,但是由于華為保密要求嚴(yán)格,凡事都不讓對外說。技術(shù)領(lǐng)先,設(shè)計(jì)方案簡單高效。其他朋友不方便多跟我說,不過團(tuán)隊(duì)從現(xiàn)在到前后會新增 至少 20 個 headcount,任總有要求,非招人不可大有可為呀。如果有想去上海工作的朋友,歡迎聯(lián)系我,我?guī)湍懵?lián)系我的朋友。
費(fèi)馬科技
洪春濤學(xué)長在北京BDTC2017中國大數(shù)據(jù)技術(shù)大會上深入分析了當(dāng)時圖數(shù)據(jù)庫和圖計(jì)算領(lǐng)域的難點(diǎn)、現(xiàn)狀以及費(fèi)馬在2個領(lǐng)域的優(yōu)化和產(chǎn)品能力。我當(dāng)時真的對那幾個優(yōu)化數(shù)字感到震驚費(fèi)馬的性能真的非常好,團(tuán)隊(duì)也非常專業(yè)。京東金融是他們的一個客戶案例(詳細(xì)可查看:
https://fma-ai.cn/case)。
費(fèi)馬科技是一個專注圖數(shù)據(jù)庫和圖計(jì)算的創(chuàng)業(yè)公司,主打:快如閃電的高性能圖數(shù)據(jù)存儲及分析平臺。
LightGraph 是費(fèi)馬科技自主研發(fā)的圖數(shù)據(jù)庫產(chǎn)品。其主要特點(diǎn)是單機(jī)大數(shù)據(jù)量,高吞吐率,以及靈活的 API,同時支持高效的在線事務(wù)處理(OLTP)和在線分析處理(OLAP)。LightGraph支持 TB 級大容量存儲,可以輕松支持十億級別頂點(diǎn)和百億級別的邊。使用無鎖設(shè)計(jì),從而大大提高了高負(fù)載下的吞吐率,可以達(dá)到千萬頂點(diǎn)/秒的高吞吐率。除了強(qiáng)大的事務(wù)處理能力,還具備豐富和可擴(kuò)展的分析處理功能,能夠高效、在線地進(jìn)行 PageRank、連通分量等復(fù)雜的圖計(jì)算過程,省去了用戶需要另行搭建并將數(shù)據(jù)導(dǎo)出、轉(zhuǎn)換、再導(dǎo)入到專門的分析系統(tǒng)的麻煩。另外LightGraph還支持高可用,具有嚴(yán)格的ACID支持和高效靈活的API。
PandaGraph是一個運(yùn)行在linux系統(tǒng)上的內(nèi)存圖計(jì)算系統(tǒng),其雙模式引擎會自動地在“ 稀疏”和“稠密”模式間切換,來優(yōu)化圖狀結(jié)構(gòu)數(shù)據(jù)上的迭代式并行計(jì)算。在對文件系統(tǒng)的支持上,PandaGraph可以自動處理hdfs文件系統(tǒng)上的文件,用戶無需任何配置即可使用PandaGraph對hdfs文件進(jìn)行處理。此外,PandaGraph中還內(nèi)置了幾十種常見的圖計(jì)算應(yīng)用程序,用戶可以用符合格式的圖數(shù)據(jù),直接使用這些程序進(jìn)行計(jì)算。
體驗(yàn)地址:
https://fma-ai.cn/product本站官方賬號:
https://www.zhihu.com/org/fei-ma-ke-ji/activities百度
百度的圖數(shù)據(jù)庫產(chǎn)品有2個。
1. BGraph : BGraph是面向商業(yè)的圖數(shù)據(jù)庫產(chǎn)品,基本百度多年的知識圖譜技術(shù)沉淀,自研了圖存儲和圖計(jì)算引擎,并針對檢索和深度連接分析做了深入優(yōu)化,整體通用C++ 實(shí)現(xiàn),具有毫秒級查詢響應(yīng),并能支持?jǐn)?shù)萬的QPS。BGraph能支持?jǐn)?shù)億級頂點(diǎn)的圖數(shù)據(jù),能通過
分片和
副本分布式可擴(kuò)展,滿足業(yè)務(wù)的快速增長;支持多實(shí)例副本,具有實(shí)時容錯能力,單實(shí)例的故障不會影響查詢服務(wù),旨在提供超過 99.99% 的可用性;支持業(yè)界流行的 Property Graph 數(shù)據(jù)模型和 Gremlin查詢語言,并對Gremlin進(jìn)行擴(kuò)展,支持特色的高性能圖算法。
體驗(yàn)地址:
https://ai.baidu.com/tech/kg/bgraph2. HugeGraph:HugeGraph是百度安全部開源的一款開源圖數(shù)據(jù)庫產(chǎn)品。HugeGraph是一款面向分析型,支持批量操作的圖數(shù)據(jù)庫系統(tǒng),它能夠與大數(shù)據(jù)平臺無縫集成,有效解決海量圖數(shù)據(jù)的存儲、查詢和關(guān)聯(lián)分析需求。HugeGraph支持HBase和Cassandra等常見的分布式系統(tǒng)作為其存儲引擎來實(shí)現(xiàn)水平擴(kuò)展。HugeGraph可以與Spark GraphX進(jìn)行鏈接,借助Spark GraphX圖分析算法(如PageRank、Connected Components、Triangle Count等)對HugeGraph的數(shù)據(jù)進(jìn)行分析挖掘。
詳細(xì)介紹:
https://zhuanlan.zhihu.com/p/41240429項(xiàng)目地址:
https://github.com/hugegraph阿里云
1. GDB:GDB(Graph Database)是阿里云上一款標(biāo)準(zhǔn)圖數(shù)據(jù)產(chǎn)品,目前正在公測中,官網(wǎng)提示正式商業(yè)化時間是2019年12月31日。GDB是一種支持屬性圖模型,用于處理高度連接數(shù)據(jù)查詢與存儲的實(shí)時可靠的在線數(shù)據(jù)庫,支持 TinkerPop Gremlin 查詢語言;高度優(yōu)化的自研圖計(jì)算層和存儲層,云盤多副本保障數(shù)據(jù)超高可靠,支持ACID事務(wù);支持高可用實(shí)例,節(jié)點(diǎn)故障迅速轉(zhuǎn)移,保障業(yè)務(wù)連續(xù)性;提供備份恢復(fù),自動升級,監(jiān)控告警,故障切換等豐富的運(yùn)維功能,大幅降低運(yùn)維成本。
體驗(yàn)地址:
https://www.aliyun.com/product/gdb2. GraphDB:GraphDB是阿里云更早起發(fā)布的一款圖數(shù)據(jù)庫產(chǎn)品,包含在HBase 2.0版本中,用戶在購買云上HBase數(shù)據(jù)庫服務(wù)時,可以選擇GraphDB作為其圖數(shù)據(jù)引擎。GraphDB引擎本身并不額外收費(fèi),對于需要使用圖數(shù)據(jù)功能的用戶而言,將大幅降低應(yīng)用和開發(fā)成本?,F(xiàn)階段主打OLTP能力,可以使用spark graphframes拓展圖分析能力。您可以在數(shù)據(jù)庫中創(chuàng)建,查詢和修改許多圖形。GraphDB基于Apache Tinkerpop棧構(gòu)建,并使用Gremlin語言進(jìn)行遍歷,更新和查詢。
更多請參考:阿里云圖數(shù)據(jù)庫GraphDB上線 業(yè)務(wù)場景全解析
螞蟻金服
GeaBase:GeaBase(Graph Exploration and Analytics Database)是我剛進(jìn)入圖數(shù)據(jù)庫領(lǐng)域時最早聽聞的國產(chǎn)圖數(shù)據(jù)庫,主打中國首個實(shí)時金融級分布式圖數(shù)據(jù)庫。實(shí)時和金融級2個前綴彰顯了GeaBase的技術(shù)底蘊(yùn)。首先,GeaBase支持海量的數(shù)據(jù)。目前,GeaBase支撐著螞蟻金服的多個關(guān)鍵應(yīng)用場景,包括風(fēng)控關(guān)系網(wǎng)絡(luò)、資金關(guān)系網(wǎng)絡(luò),都達(dá)到百億個節(jié)點(diǎn)、千億條邊的海量數(shù)據(jù)規(guī)模,其計(jì)算查詢能力達(dá)到了非常高的水準(zhǔn)。其次,GeaBase擁有非常強(qiáng)悍的在線查詢性能,支持高并發(fā),且具備毫秒級的低延時能力。通過與Titan的對比,可以看到無論是延時還是吞吐量,GeaBase的查詢性能都領(lǐng)先許多。GeaBase還具備高可用的特性。其配置了多種容錯機(jī)制,引入了多集群和多方位的監(jiān)控體系,并配備了分布式架構(gòu)的容災(zāi)方案,這一切都是為了保證高可用性。螞蟻金服還為GeaBase研發(fā)了靈活且可擴(kuò)展的查詢語言。另外,為了和開源結(jié)合,GeaBase還將支持Gremlin圖遍歷語言。
參考:
https://www.jianshu.com/p/dbd1d9526a39體驗(yàn)地址:
https://tech.antfin.com/products/GEABASEs://http://www.zhihu.com/org/fei-ma-ke-ji/activities
創(chuàng)鄰科技
創(chuàng)鄰科技也是一個專注圖數(shù)據(jù)庫和圖計(jì)算領(lǐng)域的創(chuàng)業(yè)公司。目前具有分布式圖數(shù)據(jù)庫、分布式圖計(jì)算平臺、可視化分析引擎三款產(chǎn)品。分布式圖數(shù)據(jù)庫Galaxybase獲得了世界上第一個也是目前唯一一個關(guān)于分布式圖數(shù)據(jù)庫和圖計(jì)算系統(tǒng)的專利,具有自主知識產(chǎn)權(quán)。
Galaxybase的數(shù)據(jù)關(guān)聯(lián)查詢性能較目前國際同類技術(shù)服務(wù)商快數(shù)十倍,較傳統(tǒng)關(guān)系型數(shù)據(jù)庫技術(shù)快數(shù)千倍;海量數(shù)據(jù)擴(kuò)展性能承載千億節(jié)點(diǎn)的超級大圖;提供銀行級別的事務(wù)支持。分布式圖計(jì)算平臺,采用第三代高性能分布式運(yùn)算技術(shù),實(shí)現(xiàn)分布式圖數(shù)據(jù)的“存儲+運(yùn)算”一體化,支撐海量數(shù)據(jù)的高并發(fā)實(shí)時讀寫、查詢、運(yùn)算及分析??梢暬治鲆孀詣訉⑷?、事、物等多元信息精準(zhǔn)組織成領(lǐng)域知識圖譜,通過可視化圖形界面簡易部署算法、構(gòu)架模型、實(shí)時計(jì)算并展示結(jié)果,實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)挖掘、異常關(guān)聯(lián)監(jiān)控。
在由中國信息協(xié)會聯(lián)合信息化觀察網(wǎng)、圓潤互聯(lián)信息技術(shù)研究院共同舉辦的“2019中國互聯(lián)網(wǎng)+產(chǎn)業(yè)創(chuàng)新合作發(fā)展論壇”中,創(chuàng)鄰科技實(shí)力斬獲“2019互聯(lián)網(wǎng)+知識圖譜深度挖掘認(rèn)知領(lǐng)域影響力企業(yè)”和“2019互聯(lián)網(wǎng)+圖數(shù)據(jù)存儲優(yōu)秀解決方案企業(yè)”雙項(xiàng)大獎。
體驗(yàn)地址:
http://www.chuanglintech.cn/#/home歐若數(shù)網(wǎng)
2019年5月,Nebula Graph橫空出世并宣布開源,歐若數(shù)網(wǎng)的創(chuàng)始人是原螞蟻金服基礎(chǔ)技術(shù)部圖計(jì)算及存儲技術(shù)團(tuán)隊(duì)的負(fù)責(zé)人,歐若專注于新一代圖計(jì)算和圖數(shù)據(jù)庫的研發(fā)和推廣。
Nebula Graph是世界上唯一能夠容納千億個頂點(diǎn)和萬億條邊,并提供毫秒級查詢延時的圖數(shù)據(jù)庫解決方案,適用于需要快速遍歷多關(guān)系的任何案例,如社交網(wǎng)絡(luò),知識圖譜,欺詐檢測等領(lǐng)域。Nebula Graph 的目標(biāo)是為超大規(guī)模圖數(shù)據(jù)提供高并發(fā),低延時的讀、寫及計(jì)算。Nebula Graph 的具有全對稱分布式架構(gòu)、可擴(kuò)展、高可用、數(shù)據(jù)強(qiáng)一致、類 SQL 查詢語言、用戶鑒權(quán)、支持多存儲后端等功能,同時具備高度的安全性。Nebula Graph是開源的,使用Apache 2.0許可證,可以免費(fèi)下載,修改以及部署源代碼。
讀 Nebula 的源碼可以發(fā)現(xiàn)其底層存儲引擎為 RocksDB、HBase 等。Nebula 在設(shè)計(jì)存儲時,采用 share-nothing 的分布式架構(gòu),本質(zhì)上存儲節(jié)點(diǎn)間沒有數(shù)據(jù)共享,通過多塊磁盤做多實(shí)例,也就是整個分布式結(jié)構(gòu)無中心節(jié)點(diǎn)。這樣的好處在于,第一,容易做水平拓展;第二,即使部分機(jī)器 Crash,通過數(shù)據(jù)強(qiáng)一致性—— Raft 協(xié)議能保證整個系統(tǒng)的可用性,不會丟失數(shù)據(jù)。整個的核心代碼都是 C++ 寫的,這樣保證了執(zhí)行效率。其次,做了很多并行和異步執(zhí)行的優(yōu)化。第三個是計(jì)算下推。在分布式系統(tǒng)里面,硬件上網(wǎng)絡(luò)對整體性能的影響最大,所以數(shù)據(jù)搬遷是一個很低效的動作。有些開源圖數(shù)據(jù)庫產(chǎn)品,比如 JanusGraph,它的存儲層在 HBase,上面有個單獨(dú)的計(jì)算層,當(dāng)計(jì)算層需要數(shù)據(jù)的時候,會到 HBase 里面拉回大量的數(shù)據(jù),再做過濾和計(jì)算。舉個例子,1 萬條數(shù)據(jù)里面最終過濾出 100 條,那相當(dāng)于 99% 的網(wǎng)絡(luò)傳輸都浪費(fèi)了。所以 Nebula 的設(shè)計(jì)方案是移動計(jì)算,而不是數(shù)據(jù),計(jì)算下推到存儲層,像前面這個例子,直接在存儲層做完過濾再回傳計(jì)算層,這樣可以有 100 倍的加速。
強(qiáng)烈建議讀一下Nebula Graph的詳細(xì)介紹:
https://zhuanlan.zhihu.com/p/77459312Nebula Graph的文檔非常豐富,還提供docker鏡像可以快速上手,而且提供了學(xué)習(xí)視頻(可以去B站學(xué)習(xí)了)。極其到位的體驗(yàn),使得Nebula Graph短短幾個月迅速獲得1.6萬的Star,收獲30多個contributors,高效發(fā)布4個迭代版本。
項(xiàng)目地址:
https://github.com/vesoft-inc/nebula/blob/master/README-CN.md本站官方賬號:
https://www.zhihu.com/org/nebulagraph/activities北京大學(xué)王選計(jì)算機(jī)研究所
gStore大規(guī)模圖數(shù)據(jù)庫管理系統(tǒng)是北京大學(xué)王選計(jì)算機(jī)研究所鄒磊教授研究團(tuán)隊(duì)自主研發(fā)的具有完全自主知識產(chǎn)權(quán)的開源圖數(shù)據(jù)庫系統(tǒng)。大量的基準(zhǔn)知識圖譜數(shù)據(jù)的評測結(jié)果和第三方的評測報告顯示gStore系統(tǒng)在圖譜數(shù)據(jù)量大、查詢復(fù)雜等環(huán)境下其性能要明顯優(yōu)于現(xiàn)有的工業(yè)圖數(shù)據(jù)庫系統(tǒng)。該項(xiàng)目發(fā)表了數(shù)據(jù)庫領(lǐng)域國際頂級期刊和會議論文(包括SIGMOD,VLDB)等30余篇,被國內(nèi)外學(xué)術(shù)同行引用超過2000次,前期理論研究成果獲得教育部自然科學(xué)二等獎(獲獎項(xiàng)目名稱:“大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)管理”),系統(tǒng)開源以來在開源社區(qū)(Github和開源中國)獲得了廣泛關(guān)注。
公眾號「圖譜學(xué)苑」,曾有一篇文章《開源圖數(shù)據(jù)庫項(xiàng)目gStore的應(yīng)用與合作介紹》做了非常詳細(xì)的講解,感興趣的朋友請自行搜索。
關(guān)鍵詞:國產(chǎn),數(shù)據(jù),文章,轉(zhuǎn)載