國產(chǎn)數(shù)據(jù)庫的挑戰(zhàn)與機(jī)遇
時(shí)間:2023-03-13 07:16:01 | 來源:電子商務(wù)
時(shí)間:2023-03-13 07:16:01 來源:電子商務(wù)
本文來源:晨山資本
隨著萬物互聯(lián)的時(shí)代到來,數(shù)據(jù)總量也將呈現(xiàn)爆發(fā)式增長。如何存儲(chǔ)和處理海量數(shù)據(jù)也將成為一個(gè)亟需解決的問題,這必將帶來新一輪的數(shù)據(jù)庫系統(tǒng)底層技術(shù)的變革。
下文主要對(duì)現(xiàn)有數(shù)據(jù)庫的市場格局進(jìn)行概述和分析?!皵?shù)據(jù)驅(qū)動(dòng)”是晨山資本最主要的投資主題,我們密切關(guān)注在作為數(shù)據(jù)應(yīng)用基礎(chǔ)的數(shù)據(jù)庫方面的底層創(chuàng)新。也歡迎這個(gè)方向上的優(yōu)秀創(chuàng)業(yè)者們與我們共同交流探討。
自1946年第一臺(tái)通用計(jì)算機(jī)“ENIAC”誕生以來,圍繞著計(jì)算機(jī)的軟硬件的迭代就從未停止過。計(jì)算機(jī)硬件的核心邏輯元件從最初的電子管經(jīng)歷了晶體管、集成電路到現(xiàn)在的大規(guī)模集成電路時(shí)代,體積也從一個(gè)房間才能裝下到現(xiàn)在的人手一臺(tái)的手機(jī)甚至更小的嵌入式設(shè)備。
而伴隨著硬件能力的提升,其中的軟件的迭代更新也必不可少。在計(jì)算機(jī)軟件工程領(lǐng)域,操作系統(tǒng)、編譯器和數(shù)據(jù)庫被稱為難度最大的三大系統(tǒng),其中數(shù)據(jù)庫又是承載數(shù)據(jù)的基石,在如今數(shù)據(jù)大爆炸的時(shí)代,數(shù)據(jù)庫產(chǎn)品也正經(jīng)歷著新一輪的變革。
悠久的歷史一般來說,數(shù)據(jù)庫是指在計(jì)算機(jī)中有組織的進(jìn)行數(shù)據(jù)存儲(chǔ)和獲取的系統(tǒng)。經(jīng)常也有概念會(huì)提到數(shù)據(jù)庫管理系統(tǒng)(DBMS,Database Management System),其實(shí)是一套和數(shù)據(jù)庫進(jìn)行交互的用戶側(cè)管理軟件,但現(xiàn)在大家往往將數(shù)據(jù)庫、DBMS等軟件統(tǒng)稱為數(shù)據(jù)庫或數(shù)據(jù)庫系統(tǒng)。自1960s數(shù)據(jù)庫的概念被提出來,數(shù)據(jù)庫的發(fā)展本身也經(jīng)歷多個(gè)階段:
- 1960s,最早提出的navigational數(shù)據(jù)庫基于樹或鏈表的結(jié)構(gòu)來對(duì)數(shù)據(jù)進(jìn)行組織,最早的代表有CODASYL和IBM的IMS(Information Management System)等;
- 1970s,IBM的Edgar Codd第一次提出關(guān)系型數(shù)據(jù)庫的概念,以表結(jié)構(gòu)的形式進(jìn)行數(shù)據(jù)的組織和存取,用以解決navigational 數(shù)據(jù)庫的搜索困難問題,也就在這個(gè)時(shí)期IBM開始研發(fā)了目前的核心產(chǎn)品IBM DB2的原型。與此同時(shí)Oracle也在1978年開發(fā)出其第一款關(guān)系型數(shù)據(jù)庫Oracle V1;
▲ 關(guān)系型數(shù)據(jù)庫示例
- 1980s,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)能滿足大部分的日常數(shù)據(jù)存儲(chǔ)的需求,Oracle、IBM等商業(yè)化數(shù)據(jù)庫也得到了蓬勃的發(fā)展。到了2000s,大家對(duì)數(shù)據(jù)的實(shí)時(shí)性要求更高,數(shù)據(jù)量也呈現(xiàn)出爆發(fā)式增長。而技術(shù)的發(fā)展也往往由需求驅(qū)動(dòng),由此誕生了一系列非關(guān)系型NoSQL數(shù)據(jù)庫(注:SQL是指針對(duì)關(guān)系型數(shù)據(jù)庫的結(jié)構(gòu)化查詢語言),甚至還誕生了結(jié)合關(guān)系型數(shù)據(jù)庫的SQL模型和NoSQL數(shù)據(jù)庫高性能的NewSQL數(shù)據(jù)庫,數(shù)據(jù)庫的類型根據(jù)不同的業(yè)務(wù)需求呈現(xiàn)百花齊放的生態(tài)。
▲ NoSQL數(shù)據(jù)庫示例
百花齊放的數(shù)據(jù)庫行業(yè)數(shù)據(jù)庫可以根據(jù)其存儲(chǔ)結(jié)構(gòu)、存儲(chǔ)內(nèi)容的類型和應(yīng)用方向等多種方式進(jìn)行分類。最常見的按存儲(chǔ)結(jié)構(gòu)進(jìn)行分類,大致可分為關(guān)系型、非關(guān)系型和多模數(shù)據(jù)庫。當(dāng)然有的數(shù)據(jù)庫公司可能有多種類型的數(shù)據(jù)庫產(chǎn)品,如Oracle、Microsoft等,在此按他們最主流的產(chǎn)品進(jìn)行劃分。
▲ 部分典型數(shù)據(jù)庫按存儲(chǔ)結(jié)構(gòu)分類
關(guān)系型數(shù)據(jù)庫:也是大家最熟悉的數(shù)據(jù)庫之一,包含如Oracle、MySQL、IBM DB2、SQL Server等傳統(tǒng)關(guān)系型數(shù)據(jù)庫,也包含通常用于做數(shù)據(jù)分析的MPP數(shù)據(jù)庫(Massively Parallel Processing,大規(guī)模并行處理)如Greenplum、Vertica、Teradata等,當(dāng)然這些MPP數(shù)據(jù)庫也往往被大家稱之為數(shù)據(jù)倉庫。另外一些NewSQL數(shù)據(jù)也依然保持了關(guān)系型數(shù)據(jù)庫的這一特點(diǎn)。
非關(guān)系型數(shù)據(jù)庫:近年來發(fā)展迅速的非關(guān)系型數(shù)據(jù)也越來越多樣,如幾乎每一家互聯(lián)網(wǎng)公司都會(huì)用到的Key-Value(鍵值對(duì))數(shù)據(jù)庫Redis,用于高并發(fā)情形下進(jìn)行緩存處理;擅長于存儲(chǔ)樹形結(jié)構(gòu)的文檔數(shù)據(jù)庫MongoDB;近年來AI發(fā)展帶來的用于處理和存儲(chǔ)知識(shí)圖譜的圖數(shù)據(jù)庫Neo4j、GraphDB;用于大數(shù)據(jù)批量數(shù)據(jù)處理和即時(shí)查詢的列式存儲(chǔ);針對(duì)物聯(lián)網(wǎng)時(shí)序場景的時(shí)間序列數(shù)據(jù)庫InfluxDB等。
多模數(shù)據(jù)庫:由于數(shù)據(jù)本身形態(tài)多樣,兼容不同數(shù)據(jù)格式的多模數(shù)據(jù)庫也越來越被大家重視。一些傳統(tǒng)的關(guān)系型數(shù)據(jù)庫或者NoSQL數(shù)據(jù)也開始支持多種數(shù)據(jù)結(jié)構(gòu)的存儲(chǔ),如Oracle和Redis都支持文檔結(jié)構(gòu)的存儲(chǔ)方式。
前面也提到數(shù)據(jù)倉庫的概念,其實(shí)關(guān)于數(shù)據(jù)庫和數(shù)據(jù)倉庫有一個(gè)更好的定義區(qū)分就是大家經(jīng)常聽到的OLTP(聯(lián)機(jī)事務(wù)處理,On-Line Transaction Processing)和OLAP(聯(lián)機(jī)分析處理,On-Line Analytical Processing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要面向日常的高可用的事務(wù)處理,增刪改查,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用場景,以查詢?yōu)橹?,支持?fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。數(shù)據(jù)倉庫本身除了傳統(tǒng)的如Teradata、Greenplum等MPP架構(gòu),也有近年來比較火熱的基于Hadoop架構(gòu)/HDFS文件系統(tǒng)的上層查詢引擎。另外,新一代基于文件的分布式搜索和分析引擎Elastic Search也成為數(shù)據(jù)分析的標(biāo)配。
▲ OLTP VS OLAP數(shù)據(jù)庫
數(shù)據(jù)庫并不平坦的商業(yè)化之路提到商業(yè)化數(shù)據(jù)庫就不得提傳統(tǒng)四大廠商Oracle、IBM、Microsoft、SAP,他們的關(guān)系型數(shù)據(jù)庫曾經(jīng)一度占據(jù)了商業(yè)數(shù)據(jù)庫市場超90%的市場規(guī)模(來源:Gartner2016年數(shù)據(jù))。但近年來數(shù)據(jù)類型的多樣性發(fā)展,也催生了一系列其他類型的數(shù)據(jù)庫,對(duì)傳統(tǒng)商業(yè)數(shù)據(jù)進(jìn)行替代或者部分替代,比如在銀行領(lǐng)域開始嘗試對(duì)一些非核心業(yè)務(wù)使用開源或者國產(chǎn)解決方案。這些都一定程度上搶占了國外傳統(tǒng)數(shù)據(jù)庫廠商的份額,使得其市場規(guī)模呈現(xiàn)不增反降的趨勢。
▲ 傳統(tǒng)商業(yè)數(shù)據(jù)庫市場規(guī)模變化 (Source:Gartner, Inc)
同樣在OLAP領(lǐng)域,傳統(tǒng)分析型數(shù)據(jù)庫市場規(guī)模也面臨挑戰(zhàn)。近年來以Hadoop技術(shù)來構(gòu)建的數(shù)據(jù)倉庫解決方案也蠶食了不少傳統(tǒng)如TeraData(目前市值超50億美金)等基于MPP架構(gòu)的市場規(guī)模。
▲ OLAP領(lǐng)域代表TeraData收入變化
再來看新型數(shù)據(jù)庫的變現(xiàn)能力:成立于2007年的文檔數(shù)據(jù)庫MongoDB于2017年在納斯達(dá)克上市(目前市值約80億美金),近幾年收入增長迅速,每年收入增長率均超過50%。但公司整體收入?yún)s不高,其2018年收入為2.67億美金,這本身也和其商業(yè)模式相關(guān)。MongoDB以開源方式進(jìn)入市場,迅速積累了大量用戶,并于2013年推出自己的商業(yè)化版本,用更好的工具和服務(wù)來進(jìn)行商業(yè)化變現(xiàn),但依然有絕大多數(shù)客戶使用其社區(qū)版本。由于其數(shù)據(jù)庫最初的定位和設(shè)計(jì)也讓它暫時(shí)無法撼動(dòng)傳統(tǒng)關(guān)系型數(shù)據(jù)庫的地位。
▲ NoSQL領(lǐng)域代表MongoDB收入變化
DB-Engines網(wǎng)站根據(jù)不同數(shù)據(jù)庫在網(wǎng)頁、Google Query、技術(shù)社區(qū)、人員招聘等被提到的頻次對(duì)其進(jìn)行綜合打分做了現(xiàn)有數(shù)據(jù)庫系統(tǒng)的受歡迎度排名??梢钥闯鰜韨鹘y(tǒng)關(guān)系型數(shù)據(jù)庫如Oracle、MySQL、SQL Server等依然保持較高的搜索頻度,而新型數(shù)據(jù)庫/搜索引擎如Redis、MongoDB、ElasticSearch、Hive等則越來越被大家關(guān)注。而這其中如PostgreSQL、Redis、ES、Hive等大量的開源數(shù)據(jù)庫/引擎近年來快速增長對(duì)商業(yè)化數(shù)據(jù)庫的沖擊也是影響商業(yè)數(shù)據(jù)庫收入增長的重要原因之一。
▲ 若干典型數(shù)據(jù)庫受歡迎度排名
除了獨(dú)立上市,在海外軟件和數(shù)據(jù)庫企業(yè)被收購也是常見的一種退出方式。在數(shù)據(jù)庫領(lǐng)域,歷史上發(fā)生的數(shù)據(jù)庫收購案例超過35次,而單筆最大的要數(shù)SAP以58億美金收購美國的關(guān)系型數(shù)據(jù)庫Sybase了。
▲ 近年來大型數(shù)據(jù)庫收購事件
國內(nèi)外數(shù)據(jù)庫差距在哪里上文提到的絕大多數(shù)數(shù)據(jù)庫都是由國外廠商甚至國外個(gè)人開發(fā)出來,能稱上優(yōu)秀的國產(chǎn)數(shù)據(jù)庫寥寥無幾,這其中一方面是基礎(chǔ)軟件人才的缺失導(dǎo)致企業(yè)技術(shù)和產(chǎn)品的研發(fā)能力不足,另一方面缺乏優(yōu)質(zhì)客戶的早期陪跑也讓國產(chǎn)數(shù)據(jù)庫的升級(jí)迭代舉步維艱。
- IT產(chǎn)業(yè)發(fā)展較晚、基礎(chǔ)軟件人才缺失
1978年Oracle推出第一版數(shù)據(jù)庫時(shí),我國才剛剛恢復(fù)高考。而計(jì)算機(jī)在國內(nèi)開始被大家大規(guī)模熟知也是在上世紀(jì)90年代,到現(xiàn)在才短短幾十年的歷史。近年來由于互聯(lián)網(wǎng)的興起帶動(dòng)國內(nèi)IT從業(yè)人員的大幅增長,但主要的開發(fā)者還是集中在上層應(yīng)用和功能性軟件的開發(fā)。對(duì)于底層軟件的研發(fā)難度也讓大多IT企業(yè)和從業(yè)人員望而卻步。
數(shù)據(jù)庫是基礎(chǔ)性軟件,好比汽車的引擎一樣,是系統(tǒng)的關(guān)鍵部件,具有“牽一發(fā)而動(dòng)全身“的特性。這要求數(shù)據(jù)庫本身有高穩(wěn)定性、強(qiáng)容錯(cuò)性和高安全性,因此數(shù)據(jù)庫的開發(fā)不僅僅需要大量研發(fā)人員的長期投入,往往還需要配套的嚴(yán)格的測試體系和優(yōu)秀的頂層產(chǎn)品設(shè)計(jì)。不僅如此,數(shù)據(jù)庫本身服務(wù)于行業(yè)應(yīng)用,因此一款成熟的數(shù)據(jù)庫還需要在實(shí)際場景中不斷的歷練打磨。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,例如Oracle、IBM DB2等,都?xì)v經(jīng)幾十年才達(dá)到現(xiàn)在的版本。
雖然有基礎(chǔ)軟件“國產(chǎn)自主可控”的政策推動(dòng),但國內(nèi)大型銀行、運(yùn)營商等核心交易、計(jì)費(fèi)系統(tǒng)長期依賴于Oracle、IBM等數(shù)據(jù)庫系統(tǒng)。對(duì)于大型企業(yè)而言,核心系統(tǒng)是其業(yè)務(wù)的命脈,而數(shù)據(jù)庫又是其中的基石,數(shù)據(jù)庫本身的穩(wěn)定性和安全性優(yōu)先于一切,因此對(duì)他們而言,核心系統(tǒng)的完全替代并非易事。
雖然數(shù)據(jù)庫國產(chǎn)化舉步維艱,但并非沒有機(jī)會(huì),隨著這些年的技術(shù)積累,國內(nèi)也出現(xiàn)了一些優(yōu)秀的數(shù)據(jù)庫企業(yè)。
如達(dá)夢數(shù)據(jù)庫已經(jīng)在國家電網(wǎng)、中鐵建等一大批的央企的核心系統(tǒng)中獲得了大規(guī)模的應(yīng)用,南大通用在中國銀行、中國聯(lián)通等大型企業(yè)也都有不錯(cuò)的商業(yè)落地。創(chuàng)業(yè)公司中如PingCap、Kyligence、柏睿、巨杉數(shù)據(jù)庫、偶數(shù)科技、濤思數(shù)據(jù)等國產(chǎn)數(shù)據(jù)庫廠商也取得了可喜的成績。另外國內(nèi)有技術(shù)實(shí)力的互聯(lián)網(wǎng)巨頭如阿里巴巴等也投入了大量人力在底層數(shù)據(jù)庫上,研發(fā)了如OceanBase等優(yōu)秀的數(shù)據(jù)庫。
無論未來國產(chǎn)數(shù)據(jù)庫走向如何,這些投入在底層基礎(chǔ)軟件研發(fā)的公司永遠(yuǎn)值得大家尊敬。
新的挑戰(zhàn)帶來新的機(jī)遇縱觀數(shù)據(jù)庫和企業(yè)信息化軟件的發(fā)展史,往往都是需求驅(qū)動(dòng)技術(shù)的更新迭代。近年來隨著云計(jì)算、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等場景的提出和落地,對(duì)數(shù)據(jù)庫的要求也越來越高,隨之也帶來數(shù)據(jù)庫技術(shù)本身的發(fā)展。
云計(jì)算的發(fā)展讓所有IT基礎(chǔ)設(shè)施都有云化的可能,在數(shù)據(jù)庫領(lǐng)域也有DBaaS(Database as a Service)數(shù)據(jù)庫被提出,而其中比較有代表性的如AWS的RedShift,獨(dú)角獸企業(yè)Snowflake等。
▲ DBaaS部分?jǐn)?shù)據(jù)庫系統(tǒng)舉例
在大數(shù)據(jù)生態(tài)下,圍繞Hadoop和新的流式計(jì)算等大數(shù)據(jù)框架有一系列新型的數(shù)據(jù)倉庫方案被提出;隨著人工智能領(lǐng)域的蓬勃發(fā)展,在需要邏輯推理的應(yīng)用場景中,如風(fēng)控&反欺詐、ChatBot等,知識(shí)圖譜是其核心模塊。而知識(shí)圖譜本身的存儲(chǔ)可以利用圖數(shù)據(jù)庫如Neo4j、GraphDB等來構(gòu)建和存儲(chǔ);另外垂直行業(yè)的場景下,由于其數(shù)據(jù)本身的行業(yè)特點(diǎn)也可能需要特殊的數(shù)據(jù)庫才能更好的支持,如剛剛完成D輪融資的InfluxDB就是應(yīng)用于物聯(lián)網(wǎng)場景的數(shù)據(jù)庫。另外一些新的需求如OLAP和OLTP的同時(shí)支持;對(duì)非結(jié)構(gòu)化文本甚至圖片的支持,未來也可能是大家關(guān)注的方向。
在當(dāng)前數(shù)據(jù)大爆炸的時(shí)代,對(duì)數(shù)據(jù)的存儲(chǔ)和處理要求也越來越高,也將驅(qū)動(dòng)新一輪的數(shù)據(jù)庫系統(tǒng)的研發(fā)。在去國產(chǎn)自主可控的背景下,隨著底層技術(shù)積累越來越深,國產(chǎn)數(shù)據(jù)庫也存在著巨大的商業(yè)機(jī)會(huì)。
關(guān)鍵詞:機(jī)遇,挑戰(zhàn),數(shù)據(jù),國產(chǎn)