一、數(shù)據(jù)庫是信創(chuàng)基礎軟件重要部分1.1、數(shù)據(jù)庫的定義、分類與發(fā)展

數(shù)據(jù)庫是信創(chuàng)基礎軟件的重要部分,是信息系統(tǒng)的核心。我國信息技術軟硬件底層標準、架構、 產(chǎn)品、以" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 電子商務 > 數(shù)據(jù)庫行業(yè)分析:國產(chǎn)數(shù)據(jù)庫百花齊放,搜索引擎數(shù)據(jù)庫風口已至

數(shù)據(jù)庫行業(yè)分析:國產(chǎn)數(shù)據(jù)庫百花齊放,搜索引擎數(shù)據(jù)庫風口已至

時間:2023-03-19 22:54:01 | 來源:電子商務

時間:2023-03-19 22:54:01 來源:電子商務

(報告出品方/作者:東方證券,浦俊懿,陳超,謝忱,杜云飛)

一、數(shù)據(jù)庫是信創(chuàng)基礎軟件重要部分

1.1、數(shù)據(jù)庫的定義、分類與發(fā)展

數(shù)據(jù)庫是信創(chuàng)基礎軟件的重要部分,是信息系統(tǒng)的核心。我國信息技術軟硬件底層標準、架構、 產(chǎn)品、以及生態(tài)體系被外國把控,這些上游核心技術遭遇美國 “卡脖子”嚴重影響了我國關鍵科 技和產(chǎn)業(yè)的發(fā)展。近年來,中央出臺多項信創(chuàng)相關的支持政策、指導意見,大力支持信創(chuàng)產(chǎn)業(yè)持 續(xù)發(fā)展,努力實現(xiàn)國產(chǎn)替代。數(shù)據(jù)庫作為信息系統(tǒng)的核心,在計算機中承擔著承上啟下的重要作 用,向下調用硬件基礎資源,向上是各種應用軟件的重要支撐引擎。隨著我國數(shù)據(jù)經(jīng)濟的快速發(fā) 展,數(shù)據(jù)量的快速提升,作為信創(chuàng)基礎軟件重要環(huán)節(jié)的國產(chǎn)數(shù)據(jù)庫將迎來重大機遇。

通常意義上的數(shù)據(jù)庫即指數(shù)據(jù)庫系統(tǒng)(Database System,簡稱 DBS),由數(shù)據(jù)庫、數(shù)據(jù)庫管 理系統(tǒng)、應用程序、管理員四部分組成。數(shù)據(jù)庫是指長期存儲在計算機內,有組織的、可共享的 大量數(shù)據(jù)集合,包括數(shù)字、文字、圖像、音頻、視頻等數(shù)據(jù)形式。數(shù)據(jù)庫管理系統(tǒng)(Database Management System,簡稱 DBMS)是位于用戶和操作系統(tǒng)之間的一層數(shù)據(jù)管理軟件,負責對數(shù) 據(jù)進行組織和存儲管理,以及獲取和維護數(shù)據(jù)。應用程序是為了提高數(shù)據(jù)庫系統(tǒng)管理能力的軟件 補充,并可以使數(shù)據(jù)管理過程更加直觀和友好,它負責連接、訪問和管理 DBMS 中存儲的數(shù)據(jù), 允許用戶進行增刪改減。管理員主要職責是運維和管理數(shù)據(jù)庫管理系統(tǒng)。其中,DBMS 是數(shù)據(jù)庫 系統(tǒng)的基礎和核心。

數(shù)據(jù)庫管理系統(tǒng)作為能夠使用戶定義、創(chuàng)建、維護和控制訪問數(shù)據(jù)庫的軟件系統(tǒng),其數(shù)據(jù)結構和 技術架構不斷發(fā)展,呈現(xiàn)關系型數(shù)據(jù)庫和非關系型數(shù)據(jù)庫并存、集中式與分布式并存的技術現(xiàn)狀。 1) 按數(shù)據(jù)結構分為關系型和非關系型:關系型數(shù)據(jù)庫又稱為 SQL 數(shù)據(jù)庫,它建立在關系模型 基礎上,取代了層次模型和網(wǎng)絡模型,以行和列的形式存儲數(shù)據(jù),以便于用戶理解。常見的 Oracle、MySQL 等數(shù)據(jù)庫均為關系型數(shù)據(jù)庫。非關系型數(shù)據(jù)庫也稱作 NoSQL 數(shù)據(jù)庫,采用 不同于關系數(shù)據(jù)“行列”組織的數(shù)據(jù)模型,數(shù)據(jù)結構類型復雜,是對傳統(tǒng)關系型數(shù)據(jù)庫的拓 展與補充。搜索引擎數(shù)據(jù)庫就屬于非關系型數(shù)據(jù)庫。

2) 按技術架構分為集中式與分布式:集中式數(shù)據(jù)庫指將數(shù)據(jù)集中在一臺機器上進行處理的數(shù)據(jù) 庫,分布式則可以通過多個中小機型聯(lián)機來實現(xiàn)大型集中數(shù)據(jù)庫類似的性能。隨著數(shù)據(jù)量的 增長以及高并發(fā)讀寫需求的提升,由于集中式數(shù)據(jù)庫的橫向擴展能力受根本性的架構限制, 難以滿足業(yè)務瞬時高峰性能。因此,采用了分布式計算等新技術的分布式數(shù)據(jù)庫通過將大規(guī) 模負載分散到多個節(jié)點上,滿足了計算量大、數(shù)據(jù)量大、讀取數(shù)據(jù)和運算數(shù)據(jù)更快的需求, 相較于集中式數(shù)據(jù)庫具有更好的可擴展性。

數(shù)據(jù)庫的發(fā)展歷經(jīng)前關系型、關系型和后關系型三大階段,現(xiàn)階段的技術路線更加多元化。前關 系型階段數(shù)據(jù)庫的數(shù)據(jù)模型主要基于網(wǎng)狀模型和層次模型,該類產(chǎn)品在當時較好地解決了數(shù)據(jù)集中存儲和共享的問題,但在數(shù)據(jù)抽象程度和獨立性上存在明顯不足。1970年 IBM公司提出關系模 型,開啟了數(shù)據(jù)庫的關系型階段,DB2、Oracle、MySQL 等現(xiàn)今仍在廣泛應用的關系型數(shù)據(jù)庫都 是在該階段誕生的,目前仍是數(shù)據(jù)庫市場的主流。進入 21 世紀后不久,隨著數(shù)據(jù)規(guī)模的爆炸式增 長、數(shù)據(jù)結構的靈活多變、數(shù)據(jù)應用的不斷深化,傳統(tǒng)數(shù)據(jù)庫逐漸無法滿足更豐富的應用需求, 出現(xiàn)了基于各種新興技術的新型數(shù)據(jù)庫,數(shù)據(jù)庫產(chǎn)業(yè)迎來快速發(fā)展。

我國數(shù)據(jù)庫在海外巨頭壟斷中艱難發(fā)展。在 2000 年以前,我國的數(shù)據(jù)庫市場基本被海外產(chǎn)品 Oracle、SQL Server 和 DB2 壟斷。21 世紀頭十年是我國第一批國產(chǎn)數(shù)據(jù)庫的萌芽期,人大金倉、 達夢數(shù)據(jù)、南大通用和神舟通用等國產(chǎn)數(shù)據(jù)庫通過依托科研院校成立,在 21 世紀初期海外巨頭的 壟斷下艱難生長。2009 年后,隨著互聯(lián)網(wǎng)技術的發(fā)展和去“IOE”浪潮的興起,拉開了數(shù)據(jù)庫國 產(chǎn)替代的序幕。2014 年至今,國產(chǎn)數(shù)據(jù)庫進入了百花齊放的時代,伴隨著信創(chuàng)政策的推動,國產(chǎn) 數(shù)據(jù)庫迎來了發(fā)展曙光。

1.2、搜索引擎數(shù)據(jù)庫簡介

搜索引擎數(shù)據(jù)庫是一類專門用于數(shù)據(jù)內容搜索的 NoSQL 數(shù)據(jù)庫,是非結構化大數(shù)據(jù)處理分析領 域中重要的基礎支撐軟件。在數(shù)據(jù)爆炸式增長的當下,非結構化數(shù)據(jù)已經(jīng)成為了全球數(shù)據(jù)量的主 要來源。非結構化數(shù)據(jù)的數(shù)據(jù)結構復雜,沒有預定義的數(shù)據(jù)模型,不方便用傳統(tǒng)的數(shù)據(jù)庫二維邏 輯來表現(xiàn),但卻蘊含著巨量的價值信息,如何高效地處理分析非結構化數(shù)據(jù)是數(shù)據(jù)庫領域面臨的 機遇和挑戰(zhàn)。在這樣的時代背景下,搜索引擎數(shù)據(jù)庫的概念逐漸發(fā)展起來。它可以提供快速的數(shù)據(jù)檢索服務,是搜索引擎系統(tǒng)的底層支撐。而常見的谷歌、百度等是搜索引擎,它的概念更加寬 泛,不僅涵蓋搜索引擎數(shù)據(jù)庫,還包含了爬蟲、網(wǎng)頁權重計算、檢索詞糾錯、知識圖譜和個性化 推薦等模塊。

搜索引擎數(shù)據(jù)庫的應用廣泛。搜索引擎數(shù)據(jù)庫早期又稱全文數(shù)據(jù)庫、非結構化數(shù)據(jù)庫等,因為搜 索引擎數(shù)據(jù)庫誕生的初期主要是解決關系型數(shù)據(jù)庫中長文本檢索效率低下的問題而誕生的,但是 隨著技術的發(fā)展,目前的搜索引擎數(shù)據(jù)庫已經(jīng)不僅僅可以處理長文本數(shù)據(jù),也可以處理常見的數(shù) 值、日期等結構化數(shù)據(jù),還可以處理 IP、地理位置信息、圖片、音視頻等非結構化數(shù)據(jù)。憑借在 數(shù)據(jù)查詢效率方面的優(yōu)勢,搜索引擎數(shù)據(jù)庫在數(shù)據(jù)處理方面的地位越來越高,并在應用程序搜索、 網(wǎng)站搜索、企業(yè)搜索、智能問答、圖像與語音搜索、語義搜索、業(yè)務分析和安全分析等方面有著 廣泛的應用。

搜索引擎數(shù)據(jù)庫伴隨著搜索引擎的發(fā)展而發(fā)展?;ヂ?lián)網(wǎng)上第一個真正意義的搜索引擎是由蒙特利 爾大學學生 Alan Emtage 于 1990 年開發(fā)的 Archie,開創(chuàng)了現(xiàn)代搜索引擎領域。雖然當時 World Wide Web 還未出現(xiàn),但網(wǎng)絡中文件傳輸已經(jīng)相當頻繁,而這一搜索引擎用于 FTP 服務器上的文 件。1995 年,全文檢索引擎 AltaVista 推出,迅速成為當時最受歡迎的搜索引擎;同年,中國公 司易寶北信推出了全文檢索數(shù)據(jù)庫 TRS Database Server,隨后獲得了國家科技進步二等獎。

1997年 Google、2001年百度搜索引擎相繼問世,Doug Cutting開發(fā)的開源全文索引引擎 Lucene 加入了 Apache 基金會,為后續(xù)多個搜索引擎數(shù)據(jù)庫的誕生提供了基礎,Solr、Elasticsearch 等 常用的搜索引擎數(shù)據(jù)庫都是基于 Lucene 開發(fā)的。Elastic 公司于 2011 年成立,之后迅速成為全球 領先的搜索引擎數(shù)據(jù)庫廠商,并于 2018 年上市。國內廠商星環(huán)科技于 2020 年發(fā)布了新一代搜索 引擎 New Search,并在 2021 年更名為 Scope。

搜索引擎數(shù)據(jù)庫關注度正在提升。2022 年 11 月 17 日,中國信通院組織召開了“搜索型數(shù)據(jù)庫” 技術研討會,會議重點討論了搜索型數(shù)據(jù)庫的市場前景、技術趨勢、應用場景、發(fā)展態(tài)勢等議題, 專家們認為我國在搜索型數(shù)據(jù)庫領域存在取得全球領先地位的可能性,同時搜索型數(shù)據(jù)庫的數(shù)據(jù) 安全問題日益受到業(yè)界的關注。在信創(chuàng)產(chǎn)業(yè)發(fā)展的大背景下,我國關系型數(shù)據(jù)庫的發(fā)展如火如荼, 已有多款關系型數(shù)據(jù)庫產(chǎn)品入選了國家信創(chuàng)產(chǎn)品目錄,一些產(chǎn)品性能已經(jīng)達到國際領先水平,但 是搜索引擎數(shù)據(jù)庫領域的發(fā)展仍較為滯后。隨著信創(chuàng)政策不斷推進,搜索引擎數(shù)據(jù)庫作為高效處 理非結構化數(shù)據(jù)的基礎軟件,關注度正在逐步提升。

二、搜索引擎數(shù)據(jù)庫進入發(fā)展期,有望迎來快速增長

2.1、數(shù)據(jù)庫市場方興未艾,關系型數(shù)據(jù)庫仍為主流

關系型數(shù)據(jù)庫占據(jù)數(shù)據(jù)庫市場絕對主流,搜索引擎數(shù)據(jù)庫份額較低。從全球范圍來看,關系型數(shù) 據(jù)庫仍是目前的主流市場。根據(jù) DB-Engines 統(tǒng)計,關系型數(shù)據(jù)庫流行度占比高達 71.3%,非關 系型數(shù)據(jù)庫僅為 28.7%,其中搜索引擎數(shù)據(jù)庫占 4.6%。所有數(shù)據(jù)庫綜合排名 TOP10 中有 7 家為 關系型數(shù)據(jù)庫。從中國范圍來看,目前我國數(shù)據(jù)庫產(chǎn)品數(shù)量分布呈現(xiàn)以關系型為主,非關系型數(shù) 據(jù)庫為輔的局面。根據(jù)墨天輪統(tǒng)計,截至 2022 年 11 月,我國數(shù)據(jù)庫產(chǎn)品中有關系型數(shù)據(jù)庫 159 個,非關系型數(shù)據(jù)庫 87 個,其中流行度排名前十的全部是關系型數(shù)據(jù)庫。國產(chǎn)搜索引擎數(shù)據(jù)庫產(chǎn) 品僅有兩款。

數(shù)據(jù)庫管理系統(tǒng)市場持續(xù)加快增長。據(jù) Gartner 報告顯示,2021 年全球數(shù)據(jù)庫管理系統(tǒng)市場收入 接近 800 億美元,相比 2020 年增加了 145 億美元,同比增速達到 22.3%,2020 年這個數(shù)字是 19%,市場規(guī)模正在加速增長。據(jù)統(tǒng)計,數(shù)據(jù)庫管理系統(tǒng)市場已連續(xù)六年實現(xiàn)增長,自2017年以 來,市場規(guī)模已經(jīng)翻了一倍,四年的年復合增長率達到 19.7%。

非關系型數(shù)據(jù)庫市場規(guī)模增速顯著高于整體市場,收入占比逐年提升,互聯(lián)網(wǎng)廠商占據(jù)較大市場 份額。據(jù) Gartner 統(tǒng)計,2021 年全球非關系型數(shù)據(jù)庫管理系統(tǒng)的收入達到 148 億美元,約占全球 數(shù)據(jù)庫管理系統(tǒng)總收入的 19%,在 2017 年時該占比僅為 8%,五年內占比也翻了一倍。其中純非 關系型數(shù)據(jù)庫管理系統(tǒng)廠商(Aerospike,Couchbase,Neo4j,MongoDB 等 8 家)的收入達到 23 億美元,大部分收入仍來自于互聯(lián)網(wǎng)廠商的非關系型數(shù)據(jù)庫產(chǎn)品,其中亞馬遜的非關系型數(shù)據(jù) 庫收入達到 64 億美元,占據(jù)非關系型數(shù)據(jù)庫總收入的 43.2%,谷歌的非關系型數(shù)據(jù)庫收入達到 28 億美元,占非關系型數(shù)據(jù)庫總收入的 18.6%。

中國數(shù)據(jù)庫市場規(guī)模增速較快,國產(chǎn)化率有望提升。據(jù)中國信通院發(fā)布的《數(shù)據(jù)庫發(fā)展研究報告 2021》統(tǒng)計,2025 年中國的數(shù)據(jù)庫市場規(guī)模將達到 688 億元,5 年年復合增長率達 23.4%。目 前,海外巨頭仍占據(jù)國內數(shù)據(jù)庫市場較大份額,但國產(chǎn)數(shù)據(jù)庫經(jīng)歷多年沉淀,已經(jīng)具備初步競爭 力。據(jù)《中國信創(chuàng)產(chǎn)業(yè)發(fā)展報告 2021》統(tǒng)計,2020 年數(shù)據(jù)庫國產(chǎn)化率已達 47.4%。根據(jù) IDC 統(tǒng) 計,目前華為、達夢、人大金倉、阿里云等國產(chǎn)數(shù)據(jù)庫軟件已經(jīng)在市場中占有一定份額,未來隨 著國產(chǎn)數(shù)據(jù)庫技術不斷提升,數(shù)據(jù)庫國產(chǎn)化率有望進一步擴張。從行業(yè)來看,2021 年在國內數(shù)據(jù) 庫市場份額中占比最高的是金融行業(yè),達到了 20.2%,其辦公系統(tǒng)和一般系統(tǒng)使用我國數(shù)據(jù)庫產(chǎn) 品的機構數(shù)量已經(jīng)超過 40%。

2.2、數(shù)據(jù)庫廠商競爭日趨激烈

從全球范圍來看,頭部數(shù)據(jù)庫廠商屹立不倒,中下游廠商競爭激烈。根據(jù) Gartner 發(fā)布的 2011- 2021年數(shù)據(jù)庫管理系統(tǒng)市場份額統(tǒng)計顯示,Oracle、微軟、AWS、IBM、SAP等頭部傳統(tǒng)數(shù)據(jù)庫 廠商的市場排名基本穩(wěn)定。近年來隨著互聯(lián)網(wǎng)的不斷發(fā)展和云技術的興起,華為、阿里、谷歌、 騰訊等互聯(lián)網(wǎng)大廠也加入了數(shù)據(jù)庫市場的競爭中,依靠自身的資源優(yōu)勢迅速進入了排名前列。隨著數(shù)字經(jīng)濟快速發(fā)展以及數(shù)據(jù)量的爆發(fā)式增長,新興數(shù)據(jù)庫廠商不斷涌現(xiàn),中下游廠商之間的競 爭也愈發(fā)激烈,市場排名變動較為明顯。

從中國范圍看,新數(shù)據(jù)庫產(chǎn)品加速涌現(xiàn),頭部廠商競爭仍然激烈。根據(jù)墨天輪統(tǒng)計,2022 年 4 月 時共有 205 個國產(chǎn)數(shù)據(jù)庫產(chǎn)品參與排名,2022 年 11 月這個數(shù)字增長到了 246 個。頭部數(shù)據(jù)庫產(chǎn) 品之間的競爭也非常激烈,PingCAP 旗下的 TiDB 長期位于國產(chǎn)數(shù)據(jù)庫榜首,其他數(shù)據(jù)庫產(chǎn)品的 排名則變動明顯。中國數(shù)據(jù)庫領域暫未出現(xiàn)某幾個廠商獨大的現(xiàn)象。搜索引擎數(shù)據(jù)庫中 Elasticsearch 占據(jù)優(yōu)勢地位。根據(jù) DB-Engines 數(shù)據(jù),2022 年 11 月共有 26 款搜索引擎數(shù)據(jù)庫參與排名,Elasticsearch 自 2016 年起就一直占據(jù)榜首地位,Splunk 和 Solr 也 一直居于前三名。排名中僅有兩款中國產(chǎn)品,一款為阿里云日志服務,排名第 19 位,另一款為日 志易,排名第 24 位。

多模數(shù)據(jù)庫、人工智能、數(shù)據(jù)安全將成為未來數(shù)據(jù)庫領域的發(fā)展趨勢。隨著數(shù)據(jù)量的爆炸式增長, 數(shù)據(jù)類型也愈發(fā)豐富多變,對數(shù)據(jù)庫的能力提出了挑戰(zhàn),數(shù)據(jù)庫技術也呈現(xiàn)出快速革新的趨勢。 目前多模數(shù)據(jù)庫、人工智能和安全能力成為了數(shù)據(jù)庫領域的主要技術發(fā)展趨勢。

1) 多模數(shù)據(jù)庫:隨著數(shù)據(jù)庫發(fā)展進入后關系型階段,數(shù)據(jù)結構也越來越多樣化,半結構化、非 結構化數(shù)據(jù)占比不斷提升。對于數(shù)據(jù)結構多樣但是每種數(shù)據(jù)存儲功能需求不高的用戶來說, 不同的數(shù)據(jù)結構采用不同數(shù)據(jù)庫存儲的話成本較高,使用也比較繁瑣。多模數(shù)據(jù)庫的出現(xiàn)滿 足了靈活的數(shù)據(jù)存儲的管理需求,將各種類型的數(shù)據(jù)進行統(tǒng)一的管理,降低了運維和開發(fā)成 本,是未來數(shù)據(jù)庫技術發(fā)展的趨勢。對于搜索引擎數(shù)據(jù)庫來說,多模型可能更加重要,能夠 在不同的數(shù)據(jù)結構中實現(xiàn)高精度的搜索是搜索引擎數(shù)據(jù)庫一直追求的目標;

2) 人工智能:在大數(shù)據(jù)時代,傳統(tǒng)數(shù)據(jù)庫的業(yè)務能力逐漸無法滿足龐大的數(shù)據(jù)處理與分析需求, 越來越多的數(shù)據(jù)庫廠商將人工智能技術融入到了數(shù)據(jù)庫領域,通過 AI 來使得數(shù)據(jù)庫實現(xiàn)計 算和存儲資源的優(yōu)化、異常識別、數(shù)據(jù)可視化等功能,確保數(shù)據(jù)庫高效運行。在搜索引擎數(shù) 據(jù)庫領域,機器學習算法也已經(jīng)得到了廣泛應用。Elasticsearch 中現(xiàn)在已經(jīng)內置了機器學習 模塊,可以方便地實現(xiàn)可視化、數(shù)據(jù)分類、異常檢測等功能。

3) 安全技術:近年來數(shù)據(jù)泄露等安全事件頻發(fā),以及數(shù)據(jù)上云的趨勢顯著,數(shù)據(jù)庫面臨的安全 隱患也更加多樣,對數(shù)據(jù)庫的數(shù)據(jù)安全提出了挑戰(zhàn)。在我國信創(chuàng)產(chǎn)業(yè)發(fā)展的大趨勢下,數(shù)據(jù) 庫的自主可控與安全更是重要的基礎?;陔[私計算和區(qū)塊鏈技術的數(shù)據(jù)庫產(chǎn)品是近期的發(fā) 展方向,協(xié)助提升數(shù)據(jù)可信與安全。

2.3、信創(chuàng)加速數(shù)據(jù)庫國產(chǎn)替代,搜索引擎數(shù)據(jù)庫空間廣闊

國家多項政策促進數(shù)據(jù)庫行業(yè)發(fā)展,信創(chuàng)推動國產(chǎn)數(shù)據(jù)庫加速替代。2018 年,中興通訊被列入美 國實體清單后,《科技日報》總結出了 35 項被外國“卡脖子”的關鍵技術,數(shù)據(jù)庫就是其中一項。 近年來,國家相繼頒布多項政策推動數(shù)據(jù)庫關鍵技術發(fā)展,信創(chuàng)政策在黨政領域的陸續(xù)落地也促 進了國產(chǎn)數(shù)據(jù)庫對國外產(chǎn)品的替代。目前國產(chǎn)替代在黨政行業(yè)的實施已經(jīng)初見成效,我們預計未 來國產(chǎn)數(shù)據(jù)庫在金融、能源、教育、電信等更多行業(yè)將加速落地,國產(chǎn)數(shù)據(jù)庫廠商迎來重大發(fā)展 機遇。

數(shù)字化轉型持續(xù)推進,搜索引擎數(shù)據(jù)庫的重要性逐漸提高。在信創(chuàng)產(chǎn)業(yè)政策的推動下,國產(chǎn)數(shù)據(jù) 庫有望快速發(fā)展,但目前國產(chǎn)化替代的主流仍是關系型數(shù)據(jù)庫,主要用于處理結構化數(shù)據(jù),而非 結構化數(shù)據(jù)在日常業(yè)務中占據(jù)多數(shù),具有優(yōu)異全文搜索能力的搜索引擎數(shù)據(jù)庫的重要性愈發(fā)體現(xiàn)。隨著我國數(shù)字化轉型浪潮的進一步推動與數(shù)字經(jīng)濟的蓬勃發(fā)展,非結構化數(shù)據(jù)的占比將越來越高, 搜索引擎數(shù)據(jù)庫正成為非結構化大數(shù)據(jù)處理分析領域中重要的基礎支撐軟件。目前國內市場上占 據(jù)主流的搜索引擎數(shù)據(jù)庫仍為 Elasticsearch,亟需一款高效優(yōu)秀的國產(chǎn)搜索引擎數(shù)據(jù)庫作為國產(chǎn) 化替代。

Elasticsearch 安全風險加劇,搜索引擎數(shù)據(jù)庫自主可控和國產(chǎn)化替代迫在眉睫。在過去幾年內, Elasticsearch 數(shù)據(jù)泄露事件頻發(fā),甚至一個月被曝 6 次數(shù)據(jù)泄露。2019 年,2000 萬條個人信息 和稅務記錄通過 Elasticsearch被泄露。2021年,Elasticsearch 服務器再次發(fā)生泄露,超過 8.7 億 條記錄或 147GB 個人信息數(shù)據(jù)在網(wǎng)上曝光。根據(jù) Group-IB 報告顯示,2021 年網(wǎng)絡上暴露的 Elasticsearch 實例超過 10 萬個,約占 2021 年暴露數(shù)據(jù)庫總數(shù)的 30%。Elasticsearch 數(shù)據(jù)泄露 事件頻發(fā)給國內各行業(yè)用戶敲響了數(shù)據(jù)安全的警鐘。同時,Elasticsearch 在 2021 年更改了其開 源協(xié)議,對其產(chǎn)品的許可協(xié)議增加了限制,也帶來了更多的商業(yè)風險。對我國搜索引擎數(shù)據(jù)庫領 域來說,自主可控和國產(chǎn)化替代迫在眉睫。

搜索引擎數(shù)據(jù)庫市場前景廣闊。我們對全球搜索引擎數(shù)據(jù)庫的市場規(guī)模進行了簡單測算,根據(jù) Gartner 預測,到 2025 年全球圖數(shù)據(jù)庫的市場規(guī)模將達到 32 億美元。根據(jù) DB-Engines 數(shù)據(jù)庫類 型流行度的占比,我們預計 2025 年全球搜索引擎數(shù)據(jù)庫市場規(guī)模將達到 82 億美元,整體數(shù)據(jù)庫 市場規(guī)模將超過1700億美元。在假設中國搜索引擎數(shù)據(jù)庫市場占全球市場比例等于整體數(shù)據(jù)庫市 場的情況下,我們預計 2025 年中國的搜索引擎數(shù)據(jù)庫市場將達到 32 億元,占全球搜索引擎數(shù)據(jù) 庫市場的 5.6%。

三、重點企業(yè)分析

3.1、國外廠商

3.1.1、Elastic:搜索引擎數(shù)據(jù)庫領域龍頭

Elastic 是搜索引擎數(shù)據(jù)庫領域的行業(yè)龍頭,主要提供分布式搜索和數(shù)據(jù)分析引擎產(chǎn)品。Elastic 公司成立于 2012 年,主要產(chǎn)品為 Elastic Stack 這一集成軟件平臺,Elasticsearch 是其核心的分 布式搜索和分析引擎,也可用視作為分布式的搜索分析型數(shù)據(jù)庫。Elasticsearch 可以適用于所有 數(shù)據(jù)類型,能夠應用到日志監(jiān)測、基礎架構監(jiān)測、企業(yè)搜索、時序數(shù)據(jù)處理等多種場景,但由于 其核心能力在快速搜索與分析上,Elasticsearch 并不適合于 OLTP 及事務支持等場景。盡管成立 時間較晚,但經(jīng)過多年的快速發(fā)展,目前 Elasticsearch 已經(jīng)成為了搜索引擎數(shù)據(jù)庫領域的龍頭企 業(yè),在 DB-Engines 的搜索引擎數(shù)據(jù)庫排名上,自 2016 年起就長期處于榜首位置。根據(jù) Elastic的招股書,截至 2018 年 7 月,Elastic 產(chǎn)品下載量已經(jīng)超過 3.5 億次,擁有 5500 多家企業(yè)客戶, 開源社區(qū)用戶超過 10 萬人。

Elasticsearch 是一個分布式、高擴展、高實時的搜索與數(shù)據(jù)分析引擎,是 Elastic 產(chǎn)品棧的核心。 Elasticsearch 完美封裝了 Lucene 核心庫,設計了友好的 RESTful API,開發(fā)者無需過多關注底層 機制便可以輕松使用。Elasticsearch 具有良好的可擴展性,提供了分布式的實時文件存儲和搜索, 并且支持通過HTTP網(wǎng)絡接口交互。Elasticsearch 與名為Logstash 的數(shù)據(jù)收集和日志解析引擎以 及名為 Kibana的分析和可視化平臺一起作為一個名為Elastic Stack 的集成解決方案推出,幫助 客戶完成從日志收集、數(shù)據(jù)搜索到可視化分析的全流程。

開源與商業(yè)化相結合的商業(yè)模式帶來了收入的高速增長。Elastic 公司采用開源分發(fā)策略,用戶可 以免費下載基礎版本的軟件,同時也向企業(yè)客戶提供不同功能權限級別的 SaaS 形式訂閱方案。 2021 年,公司營業(yè)收入達到 8.62 億美元,2016-2021 年的年復合增長率達到了 57.8%。從收入 分布占比情況來看,訂閱制的收入占比逐年提升,2021 年達到了 83.7%。

3.1.2、Solr:企業(yè)級開源搜索平臺

Apache Solr 是一個完全開源的企業(yè)級搜索平臺。Solr 于 2006 年首次發(fā)布到開源,長期位于 DBEngines 搜索引擎數(shù)據(jù)庫流行度排名榜首,直到近年來才被 Elasticsearch 和 Splunk 超越,目前位 于 DB-Engines 搜索引擎數(shù)據(jù)庫流行度第三名。Solr 和 Elasticsearch 一樣基于 Apache Lucene 實 現(xiàn),具有高度的可擴展性,在企業(yè)中被廣泛應用。

Solr 相比 Elasticsearch 定制能力更強。Solr 提供了標準的 XML、JSON 和 HTTP 開放接口,開 發(fā)者可以輕松用 Solr 構建應用程序。Solr 具有高度的可擴展性和容錯能力,通過 Apache Zookeeper,開發(fā)者可以方便地進行復制、分發(fā)和自動運維。由于 Solr 是完全開源的項目,開發(fā) 者可以任意修改代碼來進行插件擴展。而 Elasticsearch 由于背靠商業(yè)公司,其功能豐富度和完善 度要更貼合業(yè)界,相比于 Solr 更注重于開箱即用,很多功能內置在軟件中而不需要開發(fā)者進行配 置定義,針對不同場景和行業(yè)提供的解決方案也更加豐富,學習成本和運維成本顯著低于 Solr。

3.2、國內廠商

3.2.1、拓爾思:以自然語言處理為核心的非結構化大數(shù)據(jù)搜索

拓爾思是國內人工智能和大數(shù)據(jù)技術服務提供商,是語義智能領域的領導者。拓爾思成立于1993 年,2011 年在創(chuàng)業(yè)板上市,以“語義智能+”為主要發(fā)展戰(zhàn)略,業(yè)務覆蓋三大板塊:內容安全和 互聯(lián)網(wǎng)空間治理、數(shù)字政府和數(shù)據(jù)智能,應用于黨政、金融、能源、互聯(lián)網(wǎng)傳媒等多個行業(yè)與市場。公司作為國內擁有自主核心技術的人工智能及大數(shù)據(jù)產(chǎn)品服務的領導者,在多個細分領域具 有領先地位和品牌優(yōu)勢,目前公司的產(chǎn)品已經(jīng)服務于 8000 多家機構客戶,受到市場廣泛認可。

拓爾思是國內中文搜索引擎技術的開創(chuàng)者。在拓爾思成立之初,公司就推出了第一代全文檢索系 統(tǒng) TRS Database Server,并服務于新華社、專利出版社等用戶。隨著大數(shù)據(jù)時代的到來,拓爾 思又順勢推出了功能更加強大的 TRS Hybase 海貝大數(shù)據(jù)管理系統(tǒng),服務用戶已覆蓋公安大數(shù)據(jù)、 媒體大數(shù)據(jù)、政府大數(shù)據(jù)以及專利大數(shù)據(jù)等眾多細分行業(yè)。目前,海貝大數(shù)據(jù)管理系統(tǒng)已經(jīng)推出 了 9.0 版本,吸收了拓爾思在信息檢索和 NLP 領域多年的技術積累,從內核到系統(tǒng)完全國產(chǎn)自研, 保證了搜索引擎的自主可控與高效安全。

海貝大數(shù)據(jù)管理系統(tǒng)更適配中國應用場景,相比海外開源搜索引擎數(shù)據(jù)庫產(chǎn)品性能更優(yōu)。海貝自 帶的 TRS 分詞器實現(xiàn)了單一分詞器覆蓋全語種分詞,支持中日韓等方塊文字和英法德等拉丁語系, 還支持藏文、蒙文、維文等少數(shù)民族語言,應用場景全面。公司基于其優(yōu)勢所在的自然語言處理技術,實現(xiàn)了非結構化數(shù)據(jù)一體化的搜索引擎,利用基于深度學習的基因編碼計算技術,實現(xiàn)了 圖像和文本一起混合搜索,進一步提高了搜索精度。相比于 Elasticsearch 等海外開源同類產(chǎn)品, 海貝的應用功能集成度更高,能夠支撐上層應用的快速開發(fā),直接提供更多企業(yè)級特性,便于客 戶上手。

并且,作為拓爾思自主研發(fā)的產(chǎn)品,海貝大數(shù)據(jù)管理系統(tǒng)的安全性更高,易用性更強。 目前,海貝已經(jīng)實現(xiàn)對國內主流信創(chuàng)廠商相關產(chǎn)品的全面兼容適配,可適用于基于信創(chuàng)軟硬件平 臺搭建的完全自主可控的大數(shù)據(jù)應用,全面保障大數(shù)據(jù)系統(tǒng)的安全性。

3.2.2、星環(huán)科技:國產(chǎn)大數(shù)據(jù)基礎軟件領導者

星環(huán)科技擁有自主研發(fā)的成熟大數(shù)據(jù)軟件替代方案,是國家信創(chuàng)基礎軟件領域的重要參與者。星 環(huán)科技成立于 2013 年,一直專注于大數(shù)據(jù)基礎軟件平臺的研發(fā)與推廣。公司成立初期以 Hadoop 和 Spark 框架為基礎,在發(fā)展過程中不斷進行自主研發(fā),目前已經(jīng)自主研發(fā)了大數(shù)據(jù)與云基礎平 臺、分布式關系型數(shù)據(jù)庫、數(shù)據(jù)開發(fā)與智能分析工具的軟件產(chǎn)品全系列產(chǎn)品,為企業(yè)數(shù)字化轉型 提供了真正的國產(chǎn)數(shù)字底座,完全滿足國家信創(chuàng)自主可控的安全要求,并在很多產(chǎn)品的性能上要 領先于國外主流產(chǎn)品。

Transwarp Scope 是星環(huán)科技自主研發(fā)的分布式搜索引擎,能提供比 Elasticsearch 更強的擴展 性與可靠性。隨著數(shù)據(jù)量的劇增以及性能要求的不斷提高,Elasticsearch 在集群擴展性、可靠性、 數(shù)據(jù)讀寫性能、以及數(shù)據(jù)恢復速度等方面越來越難以滿足用戶的需求。星環(huán)科技自主研發(fā)了 Scope 這一分布式搜索引擎產(chǎn)品,提供 PB 級海量數(shù)據(jù)的交互式多維檢索分析服務,能夠實現(xiàn)高 可靠、高擴展性的全文搜索與靈活查詢。并且能夠兼容常用的 Elasticsearch 讀寫接口,擁有比 Elasticsearch 更強的數(shù)據(jù)一致性和可靠性。為了更方便地實現(xiàn)國產(chǎn)替代,星環(huán)科技還提供了從 Elasticsearch 平滑遷移到 Scope 的方案,保障國產(chǎn)替代能夠順利進行。

Scope 是為數(shù)不多的國產(chǎn)搜索引擎數(shù)據(jù)庫產(chǎn)品之一。目前國內主流的數(shù)據(jù)庫產(chǎn)品仍是關系型數(shù)據(jù) 庫,非關系型數(shù)據(jù)庫雖然正處于蓬勃發(fā)展期,但搜索引擎數(shù)據(jù)庫受到的關注仍較少。根據(jù)墨天輪 統(tǒng)計,截至 2022 年 11 月,國產(chǎn)搜索引擎數(shù)據(jù)庫僅有兩款產(chǎn)品,其中之一就是 Scope。

(本文僅供參考,不代表我們的任何投資建議。如需使用相關信息,請參閱報告原文。)

精選報告來源:【未來智庫】

關鍵詞:數(shù)據(jù),索引,風口,分析,行業(yè),國產(chǎn)

74
73
25
news

版權所有? 億企邦 1997-2025 保留一切法律許可權利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關閉