這不是一次簡單的版本升級,而是一次全面重構(gòu)
時間:2022-04-12 20:06:01 | 來源:行業(yè)動態(tài)
時間:2022-04-12 20:06:01 來源:行業(yè)動態(tài)
,也是我們過去三年在向量數(shù)據(jù)庫領(lǐng)域探索之后的集大成之作。在經(jīng)過對架構(gòu)進行全面重新設(shè)計,及 9 個 RC 版本的迭代后,我們正式宣布 Milvus 2.0 的 GA。 Milvus 的用戶將由此能夠獲得生產(chǎn)級可用的開源向量數(shù)據(jù)庫系統(tǒng),它可以部署在任意云基礎(chǔ)設(shè)施上,使用更加便利,性能更加強大,整體成本也更為優(yōu)化。Milvus 工程總監(jiān)欒小凡如此描述此次 GA 對 Milvus 項目的意義。
我們在迭代了 19 個版本后發(fā)布了 Milvus 的 1.0 版本,并獲得了全球近 1000 家用戶的實踐驗證。但我們依然看到了它的很多局限性,比如實時性與效率的沖突,成本的高昂,可擴展性和彈性的不足。于是我們開始了 2.0 版本的重構(gòu)。 欒小凡提及的這些局限,充分說明目前 AI 系統(tǒng)開發(fā)者在面對生產(chǎn)落地時,在算法和模型之外,也同樣面臨更為切實的權(quán)衡:
- 非結(jié)構(gòu)化數(shù)據(jù)相比傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù),已經(jīng)占據(jù)壓倒性地位;
- 數(shù)據(jù)新鮮度非常重要,數(shù)據(jù)科學(xué)家們更希望能夠擁有實時處理能力,而非忍受對 T 1 的妥協(xié);
- 面對生產(chǎn)實踐環(huán)境,數(shù)據(jù)處理的成本和性能更加重要,但現(xiàn)有的方案卻仍然與需求存在距離;
- 數(shù)據(jù)平臺能夠自如的部署在各種云基礎(chǔ)設(shè)施之上,全面云原生化勢在必行。
的確,隨著 AI 應(yīng)用的大規(guī)??焖倨占?,一套 AI 系統(tǒng)需要應(yīng)對的業(yè)務(wù)數(shù)據(jù)量呈幾何級數(shù)增長。這其中以圖形、視頻、音頻為代表的非結(jié)構(gòu)化數(shù)據(jù)為主。目前業(yè)務(wù)處理這類非結(jié)構(gòu)化數(shù)據(jù)的主流的做法是將數(shù)據(jù)通過算法先轉(zhuǎn)化成向量(embedding vector),之后通過向量數(shù)據(jù)庫平臺進行向量近似性搜索,以實現(xiàn)對這些數(shù)據(jù)的搜索查詢等需求。在最近的人工智能頂會 NeurIPS 上,Google、Facebook 及 Microsoft 的 AI 團隊向業(yè)界公開了數(shù)個全新的