一個在 GitHub 上标星超 2 萬的數據庫,究竟是什麽來頭?
原來,這正是最近大火的向量數據庫之一、首個在這一賽道開源産品Milvus。
自大模型爆火以來,它的關注度也一路飙升,官方顯示,目前 Milvus 已經擁有超過 1000+ 企業用戶。
而就是這麽一個 GitHub 上最流行的向量數據庫,背後公司 Zilliz 已經完成了1.13 億美元融資。
Zilliz 專注于研發面向 AI 應用的向量數據庫系統,旗下有 Milvus、Zilliz Cloud 等産品,目的是爲開發者提供易用性強、性價比高的向量數據庫服務。
這兩天,Zilliz Cloud發布 2.0 重磅更新,更是帶起一波業界對向量數據庫的讨論熱潮。
大模型技術進展日新月異,向量數據在風口浪尖上也起起伏伏,不少人說它是給 AI 提供長期記憶的必備基建,也有人認爲提高大模型上下文長度才是未來方向。
這不,還有谷歌工程師專門爲此擺攤舌戰群儒。
衆說紛纭之下,情況究竟如何?不如來聽聽向量數據庫一線從業者怎麽說。
我們聯系到了 Zilliz 創始人兼 CEO星爵,希望和他聊一聊向量數據庫對于這一輪 AI 浪潮的意義,以及它背後變革的方式。
星爵認爲,大模型的出現給 AI 帶來了新的計算範式CVP Stack,向量數據庫是不可或缺的關鍵:
其中,"C" 代表大模型(ChatGPT)負責向量計算;"V" 代表向量數據庫(vector database),負責向量存儲;"P" 代表 Prompt 工程,負責向量交互。
不僅如此,他還系統解答了在大模型發展過程中,向量數據庫具體起到的作用,以及作爲向量數據庫頭部公司的 Zilliz,又要如何應對這一輪 AI 變革浪潮。
在不更改原意的基礎上,量子位對與星爵的交流内容進行了整理,希望能爲大家帶來一些思考與啓發。
大模型的數據基礎設施
提問:最近向量數據庫很火,能不能先簡單科普一下?
星爵:向量數據庫是一種爲了高效存儲和索引 AI 模型産生的向量嵌入(embedding)數據而專門設計的數據庫。
在傳統的關系型數據庫中,數據通常以表格的形式存儲,而在向量數據庫中,數據以向量的形式存儲。向量(embedding)是一組數值,可以表示一個點在多維空間中的位置。向量數據庫非常擅長處理大量的高維 embedding 數據,這種數據在機器學習和深度學習應用中很常見。
提問:在最近半年裏,向量數據庫被廣泛應用于大模型領域。向量數據庫在大模型領域具體有哪些應用?
星爵:諸如 GPT、Bard、Claude 和 LLaMA 這樣的大模型可以産生海量向量嵌入數據來表達複雜的語義關系,但模型本身的存儲空間有限,無法持久保存這些數據。
向量數據庫就像一塊外置的記憶塊,可以長期存儲這些數據,供模型随時調用。向量數據庫在 LLM 領域的應用主要可以分爲以下幾類 :
1、管理私有數據和知識庫
開發者可以方便高效地将自己的領域數據集或者私有數據集轉換成向量格式,讓大模型直接操作,而無需将這些數據暴露給模型訓練方,有效保護了數據隐私和産權。
2、爲大模型提供實時數據更新。
通過向量數據庫可以爲大模型提供實時的數據更新,解決大模型 " 胡言亂語 " 的問題,而無需頻繁重訓模型。這比直接 fine-tune 模型的成本低很多。
3、實現大模型的個性化和增強。
開發者可以在向量數據庫中添加上下文和自己的數據來擴展大模型的感知能力,實現個性化應用。
4、提供智能體的記憶。
智能體是大模型的一個新興應用場景,用于構建具有獨立智能的虛拟人物、虛拟代理甚至人形機器人。向量數據庫不僅可以幫助智能體記憶其感知的曆史數據和上下文,幫其做出智能決策,還能使其根據長期記憶來實現自我演進。
5、保存大模型的處理結果。
向量數據庫可以持久保存大模型處理過的數據,進行離線分析和挖掘。而不像大模型那樣,用過即棄。比如說,開源項目 GPTCache 可以将大模型的查詢結果緩存至向量數據庫,避免重複計算,提高查詢效率,這有點像 CDN 和 Redis 對網站數據的作用。
6、構建更複雜的 AI 系統。
在很多場景下,我們需要将多個大模型和向量數據庫串聯,實現更強大的功能。其中,多個大模型甚至是多模态模型共同負責處理語義,向量數據庫負責數據流轉。
對于大模型應用開發者來說,向量數據庫是一個非常重要的基礎設施,可以在最大限度發揮大模型威力的同時保護數據隐私,實現更豐富的功能。LLM 和向量數據庫共同推動 AIGC 的發展,二者缺一不可。
全面擁抱大模型
提問:我們了解到,Zilliz Cloud 在兩周前于矽谷發布了全面的産品更新和升級。這次産品升級背後的動機是什麽?
星爵:我們的出發點是all-in 大模型應用開發。
在過去的幾年裏,我們的開源産品 Milvus 和商業産品 Zilliz Cloud 被廣泛應用于計算機視覺、NLP、推薦系統、搜索引擎、自動駕駛和生物制藥等領域。在過去的半年裏,向量數據庫經曆了它的 iPhone 時刻,數百萬 LLM 應用開發者湧入,LLM 應用開發成爲了向量數據庫的殺手級應用場景。衆多的 LLM 應用開發者給我們帶來了大量新興的需求,我們決定擁抱這些變化,爲 LLM 應用開發提供更全面、更便利的支撐。
提問:能不能具體介紹下 Zilliz Cloud 做了哪些更新和升級?
星爵:首先,引入了對 RESTful API 的全面支持。我們看到新進的 LLM 開發者大多具有豐厚的 Web 應用和移動應用開發背景,他們熟悉基于 RESTful API 将多個服務的能力串起來打造強大的應用。有了 RESTful API,開發者可以便捷地将「LLM+ 向量數據庫 + 提示詞」三者連接起來,打造 LLM 應用程序。我們将這種新開發範式稱爲 CVP Stack,能極大提高開發效率。舉個例子說,明道雲的一位工程師使用 RESTful API 一天就完成了 Zilliz Cloud 和對方平台的整合。
其次,提供了動态 schema。此前向量數據庫采用靜态 schema 的方式,需要開發者在建表時根據業務定義數據的 schema,這對于大型企業的成熟業務而言是一種常見的處理方式。然而,當下 AIGC 應用多處于早期快速叠代階段,面向業務效果,需要頻繁調整向量數據庫内的字段,對于這類需求,反複重建 schema 結構以及頻繁的數據重導入會嚴重影響産品的叠代速度。爲此我們引入了動态 schema,支持用戶根據開發需要動态靈活地進行數據處理。
再者,新增了 JSON 數據類型的支持。JSON 是目前最流行且最靈活的數據表示方式之一,被廣泛地應用于應用程序開發中。我們将 MongoDB 的基礎能力搬進了向量數據庫,用戶在 Zilliz Cloud 上可以将 JSON 與 embedding 這兩種超強能力相結合,實現基于 JSON 與 embedding 向量的混合數據表示和處理。
另外,我們還引入了 Partition Key,支持基于 Partition Key 的高效數據過濾;增加了組織和角色的概念,支持基于 Role-Based Access Control(RBAC)的多粒度訪問控制;增加了全面的 LLM 生态支持,深度整合了 OpenAI、Claude、Cohere、LLaMA、Bard、Dolly、LangChain、LlamaIndex 和 Semantic Kernel 等熱門項目。
提問:我們看到 Zilliz Cloud 之前隻提供專有集群一種産品,此次新增了 Serverless 和雲上私有部署兩種産品。這背後的原因是什麽?
星爵:Zilliz Cloud 面向不同階段的用戶提供多種用戶計劃。
基于 Serverless 的入門計劃
爲每位用戶提供一個免費的 Serverless 實例,開箱即用,可支持百萬條數據規模的向量檢索,适合個人開發者和小型開發團隊使用。
專有集群産品
面向大型開發團隊和企業,專注高性能、高可用、高可擴展性、智能運維和優化、數據安全以及敏捷技術支持等企業級特性,并提供性能型、容量型、經濟型三類實例類型,滿足企業不同維度的業務需求。
自托管計劃
允許用戶在其虛拟私有雲(VPC)上部署我們的向量數據庫服務,提供完全控制,它是注重隐私、數據安全和合規的大型企業的理想選擇。
通過提供不同形态的産品,我們希望滿足 LLM 開發者在不同發展階段的需要,讓每一個開發者、每一個開發團隊、每一個企業都能方便地使用向量數據庫服務,加速實現 AI 數據基礎軟件的普及化。
向量數據庫市場的競争和趨勢
提問:今年以來,多家向量數據庫初創公司獲得了大額融資,一些大廠也紛紛把向量數據庫的研發列入日程。你怎麽看待日益升溫的競争?
星爵:競争意味着市場确認和機會。競争的加劇說明向量數據庫的價值得到了市場的廣泛認可,其市場機會和潛力得以證實。與此同時,激烈的競争也在一定程度上推動了技術的進步,這對消費者和整個行業而言都大有裨益,是一件實打實的好事。
當然,這種競争環境迫使公司更加關注客戶的需求。這意味着我們必須密切關注市場趨勢,并适應這些變化,以提供客戶真正需要的解決方案。我們必須不斷創新和優化我們的産品和服務。這對 LLM 開發者和整個行業來說都是有益的。我相信在一個健康的生态系統中,有多個玩家是至關重要的。這爲開發者和客戶提供了選擇,也爲行業設置了标準。
在 Zilliz,我們作爲向量數據庫行業的先行者和開拓者,尤其歡迎這種競争。我們将繼續緻力于推動向量數據庫技術的發展,并與其他參與者一起,爲用戶提供最先進的工具和服務。
提問:剛才你提到了行業标準,在關系型數據庫領域有 TPC-C 和 TPC-H 這樣的 benchmark,向量數據庫領域有類似的 benchmark 麽?
星爵:目前還沒有标準的 benchmark,這給開發者和企業在向量數據庫産品對比和選擇時造成了很多的疑惑和困難。
爲此,我們近期開放了一套開源的向量數據庫評測工具 VectorDBBench(https://github.com/zilliztech/VectorDBBench)。
該工具包含一套标準化數據集,結合多個典型場景,覆蓋數據插入與索引構建、向量查詢、混合查詢、數據容量等多個能力維度,同時支持用戶自定義的數據集與測試場景。
我們歡迎開發者們參與到這個開源 benchmark 的開發和叠代中來,希望 VectorDBBench 能發展成爲像 ClickBench 這樣的行業标準。
提問:你認爲向量數據庫賽道未來競争的核心是什麽?
星爵:向量數據庫作爲一款數據庫産品," 更大更快更便宜 " 是未來發展的核心趨勢。更大是指能處理更大的數據量,這意味着支持百億條數據甚至更高的可擴展性;更快是指更高的性能,包括毫秒級的響應時間和高達數萬的 QPS;更便宜是指更少的資源消耗更高的性價比,在相同資源消耗的情況下提供更強大的性能。
我們的 Zilliz Cloud 基于 Milvus 開源項目,這是全球現在唯一一款真正分布式的向量數據庫系統,能提供數百億條向量數據的毫秒級查詢。得益于 Milvus 的雲原生架構,Zilliz Cloud 高效地實現了多租戶能力,在相同的實例配置下,性能遠超其他競品。舉個例子說,在基于 VectorDBBench 的評測中,Zilliz Cloud 性能是 Pinecone 的兩倍以上,綜合性價比超過 Pinecone 三倍以上。
國内雲産品即将推出
提問:Zilliz Cloud 現在已經支持了 AWS 和 GCP,有沒有計劃支持國内雲平台?
星爵:我們計劃在今年 7 月上旬推出國内的雲服務産品,首期預計會支持阿裏雲、百度雲、騰訊雲和金山雲,并将逐步覆蓋國内更多的雲廠商。Zilliz Cloud 國内雲産品定價相比海外産品将會有較大幅度的下調,緻力于爲國内用戶提供最高性價比的全托管向量數據庫服務。
Zilliz Cloud:
https://zilliz.com/cloud
Milvus:
https://milvus.io
https://github.com/milvus-io/milvus
VectorDBBench:
https://github.com/zilliztech/VectorDBBench
GPTcache:
https://github.com/zilliztech/GPTCache
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~