作者 | 吳思瑾
編輯 | 王與桐
*
AI 大模型時代下,圖片、視頻、自然語言等多模态的非結構化數據量陡增,而大模型支持的 token 數有限,雖然可以在 RLHF 的配合下具備一定程度的 " 短期記憶 ",但正是因爲 " 長期記憶 " 的缺失,導緻大模型經常會出現 " 一本正經地胡說八道 " 的情況。
區别于用來處理結構化數據的傳統數據庫,向量數據庫專門用來存儲、管理、查詢和檢索向量化的非結構化數據;它就像一塊外接的記憶盤,可供大模型随時調用,以形成 " 長期記憶 "。對大模型應用開發者來說,向量數據庫是非常重要的基礎設施。
目前,向量數據庫大緻可分爲兩種。一種是原生向量數據庫産品,比如 Pinecone(累計融資 1.38 億美元)、Milvus(累計融資 1.13 億美元)、Weaviate(累計融資 6770 萬美元)等,另一種是基于傳統數據庫增加的插件式向量搜索引擎産品,如 ClickHouse、ElasticSearch、Redis 等許多開源數據庫都增加了這類産品。
36 氪近期接觸到一家介于兩者之間的第三種數據庫——墨奇 AI 數據庫,它在托管在 AWS 上,可同時支持結構化數據和非結構化數據的存儲、查詢、搜索、聯合分析和處理功能,廣泛應用于圖像檢索、視頻分析、自然語言理解等 AI 驅動場景。
之所以成爲第三種存在,墨奇 AI 數據庫副總裁孟卓飛告訴 36 氪:" 墨奇曾在國内與許多真實用戶進行交流,在這個過程中,公司發現在真實的大模型集成應用場景裏,向量數據往往會與結構化數據做混合查詢,這就決定了其分析查詢的性能是非常重要的,也就是說,向量數據庫在未來很難會作爲一個單獨的技術棧存在。"
官方信息顯示,墨奇團隊在 ClickHouse 的底層架構上結合向量數據特點和任務特性,在分布式、存算分離、檢索策略等方面,對其上百萬行源代碼進行了 30-40% 的修改,同時還集成了自主研發的多尺度樹圖(multi-scale tree graph,簡稱 MSTG)向量索引算法,以實現高性能的結構化數據和非結構化數據聯合處理能力。
除具備結構化數據和非結構化數據的聯合處理能力外,孟卓飛告訴 36 氪墨奇 AI 數據庫還有兩個特點,一是其關系型數據庫的基底,導緻天然對 SQL 在數據類型和語法有完全的兼容性,并具備健全的、成熟的關系型數據庫的周邊生态組建和一些包括數據安全、權限管控、數據備份等在内的完整工具鏈;二是在同等資源用量上處理同樣規模的數據時,墨奇 AI 數據庫消耗計算資源的成本是其他向量數據庫的 1/5。
恒定 500 萬數據量每 100 次 QPS 的月成本對比 圖源:墨奇 AI 數據庫
單 QPS(向量數據庫服務一個 C 端用戶一次查詢可能會消耗的計算資源大小)成本一直是影響企業對向量數據庫選型的關鍵要素,也是向量數據庫廠商們火拼的重要戰場。
依據孟卓飛介紹,墨奇 AI 數據庫在性價比上優于插件式的向量數據庫和原生向量數據庫,而實現這樣的結果,主要與墨奇自研的 MSTG 算法有關。
" 該算法在索引構建、數據分片、搜索調度等方面進行了大量底層調整,在支持用戶向量搜索的同時,可大大節約内存使用。對于過濾查詢,特别是複雜的聯合查詢,由于墨奇 AI 數據庫 AP 類業務的優化和列式存儲特點,将比同類方案提升更爲顯著。"
其實,墨奇并不是向量數據庫行業的新人。在 2022 年之前,墨奇就在生物安全識别場景中,基于超大規模向量和圖的檢索算法創新,實現了超高精度的百億級指紋底庫秒級檢索。在這個過程中,公司積累了大量原創的向量索引算法和複雜場景檢索技術。後來随着業務的發展,公司開始構建面向向量場景的數據庫産品,也在 2022 年通過私有化部署的方式進行市場驗證,數據庫業務當年收入達到千萬級别。
2022 年底,AI 大模型開始爆發,墨奇觀察到海外 AI 生态和技術棧正在以非常驚人的速度叠代,爲了積極擁抱迅速進化的行業和技術生态,和更加高效地進獲取客戶反饋并完成産品叠代,墨奇加速推進以閉源 SaaS 的形态走向海外,面向全球市場。
對于選擇閉源路線的原因,孟卓飛的說法是,首先,原生向量數據庫 Pinecone 的成功已經證明了閉源路線并非完全走不通。截至目前,Pinecone 是目前向量數據庫産品中聲量最大、用戶認知程度最廣的産品,且在 2022 年就已經率先實現了數百萬美元 ARR。
其次,墨奇認爲,開源産品如果想要在海外産生較好的收入,需要産品在性能和功能等方面與競品之間形成足夠強的差異化,否則對中國團隊來說出海會非常困難。而墨奇 AI 數據庫和競品相比,價格是對方的 1/5,在某一些功能上,墨奇覺得隻有自己能夠滿足。因此在這種情況下,閉源不再是用戶付費的障礙。
即便産品獨特的同時兼具性價比,但 " 酒香也怕巷子深 "。如何在海外市場獲取種子用戶是擺在初入者墨奇面前的首要難題。
從行動來看,墨奇選擇了一個讨巧的方式——跟着 Pinecone 的步伐前行吸引和收獲用戶。
孟卓飛告訴 36 氪,Pinecone 在 LangChain 等大語言模型相關的工具鏈和社區中做了非常多貢獻,已經把市場和用戶教育的非常好。因此,有的事情無需重複再做,隻需沿着對方的腳印對目标用戶群體宣傳墨奇 AI 數據庫的産品特點即可。
墨奇有計劃的在這些社區中貢獻對用戶有價值的功能和開源代碼,同時也會和其他數據庫産品一樣分享一些共識性的用法。據介紹,這已經成爲該公司最主要的獲客渠道。
在 2023 年第二季度上線的墨奇 AI 數據庫測試版本中,該公司獲得了上百個活躍用戶,據介紹,其中很大一部分很快在第三季度轉爲首批付費客戶,近半用戶來自插件式向量搜索引擎 PG Vector 和 Pinecone 的用戶群體;通常情況下,一兩次溝通會即可确定是否轉化,周期很短,轉化率也很高,超過 80%。
對中國公司來說,如何 go to market 是全球化路上要面對的首要挑戰,比如招募本土人才,比如運營不同文化和語言的海外社區……但是中國公司也有海外公司難以企及的競争優勢,比如在中國這種超大體量的市場規模、應用場景和豐富的數據的環境中,成長起來的一批優秀工程師,他們是中國公司全球化的底氣。
36 氪會持續關注向量數據庫領域,如果您也是該領域的創業者、從業者,歡迎來聊。