緻力于構建嵌入 / 矢量化模型,幫助大型語言模型( LLM )獲得更好檢索質量。
10 月 31 日,清華大學 2012 屆姚班校友,現任斯坦福大學助理教授馬騰宇在社交媒體上宣布創業消息,成立 Voyage AI ——一家緻力于構建嵌入 / 矢量化模型,幫助大型語言模型( LLM )獲得更好檢索質量的初創。
Voyage AI 聯合創始人兼 CEO 馬騰宇介紹道,Voyage 團隊由一群才華橫溢的人工智能研究人員組成,包括斯坦福大學教授以及來自斯坦福大學、MIT 的博士。公司希望賦能客戶構建更好的 RAG 應用程序,也提供定制化服務,将客戶 LLM 産品準确率提升「10-20% 。」檢索增強生成,通常稱爲 RAG,是一種強大的聊天機器人的設計模式,其中,檢索系統實時獲取與查詢相關的經過驗證的源 / 文檔,并将其輸入生成模型 ( 例如 GPT-4 ) 以生成響應。我們知道,聊天機器人的有效性取決于它提取的文檔的準确性和相關性。如果它檢索到的内容,除了确切信息還包括其他不相關信息,LLM 就可能會産生幻覺。嵌入,作爲文檔和查詢的表示或「索引」,它們負責确保檢索到的文檔包含與查詢相關的信息,也直接影響 RAG 的質量。有了高質量的檢索數據,RAG 可以确保生成的響應不僅是智能的,而且在上下文中是準确和知情的。
官宣當天,Voyage AI 還發布了一種新的最先進的嵌入模型和 API(比 OpenAI 更優) 。
官網顯示,公司學術顧問包括斯坦福大學教授 Christopher Manning、斯坦福大學副教授 Christopher Ré 以及斯坦福大學首位紅杉講席教授李飛飛。
斯坦福大學首位紅杉講席教授李飛飛對公司成立表示祝福。
馬騰宇在普林斯頓大學讀博時的導師 Sanjeev Arora 教授對公司的成立表示祝賀。一、被低估的嵌入模型探索盡管生成式人工智能最近取得了顯著進步,但是,嵌入模型相對不受重視和探索。Voyage AI 正在嘗試解決這個問題。公司團隊在斯坦福人工智能實驗室和麻省理工學院 NLP 小組就訓練嵌入模型進行了 5 年多的前沿研究。他們獲得了一個 SOTA 模型——比任何其他公開可用的模型具有更高的檢索精度,更長的上下文窗口、更低延遲和以更實惠的價格進行高效推理。在大量文本嵌入基準測試 MTEB 上,公司通用嵌入模型 voyage-01 優于 OpenAI 最新的文本嵌入模型 5 個點以上 !(見下左圖。)
公司通用嵌入模型 voyage-01 優于 OpenAI 最新的文本嵌入模型 5 個點以上(左)。其模型也将在未來幾個月内迅速改進。在自建的另外幾個數據集 RWID 上,表現依然領先(右)。 不過,Voyage AI 認爲 MTEB 現在有點過度使用,因爲人們有時會在這些數據集上訓練基礎嵌入 ( 盡管他們不這樣做 ) 。爲了進行更全面的評估,他們另外構建了 9 個數據集 ,稱作 RWID(real-world industry domains),範圍覆蓋從技術文檔到餐廳評論和新聞。結果發現,公司的基本模型表現比 OpenAI 的嵌入和所有其他流行的開源模型都要好。
Voyage AI 構建了 9 個額外的數據集 RWID(real-world industry domains),範圍從技術文檔到餐廳評論和新聞。結果發現,基本模型的表現比 OpenAI 的嵌入和所有其他流行的開源模型都要好。 在大模型時代,采用 RAG 架構的 LLM 應用,不僅能盡量減少大模型幻覺,也是破解決知識時效、超長文本等大模型本身制約和不足的必要技術。
6 月,紅杉資本發布了一篇關于大語言模型技術棧的文章 The New Language Model Stack,采訪了 33 家公司——從種子階段的初創公司到大型上市企業。 有 88% 受訪者表示,檢索機制(如向量數據庫)仍将是其堆棧的關鍵部分。
檢索模型的相關上下文以進行推理有助于提高結果質量,減少「幻覺」(不準确),并解決數據新鮮度問題。有些使用專門構建的矢量數據庫(Pinecone、Weaviate、Chroma、Qdrant、Milvus 等),而另一些則使用 pgvector 或 AWS 産品。
88% 受訪者表示,檢索機制(如向量數據庫)仍将是其堆棧的關鍵部分。同樣在 6 月,著名矽谷風險投資機構 A16Z 在 Emerging Architectures for LLM Applications 一文中梳理了新興的 LLM 應用堆棧的架構。
其中針對數據預處理 / 嵌入環節,文章寫道,「對于嵌入,大多數開發人員使用 OpenAI API,特别是 text-embedding-ada-002 模型。它易于使用(特别是如果您已經在使用其他 OpenAI API),提供相當不錯的結果,并且變得越來越便宜。一些大型企業也在探索 Cohere,它更專注于産品工作,更專注于嵌入,并且在某些場景下具有更好的性能。對于喜歡開源的開發人員來說,Hugging Face 的 Sentence Transformer 庫是一個标準。
還可以針對不同的用例創建不同類型的嵌入;這在今天是一個利基實踐,但是一個很有前途的研究領域。」其實更早之前,OpenAI 研究科學家 Andrej Karpathy 就在微軟 Build 2023 大會主題演講中談到了通過一些工具和插件爲 LLM 提供額外的功能或資源,以提高其性能。他也提到未來對更通用技術的探索,包括開發檢索增強模型。不過,現實世界的場景總是比學術更具挑戰性,畢竟每個行業都有其獨特的術語和知識庫。
目前, Voyage 也提供爲編程和金融領域量身定制的嵌入模型,接下來将服務更多行業。Voyage AI 表示,還可以微調小型、未标記的公司特定數據集上的嵌入,爲 LangChain、OneSignal、Druva 和 Galpha 等試點客戶提升 10-20% 準确率。
馬騰宇表示,已經将價格降低到與 OpenAI ada 相同,還将免費試用從 5K 文檔增加到至少 5000 萬 tokens 。 二、關于馬騰宇清華大學 2012 屆姚班校友,現任斯坦福大學助理教授,博士曾就讀于普林斯頓大學,師從 Sanjeev Arora 教授,其主要研究興趣爲機器學習和算法方面的研究,課題包括非凸優化、深度學習及其理論、強化學習、表示學習、分布式優化、凸松弛、高維統計等。2021 年,馬騰宇獲斯隆研究獎(Sloan Research Fellowships),該獎項素有諾獎風向标的美譽,旨在獎勵職業生涯早期的傑出青年學者。2018 年,馬騰宇與人合作的論文 Algorithmic Regularization in Over-parameterized Matrix Sensing and Neural Networks with Quadratic Activations 發表在 COLT,并獲得最佳論文獎。
同一年,馬騰宇獲 2018 ACM 博士論文獎榮譽獎 ( Honorable Mentions ) 。其博士論文 Non-convex Optimization for Machine Learning: Design, Analysis, and Understanding 試圖理解爲什麽 non-convex optimization 可以解決機器學習問題,而在此之前幾乎沒有這方面的研究。其實,早在 2012 - 2013 年馬騰宇開始讀博士時,深度學習浪潮興起,他逐漸意識到深度學習會是下一個大趨勢。而理解深度學習算法原理挑戰之一就是如何優化損失函數 (Loss Function),使其變得非凸。馬騰宇也因此成爲最早一批專注解決這一挑戰的科研人員之一。
「我目前的研究重點是機器學習理論,尤其是深度學習理論,并緻力于将理論知識轉化爲實際應用。」2020 年初,馬騰宇在接受 Robin.ly 主持人 Margaret Laffan 專訪時談道。在專注技術突破的同時也必須确保所有的算法在實際應用中都是安全、可靠、可解釋的。Voyage AI 表示很快還會推出更多模型。