作者 | 宛辰、Li Yuan
編輯 | 靖宇
當地時間 6 月 28 日,美國知名數據平台 Databricks 舉辦了自己的年度大會——數據與人工智能峰會。會上,Databricks 公布了 LakehouseIQ、Lakehouse AI、Databricks Marketplace 、 Lakehouse Apps 等一系列重要新品。
無論是從峰會的名稱,還是新産品的命名,都能看出這家知名數據平台,正在趁着大語言模型的東風,加速向 AI 轉變的腳步。
Databricks 公司 CEO Ali Ghodsi 所說的數據和 AI 普惠化|Databricks
「Databricks 要實現的是『數據普惠』和 AI 普惠,前者讓數據通向每一個雇員,後者讓 AI 進入每一個産品。」Databricks 公司 CEO Ali Ghodsi 在台上說出了團隊的使命。
就在大會開始之前,Databricks 剛剛宣布以 13 億美元收購 AI 領域的新生力量 MosaicML,創下了當前 AI 領域收購紀錄,可見公司在 AI 轉型上的力度和決心。
正在前方參會的 PingCAP 創始人兼 CEO 劉奇告訴極客公園,Databricks 平台剛剛上線 AI 的企業級應用,就已經有超過 1500 家公司在上面進行模型訓練,「數字超出預期」。同時,他認爲 Databricks 由于之前在數據 + AI 方面的積累,讓公司能在 AI 大火之際,迅速在之前平台基礎上加入新産品,就能快速給出和大模型相關的服務。
「最關鍵的就是速度。」劉奇說道,在大模型時代,如何用更快的速度讓大模型和現有産品整合,解決用戶的痛點,可能是當下所有數據公司最大的挑戰,同時也是最大的機會。
Talking points
通過交互界面的升級,不是數據分析師的普通人,也可以直接使用自然語言查詢和分析數據。
企業将大模型部署到雲端數據庫将越來越容易,直接使用成品大模型工具分析數據,也将變得更加簡單。
随着 AI 的進展,數據的價值還将越來越高,數據潛力将被進一步釋放。
01
數據庫迎來自然語言交互
在會上,Databricks 推出了全新的「神器」LakehouseIQ。LakehouseIQ 承載着 Databricks 近期最大的發力方向之一——數據分析普惠化,即不掌握 Python 和 SQL 的普通人也能輕輕松松接入公司數據,用自然語言就能進行數據分析。
爲達到這個目的,LakehouseIQ 被設計爲一個功能合集,既可以被普通終端用戶使用,也可以被開發者使用,針對不同的用戶設計了不同的功能。
LakehouseIQ 産品圖|Databricks
對于開發者方面,發布了 LakehouseIQ in Notebooks,這項功能中,LakehouseIQ 可以利用大語言模型幫助開發人員完成、生成和解釋代碼,以及進行代碼修複、調試和報告生成。
而對于普通的非程序員群體,Databricks 則提供了可以直接用自然語言交互的界面,背後由大語言模型驅動,可以直接用自然語言來搜索和查詢數據。同時,該功能與 Unity Catalog 集成,讓公司可以對數據的搜索和查詢進行訪問權限控制,隻返回提問者被授權查看的數據。
自大模型推出以來,用自然語言對數據進行查詢和分析,其實一直是一個數據分析方向的熱點,許多公司在此方向都有所布局。包括 Databricks 的老對手 Snowflake,剛剛宣布的 Document AI 功能也是主打這個方向。
LakehouseIQ 自然語言查詢界面|Databricks
不過 Databricks 宣稱,LakehouseIQ 做到了更好的功能。它提到,通用大語言模型在理解特定客戶數據、内部術語和使用模式方面擁有局限性。而 Databricks 的技術,能夠利用客戶自己的模式(schema)、文檔、查詢、受歡迎程度、線程、筆記本和商業智能儀表盤來獲取智能,回答更多查詢。
Databricks 的功能與 Snowflake 的功能還有一個差别,Snowflake 平台的 Document AI 功能,僅限于對文檔中的非結構化數據進行查詢,而 LakehouseIQ 适用于結構化的 Lakehouse 數據和代碼。
02
從機器學習到 AI
Databricks 與 Snowflake 在發布會上的相似之處還不局限于此。
此次發布會中,Databricks 發布了 Databricks Marketplace 和 Lakehouse AI,這與 Snowflake 這兩天大會的重點也完全吻合,二者都主打将大語言模型部署到數據庫環境中。
在 Databricks 的設想中,Databricks 未來既可以協助客戶部署大模型,也提供成品的大模型工具。
Databricks 過去就有 Databricks Machine Learning 的品牌,在此次發布會上,Databricks 對其進行品牌全面的重新定位,升級爲 Lakehouse AI,主打協助客戶部署大模型。
Databricks 上線了 Databricks Marketplace。在 Databricks Marketplace 中,用戶可以接入經過篩選的開源大語言模型集合,包括 MPT-7B、Falcon-7B 和 Stable Diffusion,還可以發現和獲取數據集、數據資産。Lakehouse AI 還包括一些大語言模型操作能力(LLMOps)。
Lakehouse AI 架構圖|Databricks
Snowflake 也在對此進行積極部署,其相似功能由 Nvidia NeMo、Nvidia AI Enterprise、Dataiku 和 John Snow Labs 提供(與英偉達的合作正是 Snowflake 大會的重點之一,見極客公園的報道)。
在協助客戶部署大模型方向,Snowflake 與 Databricks 顯現出了分歧。Snowflake 選擇積極地與合作夥伴進行合作,而 Databricks 則試圖将該功能作爲其核心平台的本地特性添加進去。
而在提供成品工具方面,Databricks 宣布 Databricks Marketplace 未來還将可以提供 Lakehouse Apps。Lakehouse Apps 将直接在客戶的 Databricks 實例上運行,它們可以與客戶的數據集成,使用和擴展 Databricks 服務,并使用戶能夠通過單點登錄體驗進行互動。數據永遠不需要離開客戶的實例,沒有數據移動和安全 / 訪問問題。
這點則與 Snowflake 公司的産品從命名到功能上都直接撞車。Snowflake 公司與之相似的 Snowflake Marketplace 和 Snowflake Native App 已經上線,是其發布會的重點之一。彭博社就在 Snowflake 的大會上宣布了一個由彭博社提供的 Data License Plus ( DL+ ) APP,允許客戶在雲端用幾分鍾時間就能配置一個随時可用的環境,内部設有完全建模的彭博訂閱數據和來自多供應商的 ESG 内容。
03
數據平台迎來新變革
開幕式主旨演講上,Databricks 公布了一個數字:過去 30 天,已經在 Databricks 平台上訓練 Transformer 模型的客戶超過 1500 家。
在談及這個令人印象深刻的數字時,PingCAP 劉奇認爲,這說明企業應用 AI 的速度比預期的要快得多,「應用模型不一定要去訓練模型,所以如果訓練的都有 1500 家,那應用的肯定要比這個(數字)大的多得多。」
另一方面,這也表明 Databricks 在 AI 這個領域的布局相對完整。「它現在不僅僅是一個 Data Warehouse(數據倉庫),一個 Datalake(數據湖)。現在它還提供:AI 的 training(訓練)、AI 的 serving(服務),模型的管理等一整套。」
Ali Ghodsi 以計算和互聯網的革命,類比大模型之于機器學習的變革|Databricks
也就是說,底層模型可以通過 Databricks 的平台去訓練,「最底層的模型改改參數就能訓練」。在這個模型之上所需要的 AI 服務,Databricks 也布局了相應的基礎設施——今天發布了 vector search(向量搜索)和 feature store(特征庫)。
Databricks 全面向大模型升級。
過去,Databricks 在 AI 方面有很多積累,比如在建索引、查數據、預測工作負載等方面,用小模型來提高效率、降低時延。但是,以如此快的速度補上大模型的能力,還是讓不少人意外。
在今天峰會全面展示的 AI 布局之前,Databricks 收購了 Okera(AI 數據治理),推出了自家的開源大模型 Dolly 2.0,又以 13 億美元并購了 MosaicML,一連串的動作一氣呵成。
對此,矽谷徐老師 Howie 認爲,Databricks 和 Snowflake 這兩個大會都可以比較明确地看出:兩家公司的創始人認爲,基于數據庫、數據湖他們所做的行動、接下來會面臨根本性的改變。按照一年前他們在做的思路,在未來幾年行不通。
相應地,快速補齊大模型的能力,也意味着可以獲得由于大模型帶來的增量市場。
劉奇認爲,沒有大模型之前,很多的需求可能都不存在,但有了大模型之後,有了很多新增需求。「因爲隻有模型沒有數據,幹不了什麽事情,特别是沒有辦法做出差異化。如果大家都是一個大模型,那你跟别人可能也沒有差别。」
但比起大模型,峰會現場的觀衆似乎更關注小模型,因爲小模型的幾個優勢:速度、成本、安全性。劉奇表示,基于自己獨有的數據,做出差異化的模型,模型要足夠小才能滿足這三條:足夠便宜、足夠快、足夠安全。
值得注意的是,Databricks 和 Snowflake 在日前都公布了它的營收數據,平台年營收增長在 60% 以上。相比整個市場軟件支出放緩的大背景,這樣的增長速度反映了數據越來越被關注。這次 Databricks 峰會的主題也是數據加 AI,但有了大模型,數據的價值還将越來越高。
大模型的到來,讓數據自動生成成爲可能,可以預見,數據量将指數級增長。怎麽輕松地訪問數據、怎麽支持不同的數據格式、挖掘數據背後的價值,會成爲越來越頻繁的需求。
另一方面,今天很多企業還在還在探索觀望将大模型接入企業軟件,但考慮到安全、隐私、成本,敢直接用的,還很少。一旦通過将大模型直接部署到企業數據上,無需移動數據,部署大模型的門檻将被進一步降低,數據被消費的數量和速度都将被進一步釋放。