高端 GPU 持續缺貨之下,一家要挑戰英偉達的芯片初創公司成爲行業熱議焦點。
8 枚芯片跑大模型,就能支持 5 萬億參數(GPT-4 的三倍) 。
這是獨角獸企業SambaNova剛剛發布的新型 AI 芯片SN40L——
型号中 40 代表是他們第四代産品,L 代表專爲大模型(LLM)優化:高達1.5T 的内存,支持25.6 萬個 token的序列長度。
CEO Rodrigo Liang表示,當前行業标準做法下運行萬億參數大模型需要數百枚芯片,我們的方法使總擁有成本隻有标準方法的 1/25。
SambaNova 目前估值 50 億美元(約 365 億人民币),累計完成了 6 輪總計 11 億美元的融資,投資方包括英特爾、軟銀、三星、GV 等。
他們不僅在芯片上要挑戰英偉達,業務模式上也說要比英偉達走的更遠:直接參與幫助企業訓練私有大模型。
目标客戶上野心更是很大:瞄準世界上最大的 2000 家企業。
1.5TB 内存的 AI 芯片
最新産品 SN40L,由台積電 5 納米工藝制造,包含 1020 億晶體管,峰值速度 638TeraFLOPS。
與英偉達等其他 AI 芯片更大的不同在于新的三層 Dataflow 内存系統。
520MB 片上 SRAM 内存
65GB 的高帶寬 HBM3 内存
以及高達 1.5TB 的外部 DRAM 内存
與主要競品相比,英偉達 H100 最高擁有 80GB HBM3 内存,AMD MI300 擁有 192GB HBM3 内存。
SN40L 的高帶寬 HBM3 内存實際比前兩者小,更多依靠大容量 DRAM。
Rodrigo Liang 表示,雖然 DRAM 速度更慢,但專用的軟件編譯器可以智能地分配三個内存層之間的負載,還允許編譯器将 8 個芯片視爲單個系統。
除了硬件指标,SN40L 針對大模型做的優化還有同時提供密集和稀疏計算加速。
他們認爲大模型中許多權重設置爲 0,像其他數據一樣去執行操作很浪費。
他們找到一種軟件層面的加速辦法,與調度和數據傳輸有關,但沒有透露細節," 我們還沒準備好向公布是如何做到這一點的 "。
咨詢機構 Gartner 的分析師 Chirag Dekate 認爲,SN40L 的一個可能優勢在于多模态 AI。
GPU 的架構非常嚴格,面對圖像、視頻、文本等多樣數據時可能不夠靈活,而 SambaNova 可以調整硬件來滿足工作負載的要求。
目前,SambaNova 的芯片和系統已獲得不少大型客戶,包括世界排名前列的超算實驗室,日本富嶽、美國阿貢國家實驗室、勞倫斯國家實驗室,以及咨詢公司埃森哲等。
業務模式也比較特别,芯片不單賣,而是出售其定制技術堆棧,從芯片到服務器系統,甚至包括部署大模型。
爲此,他們與 TogetherML 聯合開發了 BloomChat,一個 1760 億參數的多語言聊天大模型。
BloomChat 建立在 BigScience 組織的開源大模型 Bloom 之上,并在來自 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上進行了微調。
訓練過程中,它使用了 SambaNova 獨特的可重配置數據流架構,然後在 SambaNova DataScale 系統進行訓練。
這也是這家公司最大被投資者熱捧之外的最大争議點之一,很多人不看好一家公司既做芯片又做大模型。
給每家大企業打造 150 個大模型
在與 The Next Platform 網站交流時,CEO Rodrigo Liang 表示:
用于大模型訓練的公開數據已快耗盡,但對參數數量的追求還在不斷增加。
各種大模型的性能相差隻有幾個百分點,這不是大家應該玩的遊戲。
他認爲大模型與生成式 AI 商業化的下一個戰場是企業的私有數據,尤其是大企業。
這些企業坐擁大量的數據,但自己不知道其中大部分内容是什麽。
對于企業私有大模型的形态,SambaNova 也有與衆不同的觀點。
他們認爲最終企業内部不會運行一個 GPT-4 或谷歌 Gemini 那樣的超大模型,而是根據不同數據子集創建 150 個獨特的模型,聚合參數超過萬億。
相當于把 GPT-4 等大模型内部的Mixture of Experts(專家混合)架構擴展到整個系統,稱爲Composition of Experts(專家合成)。
在企業運轉的每個節點運行一個完整且經過專門調整的基礎模型,分别用法律語料庫、制造語料庫、風險管理語料庫、财富管理語料庫、客戶銷售語料庫、客戶支持語料庫等等不同數據訓練。
這些專家模型之間通過一種軟件路由或負載平衡器聯在一起,收到推理請求後決定具體向哪個模型推送提示詞。
這一策略與 GPT-4 和谷歌 Gemini 等做法形成鮮明對比,巨頭大多希望創建一個能泛化到數百萬個任務的巨型模型。
分析師認爲技術上可能谷歌的做法性能更強,但 SambaNova 的方法對企業來說更實用。
沒有任何一個模型或人能完整訪問企業的所有數據,限制每個部門能訪問的專家模型,就能限制他們能訪問的數據。
斯坦福系芯片公司,華人工程師主力
SambaNova 成立于 2017 年,2020 年之前都比較低調。
聯創 3 人都是斯坦福背景,連産品系列名Cardinal(深紅色)都是斯坦福的昵稱與代表顔色。
CEO Rodrigo Liang 是前 Sun/ 甲骨文工程副總裁,也有人将這個名字解讀爲暗指甲骨文老對頭 IBM 的 DeepBlue(深藍)。
另外兩位聯合創始人都是斯坦福教授。
CTO Kunle Olukotun是電氣工程教授,因多核芯片架構方面的研究而聞名,開發了首批支持線程級推測 ( TLS ) 的芯片之一。
Christopher R é是計算機科學副教授,重點研究方向機器學習和數據分析的速度和可擴展性。
此外團隊中還有不少華人工程師。
從官網公開信息來看,SambaNova 的領導團隊中,至少有 3 名華人。
Jonathan Chang,擁有 UC 伯克利的機械工程學士學位以及南加州大學的 MBA 學位。
他在構建高增長方面擁有 20 多年的經驗。加入 SambaNova 之前,Chang 在特斯拉工作了近 9 年。
Marshall Choy,此前曾擔任甲骨文公司系統産品管理和解決方案開發副總裁,監督了數十個行業的企業硬件和軟件産品的上市。
Penny Li,在 EDA 工具和微處理器設計方面擁有超過 27 年的經驗。此前,她曾在 IBM 和甲骨文工作過。
如果去領英搜索還能發現更多華人團隊成員。
目前 SambaNova 包含 SN40L 芯片的人工智能引擎已上市,但定價沒有公開。
根據 Rodrigo Liang 的說法,8 個 SN40L 組成的集群總共可處理 5 萬億參數,相當于 70 個 700 億參數大模型。
全球 2000 強的企業隻需購買兩個這樣的 8 芯片集群,就能滿足所有大模型需求。
參考鏈接:
[ 1 ] https://spectrum.ieee.org/ai-chip-sambanova
[ 2 ] https://www.nextplatform.com/2023/09/20/sambanova-tackles-generative-ai-with-new-chip-and-new-approach/
[ 3 ] https://sambanova.ai/resources/