芯東西 2 月 21 日報道,在 OpenAI 推出又一爆款力作 AI 視頻生成模型 Sora 後,連帶着偏上遊的 AI 芯片賽道熱度一點即着。
創始成員來自谷歌 TPU 團隊的美國存算一體 AI 芯片公司 Groq 便是最新赢家。這家創企自稱其自研 AI 推理引擎 LPU 做到了 " 世界最快推理 ",由于其超酷的大模型速度演示、遠低于 GPU 的 token 成本,這顆 AI 芯片最近讨論度暴漲。連原阿裏副總裁賈揚清都公開算賬,分析 LPU 和 H100 跑大模型的采購和運營成本到底差多少。
就在 Groq 風風火火之際,全球最大 AI 芯片公司英偉達陷入了一些振蕩。今日英偉達官宣将在 3 月 18 日 -21 日舉辦其年度技術盛會 GTC24,但其股市表現卻不甚理想。受投資者快速撤股影響,英偉達今日股價降低 4.35%,創去年 10 月以來最大跌幅,一日之間市值縮水 780 億美元。
▲英偉達太平洋時間 2 月 20 日股價出現顯著下跌
根據 Groq 及一些網友分享的技術演示視頻及截圖,在 LPU 上跑大語言模型 Mixtral 8x7B-32k,生成速度快到接近甚至超過 500tokens/s,遠快于公開可用的 OpenAI ChatGPT 4。
▲輸入相同指令,ChatGPT 4 生成回答的時間大約 1 分鍾,而在 Groq 上運行的 Mixtral 8x7B-32k 隻用時 11 秒。
" 這是一場革命,不是進化。"Groq 對自己的進展信心爆棚。
2016 年底,谷歌 TPU 核心團隊的十個人中,有八人悄悄組隊離職,在加州山景城合夥創辦了新公司 Groq。接着這家公司就進入神隐狀态,直到 2019 年 10 月才通過一篇題爲《世界,認識 Groq》的博客,正式向世界宣告自己的存在。
随後 " 官網喊話 " 就成了 Groq 的特色,尤其是近期,Groq 接連發文 " 喊話 " 馬斯克、薩姆 · 阿爾特曼、紮克伯格等 AI 大佬。特别是在《嘿 薩姆 …》文章中,公然 " 嫌棄 "OpenAI 的機器人太慢了,并給自家 LPU 打廣告,聲稱運行大語言模型和其他生成式 AI 模型的速度是其他 AI 推理解決方案速度的 10 倍。
現在,Groq 繼續保持着高調,除了官号積極出面互動外,前員工和現員工還在論壇上 " 撕 " 起來了。前員工質疑實際成本問題,現員工則抨擊這位前員工離開并創辦了一家 Groq 的競争對手 + 沒做出 " 世界最低延遲的大語言模型引擎 "+ 沒保證 " 匹配最便宜的 token 價格 "。
面向 LPU 客戶的大語言模型 API 訪問已開放,提供免費 10 天、100 萬 tokens 試用,可從 OpenAI API 切換。
Groq 緻力于實現最便宜的每 token 價格,承諾其價格 " 超過同等上市型号的已發布供應商的任何已公布的每百萬 tokens 價格 "。
據悉,Groq 下一代芯片将于 2025 年推出,采用三星 4nm 制程工藝,能效預計相較前一代提高 15~20 倍,尺寸将變得更大。
執行相同任務的芯片數量也将大幅減少。當前 Groq 需要在 9 個機架中用 576 顆芯片才能完成 Llama 2 70B 推理,而到 2025 年完成這一任務可能隻需在 2 個機架使用大約 100 個芯片。
一、1 秒内寫出數百個單詞,輸出 tokens 吞吐量最高比競品快 18 倍
按照 Groq 的說法,其 AI 推理芯片能将運行大語言模型的速度提高 10 倍、能效提高 10 倍。
要體驗 LPU 上的大語言模型,需先創建一個 Groq 賬戶。
輸入提示詞 " 美國最好的披薩是什麽?" 跑在 LPU 上的 Mixtral 模型飛速給出回答,比以前慢慢生成一行一行字的體驗好很多。
它還支持對生成的答案進行修改。
在公開的大語言模型基準測試上,LPU 取得了壓倒性戰績,運行 Meta AI 大語言模型 Llama 2 70B 時,輸出 tokens 吞吐量比所有其他基于雲的推理供應商最高要快 18 倍。
對于 Time to First Token,其縮短到 0.22 秒。由于 LPU 的确定性設計,響應時間是一緻的,從而使其 API 提供最小的可變性範圍。這意味着更多的可重複性和更少的圍繞潛在延遲問題或緩慢響應的設計工作。
AI 寫作助手創企 HyperWriteAI 的 CEO Matt Shumer 評價 LPU" 快如閃電 "," 不到 1 秒寫出數百個單詞 "," 超過 3/4 的時間花在搜索上,而非生成 "," 大語言模型的運行時間隻有幾分之一秒 "。
有網友分享了圖像生成的區域提示,并評價 " 非常印象深刻 "。
二、賈揚清分析采購和運營成本:比 H100 服務器貴多了
Groq 芯片采用 14nm 制程工藝,搭載 230MB 片上共享 SRAM,内存帶寬達 80TB/s,FP16 算力爲 188TFLOPS,int8 算力爲 750TOPS。
Groq 在社交平台上解答了一些常見問題:1、LPU 爲每 token 提供很好的價格,因爲效率高而且擁有從芯片到系統的堆棧,沒有中間商;2、不賣卡 / 芯片,除非第三方供應商将其出售給研究 / 科學應用團體,銷售内部系統;3、其設計适用于大型系統,而非單卡用戶,Groq 的優勢來自大規模的設計創新。
與很多大模型芯片不同的是,Groq 的芯片沒有 HBM、沒有 CoWoS,因此不受 HBM 供應短缺的限制。
在對 Meta Llama 2 模型做推理基準測試時,Groq 将 576 個芯片互連。按照此前 Groq 分享的計算方法,英偉達 GPU 需要大約 10~30J 來生成 token,而 Groq 每 token 大約需要 1~3J,也就是說推理速度是原來的 10 倍, 成本是原來的 1/10,或者說性價比提高了 100 倍。
Groq 拿一台英偉達服務器和 8 機架 Groq 設備做對比,并聲稱非常确定配備 576 個 LPU 的 Groq 系統成本不到英偉達 DGX H100 的 1/10,而後者的運行價格已超過 40 萬美元。等于說 Groq 系統能實現 10 倍的速度下,總成本隻有 1/10,即消耗的空間越多,就越省錢。
自稱是 "Groq 超級粉絲 " 的原阿裏副總裁、創辦 AI infra 創企 Lepton AI 的賈揚清則從另一個角度來考慮性價比,據他分析,與同等算力的英偉達 H100 服務器成本比較,Groq LPU 服務器實際要耗費更高的硬件采購成本和運營成本:
1. 每張 Groq 卡的内存爲 230MB。對于 Llama 70B 模型,假設采用 int8 量化,完全不計推理的内存消耗,則最少需要 305 張卡。實際上需要的更多,有報道是 572 張卡,因此我們按照 572 張卡來計算。
2. 每張 Groq 卡的價格爲 2 萬美元,因此購買 572 張卡的成本爲 1144 萬美元。當然,因爲銷售策略和規模效益,每張卡的價格可能打折,姑且按照目錄價來計算。
3. 572 張卡,每張卡的功耗平均是 185W,不考慮外設,總功耗爲 105.8kW。 ( 注意,實際會更高 )
4. 現在數據中心平均每千瓦每月的價格在 200 美元左右,也就是說,每年的電費是 105.8 x 200 x 12 = 25.4 萬美元。(注意,實際會更高)
5. 基本上,采用 4 張 H100 卡可實現 Groq 的一半性能,也就是說,一台 8 卡 H100 與上面的性能相當。8 卡 H100 的标稱最大功率爲 10kW(實際大概在 8-9kW ) ,因此每年電費爲 2.4 萬美元或更低一些。
6. 今天 8 卡 H100 的采購成本約爲 30 萬美元。
7. 因此,如果運行三年,Groq 的硬件采購成本是 1144 萬美元,運營成本是 76.2 萬美元或更高。8 卡 H100 的硬件購買成本是 30 萬美元,運營成本爲 7.2 萬美元或更低一些。
如果按這個算法,運行 3 年,Groq 的采購成本将是 H100 的 38 倍,運營成本将是 H100 的 10 倍。
賈揚清還在評論區談道:" 老實說,我們對當前的 token 價格 + 速度 SLA 組合感到不适。換句話說,我們對 token 價格感到滿意,但如果并行調用 API,我們無法保證速度。"
三、存算一體 + 編譯器優先,支撐更快的大語言模型計算
Groq 聯合創始人兼 CEO Jonathan Ross 曾宣稱,相比用英偉達 GPU,LPU 集群将爲大語言推理提供更高吞吐量、更低延遲、更低成本。
"12 個月内,我們可以部署 10 萬個 LPU;24 個月内,我們可以部署 100 萬個 LPU。"Ross 說。
▲ Groq 領導層
根據官網信息,LPU 代表語言處理單元,是 Groq 打造的一種新型端到端處理單元,旨在克服大語言模型的計算密度和内存帶寬瓶頸,計算能力超過 GPU 和 CPU,能夠減少計算每個單詞所需時間,更快生成文本序列。消除外部内存瓶頸使得 LPU 推理引擎能夠在大語言模型上提供比 GPU 好幾個數量級的性能。
LPU 采用了單核心時序指令集計算機架構,無需像傳使用高帶寬存儲(HBM)的 GPU 那樣頻繁從内存中加載數據,能有效利用每個時鍾周期,降低成本。
▲傳統 GPU 内存結構
▲ Groq 芯片内存結構
Groq 芯片的指令是垂直走向,而數據流向東西流動,利用位置和功能單元相交以執行操作。通過将計算和内存訪問解耦,Groq 的芯片在處理數據時能進行大量讀寫,即一步之内有效進行計算與通信,提供低延遲、高性能和可預測的準确性。
其特點包括出色的時序性能、單核架構、大規模部署可維護的同步網絡、能自動編譯超過 500 億參數的大語言模型、即時内存訪問、較低精度水平下保持高準确度。
▲單個 LPU 架構
" 編譯器優先 " 是 Groq 的秘密武器,使其硬件媲美專用集成電路(AISC)。但與功能固定的 AISC 不同的是,Groq 采用軟件定義硬件的思路,利用了一個可以适應和優化不同模型的自定義編譯器,使其編譯器和體系結構共同構成了一個精簡的、穩健的機器學習推理引擎,支持自定義優化,以平衡性能與靈活性。
▲ Groq 的簡化軟件定義硬件方法釋放了額外的芯片空間和處理能力
受軟件優先思想的啓發,Groq 将執行控制和數據流控制的決策步驟從硬件轉移到了編譯器,以調度跨網絡的數據移動。所有執行計劃都在軟件棧中進行,不再需要硬件調度器來弄清楚如何将東西搬到芯片上。這釋放了寶貴的芯片空間,并提供了額外的内存帶寬和晶體管來提高性能。
▲傳統的非确定性網絡與軟件調度網絡的比較
Groq 的簡化架構去除了芯片上對 AI 沒有任何處理優勢的多餘電路,實現了更高效的芯片設計,每平方毫米的性能更高。其芯片将大量的算術邏輯單元與大量的片上内存結合,并擁有充足帶寬。
由于控制流程已進入軟件棧,硬件是一緻且可預測的,開發人員可以精确獲知内存使用情況、模型效率和延遲。這種确定性設計使用戶可在将多芯片擴展連接時,精确把控運行一次計算需要多長時間,更加專注于算法并更快地部署解決方案,從而簡化了生産流程。
擴展性方面,當 Groq 芯片擴展到 8 卡、16 卡、64 卡,所支持的性能和延遲如下:
Groq 工程師認爲,必須謹慎使用 HBM 的原因是它不僅涉及延遲,還有 " 非确定性 " 問題。LPU 架構的一大好處是可以構建能快速互連的數百個芯片的系統,并知道整個系統的精确時間在百萬分之幾以内。而一旦開始集成非确定性組件,就很難确保對延遲的承諾了。
結語:AI 芯片上演新故事
Groq 氣勢洶洶地向 " 世界最快大模型推理芯片 " 的目标發起總攻,給高性能 AI 推理市場帶來了新的期待。
在系統級芯片采購和運營成本方面,Groq 可能還難以做到與 H100 匹敵,但從出色的單 batch 處理和壓低 token 價格來看,其 LPU 推理引擎已經展現出相當的吸引力。
随着生成式 AI 應用進入落地潮,AI 芯片賽道也是時候多上演一些新故事了。