前幾天,英偉達成爲首家市值達到 2 萬億美金的芯片公司,創造了曆史。同一時間,一家名爲 Groq 的初創公司橫空出世,揚言 " 三年之内趕超英偉達 "。
Groq 狠話的底氣,來源于它所開發的芯片—— LPU。
LPU 的全稱是 Language Processing Unit,翻譯過來就是語言處理單元,是一種新型 AI 加速器。在它的支持下,大模型的推理速度快得驚人,瞬間能輸出長篇幅答案;而使用了英偉達芯片的 GPT-4,隻能一個字一個字往外蹦。
前者的響應速度最高可達到 500T/S,而後者隻有 40T/S [ 1 ] 。
這是什麽概念?相當于一秒鍾生成 300 個單詞,7 分鍾生成一部《哈姆雷特》長度級的文章。
Groq 背後的團隊也可謂群星璀璨,公司 CEO Jonathan Ross 是谷歌初代TPU的設計者之一。早期谷歌 TPU 團隊的 10 位成員中,8 位都跳槽到了 Groq。
自 2016 年成立,Groq 就飽受市場關注。2020 年,Groq 的芯片被美國阿貢實驗室采用。2021 年,Groq 獲老虎環球基金等機構投資,估值超過 10 億美元。
然而,Groq 公司的各種 " 挑釁 ",英偉達完全沒放在眼裏。相比之下,此前 " 奧特曼 7 萬億美元造芯 " 的新聞出來之後,黃仁勳至少還出來說了兩句。
畢竟,眼下 Groq 的種種套路,老黃可再熟悉不過了。
文字遊戲
當下,制約 AI 芯片發展的主要困境,是内存牆:内存的傳輸速度遠遠慢于處理器算力,導緻性能遲遲上不去。
如果把芯片想象成一個餐廳,那麽内存就是倉庫,處理器就是後廚。
倉庫送菜比後廚烹饪還慢,嚴重限制了餐廳的出菜速度。因此,包括英偉達在内的芯片廠商,都在圍繞 " 倉庫(内存)" 做文章。而 Groq 碾壓英偉達的秘訣,也藏在内存結構裏。
傳統計算機所使用的内存,其實有兩種:
DRAM 容量較大,但傳輸速度較慢,起主存作用;而 SRAM 容量較小,但傳輸速度極快,作爲緩存發揮輔助作用。一直以來,二者都是合作關系,缺一不可。
但 Groq 爲了追求極緻的速度,摒棄了 DRAM,讓 SRAM 扛起了 LPU 主存大旗。
相當于砍掉距離廚房較遠的大倉庫,直接将所有食材都堆在廚房邊的菜籃子裏。 這樣的設計思路下,LPU 不但在速度上形成降維打擊,還輕松繞過了兩個成本最高的技術: HBM 和先進封裝。
這也構成了 Groq 另一個大吹特吹的宣傳核心:便宜。
根據 Semi Analysis 的拆解,LPU 由于具備架構優勢,物料成本僅爲 1050 美元。相比之下,去年全球瘋狂的 H100 芯片,物料成本則達到 3700 美元 [ 2 ] 。
在售價層面,一塊 LPU 的價格是 20000 美元,遠低于 H100 的 35000 美元。
但曆史無數次告訴我們,大部分彎道超車的結局都是有田下山,LPU 也不例外。
大模型對内存大小也有着很高的要求。參數量越大的模型,運行時所需要存儲的數據也會更多。
SRAM 雖然快,但缺陷是容量小,通常隻有 4-16MB。Groq 研發團隊多年苦心鑽研,最終也隻是将 LPU 的容量提升至 230MB。而一塊 H100 的内存容量是 80GB,兩者間差了約 356 倍。菜籃子再怎麽升級換代,終究無法和倉庫相提并論。
想裝下所有的食材,唯一的辦法就是把菜籃子數量堆上去。因此,在運行同樣參數的模型時,需要用到的 LPU 數量就遠遠高于 GPU。
前阿裏技術副總裁賈揚清就算了一筆賬:
以運行 LLaMA 70b 模型爲例,需要 572 張 LPU,售價 1144 萬美元;但如果換成 H100,其實隻需要 8 張,總價格在 30 萬美元左右——所謂的 " 便宜 " 壓根不成立。
芯片一多,整體的功耗成本也直線上升。LPU 每年至少消耗 25.4 萬美元電費,而 H100 頂多花費 2.4 萬美元。
事實證明,Groq 的遙遙領先,隻是隐去了核心信息的文字遊戲。它所宣傳的 " 高速 ",是以近乎誇張的使用成本換來的:運行三年 LLaMA 70b 模型,LPU 的使用成本将比英偉達的 GPU 高出 32 倍。
當然,Groq 的研發團隊,顯然對此心知肚明。選擇此時大張旗鼓,更像是一種拉投資的舉動。
事實上,這已經不是 Groq 第一次公開 " 蹭熱度 " 了。
之前 GPT Store 剛發布時,Groq 給 OpenAI 的奧特曼發了一封信,嘲笑使用 GPTs 跟在 " 深夜讀《戰争與和平》一樣緩慢 "。馬斯克的聊天機器人 Grok 發布時,它也跑去貼臉嘲諷,質疑 Grok 抄襲了自己的名字。
過去幾年,打着 " 替代英偉達 " 旗号的初創公司數不勝數,Groq 隻不過是其中之一。目前,在超車英偉達的這條彎道,已經出現了嚴重塞車。
前車之鑒
Groq 最直觀的參考樣本,來自英國公司 Graphcore。
Graphcore 誕生之初,也曾拿着 " 技術路線别出心裁、演示視頻酷炫驚豔、性能數據秒殺同行 " 的劇本,拳頭産品 IPU 與 Groq 的 LPU 設計思路異曲同工,也是用高速的 SRAM 取代 DRAM 作爲芯片内存,以實現極緻的傳輸性能。
同時,Graphcore 調整了芯片架構,專注于處理高性能計算。
它曾頗有自知之明地表示 " 不與英偉達直接競争 ",隻将目标客戶定位在,特别需要大量高性能計算的化學材料和醫療等特殊領域。
Graphcore 的兩位創始人
2019 年,微軟成爲 Graphcore 首款 IPU 的大客戶。 2020 年 5 月,微軟科學家将 IPU 内置于微軟 Azure 操作系統中,用于識别胸部 X 光片。 這位科學家說道:
"Graphcore 芯片可以在 30 分鍾内完成,GPU 需要 5 個小時才能完成的工作。"
在最風光的 2016 至 2020 年間,Graphcore 共拿到了 7.1 億美元融資,估值高達 27.7 億美元,一度被視爲全英國乃至歐洲全村的希望。Graphcore 的投資者不僅有微軟、三星、戴爾等科技巨頭,也囊括了紅杉資本、柏基投資等頂級風投。
相比今天的 Groq,當年的 Graphcore 隻能說有過之無不及。但 Graphcore 的後續發展卻遠遠不及當時的預期。
2022 年,Graphcore 全年營收隻有 270 萬美元,爲英偉達同期收入的萬分之一,且相較前一年下降 46%,虧損達到了 2 億美元。 2023 年,人工智能浪潮爆發,英偉達業績再度暴漲。 H100 一卡難求之時,Graphcore 以爲自己至少能撿到英偉達的漏,結果卻連湯都沒喝着。
去年,Graphcore 的創始人 Nigel Toon 向英國首相寫了篇 " 公開信 ",讨要補貼。
他寫道,"Graphcore 已經爲英國預留了多達 3000 個 IPU 芯片,可以爲整個國家提供服務 ",幾乎已經是明示要錢 [ 4 ] 。
不久前,一面業績虧損,一面融資無果的 Graphcore 走向了最後一條路: 尋求收購。 根據 The Telegraph 爆料,其售價可能在 5 億多美元——不到 2020 年最高估值時期的五分之一 [ 5 ] 。
當年,以 Graphcore 爲首的挑戰者們,各懷絕學,來勢洶洶,頗有一種八大門派圍攻光明頂的既視感。然而,如今多已散作鳥獸狀。
去年 3 月,芯片公司 Mythic 一度因資金耗盡而瀕臨倒閉,快要淹死之際,才好不容易等到了救命缰繩,拿到了 1300 萬美元融資。
另一家芯片公司 Blaize 也出現了類似的困境,最後靠着中東土豪的投資,才活了下來。
剩下的公司中,Habana 可能是唯一活得不錯的——它被英特爾以 20 億收購,保留了獨立運營的權利。
從 Graphcore 到 Mythic,這些芯片公司的技術路線各不相同;然而,它們失敗的原因,卻出奇一緻。事實上,今天大火的 Groq,同樣也極有可能倒在同一個地方:
芯片賣不出去。
真正的護城河
英偉達的 GPU 固然厲害,但它賣芯片的套路,才是真正的護城河。
每年,英偉達都會投入相當一部分的研發經費,圍繞GPU搭建系統性能力。當然,這是高情商的說法,低情商的說法是開發一起 " 捆綁銷售 " 的産品——這才是英偉達最堅實的城牆。目前,英偉達的城牆共有 3 層:
第一層城牆,是CUDA的編程生态。
衆所周知,GPU 最初的使用場景是遊戲與視頻圖像渲染。早期,一些華爾街精英偶爾利用 GPU 的并行計算能力來跑交易,但由于需要重新編寫大量代碼,因此并未廣泛傳播開來。
黃仁勳堅信 GPU 能用于更多領域,因此在 2006 年推出了降低編程門檻的軟件架構 CUDA,和自家 GPU 捆綁推出。
後來,蘋果和 AMD 都推出了類似平台,但此時 CUDA 生态早已構建,在 " 用得人越多,CUDA 越好用,新開發者越傾向于選擇 CUDA" 的良性循環中穩定前進。
如今,CUDA 可以讓英偉達 GPU 的使用成本大幅降低。
一位私有雲 CEO 曾在接受采訪時說過,理論上 AMD 卡也不是不能用,但要把這些卡調試到正常運轉,需要多耗費兩個月 [ 6 ] ——找誰下單,答案不言而喻。
2017 年,英偉達甚至向 AI 研究員贈送了 V100 芯片
第二層城牆,是 NV-Link 的高速傳輸。
一個數據中心,不可能隻使用一塊 AI 芯片。然而,如果将 2 塊 AI 芯片連在一起,那麽實際算力必然會小于 2,因爲數據傳輸的速度慢于芯片算力,且過程中還存在損耗。
顯然,在 GPU 數量迅速膨脹的數據中心内,解決數據傳輸問題其關鍵。
2016 年,英偉達爲 IBM 服務器提供 GPU 時,首次用上了自研的 NVLink 技術,帶寬高達 80G/s,通信速度提高了 5 倍,性能提升了 14%,好評不斷。此後幾年,英偉達一邊叠代 NVLink 技術,一邊規定該技術必須綁定自家芯片使用。
套路雖然簡單直白,但就是有效。
而第三層城牆,則是英偉達的 " 鐵杆好兄弟聯盟 "。
過去一年,英偉達是全球最主要的人工智能投資人之一,活躍程度甚至超過了 a16z 和紅杉等頂級投資機構。
據外媒統計,英偉達去年至少有 35 筆人工智能投資,包括:由前 DeepMind 聯合創始人創辦的 Inflection AI,歐洲人工智能獨角獸 Mistral,世界最大的開源模型社區 Hugging Face 等等 [ 7 ] 。
Inflection AI 創始人蘇萊曼
積極投資的目的,其實很簡單:當黃仁勳提着美金和 H100 芯片,敲開這些公司的大門,沒有人會再拒絕英偉達。
這所有的一切,足以讓市面上絕大多數公司,都綁死在英偉達的船上。
面對性能強大的英偉達 GPU,各路初創公司們或許有辦法,打造出性能相匹敵的産品。然而。英偉達賣芯片的套路,卻讓這些公司始終難以招架。因此,Graphcore 等挑戰者的失敗,真的不是不努力。
當眼下的炒作逐漸回歸寂靜,Groq 也得思考相同的問題:到底誰會翻過三座大山,來買 LPU?
尾聲
2 月 23 日,英偉達市值突破 2 萬億美元。距離上一個 1 萬億,僅僅過了 9 個月。
Groq 的爆火,讓市場又一次開始讨論同一個問題:到底有沒有人能叫闆英偉達?
遺憾的是,英偉達遠比人們想象的要強大。人工智能浪潮給芯片行業提供了一塊大蛋糕,英偉達并沒有分的意思,而是整個端走塞進了口袋。
芯片初創公司 Mythic 的 CEO 曾憤然表示,人工智能火了,他們卻更難融資了,就是英偉達 " 搞壞了大環境 "。
根據 PitchBook 數據,截至 2023 年 8 月底,美國芯片初創企業融資 8.814 億美元,約爲 2022 年同期的一半。交易數量的變化則更加觸目驚心:從 23 宗減少到了 4 宗 [ 8 ] 。
Graphcore、Mythic 的前車之鑒曆曆在目,所以也不怪 Groq 跟大家玩兒文字遊戲。面對這麽一個 " 湯都不給喝 " 的龐然大物,Groq 又能怎麽辦呢?