英偉達 CEO 黃仁勳(Jensen Huang)
由于 ChatGPT 爆火引發 AI 算力需求熱潮,英偉達 AI 芯片供不應求、大規模短缺。如今,英偉達似乎遭遇到了更多挑戰。
北京時間 2 月 21 日,據報道,科技巨頭微軟正在開發一種新的網卡芯片,替代英偉達 ConnectX SmartNIC 智能網卡産品,以确保 AI 模型數據可以在微軟雲服務器之間快速傳輸。
微軟方面确認了此消息。該公司在一份聲明中表示,作爲微軟 Azure 基礎設施系統方法的一部分,公司經常開發新技術來滿足客戶的需求,包括網絡芯片。
實際上,作爲英偉達 GPU(圖形處理器)的最大客戶之一,微軟事件是一個重要 " 信号 "。除了省成本之外,微軟還希望新網卡能夠提高其英偉達芯片服務器的性能,将有助于使用微軟雲的 OpenAI 研發更多 AI 大模型。
不止是微軟。
近兩天,一家名爲 Groq 的美國 AI 公司一夜 " 爆火 ",主要因其自研的 LPU 芯片在 AI 推理技術上,通過優化架構和減少内存瓶頸,實現了高效率和低延遲,在處理大模型時的速度遠超英偉達 GPU,每秒生成速度接近 500 tokens,而 GPT-4 僅 40 tokens。
因此,Groq LPU 被譽爲 " 史上最快的大模型技術 "。
受上述消息以及外部環境影響,截至 2 月 20 日美股收盤,英偉達單日股價下跌 4.35%,創下去年 10 月以來的最大單日跌幅,一夜之間總市值縮水 780 億美元(約逾 5600 億元人民币)。
2 月 20 日,IDC 分析師對钛媒體 App 等表示,随着 Sora 的推出,多模态大模型對 AI 算力的消耗更高,算力的可獲取性以及成本将是行業挑戰之一。
那麽,面對這種新的競争局勢,英偉達真的危險了嗎?
Groq 到底是誰?爲什麽這麽強?
據悉,Groq 公司成立于 2016 年,總部位于美國加利福尼亞,創始團隊中有很多人都參與過谷歌 TPU 項目。
其中,Groq 創始人兼 CEO 喬納森 · 羅斯(Jonathan Ross)曾設計并制作出了第一代谷歌 TPU 芯片的核心元件,TPU 20% 的研發項目都由他完成。
公司領導層的 10 人中,有 8 人都有在谷歌、英特爾等科技巨頭的工作經曆。
Groq 創始人兼 CEO 喬納森 · 羅斯(Jonathan Ross)
融資方面,截至目前,Groq 共完成了 3 輪融資,總共融資到了 3.67 億美元。最後一輪融資在 2021 年 4 月完成,融資金額爲 3 億美元,由老虎環球基金(Tiger Global Management)和投資公司 D1 Capital 領投。
Groq 之所以能夠在此次 AI 熱潮中 " 爆火 ",主要得益于其使用了自研芯片 LPU(Language Processing Units),而不是英偉達的 GPU(圖形處理器)芯片,它能實現高速度和低延遲。
據 Groq 在 2024 年 1 月的第一個公開基準測試,由 Groq LPU 驅動的 Meta Llama 2-70B 模型,推理性能比其他頂級雲計算供應商快 18 倍。
Groq LPU 的工作原理與英偉達的 GPU 不同,它采用了名爲時序指令集計算機(Temporal Instruction Set Computer)架構,使用存儲器爲靜态随機存取存儲器(SRAM),其速度比 GPU 所用的高帶寬存儲器(HBM)快約 20 倍。
從芯片的規格中,SRAM 容量是 230MB,帶寬 80TB/s,FP16 的算力是 188TFLOPs。
這一區别造成了 LPU 和 GPU 在生成速度的差别。據 Groq 表示,英偉達 GPU 生成每個 tokens 需要約 10 焦耳(J)到 30 焦耳,而 Groq 僅需 1 焦耳到 3 焦耳。
值得注意的是,雖然 Groq 做到了足夠快,但背後成本卻非常高昂。
2 月 20 日,前阿裏巴巴集團副總裁、Lepton AI 創始人兼 CEO 賈揚清在社交平台上表示,由于每一張 Groq 卡的内存容量僅爲 230MB,因此在運行 Llama-2 70B 模型時,需要 305-572 張 Groq 卡才足夠,而用 H100 則隻需要 8 張卡。
賈揚清認爲,如果按未來運行三年的成本算,Groq 的硬件采購成本是 1144 萬美元,運營成本至少要 76.2 萬美元。從目前的價格來看,這意味着在同等吞吐量下,這幾乎是 H100 硬件成本的 40 倍、能耗成本的 10 倍
據騰訊科技,芯片專家姚金鑫(J 叔)表示,Groq 對 Llama2-7B 的 Token 生成速度是 750 Tokens/s。如果從成本的角度,9 台的 Groq 服務器,也是遠遠貴過 2 台總共 16 顆的 H100 芯片的服務器,即使目前價格已經非常高了。
" 英偉達在本次 AI 浪潮中的絕對領先地位,使得全球都翹首以盼挑戰者。每次吸引眼球的文章,總會在最初被人相信,除了這個原因之外,還是因爲在做對比時的‘套路’,故意忽略其他因素,用單一維度來做比較。" 姚金鑫表示。
不止是成本高昂。SRAM 技術面積大、功耗比較高,早就以 IP 内核形式集成到 SoC(系統級芯片)裏面,并非單獨用,遠不如 HBM 的未來發展潛力。不管是比單位容量價格、還是性能和功耗,英偉達 GPU 所使用的 HBM 技術都優于 SRAM。
雖然 Groq 的芯片成本較高,但其創始人 Jonathan Ross 已表示,随着 GPU 短缺和成本上升,Groq 的 LPU 将有巨大的市場潛力。
不僅是 Groq。
據 The information 2 月 21 日報道,英偉達的重要客戶、全球最高市值的科技巨頭微軟計劃設計一款新的網卡芯片,以替代英偉達相關産品。
知情人士稱,微軟首席執行官薩蒂亞 · 納德拉 ( Satya Nadella ) 已任命網絡設備開發商瞻博網絡 ( Juniper Networks ) 聯合創始人普拉迪普 · 辛杜 ( Pradeep Sindhu ) 來領導網卡工作。據悉,微軟一年前收購了辛杜創立的服務器芯片初創公司 Fungible。
據悉,網卡是數據中心與服務器内部的一項重要技術,旨在加速服務器之間的流量,解決大流量網絡數據包處理占用 CPU 的問題。
在此之前,英偉達曾發布 NVIDIA ConnectX SmartNIC 智能網卡,最新的 ConnectX-7 通過加速交換和數據包處理(ASAP2)、高級 RoCE、GPUDirect Storage,以及用于 TLS、IPsec 和 MACsec 加密和解密的内聯硬件加速等功能,爲敏捷、高性能網絡解決數據傳輸問題。
69 億美元收購 Mellanox 之後,近兩年,英偉達已研發出一種新的 DPU(數據處理器)芯片,最新産品爲 BlueField-3 SuperNIC,将 SmartNIC 智能網卡集成内部。
據悉,DPU 是面向基礎設施層(IaaS)的專用處理器,具備靈活可編程性。BlueField 利用英偉達 DOCA(集數據中心于芯片的架構)軟件開發包的優勢,爲開發者提供一個完整、開放的軟硬件平台。除了 BlueField,英偉達還有 NVLink、NVSwitch 等多種技術整合,從而增強數據傳輸能力。
報道引述微軟内部人士稱,當微軟在其數據中心使用英偉達制造的 AI 芯片時,由于 OpenAI 等客戶擁有的大量數據傳輸需求,服務器可能會過載。目前,微軟已發布了首款 Maia AI 服務器芯片。
The information 稱,微軟的網卡芯片與 ConnectX-7 卡類似,将其與 GPU 和 AI 芯片 " 捆綁 " 銷售。
AI 芯片競争加劇,英偉達真的危險了嗎?
除了微軟,亞馬遜旗下雲計算部門 AWS、Meta 等科技巨頭也在自研對标英偉達 A100 的多款 AI 芯片産品。
去年 11 月,AWS 推出全新基于 ARM 架構、自研的高性能計算服務器 CPU 芯片 Graviton 3E,同時發布第五代 Nitro 網絡芯片硬件,借此提升雲端虛拟機的計算效率,并支持天氣預報、基因測序等場景任務;2 月 5 日 Meta 正式計劃今年部署一款新的自研 AI 芯片,即第二代自研 AI 芯片 Artemis,預計将于 2024 年正式投産,以減少對英偉達芯片的依賴。
如今,奧爾特曼和孫正義也加入到了 AI 算力芯片戰場。
其中,奧爾特曼已公布通過籌集 8 萬億美元制造 AI 芯片半導體網絡,目前正與日本軟銀集團、阿聯酋政府、美國商務部以及其他中東主權财富基金等投資者洽談,有望擴大 OpenAI 技術能力;軟銀創始人孫正義被曝正在籌集 1000 億美元研發 AI 半導體産品。
AWS 高級副總裁彼得 · 德桑蒂斯 ( Peter DeSantis ) 曾表示,AWS 希望客戶用新的 Graviton 3E 處理器執行更多任務,從而獲得高性能計算能力。他認爲,與購買英特爾、英偉達或 AMD 芯片相比,亞馬遜自研芯片将爲客戶提供更具性價比的算力支持。
研究公司 Dell'Oro Group 的數據中心基礎設施負責人 Baron Fung 表示,微軟和其他雲提供商 " 不想受制于英偉達(Nvidia)生态系統 "。
OpenAI CEO 奧爾特曼(Sam Altman)曾私下表示,與谷歌相比,OpenAI 在算力上處于劣勢。
那麽,面對 AI 芯片競争加劇局面,英偉達真的危險了嗎?
英偉達曾表示,微軟的網絡組件可能會蠶食其網絡設備每年超過 100 億美元的銷售規模。
不過,賈揚清認爲,如果運行未來三年的話,Grog 的硬件采購成本是 1144 萬美元,運營成本遠高于 76.2 萬美元,而 8 卡英偉達 H100 的硬件采購成本僅 30 萬美元,運營成本大約爲 7.2 萬美元以内,性價比更高。
整體來看,英偉達 H100 産品在 AI 芯片市場上仍具有很強的競争能力。
黃仁勳 2 月中旬表示,每個國家都需要擁有自己的 AI 基礎設施,以便在保護自己文化的同時利用經濟潛力。接下來的 4 到 5 年裏,我們将擁有價值 2 萬億美元的數據中心,它将爲世界各地的 AI 軟件提供動力,所有 AI 技術都會加速,而英偉達正取代通用計算核心,體系結構的性能将同時得到提高。
對于奧爾特曼的 7 萬億美元計劃,黃仁勳稱,(7 萬億美元)顯然能買下所有 GPU。
" 如果你假設計算機不會變得更快,可能就會得出這樣的結論:我們需要 14 顆行星、3 個星系和 4 個太陽來爲這一切提供燃料。但計算機架構仍在不斷進步。" 黃仁勳表示。
黃仁勳曾坦言,這些雲計算廠商自研 AI 芯片是有一定理由的,主要還是服務自家的數據中心,但這不會影響英偉達在全球的 AI 生态系統發展。
北京時間 2 月 22 日淩晨,英偉達預計将發布 2023 年财報,根據該公司對上年最後一個季度的預測,2023 财年總營收将達到近 590 億美元,是 2022 财年的兩倍多。
據标普全球市場數據,蘋果公司、微軟、亞馬遜以及谷歌的母公司和 Facebook 的母公司——都從未像英偉達一樣,在一年内從類似的起點上實現如此快的收入增長。按年收入計算,英偉達将超越英特爾,成爲全球第二大芯片公司。
資本市場目前猜測,英偉達将預計 4 月當季收入達到 216 億美元,是去年同期的三倍。
截至發稿前,英偉達市值達到 1.72 億美元,接近 2 萬億美元。據 FactSet 的數據,按這一市值計算,英偉達股票的遠期市盈率約爲 38 倍,比其三年平均水平低約 9%。
對于 3 月英偉達 GTC 将發布 B100 AI 芯片,摩根士丹利分析師 Joseph Moore 在一份最新報告中表示,基于早先有關該系統的一些披露,B100 是 " 最先進技術的巨大進步 "。
另外,面對微軟、AWS 的 AI 芯片競争局面,英偉達正推出自己的超算雲服務 DGX Cloud,通過在數據中心内運行英偉達産品,實現更大的收入規模,以對抗這些舉措。有行業人士向钛媒體 App 表示,英偉達内部對于 DGX Cloud 和英偉達 A100/H100 卡預期營收占比分别爲 20%、80%。
"AI 算力似乎無處不在。"Rosenblatt Securities 分析師漢斯 · 莫塞曼(Hans Mosesmann)稱。
Meta 公司 CEO 馬克 · 紮克伯格曾表示,構建 " 通用人工智能 "(AGI)需要的首要條件是 " 世界級的計算基礎設施 "。
支付寶 CTO 陳亮(花名:俊義)近期對钛媒體 App 等表示,目前 AI 大規模應用在實施過程中,依然面臨多個 " 瓶頸 ",包括算力成本高、硬件限制等問題。盡管 GPU 卡的效率已經非常高,但如何使其适應不同的技術棧(與不同技術兼容)依然是一項重要難題。
阿爾特曼曾透露,OpenAI 希望保證到 2030 年都有足夠的 AI 芯片供應。
彭博在一份最新報告中預估,未來 10 年,生成式 AI 技術有望在硬件、軟件、服務、廣告、遊戲等領域創造 1.3 萬億美元收入,占科技領域總支出的 10%-12%。
其中在硬件領域,基于大數據、機器學習和神經網絡算法的 AI 模型訓練将會成爲一個巨大市場。到 2032 年,其銷售規模有望達到 4740 億美元,年複合增長率達 30%,加上 AI 推理,整個全球算力規模屆時将超過 6000 億美元。
(本文首發钛媒體 App,作者|任穎文、林志佳,編輯|林志佳)