運行LIama2得8400萬元！最快AI推理芯片成本推算引熱議

想實現史上最快大模型推理，得要 1171 萬美元（8410 萬元）？？？

同等項目下，使用英偉達 GPU 成本隻需 30 萬美元……

關于最強 AI 芯片易主 Groq，可能得讓子彈再飛一會兒了。

這兩天，Groq 驚豔亮相。它以号稱 " 性價比高英偉達 100 倍 " 的芯片，實現每秒 500tokens 大模型生成，感受不到任何延遲。外加谷歌 TPU 團隊這樣一個高精尖人才 Buff，讓不少人直呼：英偉達要被碾壓了……

喧嚣過後開始出現一些理智讨論，其中主要還是針對 Groq 的效益成本問題。

網友粗略一算，現在演示 Demo 就需要 568 塊芯片，花費 1171 萬美元。

于是乎，業内業外各界人士不約而同地展開了一場算術大法。

甚至出現了位分析師，拿着表格現身說法……

并感歎了句：OK，everybody is doing public math this week.

不過 Groq 也第一時間在社交網絡上進行了回應。

" 每個人都在做數學 "

參與到 Groq 成本問題讨論的，有計算機學生，也有同提供推理服務的雲廠商，甚至還有 Groq 前員工大戰現員工……好不熱鬧。

摘取幾個有代表性的，我們來看看大家都是如何看待的。

首先一個粗略估計，一張卡的價格約爲 2 萬美元，内存又僅爲 0.23GB。

那麽爲單個 LLama 70B 模型服務，就需要購買大約 320 張卡（實際上更多），包括服務器在内大約花費 1 千萬美元……

而要是跟英偉達的 H100 對比，情況又是如何？

Lepton 的賈揚清也參與進來，算了一筆賬。除了基本價格，他還從能源功耗、性能、運營成本等角度進行了分析。

最終總結出這幾個核心觀點：

對于 LLaMA 70b 模型，使用 572 張卡來計算，每年電費将花費 25.4 萬美元；

使用 4 張 H100 卡可以實現 Groq 一半的性能，如今 8 卡 H100 盒子的價格約爲 30 萬美元。

如果運營三年，Groq 的硬件采購成本爲 1144 萬美元，運營成本爲 76.2 萬美元。相比起來 H100 采購和運營成本更低。

值得一提的是，在 Groq 給出的基準測試中，也包括了 Lepton 在内，推理速度大概是 Lepton 的三倍。

賈揚清還透露，他跟 Groq 創始人是舊相識了：

在谷歌時就相互知道。

不過在這些讨論中，也有其他算法。

比如有網友反應，按照單個 Token 價格這個維度來計算，情況又是如何呢？

沒關系，還有更專業的分析師會出手。

不過根據他的計算，每 100 萬 Tokens 的花費，Groq 性價比是要高一些。

除此之外，還有一些其他的讨論，像是否支持加速任何 Transformer？

Groq 在線答疑

由于大家過于關注，Groq 忍不住親自下場解答。

是時候再發一個常見問題帖子來澄清了。

主要有以下幾點：

采用開源模型，适應我們的編譯器，然後運行它，僅此而已。

我們 token 價格很實惠很高效，因爲從芯片到系統都自己搞，沒有中間商；

不會出售芯片，但第三方供應商除外；公布的銷售數據有偏差。

我們的目标客戶不是單卡用戶。

另外還在持續地在線答疑中……

所以 Groq 是否能真的撼動住英偉達的地位，估計還得再等一等。

不過昨天英偉達股價倒是異動了一波……

參考鏈接：

[ 1 ] https://twitter.com/GroqInc/status/1760113134566576558

[ 2 ] https://twitter.com/swyx/status/1760065636410274162

[ 3 ] https://news.ycombinator.com/item?id=39428880

[ 4 ] https://twitter.com/JayScambler/status/1759372542530261154

[ 5 ] https://twitter.com/DZhang50/status/1759839771487297637