IT 之家 8 月 28 日消息,Cerebras Systems 今日宣布推出 Cerebras Inference,官方稱這是全球最快的 AI 推理解決方案。該新解決方案爲 Llama 3.1 8B 提供每秒 1800 個 token,爲 Llama 3.1 70B 提供每秒 450 個 token,速度是微軟 Azure 等超大規模雲中提供的基于英偉達 GPU 的 AI 推理解決方案的 20 倍。
除了令人難以置信的性能之外,這款新型推理解決方案的定價也比流行的 GPU 雲低得多,起價僅爲每百萬個 token 10 美分,從而爲 AI 工作負載提供 100 倍更高的性價比。
該方案将允許 AI 應用程序開發人員構建下一代 AI 應用程序,而不會影響速度或成本。該方案使用了 Cerebras CS-3 系統及其 Wafer Scale Engine 3(WSE-3)AI 處理器,其中 CS-3 的内存帶寬是 Nvidia H100 的 7000 倍,解決了生成式 AI 的内存帶寬技術挑戰。
據 IT 之家了解,Cerebras Inference 提供以下三個層級:
免費層爲登錄的任何人提供免費的 API 訪問和慷慨的使用限制。
開發者層專爲靈活的無服務器部署而設計,爲用戶提供一個 API 端點,其成本隻是市場上替代方案的一小部分,Llama 3.1 8B 和 70B 模型的定價分别爲每百萬 token 10 美分和 60 美分。
企業層提供微調模型、定制服務級别協議和專門支持。企業可以通過 Cerebras 管理的私有雲或客戶場所訪問 Cerebras Inference,非常适合持續的工作負載。
Cerebras 團隊稱:" 憑借創紀錄的性能、業界領先的定價和開放的 API 訪問,Cerebras Inference 爲開放的 LLM 開發和部署設定了新标準。作爲唯一能夠同時提供高速訓練和推理的解決方案,Cerebras 爲 AI 開辟了全新的可能性。"
AI 領域正在迅速發展,雖然英偉達目前在 AI 市場占據主導地位,但 Cerebras 和 Groq 等公司的出現預示着行業動态可能發生變化。随着對更快、更具成本效益的 AI 推理解決方案需求的不斷增加,這些挑戰者在颠覆英偉達的霸主地位,尤其是在推理領域方面。