馬斯克用20萬張卡練出的Grok 3能超越DeepSeek嗎？

出品｜虎嗅科技組

作者｜孫曉晨

編輯｜苗正卿

頭圖｜直播畫面

2 月 18 日，馬斯克所言 " 地球上最聰明的人工智能 " 終于亮相，其旗下人工智能公司 xAI 正式發布其新一代的大語言模型 Grok 3，馬斯克本人也在社交平台 X 上同步開啓直播演示。

據直播介紹，Grok 3 已超越目前市場上所有已發布的人工智能。在官方公布的測試數據中，其在數學推理、科學邏輯推理以及代碼寫作等方面表現均優于 ChatGPT-4o、DeepSeek-V3 等競品。

Grok 大模型是馬斯克旗下的 xAI 公司推出的人工智能模型，其命名源自美國科幻作家羅伯特 · 海因萊因的小說《異鄉異客》（Stranger in a Strange Land）。該系列第一款大模型 Grok 1 于 2023 年 11 月面世，2024 年該模型參數量擴展至 3140 億，遠超 GPT-3.5 的 1750 億。2024 年 8 月，Grok 2 大模型發布，在 Grok 1 基礎上全面升級，并在 X 平台上面向用戶免費使用。而此次直播推出的 Grok 3，據工程師表示，其所涉及的訓練是 Grok 2 的 10 倍，且 Grok 3 已經在 xAI 内部運行了 2 周。

據悉，Grok 3 訓練所用 GPU 總量爲 20 萬個，在第一階段通過 10 萬個 GPU 進行訓練，耗時 144 天，而第二階段的 92 天中，所用 GPU 數量拓展到了 20 萬個。此前據報道，印度已啓動一個有超過 1.8 萬個 GPU 的公共計算設施，将對初創公司、研究人員和開發者開放，以促進其國内人工智能發展以及本國大語言模型的訓練。相較之下，xAI 的 Grok 3 訓練所用 GPU 總量已遠超印度國家級項目 GPU 總量 10 倍不止。龐大的算力規模成爲 Grok 3 加速問世的最大助力，也讓 xAI 在日益激烈的市場競争底氣十足。

在直播活動中，xAI 的工程師展示了 Grok 3 的使用，如現場生成一段太空發射的 3D 動畫的代碼、制作一款融合 " 寶石迷陣 " 和 " 俄羅斯方塊 " 的遊戲，Grok 3 均表現良好，這也證明了該模型對于複雜知識具有良好的理解。馬斯克表示，Grok 3 的功能比 Grok 2 強大一個數量級。

面對 Grok 3 的極佳表現，有知名博主 Alexandr Wang 表示，Grok 3 是世界上新的最佳模型，其在聊天機器人競技場中排名第一，且遙遙領先。Amjad Masad 也表示 Grok 3 似乎是最先進的尖端模型，他認爲考慮 xAI 的處境，該模型的發布無疑是巨大成就。知名播客主持人 Lex Fridman 同樣對該模型印象深刻，表達了對該模型的稱贊。

而 Grok 3 所帶來的騷動，實際上比該模型的正式面世要來得早。

此前，DeepSeek 在世界範圍内掀起熱潮。由于 DeepSeek-R1 模型的優秀表現，以及其代表的低成本訓練路線，人們一度開始讨論全球 AI 話語權的歸屬問題。盡管人工智能行業尚處于群雄逐鹿的階段，但是 DeepSeek-R1 模型無疑爲這個世界帶來巨大沖擊。

繼 DeepSeek 爆火之後，2 月 13 日，OpenAI 首席執行官奧特曼發布博文，宣布準備推出 GPT-4.5 和 GPT-5，并公布路線圖。

同樣在 2 月 13 日，馬斯克在迪拜世界政府峰會上表示 xAI 将推出新一代模型 Grok 3，并盛贊其 " 強到讓人感到害怕 "。而這也引發了人們對 Grok 3 的猜測，以至于讨論 AI 話語權可能再度扯向西方。

至此，一場有關人工智能模型的 " 三國殺 " 已見雛形。

作爲 xAI 的重要市場競争對手，OpenAI 對 Grok 3 的反應也引起人們的注意。在今日馬斯克的直播活動開始之前，奧特曼在社交平台 X 發布消息，稱 GPT-4.5 已進入測試階段，并稱其體驗 " 接近通用人工智能（AGI）"，而這一行爲被外界視爲對 Grok 3 的緊急 " 狙擊 "。

相比于明星産品 DeepSeek-R1，" 推理 + 測試時間計算 " 中，在數學推理、科學邏輯推理和編程三個方面，Grok 3 Reasoning Beta 版本綜合得分分别爲 93、85、79，均高于 DeepSeek-R1 的 80、71 和 65。最新 AIME 2025 性能測試中，Grok 3 Reasoning Beta 版本有 93 分，高于 DeepSeek-R1。前特斯拉人工智能總監、OpenAI 創始團隊成員 Andrej Karpathy 通過提前體驗指出，Grok 3 模型确實可以做到 DeepSeek-R1 做不到的事。而單純從測試數據看，Grok 3 确實做到了比 DeepSeek-R1 略好。

盡管 Grok 3 在測試中成績優秀，但是仍有分析表現，在 " 推理 + 測試時間計算 " 這一測試中，相比于 o3-mini（high）或 DeepSeek-R1，Grok 3 的數學性能并沒有顯著優勢。馬斯克表示，Grok 3 仍處于早期訓練階段，未來将持續優化。

據了解，自今日起，X 平台 Premium Plus 訂閱用戶将率先獲得 Grok 3 訪問權限。此外，xAI 還推出了名爲 Super Grok 的獨立訂閱服務，但尚未公開定價。馬斯克還表示，目前 xAI 的工程師團隊正在訓練 Grok 3 的迷你版本，并指出 " 迷你版的訓練時間更長，有時表現略好于 Grok 3 推理模型。"

自 Grok 3 開始，馬斯克 " 再無 AI 比 Grok 更優秀 " 的預言能否成真？以目前 AI 的更新速度而言，當真難以定論。但就該模型的表現來看，在人工智能的牌局上，馬斯克确實甩出了有分量的 " 大牌 "。