
出品|虎嗅科技組
作者|孫曉晨
編輯|苗正卿
頭圖|直播畫面
2 月 18 日,馬斯克所言 " 地球上最聰明的人工智能 " 終于亮相,其旗下人工智能公司 xAI 正式發布其新一代的大語言模型 Grok 3,馬斯克本人也在社交平台 X 上同步開啓直播演示。
據直播介紹,Grok 3 已超越目前市場上所有已發布的人工智能。在官方公布的測試數據中,其在數學推理、科學邏輯推理以及代碼寫作等方面表現均優于 ChatGPT-4o、DeepSeek-V3 等競品。

Grok 大模型是馬斯克旗下的 xAI 公司推出的人工智能模型,其命名源自美國科幻作家羅伯特 · 海因萊因的小說《異鄉異客》(Stranger in a Strange Land)。該系列第一款大模型 Grok 1 于 2023 年 11 月面世,2024 年該模型參數量擴展至 3140 億,遠超 GPT-3.5 的 1750 億。2024 年 8 月,Grok 2 大模型發布,在 Grok 1 基礎上全面升級,并在 X 平台上面向用戶免費使用。而此次直播推出的 Grok 3,據工程師表示,其所涉及的訓練是 Grok 2 的 10 倍,且 Grok 3 已經在 xAI 内部運行了 2 周。
據悉,Grok 3 訓練所用 GPU 總量爲 20 萬個,在第一階段通過 10 萬個 GPU 進行訓練,耗時 144 天,而第二階段的 92 天中,所用 GPU 數量拓展到了 20 萬個。此前據報道,印度已啓動一個有超過 1.8 萬個 GPU 的公共計算設施,将對初創公司、研究人員和開發者開放,以促進其國内人工智能發展以及本國大語言模型的訓練。相較之下,xAI 的 Grok 3 訓練所用 GPU 總量已遠超印度國家級項目 GPU 總量 10 倍不止。龐大的算力規模成爲 Grok 3 加速問世的最大助力,也讓 xAI 在日益激烈的市場競争底氣十足。
在直播活動中,xAI 的工程師展示了 Grok 3 的使用,如現場生成一段太空發射的 3D 動畫的代碼、制作一款融合 " 寶石迷陣 " 和 " 俄羅斯方塊 " 的遊戲,Grok 3 均表現良好,這也證明了該模型對于複雜知識具有良好的理解。馬斯克表示,Grok 3 的功能比 Grok 2 強大一個數量級。

面對 Grok 3 的極佳表現,有知名博主 Alexandr Wang 表示,Grok 3 是世界上新的最佳模型,其在聊天機器人競技場中排名第一,且遙遙領先。Amjad Masad 也表示 Grok 3 似乎是最先進的尖端模型,他認爲考慮 xAI 的處境,該模型的發布無疑是巨大成就。知名播客主持人 Lex Fridman 同樣對該模型印象深刻,表達了對該模型的稱贊。
而 Grok 3 所帶來的騷動,實際上比該模型的正式面世要來得早。
此前,DeepSeek 在世界範圍内掀起熱潮。由于 DeepSeek-R1 模型的優秀表現,以及其代表的低成本訓練路線,人們一度開始讨論全球 AI 話語權的歸屬問題。盡管人工智能行業尚處于群雄逐鹿的階段,但是 DeepSeek-R1 模型無疑爲這個世界帶來巨大沖擊。
繼 DeepSeek 爆火之後,2 月 13 日,OpenAI 首席執行官奧特曼發布博文,宣布準備推出 GPT-4.5 和 GPT-5,并公布路線圖。
同樣在 2 月 13 日,馬斯克在迪拜世界政府峰會上表示 xAI 将推出新一代模型 Grok 3,并盛贊其 " 強到讓人感到害怕 "。而這也引發了人們對 Grok 3 的猜測,以至于讨論 AI 話語權可能再度扯向西方。
至此,一場有關人工智能模型的 " 三國殺 " 已見雛形。
作爲 xAI 的重要市場競争對手,OpenAI 對 Grok 3 的反應也引起人們的注意。在今日馬斯克的直播活動開始之前,奧特曼在社交平台 X 發布消息,稱 GPT-4.5 已進入測試階段,并稱其體驗 " 接近通用人工智能(AGI)",而這一行爲被外界視爲對 Grok 3 的緊急 " 狙擊 "。

相比于明星産品 DeepSeek-R1," 推理 + 測試時間計算 " 中,在數學推理、科學邏輯推理和編程三個方面,Grok 3 Reasoning Beta 版本綜合得分分别爲 93、85、79,均高于 DeepSeek-R1 的 80、71 和 65。最新 AIME 2025 性能測試中,Grok 3 Reasoning Beta 版本有 93 分,高于 DeepSeek-R1。前特斯拉人工智能總監、OpenAI 創始團隊成員 Andrej Karpathy 通過提前體驗指出,Grok 3 模型确實可以做到 DeepSeek-R1 做不到的事。而單純從測試數據看,Grok 3 确實做到了比 DeepSeek-R1 略好。
盡管 Grok 3 在測試中成績優秀,但是仍有分析表現,在 " 推理 + 測試時間計算 " 這一測試中,相比于 o3-mini(high)或 DeepSeek-R1,Grok 3 的數學性能并沒有顯著優勢。馬斯克表示,Grok 3 仍處于早期訓練階段,未來将持續優化。


據了解,自今日起,X 平台 Premium Plus 訂閱用戶将率先獲得 Grok 3 訪問權限。此外,xAI 還推出了名爲 Super Grok 的獨立訂閱服務,但尚未公開定價。馬斯克還表示,目前 xAI 的工程師團隊正在訓練 Grok 3 的迷你版本,并指出 " 迷你版的訓練時間更長,有時表現略好于 Grok 3 推理模型。"
自 Grok 3 開始,馬斯克 " 再無 AI 比 Grok 更優秀 " 的預言能否成真?以目前 AI 的更新速度而言,當真難以定論。但就該模型的表現來看,在人工智能的牌局上,馬斯克确實甩出了有分量的 " 大牌 "。