馬斯克用20萬卡集群，做出了比DeepSeek還強的模型？

今年才剛剛過去兩個月， AI 模型競技場的火熱程度，堪比年底沖業績。

就在今天中午，馬斯克預告的那個号稱 " 地球上最聰明的人工智能 " Grok 3 ，終于來了。

發布會還是馬斯克慣有的風格，說好的十二點準時開始，結果還是晾了大家快二十分鍾。

一個小時的直播，馬斯克攜 xAI 天團（四個人裏就有兩位華人），從各個方面介紹了 Grok 3 究竟有多厲害。一看紙面數據，又是吊打諸如谷歌、 OpenAI 和 DeepSeek 等一衆明星公司的招牌模型。

反正直播剛一結束， X 上就不淡定了，有人已經提前體驗上了 Grok 3 ， Andrej Karpathy 說它的推理能力跟 o1-pro 差不多，而且還要略優于 DeepSeek R1 和 Gemini 的推理模型。

還有老哥用 AI 生成了一個奧特曼看到 Grok 3 發布後的視頻。。。

國内外關于 Grok 3 的報道也是滿天飛， " 首個突破 1400 分（模型在 Imarena.ai 競技場的得分）的模型 " " 首個十萬卡集群訓練出來的模型 " 。。。各種 title 看着就唬人。

而世超在第一時間，也觀看了這場發布會，不能說炸裂，但至少從直播内容來看， Grok 3 确實又一次延續了AI 領域大力出奇迹的神話。

目前， Grok 3 隻對部分 X 的 Premium+ 會員開放，所以咱就簡單從發布會的内容給大夥兒介紹，這個 Grok 3 究竟是啥水平。

一上來，就拿 Grok 和 GPT 的模型叠代速度進行了對比。

圖上明明标着 Others ，但 GPT 是卷卷有爺名，針對性很強。

而在模型性能方面， Grok 3 這次也是鐵了心要跟其他模型争個高低。

需要注意，根據官方的介紹，這次的 Grok 3 事實上是一個模型家族，大緻可以分爲非推理模型和推理模型兩種。

咱先來看非推理模型，也就是 Grok 3 和 Grok 3 mini 。

還是熟悉的 Benchmark 基準測試， xAI 拉來了 Gemini 2.0 pro 、 DeepSeek V3 、 Claude 3.5 Sonnet 還有 GPT-4o 四個模型，跟自家孩子進行對比。

在 AIME ’ 24 數學競賽、 GPQA （研究生水平科學知識問答能力的基準測試）和代碼三項測試中， Grok 3 的成績肉眼可見高出了其他模型一大截。

Grok 3 mini 的水平雖然跟其他模型大差不差，但直播中也提到了， mini 版本可以通過犧牲一定程度的準确性，來換取更快速度的回答。

另外，在 Chatbot Arena 的盲測中， Grok 3 代号叫 " 巧克力 " 的早期版本也登上了榜一，分數更是史無前例破了 1400 分。

具體來看，巧克力在整體風格控制、編碼、數學還有創意寫作等多個方面，全都拿了第一。

主要巧克力還隻是早期版本的 Grok 3 ，今天的最新版 Grok 3 性能或許還會更強。。。

再來看 Grok 3 的推理模型。

推理模型大家應該不陌生，畢竟 OpenAI 的 o1 系列、 o3 mini 還有 DeepSeek R1 ，都已經殺紅眼了，思維鏈也不是什麽新鮮玩意兒。現在各家上新的模型裏，如果不是推理模型，可能都不好意思拿出來。

所以這次， Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 也代表 xAI 出戰了。

同樣還是紙面實力，表面一看還是吊打的姿态。

但有個需要注意的地方，這個測試中，加了 Test-Time Compute 。

簡單理解就是給了模型更多的時間去思考，同一個橫坐标上顔色淺一點的部分，就是加時賽的成績。

可以看到，如果不算上加時賽， Grok 3 兩個推理模型跟其他模型的差距，并沒有那麽大。一旦加了時長，這差距馬上就體現出來了。

換句話說， Grok 3 的推理模型思考的時間越久，表現越好。

在現場，馬斯克他們還展示了 Grok 3 推理模型，在 2025 年 AIME 數學競賽上的測試結果。

說實在的，如果不算上 Test-Time Compute ，好像還是 o3-mini （ high ）的推理能力更強。。。

爲了證明自己不是說說而已，馬斯克他們在現場直接進行了效果演示。

讓 Grok 3 生成 3D 動畫代碼，可以看到模型一步步的思考過程。但他們也提到，這個思考過程是被模糊處理過的，理由跟奧特曼的差不多，都說是爲了防止模型被抄襲。

另外，現場還讓 Grok 3 生成一個，結合了俄羅斯方塊和寶石迷陣兩種遊戲規則的新遊戲。

這很難不讓人聯想到，馬斯克昨天實錘了 xAI 要成立一家 AI 遊戲工作室的事情，如果 Grok 3 的遊戲制作能力，真的跟現場演示的一樣甚至更強，這對于整個遊戲圈的影響都将是巨大的。

而且根據馬斯克的說法， Grok 3 在未來的兩到三年内，還可能參與到特斯拉的生産還有火箭發射的過程當中。

最後，就是基于 Grok 3 構建的 Agent ， Deepsearch 。

這玩意兒其實就是個智能搜索引擎，有點像 Perplexity 的 Deep Research 和 OpenAI 的 Deep Research 。

當你問 Grok 3 下一次星艦發射是啥時候，左邊會顯示一個總體的進度條，右邊則是展示浏覽了哪些網頁、對哪些信源進行了驗證。。。

最後得出了下一次發射的時間，是 2 月 24 日。

當然了，這次 Grok 3 之所以看上去如此強大，抛不開馬斯克老早就在念叨的，隻花了 122 天就搭建起來的 10 萬卡集群。

在此之後，他們又花了 92 天擴展到了 20 萬卡集群，一招大力出奇迹，在不到一年的時間裏，供出了 Grok 3 。

這段時間大家都在争論的技術路線問題，但 Grok 3 的出現似乎再一次證明了，算力的絕對力量。

就是，把 20 萬卡供出來的 Grok 3 和 DeepSeek 的模型放在一起比較，多少有點刻意了。。。

除此之外，馬斯克在前幾天的迪拜峰會上也提到， Grok 3 經過了合成數據的訓練，能夠通過檢查、驗證信息來反思自己的錯誤。

總而言之，這次的 Grok 3 的确算是拿出了點真家夥。

不過世超也注意到，在 Grok3 搶先體驗的用戶分享當中，有不少跟宣傳不符的實際測試案例。

就比如這位老哥用同一組 prompt 測試了 Grok 3 、 o3 mini 還有 Claude 3.5 Sonnet ，結果 Grok 3 翻得有點徹底。。。

在另外一組測試中， o3 mini 的表現也要優于 Grok 3 和 DeepSeek R1 。

還有放大鏡選手，直接指出了發布會演示的案例裏，有明顯錯誤。

雖然世超這次沒能實際上手測試，但從外部的一些實測案例來看， Grok 3 似乎也沒有營銷的這麽神。

而且這次 Grok 3 上線後，很多人的注意力都放在了模型是否開源上。

根據馬斯克的說法， xAI 一般是新模型發布後再開源舊模型，也就是說，就算開源也是老版的 Grok 2 。

看樣子，來自開源陣營的壓力還是不夠大，馬斯克想狙的還是老對手奧特曼。

就是不知道，已經在 X 上預告了的 GPT 4.5 ，能不能打一場翻身仗了，大家就等着看吧。