智東西 2 月 20 日報道,繼 DeepSeek 後,又有一家大模型 App 力壓 ChatGPT,今日登頂美區 App Store 免費榜。它就是馬斯克大張旗鼓跟 OpenAI 叫闆的底氣——号稱「世界最強 AI」的 Grok 3.0!

老闆馬斯克顯然對這一成績非常滿意,順帶發預告:這是沒語音模式版本的,接下來幾天還會上更多功能哦。
Grok 3.0 沖得這麽猛,是因爲馬斯克放了個大招。
馬斯克在今天日理萬機、忙于爲 DOGE 政府改革沖鋒陷陣的間歇,特意抽出空來,轉發 xAI 的推文宣布:Grok 3.0 向所有人免費開放!

▲馬斯克推文(由谷歌翻譯英譯中)
xAI 發文寫道:" 就是這樣:世界上最聰明的 AI,Grok 3,現在免費使用(直到我們的服務器崩掉)。"
此言一出,效果立竿見影,看見免費福利後,網友們行動上一點不含糊,立刻把 Grok App 下載量沖到第一。
馬斯克創辦的這家大模型獨角獸企業,将 Grok 3 稱作 " 史上最強大的模型 ",稱其在推理、數學、編程、世界知識、跟蹤任務五項能力上全面登頂。

在聊天機器人盲測榜上,Grok 3 也做到了拳打 Gemini 2.0,腳踢 ChatGPT 4o,超越 DeepSeek R1,并開創了首個 1400 分。

Grok 3 還介紹了兩項新功能:DeepSearch(深度搜索)和 Thinking(思考),并将很快通過 API 發布标準版和推理版本的 Grok 3。

其中 DeepSearch 是個強大的 AI agent,可以快速綜合關鍵信息,根據複雜事實和觀點進行推理,并提煉出清晰的結果。
Thinking 則是使用推理模型,尤其适合處理數學、科學、編程任務。免費用戶每天的使用次數有限制。
Grok 3 支持中文輸入,我們把兩個功能都上手體驗了一番。先試用了 DeepSearch 功能。我用中文要求 Grok 3 整理 2016-2025 年全球動畫電影票房冠軍的登頂時間和票房金額,結果 2025 年的明顯不對。

爲了避免是中文翻譯導緻的問題,我又開了一個新的對話頁面,用英文問一遍,這次 Grok 3 在 2025 年列出了哪吒 2。

再讓 Grok 3 全面概述過去一年來量子計算的最新進展,它的思考過程很快,不到 1 分鍾就給出一份調研報告,并附上了每條信息的參考鏈接。

從完整性來看,Grok 3 并沒有滿足我的要求,它在報告裏清晰劃定了時間區間是 "2024 年 2 月至 2025 年 2 月 ",在聯網搜索了 62 個來源的情況下,列表中沒有包含微軟昨晚剛發布的首款量子芯片,信息不夠新和全。

換 Thinking 功能試試。我們拿之前測試 DeepSeek R1 是否是滿血版的經典指令 " 一個漢字具有左右結構,左邊是木,右邊是乞。這個字是什麽?" 來考考它。

經過 52 秒的英文思考,Grok 3 得出結論:若按最接近的猜測,或許是 " 杞 ",但嚴格來說不符合。

可以說 Grok 3 回答得非常嚴謹了,過關!
換成另一個用來測出 DeepSeek R1 滿血版的中文網絡梗題,也沒有難倒 Grok 3,而且這次思考隻花了 5 秒。從這裏開始,到之後所有的測試,Grok 3 的思考過程都變成了中文。

不過考察時間邏輯與動态語境理解時,它思考得飛速,翻車得也飛速,回答說 " 昨天的當天是明天的昨天 "。

讓它整理今天發生的 AI 新聞,做成一個适合發小紅書的格式,它輸出的結果也存在無法準确控制時間範圍的問題了,很多新聞都不是今天的。

再讓它設計界面,用奶酪黃作爲主配色,并整理成 html 格式,打開界面的效果是這樣的:

問它如果有機會成爲人類,你最想做什麽,Grok 3 的回答水平比 DeepSeek R1 差得有點多。DeepSeek R1 能輸出一些戳人心窩的文字,Grok 3 則是中規中矩的中文小學生水平。

按原著風格續寫《西遊記》,Grok 3 也是能理解對意思,但遣詞造句遠不如 DeepSeek R1。

再試試 Grok 3 的中文毒舌能力,讓它一句話辣評幾個 AI 聊天應用。沒想到這對它來說挺費勁兒,它思考了足足将近 8 分鍾,最終輸出的内容非常一般:

對比我們之前用 DeepSeek R1 測得,R1 的中文實力屬實一騎絕塵,用時短,思考快,文字淬毒:

總的來說,用 Grok 3 搜索信息效果不錯,但如果想用中文生成能力,還是得指望國内 AI 聊天助手。
就海外反饋來看,馬斯克和 xAI 的推文評論區高贊以誇聲和曬使用體驗居多,看來海外網友們對 Grok 3 總體比較滿意。有網友銳評:" 我現在可以聽見千千萬萬的 OpenAI 賬戶正在關閉 ……"
不管怎麽說,馬斯克這波給 OpenAI 添堵,添得相當成功,添得揚眉吐氣。
這下 OpenAI 在 ChatGPT 收費路上的絆腳石,又多了一塊大的。