實測OpenAI最強模型o1：會做大學數理化，但弱智吧依然難解 - 青年圖摘

OpenAI 傳說中的 " 草莓 " 終于正式上線！

不僅可以勝任更複雜的推理任務，在數學、代碼和其他科學領域也能解決更難的問題。

OpenAI 這次 " 無預警發布 " 震撼了科技圈，o1 更是被 CEO 奧特曼稱它爲了一種新範式的開始。

發布之後，各路大神和網友都紛紛用各種問題測試 OpenAI o1 的表現：

還有人進行了花式考驗，結果被 o1 強大的推理能力秀到了。

Q：你的回複中有幾個字？

A1：這句話有七個字

A2：一共五個字

量子位也進行了一番實測，下面就一起來了解。

推理能力大進化，但還是難敵弱智吧

該說不說，o1 雖然在推理能力上取得了很大進步，但面對充滿心機的弱智吧問題，還是掉進了人類挖的陷阱。

當然了，對于正經問題，o1 的表現還是很強的，首先看看邏輯推理能力。

思考這道題時，preview 和 mini 分别用時 21 秒和 14 秒，不過從文本上看 mini 思考得反而更多。

其中還出現了一些西裏爾字母亂入，不過對整體影響不大。

最終，二者也都給出了正确的答案——丙。

值得注意的是，mini（右）的解答當中還出現了修正的過程。

接下來看下 o1 在大學數理化題目上的表現。

首先是這道考研數學真題，涉及的知識點是曲面積分、高斯定理等内容：

還是分别看下 preview 和 mini 的思考，可以看到 mini 的思考過程大概是 preview 的簡略版，當然速度也快了不少。

不過 preview 給的思考過程當中再次出現亂入，這次是泰語。

實際解答過程也是 preview 比 mini 更加詳細，不過不知道爲什麽 preview 用了英文回答。

最後的計算結果化簡方式也有所不同，但數值上是相等的，而且也做對了。

對比 4o 這邊，先偷懶後作弊（調用了代碼解釋器），結果最後答案還是錯的。

第二道數學題關于概率。

這道題 preview 依然是用英語進行了作答，步驟比 mini 更加詳細，當然都是對的。

而 4o 的答案前面的過程倒是基本都對，但是最後一步的求解出現了問題，隻給出了 1 這一個解，并且不是本題答案。

物理方面，這裏選擇了一道大學物理中的光學題：

preview（左）和 mini 都給出了正确解答，内容也基本一緻。

化學的題目是一道物化題，主要涉及電化學等内容。

這裏把 AgCl/Ag 的标準電極電勢作爲已知條件一同輸入給模型。

Preview（左）和 mini 大緻的解題思路還是差不多，在計算步驟上有指對運算先後的差别，當然最後的結果還是對的。

最後一項測試就不再做考試題了，而是看看模型編寫代碼的能力如何。

這裏選擇的題目難度非常高，真人的通過率隻有 14%。

以下是 preview（左）和 mini 的解題思路：

從代碼上看，兩者核心邏輯相似，但在具體操作上略有區别。

兩套代碼均通過了測試，内存消耗也比較接近，而 mini 給出的代碼運行時間更短（38 毫秒）。

o1 的編程能力除了用來解題，也可以快速構建出實用的應用程序。

知名 AI 配音工具 ElevenLabs 設計部門負責人 Ammaar Reshi，就利用 o1 搭配 Cursor Composer，用了不到 10 分鍾的時間制作了一款 iOS 天氣應用。

小數比較還是不會？

測試發現，對于大模型難以答對的名場面——小數比大小，preview（左）和 mini 都答不對。

甚至 preview 在思考過程中明明已經提到過 9.8 比 9.11 大。

但同時 preview 在思考過程中表示，9.8 和 9.11 有可能指的是日期，所以做不對也許另一原因。

針對這個問題，大神謝賽甯也曬出了他的測試結果，發現 o1 在思考過程中将 9.8 當成了重力常數，而 9.11 是一個 " 意義不明的數字 "。

所以 o1 可能不是不會，而是把這個問題想複雜了。

爲了進一步探究，我們把問題改得具體些，強調一下 9.8 和 9.11 都是數字，這下沒有了歧義之後就能一次做對了。

可以看出，提示詞的影響還是不小的。

由于 o1 在内部采用了一些類思維鏈過程，因此 prompt 的設計和普通版本也有所區别，OpenAI 官方發布了一則提示：

提示詞應簡單且直接

避免在提示詞中使用思維鏈

使用分隔符讓 promot 更清晰

控制 RAG 内容的長度

回到我們的測試，面對其他幾個大模型敗北名場面，o1 也有不小的進步。

比如在數字母的任務上就有所進化，即使是一串亂打的字母也能數對。

還有面對經典的" 反轉詛咒 "（即知道 A 是 B 卻不知道 B 是 A）問題，也終于一次性答對了 Mary Lee Pfeiffer（湯姆 · 克魯斯的母親）的兒子是誰。

One More Thing

關于這次發布的 o1，除了各個方面的成績之外，還有一些其他的發現。

比如前特斯拉自動駕駛負責人、兩度進入 OpenAI 又兩度離職的大神 Andrej Karpathy 發現，o1-mini 在被要求證明黎曼猜想的時候出現了拒絕回答的情況，表示大模型 " 犯懶 " 依然是一個大問題。

還有網友說覺得 mini 的表現比 preview 好，想問下有沒有人知道原因或者有啥看法。

這條消息也把奧特曼吸引了過來，回複了一句 "Yes I have one"。

根據 OpenAI 内部員工 Kevin Lu 發布的一則推文來看，mini 的性價比确實比 preview 更高。

根據這張圖顯示，preview 版本論性能比不上尚未公布的滿血 o1，論經濟性又比不上 mini。

順便提一句，preview 版本存在消息數量限制，并且數量是按周進行重置的，幾輪測試下來已經快要用盡了。

參考鏈接：

[ 1 ] https://x.com/rowancheung/status/1834300353619075494

[ 2 ] https://x.com/karpathy/status/1834374965942255835

[ 3 ] https://x.com/sama/status/1834381401380294685

[ 4 ] https://x.com/_kevinlu/status/1834278160038592633