剛剛，OpenAI 重磅發布 o3！再次突破 AI 極限，北大校友參與研發

就在剛剛，OpenAI 迎來了年底 AI 春晚的收官之作。

這次發布的的 o3 系列模型是 o1 的叠代版本，考慮到可能與英國電信運營商 O2 存在版權或商标沖突，OpenAI 決定跳過「o2」命名，直接采用「o3」。

爲此，OpenAI CEO Sam Altman 更是自嘲公司在模型命名方面的混亂，原來你也知道呀。

本次發布會由 Sam Altman、研究高級副總裁 Mark Chen 以及研究科學家 Hongyu Ren（任泓宇）主持。

值得注意的是，任泓宇本科畢業于北大，對 o1 有過基礎性貢獻，也是 GPT-4o 的核心開發者，曾在蘋果、微軟和英偉達有過豐富的研究實習經曆。

o3 系列包含兩款重磅模型：

OpenAI o3：旗艦版本，具備強大的性能表現

OpenAI o3 mini：輕量級模型，但能更快，更便宜，主打性價比

先别急着高興，因爲 o3 系列目前并不會向普通用戶開放，OpenAI 計劃先開放外部安全測試申請，正式發布時間預計要到明年 1 月。

現在，感興趣的朋友可以提交申請：

https://openai.com/index/early-access-for-safety-testing/

o3 性能大躍遷，死記硬背？不存在的

o3 模型的「紙面參數」迎來了全方位提升。

首先在 SweepBench Verified 基準測試中， o3 達到了約 71.7% 的準确率，直接将 o1 模型甩在身後整整 20% 之多。

轉入編碼領域，o1 在編程競賽平台 Codeforces 上的得分爲 1891。而 o3 在開足馬力，延長思考時間的情況下，得分可達 2727。

作爲參照，演示人員 Mark Chen 的得分也隻有 2500，充分展現了 o3 模型已經具備接近甚至超越人類專業程序員的實力。

在數學領域，o3 同樣表現出色。

在美國數學競賽 AIME 2024 測試中，o3 以 90.67% 的準确率完全碾壓了 o1 的 83.3%。

遇上衡量博士級科學問題解答能力的 GPQA Diamond 測試，o3 取得了 87.7% 的成績，而 o1 僅爲 78%。

什麽概念呢？要知道，就算是領域内的博士專家，也往往隻能在自己的專業範圍内達到約 70% 的準确率。

面對當前基準測試接近滿分的情況，OpenAI 引入了一個全新的數學測試 EpochAI Frontier Math。

這被認爲是當前最具挑戰性的數學評估之一，包含了極其複雜的問題。就連專業數學家解決單個問題也需要耗費數小時甚至數天。

目前，所有現有模型在該測試上的準确率都不足 2%，而在高算力的長時間測試下，o3 卻能取得超過 2457 的分數。

說到 AI 領域的聖杯 AGI，也就不得不提到 ARC-AGI 這個專門衡量 AGI 的基準測試。

ARC-AGI 是由 Keras 之父 Fran ç ois Chollet 開發，主要是通過圖形邏輯推理來測試模型的推理能力。

當演示人員向另一位演示人員 Mark Chen 提出即興問題時，後者準确指出了任務的要求：需要計算每個黃色方塊中彩色小方塊的數量，并據此生成相應的邊框。

這些對人類來說再簡單不過的任務，對 AI 來說卻是一道難題。

并且，ARC-AGI 的每個任務都需要不同的技能，且刻意避免重複，完全杜絕了模型靠「死記硬背」取巧的可能，真正測試模型實時學習和應用新技能的能力。

現在，o3 在低算力的配置下得分 75.7 分。當要求 o3 思考更長時間，并且提高算力，o3 在相同的隐藏保留集上得分 87.5%，遠超大多數真人。

OpenAI 的言外之意就是，o3 将讓我們離 AGI 更近一步。

o3 mini 重磅發布，速度更快，成本更低

今年九月，OpenAI 發布了 o1 mini，具有很強的數學和編程能力，而且成本極低。

延續這一發展方向，今天推出的 o3 mini 也保留了上述特征。即日起，該模型僅向安全研究人員開放測試申請，截止日期爲 1 月 10 日。

o3 mini 支持低、中、高三種推理時間模式。

用戶可根據任務複雜度靈活調整模型的思考時間。例如，複雜問題可選擇更長的思考時間，而簡單問題則可快速處理。

從首批評估結果來看，在衡量編程能力的 Codeforces Elo 評分中，随着推理時間的增加，其 Elo 分數持續攀升，在中等推理時間下就已超越 o1 mini。

演示人員要求模型使用 Python 創建了一個代碼生成器和執行器，該腳本可啓動服務器并創建本地用戶界面。用戶可在文本框中輸入代碼請求，系統會将請求發送至三種高級模式的 API，生成并執行相應代碼。

例如，當要求其生成一個包含 OpenAI 和随機數的代碼時，o3 mini 的中等推理模式迅速完成了處理。

另外，它還能自己測試自己，比如說在 GPQA 數據集測試中，模型以低推理模式完成了複雜數據集的評估。

它下載原始文件，識别 CSS、答案和選項，整理問題并進行解答，最後進行評分，僅用一分鍾就完成了自我評估，準确率達到 61.62%。

在數學領域，o3 mini 同樣表現優秀。

在 AIME 數學基準測試中，其低推理模式就達到了與 o1 mini 相當的性能，中等推理模式更是超越了 o1 mini，且延時更低。

另外，應廣大開發者呼聲，o3 mini 模型也将全面支持函數調用、結構化輸出和開發者指令等 API 功能。

現在，o3 mini 和 o3 的申請通道現已開放。o3 mini 預計将于 1 月向所有用戶推出，完整版 o3 則将在後續發布。

寫在最後，在這個爲期 12 天的年末發布會上，OpenAI 終于祭出了壓箱底的殺手锏。

可以說，o3 模型的發布爲這場一度陷入「高開低走」困境的發布會，畫上了一個意料之外卻又情理之中的圓滿句号。

短短不到 3 個月的時間，OpenAI 就完成了 o1 模型的叠代升級。

這種從 GPT 系列到 o 系列的轉型，顯然是 OpenAI 深思熟慮後的戰略選擇，而事後結果也證明這個決定是明智的。

不過，值得注意的是，微軟 CEO Satya Nadella 近期在一檔播客節目中表示，OpenAI 在 AI 領域領先競争對手約兩年之久。

也正是這種相對寬松的競争環境，使得 OpenAI 能夠專注于開發 ChatGPT。

然而，當前形勢攻守易形也。

Menlo Ventures 的報告顯示，ChatGPT 的市場份額被其他競争對手逐漸蠶食，從 2023 年的 50% 下降到了 2024 年的 34%。

由「标配」淪爲「可選項」，ChatGPT 的光環正在褪去。

這背後的原因顯而易見，OpenAI 的「護城河」正被短命狂奔的競争對手們一寸寸填平。

來自 Artificial Analysis 的調研數據清晰顯示，Anthropic 和 Google 等廠商陸續開發出性能接近 GPT-4、OpenAI o1 等新模型。

并且，随着 Scaling Law 觸及天花闆，核心高管人才相繼離場，OpenAI 過往靠單個基礎模型赢得的紅利正在加速消退。

在動辄以天計的行業裏，即便是今日發布的 o3 模型也很難再次創造長達 2 年的空窗期。

尤其是當 Grok-3 和 Claude 等新模型蓄勢待發，留給 OpenAI 的時間或許已經不多了。

醒醒，今年最好的 AI 廠商依舊是 OpenAI，但明年或許會因爲不同的 AI 方向有無數種答案。

所幸，作爲用戶的我們，都将是這場變局中最大的赢家。