就在剛剛,OpenAI 迎來了年底 AI 春晚的收官之作。
這次發布的的 o3 系列模型是 o1 的叠代版本,考慮到可能與英國電信運營商 O2 存在版權或商标沖突,OpenAI 決定跳過「o2」命名,直接采用「o3」。
爲此,OpenAI CEO Sam Altman 更是自嘲公司在模型命名方面的混亂,原來你也知道呀。
本次發布會由 Sam Altman、研究高級副總裁 Mark Chen 以及研究科學家 Hongyu Ren(任泓宇)主持。
值得注意的是,任泓宇本科畢業于北大,對 o1 有過基礎性貢獻,也是 GPT-4o 的核心開發者,曾在蘋果、微軟和英偉達有過豐富的研究實習經曆。
o3 系列包含兩款重磅模型:
OpenAI o3:旗艦版本,具備強大的性能表現
OpenAI o3 mini:輕量級模型,但能更快,更便宜,主打性價比
先别急着高興,因爲 o3 系列目前并不會向普通用戶開放,OpenAI 計劃先開放外部安全測試申請,正式發布時間預計要到明年 1 月。
現在,感興趣的朋友可以提交申請:
https://openai.com/index/early-access-for-safety-testing/
o3 性能大躍遷,死記硬背?不存在的
o3 模型的「紙面參數」迎來了全方位提升。
首先在 SweepBench Verified 基準測試中, o3 達到了約 71.7% 的準确率,直接将 o1 模型甩在身後整整 20% 之多。
轉入編碼領域,o1 在編程競賽平台 Codeforces 上的得分爲 1891。而 o3 在開足馬力,延長思考時間的情況下,得分可達 2727。
作爲參照,演示人員 Mark Chen 的得分也隻有 2500,充分展現了 o3 模型已經具備接近甚至超越人類專業程序員的實力。
在數學領域,o3 同樣表現出色。
在美國數學競賽 AIME 2024 測試中,o3 以 90.67% 的準确率完全碾壓了 o1 的 83.3%。
遇上衡量博士級科學問題解答能力的 GPQA Diamond 測試,o3 取得了 87.7% 的成績,而 o1 僅爲 78%。
什麽概念呢?要知道,就算是領域内的博士專家,也往往隻能在自己的專業範圍内達到約 70% 的準确率。
面對當前基準測試接近滿分的情況,OpenAI 引入了一個全新的數學測試 EpochAI Frontier Math。
這被認爲是當前最具挑戰性的數學評估之一,包含了極其複雜的問題。就連專業數學家解決單個問題也需要耗費數小時甚至數天。
目前,所有現有模型在該測試上的準确率都不足 2%,而在高算力的長時間測試下,o3 卻能取得超過 2457 的分數。
說到 AI 領域的聖杯 AGI,也就不得不提到 ARC-AGI 這個專門衡量 AGI 的基準測試。
ARC-AGI 是由 Keras 之父 Fran ç ois Chollet 開發,主要是通過圖形邏輯推理來測試模型的推理能力。
當演示人員向另一位演示人員 Mark Chen 提出即興問題時,後者準确指出了任務的要求:需要計算每個黃色方塊中彩色小方塊的數量,并據此生成相應的邊框。
這些對人類來說再簡單不過的任務,對 AI 來說卻是一道難題。
并且,ARC-AGI 的每個任務都需要不同的技能,且刻意避免重複,完全杜絕了模型靠「死記硬背」取巧的可能,真正測試模型實時學習和應用新技能的能力。
現在,o3 在低算力的配置下得分 75.7 分。當要求 o3 思考更長時間,并且提高算力,o3 在相同的隐藏保留集上得分 87.5%,遠超大多數真人。
OpenAI 的言外之意就是,o3 将讓我們離 AGI 更近一步。
o3 mini 重磅發布,速度更快,成本更低
今年九月,OpenAI 發布了 o1 mini,具有很強的數學和編程能力,而且成本極低。
延續這一發展方向,今天推出的 o3 mini 也保留了上述特征。即日起,該模型僅向安全研究人員開放測試申請,截止日期爲 1 月 10 日。
o3 mini 支持低、中、高三種推理時間模式。
用戶可根據任務複雜度靈活調整模型的思考時間。例如,複雜問題可選擇更長的思考時間,而簡單問題則可快速處理。
從首批評估結果來看,在衡量編程能力的 Codeforces Elo 評分中,随着推理時間的增加,其 Elo 分數持續攀升,在中等推理時間下就已超越 o1 mini。
演示人員要求模型使用 Python 創建了一個代碼生成器和執行器,該腳本可啓動服務器并創建本地用戶界面。用戶可在文本框中輸入代碼請求,系統會将請求發送至三種高級模式的 API,生成并執行相應代碼。
例如,當要求其生成一個包含 OpenAI 和随機數的代碼時,o3 mini 的中等推理模式迅速完成了處理。
另外,它還能自己測試自己,比如說在 GPQA 數據集測試中,模型以低推理模式完成了複雜數據集的評估。
它下載原始文件,識别 CSS、答案和選項,整理問題并進行解答,最後進行評分,僅用一分鍾就完成了自我評估,準确率達到 61.62%。
在數學領域,o3 mini 同樣表現優秀。
在 AIME 數學基準測試中,其低推理模式就達到了與 o1 mini 相當的性能,中等推理模式更是超越了 o1 mini,且延時更低。
另外,應廣大開發者呼聲,o3 mini 模型也将全面支持函數調用、結構化輸出和開發者指令等 API 功能。
現在,o3 mini 和 o3 的申請通道現已開放。o3 mini 預計将于 1 月向所有用戶推出,完整版 o3 則将在後續發布。
寫在最後,在這個爲期 12 天的年末發布會上,OpenAI 終于祭出了壓箱底的殺手锏。
可以說,o3 模型的發布爲這場一度陷入「高開低走」困境的發布會,畫上了一個意料之外卻又情理之中的圓滿句号。
短短不到 3 個月的時間,OpenAI 就完成了 o1 模型的叠代升級。
這種從 GPT 系列到 o 系列的轉型,顯然是 OpenAI 深思熟慮後的戰略選擇,而事後結果也證明這個決定是明智的。
不過,值得注意的是,微軟 CEO Satya Nadella 近期在一檔播客節目中表示,OpenAI 在 AI 領域領先競争對手約兩年之久。
也正是這種相對寬松的競争環境,使得 OpenAI 能夠專注于開發 ChatGPT。
然而,當前形勢攻守易形也。
Menlo Ventures 的報告顯示,ChatGPT 的市場份額被其他競争對手逐漸蠶食,從 2023 年的 50% 下降到了 2024 年的 34%。
由「标配」淪爲「可選項」,ChatGPT 的光環正在褪去。
這背後的原因顯而易見,OpenAI 的「護城河」正被短命狂奔的競争對手們一寸寸填平。
來自 Artificial Analysis 的調研數據清晰顯示,Anthropic 和 Google 等廠商陸續開發出性能接近 GPT-4、OpenAI o1 等新模型。
并且,随着 Scaling Law 觸及天花闆,核心高管人才相繼離場,OpenAI 過往靠單個基礎模型赢得的紅利正在加速消退。
在動辄以天計的行業裏,即便是今日發布的 o3 模型也很難再次創造長達 2 年的空窗期。
尤其是當 Grok-3 和 Claude 等新模型蓄勢待發,留給 OpenAI 的時間或許已經不多了。
醒醒,今年最好的 AI 廠商依舊是 OpenAI,但明年或許會因爲不同的 AI 方向有無數種答案。
所幸,作爲用戶的我們,都将是這場變局中最大的赢家。