OpenAI震撼發布裏程碑式模型，代号o1：更強了，也更貴了

文 | 虞景霖

編輯 | 蘇建勳鄧詠儀

傳聞已久、拖了又拖的 OpenAI 模型項目 " 草莓 "，終于現身了。

北京時間 9 月 13 日淩晨，Open AI 正式發布了其首款具有推理能力的模型，代号爲 OpenAI o1，包括無所不能的大哥 o1-preview，和效率驚人的小弟 o1-mini。

OpenAI 的研究負責人 Jerry Tework 向 The Verge 透露："o1 使用了一種全新的優化算法和爲其量身定制的新訓練數據集。" 也因此模型的命名并未延續 GPT 系列，而是 " 被命名爲 o1，以表示‘将計數器重置回 1 ’。"

o1 的革命性意義也正在于此——這代表了大模型能力在推理這條道路上的人新起點，而不是簡單地作爲 GPT 系列的延續。

來源：OpenAI

傳聞已久的 o1 一經上線，就在 X 引發廣泛讨論：評論區網友拍手叫好，AI 圈網紅 Jim Fan 依舊現身宣傳。

并且 Jim Fan 還表示，o1 的發布裏程碑意義在于，它驗證了此前所說的 " 兩條曲線協同工作 " 理論，展示了訓練計算和測試計算如何共同影響模型的最終性能。

傳統的模型訓練強調在訓練時投入大量計算資源。而 o1 模型代表了一種新的 AI 模型開發範式。它強調了測試時計算（或推理時計算）的重要性—— o1 通過增加在測試 / 推理時的計算資源顯著提高了模型性能。

來源：X

" 休假中 " 的總裁 Brockman，同樣現身打 Call 來源：X

如果說此前的模型是用 " 直覺 " 回答問題，那麽 o1 給出的則是深思熟慮後的回答，這一改變來自于背後的 " 鏈式思考 "（Chain-of-thought）機制。

用 OpenAI 研究主管 Mark Chen 的話說就是：" 模型在學習自己思考，而不是試圖模仿人類的思維方式。"

簡單來說，o1 在給出回答前會在 " 腦子 " 裏進行一場内部對話，還會使用 " 讓我想想 "" 我在考慮 " 等短語來展示思考過程。

模拟思考過程：" 我很好奇 "" 我正在思考 "" 好的，讓我看看 " 來源：OpenAI

o1 的表現究竟如何？用數據來說話：

數學方面，在 2024 年美國數學邀請賽（AIME）中，GPT-4o 的平均正确率爲 12%（15 道題解決 1.8 題），o1 在首次嘗試的平均正确率就達到了 74%。通過使用集體決策和高級評分策略，o1 的正确率最高可達 93%。這一成績不僅讓 o1 跻身全美前 500 名優秀學生之列，還超過了美國數學奧林匹克競賽的入選分數線。

GPQA Diamond 是一項專門評估化學、物理和生物等領域專業知識的測試。o1 不僅完成了這項測試，還超越了擁有超越了部分擁有相關領域博士學位的人類專家，表明 AI 在特定專業領域的能力已經達到了一個新高度。

編程方面，o1 在國際信息學奧林匹克競賽（IOI）中也表現卓越，在和人類參賽者相同的條件下，o1 獲得了 213 分的高分，位列參賽者的前 50%。當限制進一步放寬（每個問題的提交次數從 50 提高到 10000 次），o1 取得了 362.14 的高分，超越了金牌的獲得門檻。

在模拟 Codeforces 平台的競争性編程比賽中，o1 獲得了 1807 的高分，超越了 93% 的人類競争者，這一成績遠遠超過了 GPT-4o（Elo 評分爲 808，僅超過 11% 的人類競争者）。

簡單來說，o1 是一個非常善于思考、推理的大模型。并且，其運作機制與基于 scaling law 的大模型不同，這讓它不必基于大量的計算消耗來提升性能，而是一個相當垂直的模型。

盡管 o1 模型展現出了卓越的能力，但仍然存在一些值得注意的局限性。

首先，在處理速度方面，o1 可能不如其他模型迅速。

Thomson Reuters 的副總裁 Pablo Arredondo："o1 有時需要超過 10 秒才能回答一個問題，這在某些需要快速響應的場景中可能會成爲一個問題。"

其次，相較于 GPT-4o，o1 在功能上還有一些欠缺——目前無法浏覽網頁，也不能處理文件和圖像。

此外，o1 不是一個多模态模型，這意味着它無法解析圖像或音頻輸入。

在模型輸出的質量方面，OpenAI 承認 o1 存在一些挑戰。根據技術論文中的反饋，o1 似乎比 GPT-4o 更容易産生 " 幻覺 "，即生成看似合理但實際上并不準确的信息。同時，o1 似乎不如 GPT-4o 那樣經常承認自己不知道答案，這可能會在某些情況下導緻誤導性的輸出。

OpenAI 官方特别建議将 o1 用于解決以下領域的複雜問題：科學、編碼、數學和相關領域。

即日起，ChatGPT Plus 和 Team 用戶可以訪問 o1-preview 和 o1-mini；企業用戶和 Edu 用戶将于下周獲得訪問權限。OpenAI 計劃爲所有 ChatGPT 免費用戶提供 o1-mini 的訪問權限，但尚未确定正式發布日期。

對于 API 訪問，符合 API 使用等級 5（已經支付 1000 美元并且超過 30 天）的開發者可以使用 API 中的兩個模型進行原型設計，當前的速率限制爲 20 次請求 / 分鍾。此外，當前的 API 版本還不支持一些高級功能，如函數調用、流式處理和系統消息支持等。

在定價方面，在 API 中，o1-preview 中每 100 萬個 token 的輸入價格爲 15 美元，輸出價格爲 60 美元，較 GPT-4o 高出 3-4 倍。

掃碼加入「智湧 AI 交流群」

來源：公衆号【智能湧現】