文 | 虞景霖
編輯 | 蘇建勳 鄧詠儀
傳聞已久、拖了又拖的 OpenAI 模型項目 " 草莓 ",終于現身了。
北京時間 9 月 13 日淩晨,Open AI 正式發布了其首款具有推理能力的模型,代号爲 OpenAI o1,包括無所不能的大哥 o1-preview,和效率驚人的小弟 o1-mini。
OpenAI 的研究負責人 Jerry Tework 向 The Verge 透露:"o1 使用了一種全新的優化算法和爲其量身定制的新訓練數據集。" 也因此模型的命名并未延續 GPT 系列,而是 " 被命名爲 o1,以表示‘将計數器重置回 1 ’。"
o1 的革命性意義也正在于此——這代表了大模型能力在推理這條道路上的人新起點,而不是簡單地作爲 GPT 系列的延續。
來源:OpenAI
傳聞已久的 o1 一經上線,就在 X 引發廣泛讨論:評論區網友拍手叫好,AI 圈網紅 Jim Fan 依舊現身宣傳。
并且 Jim Fan 還表示,o1 的發布裏程碑意義在于,它驗證了此前所說的 " 兩條曲線協同工作 " 理論,展示了訓練計算和測試計算如何共同影響模型的最終性能。
傳統的模型訓練強調在訓練時投入大量計算資源。而 o1 模型代表了一種新的 AI 模型開發範式。它強調了測試時計算(或推理時計算)的重要性—— o1 通過增加在測試 / 推理時的計算資源顯著提高了模型性能。
來源:X
" 休假中 " 的總裁 Brockman,同樣現身打 Call 來源:X
如果說此前的模型是用 " 直覺 " 回答問題,那麽 o1 給出的則是深思熟慮後的回答,這一改變來自于背後的 " 鏈式思考 "(Chain-of-thought)機制。
用 OpenAI 研究主管 Mark Chen 的話說就是:" 模型在學習自己思考,而不是試圖模仿人類的思維方式。"
簡單來說,o1 在給出回答前會在 " 腦子 " 裏進行一場内部對話,還會使用 " 讓我想想 "" 我在考慮 " 等短語來展示思考過程。
模拟思考過程:" 我很好奇 "" 我正在思考 "" 好的,讓我看看 " 來源:OpenAI
o1 的表現究竟如何?用數據來說話:
數學方面,在 2024 年美國數學邀請賽(AIME)中,GPT-4o 的平均正确率爲 12%(15 道題解決 1.8 題),o1 在首次嘗試的平均正确率就達到了 74%。通過使用集體決策和高級評分策略,o1 的正确率最高可達 93%。這一成績不僅讓 o1 跻身全美前 500 名優秀學生之列,還超過了美國數學奧林匹克競賽的入選分數線。
GPQA Diamond 是一項專門評估化學、物理和生物等領域專業知識的測試。o1 不僅完成了這項測試,還超越了擁有超越了部分擁有相關領域博士學位的人類專家,表明 AI 在特定專業領域的能力已經達到了一個新高度。
編程方面,o1 在國際信息學奧林匹克競賽(IOI)中也表現卓越,在和人類參賽者相同的條件下,o1 獲得了 213 分的高分,位列參賽者的前 50%。當限制進一步放寬(每個問題的提交次數從 50 提高到 10000 次),o1 取得了 362.14 的高分,超越了金牌的獲得門檻。
在模拟 Codeforces 平台的競争性編程比賽中,o1 獲得了 1807 的高分,超越了 93% 的人類競争者,這一成績遠遠超過了 GPT-4o(Elo 評分爲 808,僅超過 11% 的人類競争者)。
簡單來說,o1 是一個非常善于思考、推理的大模型。并且,其運作機制與基于 scaling law 的大模型不同,這讓它不必基于大量的計算消耗來提升性能,而是一個相當垂直的模型。
盡管 o1 模型展現出了卓越的能力,但仍然存在一些值得注意的局限性。
首先,在處理速度方面,o1 可能不如其他模型迅速。
Thomson Reuters 的副總裁 Pablo Arredondo:"o1 有時需要超過 10 秒才能回答一個問題,這在某些需要快速響應的場景中可能會成爲一個問題。"
其次,相較于 GPT-4o,o1 在功能上還有一些欠缺——目前無法浏覽網頁,也不能處理文件和圖像。
此外,o1 不是一個多模态模型,這意味着它無法解析圖像或音頻輸入。
在模型輸出的質量方面,OpenAI 承認 o1 存在一些挑戰。根據技術論文中的反饋,o1 似乎比 GPT-4o 更容易産生 " 幻覺 ",即生成看似合理但實際上并不準确的信息。同時,o1 似乎不如 GPT-4o 那樣經常承認自己不知道答案,這可能會在某些情況下導緻誤導性的輸出。
OpenAI 官方特别建議将 o1 用于解決以下領域的複雜問題:科學、編碼、數學和相關領域。
即日起,ChatGPT Plus 和 Team 用戶可以訪問 o1-preview 和 o1-mini;企業用戶和 Edu 用戶将于下周獲得訪問權限。OpenAI 計劃爲所有 ChatGPT 免費用戶提供 o1-mini 的訪問權限,但尚未确定正式發布日期。
對于 API 訪問,符合 API 使用等級 5(已經支付 1000 美元并且超過 30 天)的開發者可以使用 API 中的兩個模型進行原型設計,當前的速率限制爲 20 次請求 / 分鍾。此外,當前的 API 版本還不支持一些高級功能,如函數調用、流式處理和系統消息支持等。
在定價方面,在 API 中,o1-preview 中每 100 萬個 token 的輸入價格爲 15 美元,輸出價格爲 60 美元,較 GPT-4o 高出 3-4 倍。
掃碼加入「智湧 AI 交流群」
來源:公衆号【智能湧現】