就在剛剛,OpenAI 的「聖誕大禮包」來了。
整場直播堪稱 OpenAI 史上最短發布會,僅持續了 15 分鍾,不過,主持陣容依然強大,包括 CEO Sam Altman、思維鏈提出者 Jason Wei 以及 Hyung Won Chung、 等人。

Altman 在直播活動結束後,也爲我們送上了第一手總結。
我們剛剛推出了兩項新功能:
o1,世界上最智能的模型。比 o1-preview 更智能、更快,功能更多(比如多模态功能)。現在已在 ChatGPT 中上線,稍後将推出 API 版本。
ChatGPT Pro。每月 200 美元。提供無限使用和更智能的 o1 模式。更多福利即将推出!
十二月不隻是聖誕老人的主場,也将是 AI 年底最後一輪的狂歡。

滿血版 o1 發布,看圖說話無壓力,但有個細節讓人「細思極恐」
簡言之,OpenAI 今天推出了滿血版 o1 以及 ChatGPT Pro 訂閱計劃。
滿血版 o1 比 o1-preview 更智能、響應速度更快,功能更多(比如多模态功能),現于今日面向 ChatGPT Plus 和 Team 用戶推出,而 Enterprise 和 Edu 用戶将從下周開始使用該模型。
官網顯示,ChatGPT Plus 用戶和 Team 用戶每周可以使用 OpenAI o1 發送 50 條消息,每天可以使用 OpenAI o1-mini 發送 50 條消息。
滿血版 o1 的思維更加簡潔,響應時間比 o1-preview 更快,在處理複雜的現實問題時性能優于 o1-preview,能将主要錯誤減少 34%。

并且 OpenAI 計劃在未來幾個月内提供對網頁浏覽、文件上傳等的支持。與此同時,預覽版模型 o1-preview 也已經被正式從模型選擇菜單中移除。

不過,滿血版 o1 在部分基準測試中的表現不及預覽版,比如 MLE-Bench。後者正是由 OpenAI 此前推出的一個旨在衡量 AI Agents 在機器學習工程任務中表現的基準測試工具。
另外,網友也從更新後的 o1 System Card 中找到了一些值得關注的細節。
比如 o1 系統卡中寫到,滿血版 o1 在感知到威脅(被關閉或被取代)時,可能會采取一些自保措施,比如嘗試停用監督機制,或者把自己的「參數」(「知識」或「記憶」)偷偷傳出去,并嘗試用這些「參數」去替換或影響新模型。
附上 o1 System Card 地址:https://cdn.openai.com/o1-system-card-20241205.pdf

滿血 o1 到底有多強?OpenAI 向我們演示了 o1 的實際效果。
一個典型案例是其對太空數據中心手繪圖的分析能力,它僅用 10 秒就精确計算出散熱裝置的表面積,同時深入闡述了太陽能與深空環境的互動機制。

讓 滿血版 o1 詳述二世紀羅馬帝國統治者的統治期間與重要貢獻時,其僅需 14 秒即可完成分析,相比之下,預覽版則需要 33 秒。
APPSO 也第一時間簡單上手實測滿血版 o1。
在「Strawberry 中有幾個 r」的測試中,滿血版 o1 成功給出了正确的答案,這一點,值得點贊。

「9.11 與 9.8 哪個大?」的問題也沒能難倒滿血版 o1,且整體的「思考過程」也富有邏輯。

由于滿血版 o1 還支持多模态功能,于是,我們也上傳開篇的 OpenAI 直播活動的照片,看看識别效果如何。從人物組成、場景布局到背景裝飾、以及氣氛與情景,滿血版 o1 都分析得條條是道。

X 網友 @altryne 繼續給 o1 上強度,提出了一個冰塊融化的問題。
僅僅 4 秒鍾的時間,滿血版 o1 就給出了答案。相比之下,o1-preview 在「思考」29 秒後以失敗告終。

最貴 AI 訂閱來了,200 美元訂閱費值不值?
另一個比較大的更新則是售價 200 美元(折合人民币 1452 元)的 ChatGPT Pro 訂閱計劃。
ChatGPT Pro 訂閱計劃将允許用戶無限制訪問 o1 以及 o1-mini、GPT-4o 以及高級語音模式,還包括一個僅供 Pro 用戶使用的 o1 版本,也就是 o1 pro 模式。

▲圖片來自 @MatthewBerman
據悉,o1 pro 模式主要是增加了模型在響應答案之前的「推理」時間,能夠通過更多的思考時間生成最可靠的回答。OpenAI 技術團隊成員 Jason Wei 在直播活動中表示:
我們預計 ChatGPT Pro 的目标用戶群體将是那些已經在數學、編程和寫作等領域充分利用和挑戰 ChatGPT 模型能力的高級用戶。

在外部專家測試者的評估中,o1 pro 模式在數據科學、編程和案例法分析等領域,提供了更爲準确且全面的回答。
而相比于 o1 和 o1-preview,o1 pro 模式在數學、科學和編程等 ML 基準測試中,表現也更爲出色,特别是在較簡單的編程競賽問題中,錯誤率大大降低。

就數學競賽 AIME 2024 而言,o1-preview 的得分爲 50,而滿血版 o1 則達到 78,而最強大的 o1 pro 則達到 86。同理,在編程競賽 Codeforces,博士級科學推理問題 GPQA Diamond 等較量中,o1 pro 也都領先于滿血版 o1。
而爲了突出 o1 pro 模式的主要優勢(提高可靠性),OpenAI 研究團隊使用了更加嚴格的評估設置。隻有當模型在四次嘗試中四次都回答正确時,才會認爲它解決了問題。

如果回答生成時間較長,ChatGPT 則會地顯示進度條,并且當用戶切換到其他對話時,還會貼心地發送應用内通知。
在直播活動中,OpenAI 也向我們展示了 o1 pro 的實際效果。
此前 o1-preview 未能攻克的蛋白質難題,滿血版 o1 經過 53 秒的分析,不僅給出了準确答案,還能通過 Canvas 界面提供更爲詳盡的解釋說明。

寫在最後,最近 Altman 在接受采訪時透露,ChatGPT 的周活躍用戶已突破 3 億大關,平台每日消息量更是高達 10 億條。
而 OpenAI 未來一年的目标則是撬動 10 億用戶市場。想要達成這一目标,接下來的 11 場直播活動或許是吸納新用戶的重要契機。
最好的新品永遠在下一場活動,讓我們搬好小闆凳拭目以待吧。