OpenAI滿血版o1劇透：數學代碼能力再破天花闆，已開啓測試評估

" 性能遠超 o1 預覽版，滿血版 o1 即将推出 "。

OpenAI 在官網商業化頻道下，對滿血版 o1 來了一波提前劇透。

視頻截圖中，滿血版 o1 和 GPT-4o、o1-preview（預覽版）同台競技，且在數學 / 編碼上遙遙領先。

經透露，OpenAI 将同步發布 GPT 系列和 o1 系列，且正在對滿血版 o1 進行基準測試和運行評估。

此外，官方計劃在未來幾個月内爲 o1 系列模型添加更多功能，例如網頁浏覽、文件和圖像上傳等，并支持 ChatGPT 自動選擇合适模型。

不過掃到最後，網友們卻發現了一個華點：

啥？在 PhD 級别的科學任務上，滿血版 o1 竟打不過 o1-preview？

對于這點，我們不妨從OpenAI 首席産品官最近的采訪中找找答案，剛好他也談到了 o1 模型——

滿血版 o1 即将推出

OpenAI 于上月無預警發布了傳說中的 " 草莓 " 模型：o1 系列。

它是 OpenAI 首個經過強化學習訓練的模型，在輸出回答之前，會再産生一個很長的思維鏈，以此增強模型的能力。

o1 系列一共 3 檔，滿血版因過于強大至今仍未公布。

o1（滿血版）：新的大模型天花闆，專注于深度思考和邏輯推理

o1-preiview：o1 的早期預覽版本，在數學、編碼能力上相比 GPT-4o 大幅提升

o1-mini：速度更快、性價比更高，适用于需要推理和無需廣泛世界知識的任務

不過就在最近，關于 o1 模型的更多消息釋出——

OpenAI 員工在一場研讨會中詳細介紹了 o1-preview 模型的最新案例，并提到滿血版 o1 即将發布。

一開始，OpenAI 産品營銷團隊的 Victoria Chernova 确認，公司将同步開發和發布 GPT 和 o1 兩個系列的模型，因爲它們各自擅長解決不同的問題。

這就像 OpenAI 官方一直提到的 " 範式轉變 "，GPT 系列側重于預測性回答，模式爲 " 提問 - 回答 "，而 o1 系列在回答前加入了更多思考。

Victoria Chernova 也提到，很多客戶實際上在同時使用GPT 和 o1 兩個系列的模型，包括 OpenAI 内部也是如此。

接下來，解決方案工程團隊的 Joe Casson 分享了 o1 模型的幾個最新應用：戰略制定、代碼編寫，研究分析。

在第一個案例中，他演示了如何用 o1-preview 分析巴黎或其他歐洲城市，以決定下一個市場開拓地。

過程中需要模型考慮市場潛力、市場進入策略、人才招聘等多個方面，最終生成了一份包含執行摘要和電子郵件的報告。

然後他分享了如何用o1-mini從零創建一個帶有 Node.js 後端和 React 前端的 Web 應用程序。

他還提到，o1-mini 可以幫助開發者連接到 Azure 數據庫等外部服務。

最後，他展示了如何用 o1-preview 幫助制定一份狗狗的最佳飲食計劃等。

在展示分享中，他們也提到了人們目前對 o1 模型的一些 " 吐槽 "：比如 o1-preview 非多模态，上下文窗口長度也比 GPT-4o 更短……

對此，OpenAI 計劃在未來幾個月内爲 o1 系列模型添加更多功能，包括網頁浏覽、文件和圖像上傳等，并支持 ChatGPT 自動選擇合适的模型。

OpenAI 首席産品官談 o1 模型

除了上述研讨會，最近還有一場對 OpenAI 首席産品官Kevin Weil的采訪。

其中談到，目前o1 推理模型僅處于 GPT-2 級别，因此它将很快改進。

另外他還分享了在 OpenAI 與其他公司構建産品的不同之處。

最大區别在于，技術基礎是不固定的。

以前在我工作過的幾乎所有地方，在擁有固定的技術基礎之前，都在試圖弄清楚如何利用它來構建最好的産品。

而回到一開始的問題，爲什麽在 PhD 級别的科學任務上，滿血版 o1 竟打不過 o1-preview？

也許在于哪怕是細微差距，兩者的構建方式也是如此不同。

至于這 0.3 的差距到底有多大，也許即将公布的測試結果将爲我們進一步揭曉。

參考鏈接：

[ 1 ] https://openai.com/business/solving-complex-problems-with-openai-o1-models/

[ 2 ] https://x.com/rohanpaul_ai/status/1847682643166650761