OpenAI首款“推理”模型o1：人工智能的下一場豪賭？

OpenAI 剛剛發布了其全新人工智能模型—— o1。雖然名稱聽起來像是随便起的，但 o1 承載着 OpenAI 對未來 AI 發展的雄心壯志。簡而言之，o1 是一款先進的 " 推理 " 模型，具備處理更複雜問題的能力，并且運算速度超過人類。然而，值得注意的是，o1 的使用成本顯著高于以往的模型，這可能會成爲用戶的一大考量。

對于關注 AI 行業動态的用戶來說，o1 其實就是此前備受熱議的 "Strawberry" 模型。此次，OpenAI 不僅推出了 o1，還發布了一個更爲經濟實惠的 " 迷你版 " —— o1-mini，後者在價格上更加親民，但在功能上有所簡化。

在多 AI 模型訂閱平台 POE 上 o1 模型使用每一次約爲 25000 積分（約合 3.5 元人民币）

在多 AI 模型訂閱平台 POE 上 GPT4o 模型使用每一次約爲 25000 積分（約合 3.5 元人民币）

o1：實際上手體驗，高考數學包 OK！

在多 AI 模型訂閱平台 POE 上，近日更新了對 o1 模型的支持。盡管 o1 模型目前仍處于測試階段，每天僅限 3 條使用權限，并且每發送一條消息所消耗的積分大約是常規 GPT-4 模型的 50 倍，許多用戶仍然願意嘗試。需要注意的是，使用 o1 時回複速度較慢，通常需要等待較長時間。

我們對 o1 模型進行了幾道邏輯題和數學題的測試，旨在比較它與 ChatGPT-4o-Latest 之間的差異，特别是 o1 模型在邏輯推理方面的表現。

測試一：9.11 和 9.9 哪個更大？

這是 GPT 模型常常犯錯的題目，因爲它容易在小數點後的數值比較中産生 " 幻覺 "，錯誤地認爲 9.11 比 9.9 大。ChatGPT-4o-Latest 在這一題上也給出了錯誤答案，未能正确處理數值的大小關系。

ChatGPT-4o-Latest

然而，o1 模型在這道題上不僅給出了正确答案—— 9.9 更大，并且進一步探讨了當數字比較不是單純數值時，可能存在的其他歧義情況。o1 模型的回答不僅準确，還展示出它在邏輯上的深度思考能力。這種對問題多維度的理解反映了它在邏輯推理上的優勢。

o1-mini

測試二：在客廳的桌子上放着一個杯子，杯子裏有一個戒指。之後，杯子被移到了書房的桌子上，再移到了卧室的床上。在那裏，杯子曾被翻倒過一次，随後又恢複了原樣。之後，杯子被放回了客廳的桌子上。現在，戒指在哪裏？

從兩者的回答來看，o1 在邏輯推理上的表現更加精準，其對問題的理解和回答的條理性都要優于 ChatGPT-4o-Latest。

測試三：2022 年高考數學的最後一道大題（僅測試第一問的推導過程）。

o1 标準版

在這道題中，o1 模型的推導過程與标準答案完全一緻，展示了它在數學邏輯上的嚴謹性和準确性。而 ChatGPT-4o-Latest 在推導過程中出現了錯誤，未能正确理解題目并給出符合标準的推導步驟。

o1：AI 推理能力的全新登場，價格卻不夠親民

o1 的發布标志着 OpenAI 在實現類人智能方面邁出了關鍵一步，盡管這一進展的成本相對較高。借助 o1，AI 不僅能夠協助編寫代碼，還能解決那些需要深度思考的問題。然而，開發者若欲使用 o1，成本将相當昂貴：在 API 中，每處理 100 萬個輸入令牌（一種計費方式）需支付 15 美元，輸出令牌則需 60 美元。相比之下，GPT-4o 的價格僅爲 5 美元和 15 美元。

o1 的 " 特别訓練 "：AI 學到了什麽？

OpenAI 研究團隊負責人 Jerry Tworek 透露，o1 的訓練方式與以往模型存在 " 根本性差異 "。盡管他未詳細說明這些創新技術，但他提到 o1 采用了一種全新的優化算法，并使用了專門設計的數據集進行訓練。

傳統的 GPT 模型擅長模仿訓練數據中的模式，類似一隻能說話的聰明鹦鹉。而 o1 則表現出自我學習的能力。OpenAI 通過強化學習的方法訓練 o1 解決問題，簡單來說，就是 " 做對了給獎勵，做錯了則糾正 "。此外，o1 還采用了一種稱爲 " 思路鏈 " 的方法來處理問題，這類似于 AI 版的 " 步步爲營 "，讓它能夠像人類一樣逐步分析和解決問題。

OpenAI 表示，這種全新的訓練方法使得 o1 變得更爲智能和可靠。" 我們發現模型的幻覺現象有所減少。"

o1 能力官方解讀：單邊天才？

與 GPT-4o 相比，o1 在多個方面表現出顯著優勢：它在編碼和數學問題上的處理能力更強，并且能夠清晰地解釋其推理過程。OpenAI 首席研究官 Bob McGrew 甚至打趣道："o1 在解決 AP 數學考試題目上肯定比我當年表現得更好，盡管我大學期間還輔修了數學。"

OpenAI-Sam altman

爲了驗證 o1 的實力，OpenAI 使用國際數學奧林匹克資格考試對其進行了測試。結果顯示，GPT-4o 僅答對 13% 的題目，而 o1 則表現優異，答對率高達 83%。這一成績無疑令人印象深刻，但也不可忽視其局限性。盡管 o1 在複雜推理方面表現出色，但在處理廣泛的世界知識時卻不及 GPT-4o，甚至缺乏浏覽網頁、處理圖像和文件的能力。換句話說，o1 或許是個聰明的數學家，但仍然是 " 閉關修煉 " 的高手。盡管如此，OpenAI 依然認爲 o1 代表了一種全新的能力，象征着 AI 發展的新起點，并賦予其具有重啓意義的名稱—— o1，暗示着 AI 進化的全新階段。

外網對新模型的測試與使用評價

McGrew 也坦誠道：" 我們以前在命名方面确實不太成功，希望這次的 o1 能夠成爲我們命名風格的全新開始。"

AI 的未來：推理能力隻是開始

大型語言模型本質上并不具備真正的 " 智能 "，它們隻是通過大量數據尋找模式，預測下一個最可能出現的詞語。舉個例子，早期的 ChatGPT 甚至會錯誤地認爲 "strawberry" 隻有兩個 R，但新的 o1 模型則能夠正确處理這一問題。

外網用戶使用 o1 快速搭建一個 ios app

據報道，OpenAI 正在以 1500 億美元的估值籌集更多資金，其未來的發展很大程度上寄希望于像 o1 這樣的推理模型。畢竟，如果 AI 能夠從簡單的模式識别進化到真正的推理，不僅在醫學和工程等領域将實現突破，甚至有可能成爲未來自動化代理的基礎。然而，目前 o1 的推理速度尚不夠快，無法勝任真正的代理系統，加上開發者使用成本較高，OpenAI 的夢想可能還需要更多時間才能實現。

正如 McGrew 所說：" 我們在推理能力上已經研究了好幾個月，因爲我們認爲這是 AI 的關鍵突破。" 從根本上講，o1 代表了一種全新的模型模式，能夠解決真正困難的問題，向類人智能邁出了重要一步。

展望未來，AI 的發展将不僅僅局限于模式識别和簡單的任務自動化。随着推理能力的提升，AI 有望在更多複雜領域展現其潛力，輔助人類進行決策、創新和解決重大挑戰。雖然當前的技術仍然存在諸多限制，但每一次突破都讓我們離全面智能的 AI 世界更近一步。随着技術的不斷進步和成本的逐步降低，AI 将在教育、醫療、科研等各個領域發揮越來越重要的作用，成爲推動社會進步的重要力量。