Open AI新模型o1問世，能像人類一樣思考？

本文來自微信公衆号：王智遠，作者：王智遠，原文标題：《Open AI 發布新一代模型 01》，題圖來自：AI 生成

淩晨 1 點，我還在追劇。

這時，朋友發來一條消息說：Open AI 發布了新模型，你在電腦上試試看能用嗎？哎，大哥，都要睡覺了，這要強制開機，讓我起來加班碼字啊。‍‍

帶着好奇，打開 PC 端 ChatGPT 一看，果然，多出兩個模型，分别是 ChatGPT o1-mini 和 o1-preview。

這是什麽東東？怎麽叫這個名字？這個模型有什麽特點？怎麽還有兩個版本呢？價位如何？難道是此前被傳的 " 草莓 " 做出來了？

帶着疑惑，熬夜看完官方文檔，把内容總結分享給你。

一

爲什麽叫 o1 呢？官方說：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this， we are resetting the counter back to 1 and naming this series OpenAI o1。

我用自帶浏覽器的翻譯功能，翻譯出來就是：

這個模型在複雜推理任務上是一個重大的進步，代表了人工智能能力的一個新水平；因此，我們決定重新開始編号，把這一系列模型命名爲 OpenAI o1。

襖，原來因爲這個模型非常厲害，能做很多複雜的事情，OpenAI 覺得這是一個新的起點，所以把編号重新設爲 1，開始一個新的系列。

那麽，它爲什麽會有兩個版本呢？官方說：

o1 mini 版是個簡化的版本。它在速度、體積和成本方面都做了優化。

這個版本在處理數學、編程推理任務時表現不錯，特别适合需要快速處理問題的場合；因爲它體積小，成本也低，所以，如果你想快速得到答案，那麽 o1 mini 版可能更适合你。

相對 o1 preview 版，是完整版本。

比較擅長解決複雜的問題，比如，無論是科學問題、數學題還是編程，它都能處理得非常好；當然，如果你遇到的問題要廣泛的知識或者深刻的理解，那麽這個版本更适合你，因爲它的推理能力非常強大。

我不信，于是，讓國産大模型 Kimi Chat 給我想了一個邏輯數學邏輯題，如下：

假設我有一個農場，裏面有雞和兔子。有一天，我數了數農場裏動物的頭和腳，發現總共有 35 個頭和 94 隻腳。請問，農場裏各有多少隻雞和兔子？

preview 版的确很強。除了告訴我有 23 隻雞，和 12 隻兔子外，還給出了步驟，整個下來，也就不到 2 秒。當然，這種測試用來對付 Chat 肯定是無壓力的，如果你有時間，也可以帶入工作中的問題，自己體驗下。

總的來說，兩個版本的主要區别是它們處理任務的能力、速度和成本；o1 mini 版在速度、成本上有優勢；preview 版更适合推理。

不過，實際體驗下來，沒覺得有什麽差異，也許我本身要它做的事情，比較簡單。

體驗完後，仔細一想，這和 GPT-4o、GPT-4omini 有啥區别呢？非要搞出四個模型嗎？加上 GPT-4，我電腦上已經有五個模型了。

查了下官方文檔，有一篇文章叫《用法學碩士學習推理》（Learning to Reason with LLMs）詳細介紹了一切。

他們是這麽說的：

在對 OpenAI 的兩個 AI 模型—— o1-preview 和 GPT-4o 的實際使用偏好測試中，人類評估者在不知情的情況下，比較了兩個模型對複雜問題的回答。

結果顯示，在需要大量推理的任務上，比如數據分析、編程和數學問題，大家更喜歡 o1-preview。因爲 o1-preview 經過特殊的強化學習訓練，所以，在解決這類問題時，推理能力更強，更高效。

但是，在自然語言處理任務上，o1-preview 的表現不如 GPT-4o。這是因爲它的訓練重點在推理和解決問題的策略上，而不是在語言的流暢度或文本生成的多樣性上。

這說明，雖然 o1-preview 在某些領域很出色，但它并不适合所有類型的任務，尤其是那些專注于自然語言處理的場景。

原來如此。

我又看了看 o1-preview 和 o1 mini 版适合哪些人。官方說，如果你在處理科學、編碼、數學等領域的複雜問題，這些增強的推理能力可能特别有用。

比如：

醫療研究人員可以用 o1 來标注細胞測序數據；物理學家可以生成量子光學所需的複雜數學公式；各個領域的開發者都可以用 o1 來構建和執行多步的工作流程。

所以，如果你做科學、敲代碼、編程、數學方面的工作，用它再好不過了。

二

那麽，o1-preview 和 o1 mini 到底做了哪些測試呢？

首先，爲了顯示 o1 模型在推理方面比 GPT-4o 有多大改進，他們在不同的人體檢查和機器學習基準上測試了它。

在 2024 年的 AIME 數學考試中，GPT-4o 平均隻解決了 12% 的題目；而 o1 模型單次測試的平均解題率達到了 74%。如果算上 64 次測試的平均得分，能達到 83%；重新從 1000 個樣本中排名，平均得分甚至可以達到 93%。

這個成績不僅讓它進入了全美前 500 名，還超過了參加美國數學奧林匹克的分數線。

他們還用一個叫做 GPQA 鑽石的難題來測試 o1。這個測試涉及化學、物理和生物學的專業知識。

他們請了一些擁有博士學位的專家來回答這些問題，結果發現，o1 模型的表現超過了人類專家，成爲第一個在這個測試中取得這樣成績的模型。

這并不意味着 o1 在所有方面都比博士更厲害，而是說明它在解決某些專業問題上更爲熟練。

當然，在其他一些機器學習的測試中，他們也做了大量測試；它在 MMMU 的視覺感知測試中得了 78.2 分，成爲第一個能和人類專家競争的模型；而且，在 57 個 MMLU 子測試中的 54 個項目上，它的表現都優于 GPT-4o。

我好奇地搜索了一下，什麽是 MMLU？簡單講，MMLU 像一場大型的綜合考試，參加考試的不是人類，而是人工智能模型。

總之，這些測試最終結論是：

OpenAI 的 o1 模型在全球編程比賽 Codeforces 中排名第 89 位，在美國數學奧林匹克（AIME）的資格賽中，進入了全美前 500 名。

在物理、生物學和化學問題的測試中，它的表現甚至超過了博士水平。

因此，o1-preview 和 o1 mini 在解決高難度的推理和專業問題上表現更出色；而 GPT-4o 更适合處理日常的任務。

三

所以，這麽強的推理能力怎麽實現的？關鍵有四個方面：

首先，o1 模型用了一種 " 自我對弈強化學習 "（Self-play RL）的方法；這是一種通過模拟環境和自我對抗來提升模型性能的技術。

這種方法中，模型在沒有外部指導，通過不斷嘗試和錯誤來學習策略和優化決策。

想象一下：

它就像在和自己下棋，一邊玩一邊學；過程中，不用别人教，自己試試、出錯、再試，慢慢就學會了怎樣做決策和解決問題。

其次，o1 還模仿了人類的 " 慢思考 "（Slow Thinking）；這種思考要時間、努力和邏輯三者結合，就像我們在考試時仔細思考一個難題一樣。

通過深思熟慮的方式，o1 先分析問題，然後把它拆開，再推理，再解決；這讓它在科學、編程或數學上更精準，更出色。

當然，這一步離不開思維鏈。

思維鏈的推理，還用一種獨特的方法來監控模型。如果這些思維鏈是可讀的，研發人員就能 " 讀懂 " 模型的思考過程。

這對于監測模型是否能操縱用戶行爲非常有幫助，但是，爲了讓模型能自由地表達思考，他們不在模型中加入任何與政策、用戶偏好相關的硬性規定。

因此，這個模型整合了安全政策和人類價值觀，通過在模型的答案中重現思維鏈中的有用想法，讓用戶間接了解模型的思考過程。

還有一點，思維鏈加入了魯棒性（Robustness）測試。所謂魯棒性指一個系統、模型或者設備在面對各種意外情況、幹擾或者變化時，仍然能夠正常工作，不容易出問題。

一輛汽車，無論在高溫、低溫、下雨還是颠簸的路面上，都能正常行駛，這說明它的魯棒性很好；在 AI 領域，魯棒性指軟件、模型在面對不同的數據輸入、錯誤，甚至惡意攻擊時，仍然能保持穩定和準确。

所以，魯棒性強調的是在各種複雜、多變的環境下，仍然能保持可靠和穩定的性能。

除以上兩點，o1 在訓練時還用上了數據飛輪（Data Flywheel）；它的正确答案會被用來再訓練它自己，幫助它變得更聰明。

當然，爲支持這些複雜的思考任務，o1 還用上了一些特别優化的算法、架構。這些技術讓它更快、更準确地解決問題，提高了它的整體能力。

總之，o1 模型訓練關注五個維度：

1. 自我對弈強化學習；2. 模仿人類慢思考；3. 拆解了思維鏈的過程；4. 在思維鏈中加入了魯棒性測試；5. 數據飛輪再強化。

看完官網文檔，說白了，我覺得他們讓 AI 更像人了。

四

再強大的東西，不商業化肯定不行。那麽，o1 模型的成本和使用限制有哪些呢？

o1-preview 的價格是：

每處理一百萬個輸入要花 15 美元，每處理一百萬個輸出則是 60 美元；這說明，如果你用這個版本，輸入和輸出的處理費用會比較高。

真貴啊。這是什麽概念？舉個例子：

如果你每天和這個模型聊天 100 次，每次輸入 1000 個單詞，那麽一天的費用是 75 美分乘以 100 次，等于 75 美元。按照現在彙率，75 美元約等于 540 人民币。

這樣看來，使用這個模型的成本相當于每天花 540 塊錢。如果你每天都這麽使用，一個月下來的花費就非常可觀了，堪比請一個專家了。

而 o1-mini 的價格便宜一些。

每一百萬個輸入隻需 3 美元，每一百萬個輸出 12 美元。但這個便宜版在功能上可能會有些限制；如果你是 ChatGPT Plus 或 Team 的用戶，就可以優先嘗試 o1 模型的功能。

對開發者來說，要求就嚴格多了，隻有支付了 1000 美元的五級開發者才能用這個模型，而且每分鍾隻能調用 20 次。

至于 API 的調用限制，o1-preview 每周隻能調用 30 次，o1-mini 每周可以調用 50 次。這種限制是按周來算的，不是按小時或分鍾。

功能方面，目前的 o1 模型還不能支持所有的功能，比如理解圖片、生成圖片、解釋代碼、網頁搜索等。所以，用戶現在隻能用它來進行基本的對話。

官方還說：

雖然現在 o1 模型成本較高，使用也有限，但随着技術發展和 OpenAI 的不斷改進，預計将來會有更多用戶能使用到這個模型，成本也可能會降低。

不管怎能說，AI 越來越像人一樣 " 深思熟慮 " 了，至于這個模型，誰會付費呢？誰又能爲它支付 1000 美金呢？或許，隻有大公司、研究機構、有特定需求的專業人士才能承擔得起。

那到時候，真就成了花錢請了一個 "AI 專家 "，所以，AI 會替代專家嗎？

總結‍

越來越像人的模型。

誰也猜不到，未來的 o1-preview（mini）會發展成什麽樣，至少，它肯定不會是個普通的 GPT。

它會發展成具身智能嗎？有這個可能。随着技術不斷進步，o1-preview（mini）很大概率會改變一些行業的運作方式。

本文來自微信公衆号：王智遠，作者：王智遠