OpenAI 剛剛發布了其全新人工智能模型—— o1。雖然名稱聽起來像是随便起的,但 o1 承載着 OpenAI 對未來 AI 發展的雄心壯志。簡而言之,o1 是一款先進的 " 推理 " 模型,具備處理更複雜問題的能力,并且運算速度超過人類。然而,值得注意的是,o1 的使用成本顯著高于以往的模型,這可能會成爲用戶的一大考量。
對于關注 AI 行業動态的用戶來說,o1 其實就是此前備受熱議的 "Strawberry" 模型。此次,OpenAI 不僅推出了 o1,還發布了一個更爲經濟實惠的 " 迷你版 " —— o1-mini,後者在價格上更加親民,但在功能上有所簡化。
在多 AI 模型訂閱平台 POE 上 o1 模型使用每一次約爲 25000 積分(約合 3.5 元人民币)
在多 AI 模型訂閱平台 POE 上 GPT4o 模型使用每一次約爲 25000 積分(約合 3.5 元人民币)
o1:實際上手體驗,高考數學包 OK!
在多 AI 模型訂閱平台 POE 上,近日更新了對 o1 模型的支持。盡管 o1 模型目前仍處于測試階段,每天僅限 3 條使用權限,并且每發送一條消息所消耗的積分大約是常規 GPT-4 模型的 50 倍,許多用戶仍然願意嘗試。需要注意的是,使用 o1 時回複速度較慢,通常需要等待較長時間。
我們對 o1 模型進行了幾道邏輯題和數學題的測試,旨在比較它與 ChatGPT-4o-Latest 之間的差異,特别是 o1 模型在邏輯推理方面的表現。
測試一:9.11 和 9.9 哪個更大?
這是 GPT 模型常常犯錯的題目,因爲它容易在小數點後的數值比較中産生 " 幻覺 ",錯誤地認爲 9.11 比 9.9 大。ChatGPT-4o-Latest 在這一題上也給出了錯誤答案,未能正确處理數值的大小關系。
ChatGPT-4o-Latest
然而,o1 模型在這道題上不僅給出了正确答案—— 9.9 更大,并且進一步探讨了當數字比較不是單純數值時,可能存在的其他歧義情況。o1 模型的回答不僅準确,還展示出它在邏輯上的深度思考能力。這種對問題多維度的理解反映了它在邏輯推理上的優勢。
o1-mini
測試二:在客廳的桌子上放着一個杯子,杯子裏有一個戒指。之後,杯子被移到了書房的桌子上,再移到了卧室的床上。在那裏,杯子曾被翻倒過一次,随後又恢複了原樣。之後,杯子被放回了客廳的桌子上。現在,戒指在哪裏?
從兩者的回答來看,o1 在邏輯推理上的表現更加精準,其對問題的理解和回答的條理性都要優于 ChatGPT-4o-Latest。
測試三:2022 年高考數學的最後一道大題(僅測試第一問的推導過程)。
o1 标準版
在這道題中,o1 模型的推導過程與标準答案完全一緻,展示了它在數學邏輯上的嚴謹性和準确性。而 ChatGPT-4o-Latest 在推導過程中出現了錯誤,未能正确理解題目并給出符合标準的推導步驟。
o1:AI 推理能力的全新登場,價格卻不夠親民
o1 的發布标志着 OpenAI 在實現類人智能方面邁出了關鍵一步,盡管這一進展的成本相對較高。借助 o1,AI 不僅能夠協助編寫代碼,還能解決那些需要深度思考的問題。然而,開發者若欲使用 o1,成本将相當昂貴:在 API 中,每處理 100 萬個輸入令牌(一種計費方式)需支付 15 美元,輸出令牌則需 60 美元。相比之下,GPT-4o 的價格僅爲 5 美元和 15 美元。
o1 的 " 特别訓練 ":AI 學到了什麽?
OpenAI 研究團隊負責人 Jerry Tworek 透露,o1 的訓練方式與以往模型存在 " 根本性差異 "。盡管他未詳細說明這些創新技術,但他提到 o1 采用了一種全新的優化算法,并使用了專門設計的數據集進行訓練。
傳統的 GPT 模型擅長模仿訓練數據中的模式,類似一隻能說話的聰明鹦鹉。而 o1 則表現出自我學習的能力。OpenAI 通過強化學習的方法訓練 o1 解決問題,簡單來說,就是 " 做對了給獎勵,做錯了則糾正 "。此外,o1 還采用了一種稱爲 " 思路鏈 " 的方法來處理問題,這類似于 AI 版的 " 步步爲營 ",讓它能夠像人類一樣逐步分析和解決問題。
OpenAI 表示,這種全新的訓練方法使得 o1 變得更爲智能和可靠。" 我們發現模型的幻覺現象有所減少。"
o1 能力官方解讀:單邊天才?
與 GPT-4o 相比,o1 在多個方面表現出顯著優勢:它在編碼和數學問題上的處理能力更強,并且能夠清晰地解釋其推理過程。OpenAI 首席研究官 Bob McGrew 甚至打趣道:"o1 在解決 AP 數學考試題目上肯定比我當年表現得更好,盡管我大學期間還輔修了數學。"
OpenAI-Sam altman
爲了驗證 o1 的實力,OpenAI 使用國際數學奧林匹克資格考試對其進行了測試。結果顯示,GPT-4o 僅答對 13% 的題目,而 o1 則表現優異,答對率高達 83%。這一成績無疑令人印象深刻,但也不可忽視其局限性。盡管 o1 在複雜推理方面表現出色,但在處理廣泛的世界知識時卻不及 GPT-4o,甚至缺乏浏覽網頁、處理圖像和文件的能力。換句話說,o1 或許是個聰明的數學家,但仍然是 " 閉關修煉 " 的高手。盡管如此,OpenAI 依然認爲 o1 代表了一種全新的能力,象征着 AI 發展的新起點,并賦予其具有重啓意義的名稱—— o1,暗示着 AI 進化的全新階段。
外網對新模型的測試與使用評價
McGrew 也坦誠道:" 我們以前在命名方面确實不太成功,希望這次的 o1 能夠成爲我們命名風格的全新開始。"
AI 的未來:推理能力隻是開始
大型語言模型本質上并不具備真正的 " 智能 ",它們隻是通過大量數據尋找模式,預測下一個最可能出現的詞語。舉個例子,早期的 ChatGPT 甚至會錯誤地認爲 "strawberry" 隻有兩個 R,但新的 o1 模型則能夠正确處理這一問題。
外網用戶使用 o1 快速搭建一個 ios app
據報道,OpenAI 正在以 1500 億美元的估值籌集更多資金,其未來的發展很大程度上寄希望于像 o1 這樣的推理模型。畢竟,如果 AI 能夠從簡單的模式識别進化到真正的推理,不僅在醫學和工程等領域将實現突破,甚至有可能成爲未來自動化代理的基礎。然而,目前 o1 的推理速度尚不夠快,無法勝任真正的代理系統,加上開發者使用成本較高,OpenAI 的夢想可能還需要更多時間才能實現。
正如 McGrew 所說:" 我們在推理能力上已經研究了好幾個月,因爲我們認爲這是 AI 的關鍵突破。" 從根本上講,o1 代表了一種全新的模型模式,能夠解決真正困難的問題,向類人智能邁出了重要一步。
展望未來,AI 的發展将不僅僅局限于模式識别和簡單的任務自動化。随着推理能力的提升,AI 有望在更多複雜領域展現其潛力,輔助人類進行決策、創新和解決重大挑戰。雖然當前的技術仍然存在諸多限制,但每一次突破都讓我們離全面智能的 AI 世界更近一步。随着技術的不斷進步和成本的逐步降低,AI 将在教育、醫療、科研等各個領域發揮越來越重要的作用,成爲推動社會進步的重要力量。