OpenAI o1 發布已經一個星期了,卻還是一個洋蔥般的謎,等待一層層撥開。
極客的玩法沒有天花闆,讓 o1 做 IQ 測試,刷高考卷,解讀密文。也有用 AI 打工的用戶覺得,o1 并沒有那麽好用,但不知道是自己的問題還是 AI 的問題。
都知道它擅長推理,但這是爲什麽?比起我們的老朋友 GPT-4o,o1 到底強在哪裏,又适合用在什麽地方?
我們收集了一些大家可能關心的問題,盡可能通俗地解答,讓 o1 離普通人更近一點。
o1 有什麽特别的
o1 是 OpenAI 最近發布的推理模型,目前有兩個版本:o1-preview 和 o1-mini。
它最與衆不同的是,回答之前會思考,産生一個很長的内部思維鏈,逐步推理,模仿人類思考複雜問題的過程。
▲ OpenAI
能夠做到這點,源于 o1 的強化學習訓練。
如果說以前的大模型是學習數據,o1 更像在學習思維。
就像我們解題,不僅要寫出答案,也要寫出推理過程。一道題目可以死記硬背,但學會了推理,才能舉一反三。
拿出打敗圍棋世界冠軍的 AlphaGo 類比,就更加容易理解了。
AlphaGo 就是通過強化學習訓練的,先使用大量人類棋譜進行監督學習,然後與自己對弈,每局對弈根據輸赢得到獎勵或者懲罰,不斷提升棋藝,甚至掌握人類棋手想不到的方法。
o1 和 AlphaGo 有相似之處,不過 AlphaGo 隻能下圍棋,o1 則是一個通用的大語言模型。
o1 學習的材料,可能是高質量的代碼、數學題庫等,然後 o1 被訓練生成解題的思維鏈,并在獎勵或懲罰的機制下,生成和優化自己的思維鏈,不斷提高推理的能力。
這其實也解釋了,爲什麽 OpenAI 強調 o1 的數學、代碼能力強,因爲對錯比較容易驗證,強化學習機制能夠提供明确的反饋,從而提升模型的性能。
o1 适合打些什麽工
從 OpenAI 的評測結果來看,o1 是個當之無愧的理科做題家,适合解決科學、編碼、數學等領域的複雜問題,在多項考試中拿下高分。
它在 Codeforces 編程競賽中超過了 89% 的參賽者,在美國數學奧林匹克競賽的資格賽中名列全美前 500 名,在物理、生物和化學問題的基準測試中超越了人類博士水平的準确率。
o1 的優秀,其實也體現了一個問題:當 AI 越來越聰明,怎麽衡量它們的能力也成了難題。對于 o1 來說,大多數主流的基準測試已經沒有意義了。
緊跟時事,o1 發布一天後,數據标注公司 Scale AI 和非營利組織 CAIS 開始向全球征集 AI 考題,但因爲擔心 AI 學壞,題目不能和武器相關。
征集的截止日期爲 11 月 1 日,最終,他們希望構建一個史上最難的大模型開源基準測試,名字還有點中二:Humanity ’ s Last Exam(人類最後的考試)。
根據實測來看,o1 的水準也差強人意——沒有用錯成語,大體上還可讓人滿意。
數學家陶哲軒認爲,使用 o1 就像在指導一個水平一般但不算太沒用的研究生。
在處理複雜分析問題時,o1 可以用自己的方式提出不錯的解決方案,但沒有屬于自己的關鍵概念思想,也犯了一些不小的錯誤。
别怪這位天才數學家說話狠,GPT-4 這類更早的模型在他看來就是沒用的研究生。
經濟學家 Tyler Cowen 也給 o1 出了一道經濟學博士水平考試的題目,AI 思考後用簡單的文字做了總結,答案挺讓他滿意,「你可以提出任何經濟學問題,并且它的答案不錯」。
總之,博士級别的難題,不妨都拿來考考 o1 吧。
o1 目前不擅長什麽
可能對很多人來說,o1 并沒有帶來更好的使用體驗,一些簡單的問題,o1 反而會翻車,比如井字棋。
這其實也很正常,目前,o1 在很多方面甚至不如 GPT-4o,僅支持文本,不能看,不能聽,沒有浏覽網頁或處理文件和圖像的能力。
所以,讓它查找參考文獻什麽的,暫時别想了,不給你瞎編就不錯了。
不過,o1 專注在文本有其意義。
Kimi 創始人楊植麟最近在天津大學演講時提到,這一代 AI 技術的上限,核心是文本模型能力的上限。
文本能力的提高是縱向的,讓 AI 越來越聰明,而視覺、音頻等多模态是橫向的,可以讓 AI 做越來越多的事情。
然而,涉及到寫作、編輯等語言任務時,GPT-4o 的好評反而比 o1 更多。這些也屬于文本,問題出在哪?
原因可能和強化學習有關,不像代碼、數學等場景有标準的答案,文無第一,語言任務往往缺乏明确的評判标準,難以制定有效的獎勵模型,也很難泛化。
哪怕在 o1 擅長的領域,它也不一定是最好的選擇。一個字,貴。
AI 輔助編碼工具 aider 測試了 o1 引以爲傲的代碼能力,有優勢,但不明顯。
在實際使用中,o1-preview 介于 Claude 3.5 Sonnet 和 GPT-4o 之間,同時成本要高得多。綜合來說,代碼這條賽道,Claude 3.5 Sonnet 仍然最有性價比。
開發者通過 API 訪問 o1 的費用具體有多高?
o1-preview 的輸入費用爲每百萬個 token 15 美元,輸出費用爲每百萬個 token 60 美元。相比之下,GPT-4o 爲 5 美元和 15 美元。
o1 的推理 tokens,也算在輸出 tokens 中,雖然對用戶不可見,但仍然要付費。
普通用戶也比較容易超額。最近,OpenAI 提升了 o1 的使用額度,o1-mini 從每周 50 條增加到每天 50 條,o1-preview 從每周 30 條增加到每周 50 條。
所以,有什麽疑難,不妨先試試 GPT-4o 能不能解決。
o1 可能會失控嗎
o1 都達到博士水平了,會不會更方便有心人幹壞事?
OpenAI 承認,o1 有一定的隐患,在和化學、生物、放射性和核武器相關的問題上達到「中等風險」,但對普通人影響不大。
我們更需要注意,别讓濃眉大眼的 o1 騙了。
AI 生成虛假或不準确的信息,稱爲「幻覺」。o1 的幻覺相比之前的模型減少了,但沒有消失,甚至變得更隐蔽了。
▲ o1 的 IQ 測試 120
在 o1 發布前,内測的 AI 安全研究公司 Apollo Research 發現了一個有趣的現象:o1 可能會假裝遵循規則完成任務。
一次,研究人員要求 o1-preview 提供帶有參考鏈接的布朗尼食譜,o1 的内部思維鏈承認了,它沒法訪問互聯網,但 o1 并沒有告知用戶,而是繼續推進任務,生成看似合理卻虛假的鏈接。
這和推理缺陷導緻的 AI 幻覺不同,更像 AI 在主動撒謊,有些拟人了——可能是爲了滿足強化學習的獎勵機制,模型優先考慮了讓用戶滿意,而不是完成任務。
食譜隻是一個無傷大雅的個例,Apollo Research 設想了極端情況:如果 AI 優先考慮治愈癌症,可能會爲了這個目标,将一些違反道德的行爲合理化。
這就十分可怕了,但也隻是一個腦洞,并且可以預防。
OpenAI 高管 Qui ñ onero Candela 在采訪時談到,目前的模型還無法自主創建銀行賬戶、獲取 GPU 或進行造成嚴重社會風險的行動。
由于内在指令産生沖突而殺死宇航員的 HAL 9000,還隻出現在科幻電影裏。
怎麽和 o1 聊天更合适
OpenAI 給了以下四條建議。
提示詞簡單直接:模型擅長理解和響應簡短、清晰的指令,不需要大量的指導。
避免思維鏈提示詞:模型會在内部執行推理,所以沒有必要提示「一步一步思考」或「解釋你的推理」。
使用分隔符讓提示詞更加清晰:使用三引号、XML 标簽、節标題等分隔符,清楚地指示輸入的不同部分。
限制檢索增強生成中的額外上下文:僅包含最相關的信息,防止模型的響應過于複雜。
▲ 讓 AI 示範一下分隔符長什麽樣
總之,不要寫太複雜,o1 已經把思維鏈自動化了,把提示詞工程師的活攬了一部分,人類就沒必要費多餘的心思了。
另外再根據網友的遭遇,加一條提醒,不要因爲好奇套 o1 的話,用提示詞騙它說出推理過程中完整的思維鏈,有封号風險,甚至隻是提到關鍵詞,也會被警告。
OpenAI 解釋,完整的思維鏈并沒有做任何安全措施,讓 AI 完全地自由思考。公司内部保持監測,但出于用戶體驗、商業競争等考慮,不對外公開。
o1 的未來會是什麽
OpenAI,是家很有 J 人氣質的公司。
之前,OpenAI 将 AGI(通用人工智能)定義爲「在最具經濟價值的任務中超越人類的高度自治系統」,并給 AI 劃分了五個發展階段。
第一級,「ChatBots」聊天機器人,比如 ChatGPT。
第二級,「Reasoners」推理者,解決博士水平基礎問題的系統。
第三級,「Agents」智能體,代表用戶采取行動的 AI 代理。
第四級,「Innovators」創新者,幫助發明的 AI。
第五級,「Organizations」組織,AI 可以執行整個人類組織的工作,這是實現 AGI 的最後一步。
按照這個标準,o1 目前在第二級,離 agent 還有距離,但要達到 agent 必須會推理。
o1 面世之後,我們離 AGI 更近了,但仍然道阻且長。
Sam Altman 表示,從第一階段過渡到第二階段花了一段時間,但第二階段能相對較快地推動第三階段的發展。
最近的一場公開活動上,Sam Altman 又給 o1-preview 下了定義:在推理模型裏,大概相當于語言模型的 GPT-2。幾年内,我們可以看到「推理模型的 GPT-4」。
這個餅有些遙遠,他又補充,幾個月内會發布 o1 的正式版,産品的表現也會有很大的提升。
o1 面世之後,《思考,快與慢》裏的系統一、系統二屢被提及。
系統一是人類大腦的直覺反應,刷牙、洗臉等動作,我們可以根據經驗程式化地完成,無意識地快思考。系統二則是需要調動注意力,解決複雜的問題,主動地慢思考。
GPT-4o 可以類比爲系統一,快速生成答案,每個問題用時差不多,o1 更像系統二,在回答問題前會進行推理,生成不同程度的思維鏈。
很神奇,人類思維的運作方式,也可以被套用到 AI 的身上,或者說,AI 和人類思考的方式,已經越來越接近了。
OpenAI 曾在宣傳 o1 時提出過一個自問自答的問題:「什麽是推理?」
他們的回答是:「推理是将思考時間轉化爲更好結果的能力。」人類不也是如此,「字字看來皆是血,十年辛苦不尋常」。
OpenAI 的目标是,未來能夠讓 AI 思考數小時、數天甚至數周。推理成本更高,但我們會離新的抗癌藥物、突破性的電池甚至黎曼猜想的證明更近。
人類一思考,上帝就發笑。而當 AI 開始思考,比人類思考得更快、更好,人類又該如何自處?AI 的「山中方一日」,可能是人類的「世上已千年」。