o1 滿血版這次不搞灰度了,發布僅 4 個小時後,已推送給所有(付費)用戶!
手快的網友已經耍起來了~
不過這次推出了更高級的 Pro 模式,每月 200 美元的定價也着實讓人望而卻步。
Pro 模式和正式版 o1 究竟有啥區别,将近 1500 元的價格到底值不值?
許多好心人已經交錢幫大家測了。
如果讓它完成一個數獨,足足能思考5 分 30 秒。
AI 在思考過程中依然會犯許多錯誤,但這次區别在于它有了自我糾正的能力,直到得出正确答案爲止。
花了這麽多錢,那對它的期待必然是很高的,有人上來就是一個" 請治愈癌症 "。
AI 也是毫不客氣,直接在思維鏈中接下 " 正在治愈癌症 " 這個任務。别管結果如何,就沖它真的努力去嘗試一點,就值得點贊。
26 秒過後,o1 pro 給出了它的詳盡答案:
首先澄清目前沒有治療所有類型癌症的單一方法
介紹現代常用多種方法組合的 " 雞尾酒療法 "
舉例目前可被治愈的癌症類型
補充未來有前景的研究方向
最後建議用戶尋求更專業的咨詢
正如奧特曼強調的:Pro 模式的優勢在于,它可以更加努力地去思考最困難的問題。
o1 pro 模式,1500 值不值?
再來看另一個與生物醫學有關的問題,o1 pro 模式找出了同時滿足 6 個複雜條件的特定蛋白質,用時 53 秒。
當然,如果真的給它一個超出能力範圍的問題,它在努力思考過後也會适時放棄。
隻用 HTML 代碼複刻經典遊戲《毀滅戰士》。
o1 pro 模式:這是不可能完成的。
o1 正是之前内部代号 " 草莓 " 的模型,這次 "strawberry 裏有幾個 r" 是大概率難不住它了。
甚至能夠全程不提這個單詞的情況下,把 "strawberry 中有 3 個 r" 這層意思用詩表現出來。
我們嘗試把這首詩再喂給一個新的 o1 對話,發現它也能夠理解這首詩想說什麽,且給出了另一個符合條件的答案"Rasberry"(也就是樹莓派的那個樹莓),并且把詩翻譯成中文。
爲什麽它沒有想到 Strawberry 呢?展開思維鏈,發現它其實也考慮到了草莓,但決定 " 無核 " 這個描述更符合樹莓,畢竟草莓表面還是有籽的,樹莓的籽更小且藏在裏面。
另外我們還發現,把詩翻譯成中文這個指令,居然無需占用推理 token,解謎完成後思考就結束了。
它很強,但也會出錯,會把 6 個手指的手當成完全正常的。
鑒于 AI 生圖也經常畫出六個手指,人類的手指對 AI 來說就這麽難嗎?
所以到最後,200 美元到底值不值?奧特曼也給出了官方回複:
絕大多數人用免費版或 20 美元版就足夠了,200 美元版隻适合很小一部分人,他們想要大量使用,且願意爲解決真正困難的問題付更多錢。
20 美元版 o1 也很強
如果确實不想一個月花 200 美元,20 美元版 o1 也足夠強。
現在它可以接受視覺輸入,基于圖像推理了。
有人把十年前的 XKCD 諷刺漫畫發給它,當時需要 5 年才能解決的代碼,這回 o1 當場就給寫出來喽。
甲方:當用戶拍照時,APP 要判斷他們是否位于國家公園……
程序員:這很容易,用地理信息查詢,給我幾個小時。
甲方:……還要判斷是否是鳥類的照片。
程序員:那我需要一個研究團隊和 5 年時間。
在計算機科學中,很難解釋簡單和近乎不可能之間的區别。
再來看看這個繞得腦殼疼的問題:
說出某種娛樂形式的一個特定作品,這種娛樂形式的首字母縮略詞也可以代表訪問過一個地區的團體的名字,該地區未來的領導人與意大利人結婚了。
出題者稱 ChatGPT 4o、o1-mini、Claude 3.5 Sonnet 做三次錯三次,而 o1 是做三次對三次!
至于爲什麽《最終幻想》符合要求,同樣可以讓 o1 自己來解釋。
One More Thing
o1 正式版以及 o1 pro 模式,隻是 OpenAI 12 天直播發布計劃中的第一份大禮。
明天淩晨 2 點,新發布還将繼續。
鑒于 o1 正式版目前隻發布在 ChatGPT 應用上,API 接口還未開放。
并且已有人 ChatGPT 的前端代碼中扒出 GPT-4.5 的存在。
不少人預測,下一場發布将是 GPT-4.5 和對應 API,以便與隔壁 Claude 競争,搶占開發者市場。
參考鏈接:
[ 1 ] https://x.com/liambolling/status/1864761137436537139
[ 2 ] https://x.com/__nmca__/status/1864739625140654469
[ 3 ] https://x.com/goodside/status/1864806604735955080
[ 4 ] https://x.com/emollick/status/1864744770695815234