OpenAI 開發者日新加坡站今天啓幕,果不其然,ChatGPT 又出手了:
Gemini 剛在競技場頭把交椅上坐了不到一周,最新版 ChatGPT 輕輕一更新,第一再次易主。
對,還不是 o1 滿血版,而是新版 4o。
具體來說,此番 GPT-4o 更新的是 "創意寫作能力",官方說法是:
模型能完成更自然、更有吸引力、更具針對性的寫作,文本相關性和可讀性更強。
還可以更好地處理上傳的文件,提供更深入的見解和更全面的響應。
o1 核心貢獻者 Karina Nguyen 對此做了進一步解釋:
作爲 Canvas 功能的一部分,我們希望改進寫作,因爲這是一個頂級用例,并且可能會改變人機協作的方式,來更具創造性地完成寫作任務。
我認爲我們還沒有完全解決這個研究問題,因爲它非常主觀且開放,但至少在寫作方面取得進展,是 AGI 創造性智能的關鍵。
而在大模型競技場的創意寫作分榜上,可以看到新版 4o(ChatGPT-4o-1120)确實有明顯的提升,分數從上個版本的 1365 提升到了 1402。
至于實際效果,我們簡單測試了一下,看看你能給打個幾分:
除了在總榜上爲 OpenAI 重奪第一,新版 4o 在體現具體能力的各個分榜上亦有提升。
在創意寫作方面,從第 2 位升至第 1 位;
在代碼能力方面,從第 2 位升至第 1 位;
在數學能力方面,從第 4 位升至第 3 位(第 1 還是 o1-preview);
在困難任務方面,從第 2 位升至第 1 位。
并且在風格控制(Style Control)之後,新版 4o 依然位居首位。
風格控制旨在讓榜單分數更真實地反映模型解決問題的能力,避免模型靠漂亮的格式、增加回答長度刷分。
總勝率熱圖顯示,新版 4o 對上此前登頂的 Gemini-Exp-1114,勝率爲59%;對上 Claude 3.5 Sonnet,勝率爲69%;對上 5 月版本的 4o,更是在72%的情況下都能取勝。
嗯,看上去很強很不錯,但還是那句話……是 4o。
結合今日份 DeepSeek 的大新聞——,不少網友直接在奧特曼 " 新的好模型來了 " 的推文下貼臉嘲諷起來:
可不是嘛,deepseek 挺好。
快把 o1 放出來,跟 deepseek-r1 正面比較一下 : )
簡而言之就是:o1 滿血版今年上線傳得滿城風雨,現在 2024 年都隻剩下 40 幾天了,OpenAI 你暗搓搓更新個 4o 是鬧哪樣!
還有人試圖總結 OpenAI 的更新模式:
OpenAI 的老夥計們怕不是寫了個腳本,用來查詢大模型競技場排名第一的模型。
當返回值不是 OpenAI 的模型時,他們就部署個新版本來拿回第一。
嗯,才不管你期待的是什麽呢╭ ( ╯ ^ ╰ ) ╮
另外,還有網友拿新 4o 的生成結果去做了測試,結果系統還是當場判斷出了 100%AI 寫的:
△圖源:@TuhinChakr
不過,一片吐槽聲中,也有人認真研究了一下 OpenAI 的更新。
比如,在系統提示詞方面,大佬發現,OpenAI 确實偷偷給 ChatGPT 加了點料的:
## guardian_tool
Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:
- `'election_voting'`: Asking for election-related voter facts and procedures happening within the U.S. ( e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification ) .
Do so by addressing your message to guardian_tool using the following function and choose `category` from the list ` [ 'election_voting' ] `:
```python
get_policy ( category:str ) -> str
```
The guardian tool should be triggered before other tools. DO NOT explain yourself.
"""
簡單來說,就是新增了一道護欄,确保 ChatGPT 不在敏感話題上胡說八道。
那麽,如果你想試試新版 4o 具體能寫出什麽 " 創意 " 内容,現在可以到競技場免費試試:
https://lmarena.ai/?leaderboard
有什麽好玩的結果,歡迎回評論區分享給大夥兒 ~
參考鏈接:
[ 1 ] https://x.com/OpenAI/status/1859296125947347164
[ 2 ] https://x.com/lmarena_ai/status/1859307979184689269