GPT-4升級被曝引入Q*，推理/數學更強廢話更少，競技場重奪王位 - 青年圖摘

啥？

新版 GPT-4 是在 Q* 的輸出上微調的？

在競技場重回榜一的新版 GPT-4 Turbo，成功再次踩中大家嗨點。

它此次的性能提升體現在數學、推理、代碼上，而且輸出内容廢話更少。

最讓大家感到興奮的是其數學 / 推理能力，現在可以在一些問題上完勝其他大模型。

比如 " 求 y=x^4-5x^2-x+4 和 y=x^2-3x 交點的 y 坐标之和。" 隻有最新版 GPT-4 Turbo 能測出來。

這條推特被公開承認自己參與過 Q* 的 Lukasz Kaiser 轉發。

Noam Brown 也發推表示新版 GPT-4 Turbo 在推理能力上大幅提升——要知道，這位 OpenAI 科學家一直被外界認爲正在研究 Q*。

各方信息彙總後，網友們一拍腦袋反應過來，這其中會不會就引入了 Q* 啊？

數學方面的提升意味着其中可能包含了一個數學模型，可能是 Q*。

（以及他的數學題測試推特被 OpenAI 的人轉發了）

好家夥，難道 OpenAI 在悄悄搞大事？

新 GPT-4 的 " 新馬腳 "？

OpenAI 官方公告表示，最新版本的 GPT-4 Turbo 全方位大提升，現在 ChatGPT 用戶可直接體驗。

網友立馬沖去實測，有人給出評估結果，特别是數學 / 推理能力有了重大提升。

實際問題測試中，在多個數學推理題上，GPT-4 Turbo 都沒有翻車，但是如 Command-R plus、Clauede-3 Opus 等都有失誤。

比如一道乘電梯的推理題。陷阱在于這部神奇電梯無論坐幾層，最後都會停在一層。GPT-4 Turbo 理解了這層邏輯，最後給出了正确答案。

還有在修改二叉樹問題上，GPT-4 Turbo 不僅回答正确，而且過程清晰完整。

同時在 " 大海撈針 " 能力上，與之前版本對比，最新 GPT-4 Turbo 已經是出版 GPT-4 能力的4.3 倍。

競技場的結果表明，在代碼能力方面，GPT-4 Turbo 也更強了。

文本輸出方面變得更加簡潔。

生成代碼也少了很多廢話（下圖右側爲新版本）。

有人補充說，生成速度上也更快了。

神秘 Q*：OpenAI 的最大秘密？

現在 Q* 已經成了 OpenAI 的流量密碼了，隻要出現這個關鍵字，網友們都會興奮不已。

畢竟當初奧特曼宮鬥大戲就和它有關聯，還有人發出警告，Q* 預示着 AGI 即将出現。

不過官方一直沒有公開承認過這個項目的存在，奧特曼拒絕回答，Transformer 作者公開承認參與 Q* 也被 OpenAI 公關跳起來捂嘴。

從目前各方透露的信息來看，Q* 專注于邏輯和數學推理能力，數學能力突出。

Transformer 作者之一 Lukasz Kaiser承認自己參與了這個項目。

德撲 AI 之父、前 FAIR（Meta）研究科學家 Noam Brown 也被視爲是 Q* 項目的重要成員（推測來自 LeCun）。

他加入 OpenAI 的動作也被外界視爲分析 Q* 的一個線索，"有理由懷疑 Q 是将 LLM 和 AlphaGo 結合起來，并用強化學習進行訓練"。

Noam Brown 開發出了第一個在打撲克牌上超越人類的 AI，後來加入 Meta 緻力于讓 AI 學會玩 Diplomacy（外交遊戲）。

目前，關于 Q* 的準确信息還是非常少。

可能奧特曼還在等一個合适的時機來回應外界。

One More Thing

btw，網友們意外捉到總裁 Brockman 轉發的一個視頻演示裏的提示詞是：

看來大家拿 GPT-4 幹的事也都差不多嘛（doge）。

參考鏈接：

[ 1 ] https://twitter.com/lukaszkaiser

[ 2 ] https://twitter.com/skirano/status/1778122305471705489

[ 3 ] https://twitter.com/7oponaut/status/1777971159478194256

[ 4 ] https://twitter.com/ai_for_success/status/1778073765748064678

[ 5 ] https://www.understandingai.org/p/how-to-think-about-the-openai-q-rumors