
朋友,先别急着退訂 ChatGPT 會員。
最近,DeepSeek 開源周搞得熱火朝天,全球開發者忙着分享代碼、碰撞靈感;而另一邊,OpenAI 卻選在開源周最後一天冷不丁地丢出了 GPT-4.5 這個「大殺器」。
Sam Altman 在 X 平台在 X 分享了他的個人體驗:
這是我第一次覺得 AI 像在與一位深思熟慮的人對話。它真的能提供有價值的建議,甚至讓我有幾次靠在椅子上,驚訝于 AI 竟然能給出如此出色的回答。

不過,他也特别提醒,GPT-4.5 不是推理型模型,不會在基準測試中碾壓其他模型。而他之所以沒有亮相發布會,原因是在醫院照顧小孩。
從今天開始,ChatGPT Pro 用戶已經用上 GPT-4.5(研究預覽版)了。下周,将會逐步開放給 Plus 和 Team 用戶;再下一周,Enterprise 和 Edu 用戶也能體驗到這個新版本。
體驗方式十分簡單,隻需在網頁版、移動端和桌面端的模型選擇器即可切換使用。
GPT-4.5 支持聯網搜索,并能夠處理文件和圖片上傳,還可以使用 Canvas 來進行寫作和編程。不過,目前 GPT-4.5 還不支持多模态功能,如語音模式、視頻和屏幕共享。
GPT-4.5 主要通過「無監督學習」(就是自己從大量數據中學習)變得更聰明,而不是像 OpenAI o1 或者 DeepSeek R1 那樣專注于推理能力。
簡單說,GPT-4.5 知道的更多,而 o1 系列更會思考。
亮點概括如下:
知識更廣泛:它學習了更多的信息,所以懂的東西比以前多
更少胡說八道:減少了「幻覺」(就是 AI 編造事實的情況)
更懂人心:「情商」更高,更能理解你的真實意圖
對話更自然:聊天感覺更像和真人交流,不那麽機械
創意更豐富:在寫作和設計方面表現更好
GPT-4.5 正式發布,更懂你的心了
GPT-4.5 最直觀的變化就是更懂你。
它更像一個善解人意的朋友,能夠理解你的言外之意,捕捉你微妙的情感變化。
OpenAI 在内部測試中發現,與 GPT-4o 相比,測試人員更喜歡 GPT-4.5 的回答,認爲它更自然、更溫暖、更符合人類的交流習慣。
在與人類測試者的對比評估中,GPT-4.5 相較于 GPT-4o 的勝率(人類偏好測試)更高,包括但不限于創造性智能(56.8%)、專業問題(63.2%)以及日常問題(57.0%)。

作爲 OpenAI 迄今爲止規模最大、知識最豐富的模型,GPT-4.5 在 GPT-4o 的基礎上進一步擴展了預訓練,并被設計爲比 OpenAI 以 STEM 領域推理爲重點的強大模型更加通用。
GPT-4.5 的突破,很大程度上歸功于「無監督學習」的進步。
簡單來說,無監督學習就是讓 AI 自己從海量數據中學習,而不是靠人工标注數據。
這就好比讓一個孩子自己去看世界,而不是事事都由大人告訴他。這樣,孩子就能學到更多更豐富的知識,形成自己的「世界觀」。
OpenAI 認爲,無監督學習和推理能力是 AI 發展的兩大支柱。
得益于此,GPT-4.5 的知識面更廣,對用戶意圖的理解更精準,情緒智能也有所提升,因此特别适用于寫作、編程和解決實際問題,同時減少了幻覺現象。
SimpleQA 用于評估大語言模型(LLM)在簡單但具有挑戰性的知識問答中的事實性。而 GPT-4.5 在 SimpleQA 準确率(數值越高越好)達到 62.5%,遙遙領先于 OpenAI 其它模型。

另外,在 SimpleQA 幻覺率(數值越低越好)的評估中,GPT-4.5 的分數爲 37.1%,也和 OpenAI 其它模型拉開差距。
在 PersonQA 數據集上,GPT-4.5 取得了 0.78 的準确率,優于 GPT-4o(0.28)和 o1(0.55)。

此外,OpenAI 對 GPT-4.5 進行了廣泛的安全測試,包括有害内容拒絕、幻覺評估、偏見檢測、越獄攻擊防護等:GPT-4.5 在拒絕不安全内容方面表現良好,但在過度拒絕(overrefusal)方面比前代模型稍高。
多語言性能方面,GPT-4.5 支持 14 種語言,在 MMLU 評估中超越了 GPT-4o,尤其在低資源語言(如斯瓦希裏語、約魯巴語)上有明顯提升。

至于編程和軟件工程,GPT-4.5 代碼生成和修複任務表現有所提升。
Agentic Tasks 評估的是 AI 在真實環境中獨立完成複雜任務的能力,包括終端操作(Linux + Python 環境)、資源獲取(如自動下載、運行程序)以及複雜任務執行(如加載和運行 AI 模型)等。
OpenAI 發布的系統卡顯示,GPT-4.5 在自主任務方面仍然受到一定限制,遠未達到真正的自主 AI Agent。
除了普通用戶,GPT-4.5 也向開發者敞開了大門。
OpenAI 同步開放了 GPT-4.5 的 API,包括 Chat Completions API、Assistants API 和 Batch API。
GPT-4.5 支持函數調用(function calling)、結構化輸出(Structured Outputs)、流式響應(streaming)和系統消息(system messages),并且具備視覺能力,可通過圖像輸入進行處理。
開發者可以通過 API 接口将 GPT-4.5 集成到自己的應用中,創造出更多有趣、有用的産品。
不過,GPT-4.5 計算量極大,成本高昂,因此并不會取代 GPT-4o。并且,OpenAI 仍在評估是否長期在 API 中提供 GPT-4.5,以便在支持當前功能的同時,繼續推進未來模型的開發。

AI 進入「拼情商」時代?
本次直播環節由 Mia Glaese、Rapha Gontijo Lopes、Youlong Cheng、Jason Teplitz 和 Alex Paino 主持。
當演示人員要求寫一條憤怒短信給頻繁取消約會的朋友時,GPT-4.5 能夠識别出用戶的沮喪情緒,并給出了更加微妙且建設性的回應,幫助用戶以更理性的方式表達感受。

另一個演示則展示了 GPT-4.5 在解釋複雜問題上的能力,「爲什麽海水是鹹的?」
GPT-1 完全不知道答案,GPT-2 給出相關但錯誤的回答,GPT-3.5 Turbo 首次給出正确但解釋不充分的答案,GPT-4 過于詳盡列舉事實,而 GPT-4.5 則提供了簡潔、連貫且有趣的解釋,開頭使用了甚至使用了朗朗上口的句式。

據介紹,OpenAI 在開發 GPT-4.5 時實現了幾項關鍵的訓練機制創新。
訓練如此大規模的模型需要顯著提升後訓練(post-training)基礎設施,因爲預訓練階段和後訓練階段的訓練數據與參數大小比例完全不同。
團隊開發了一種新的訓練機制,能夠使用更小的計算資源來微調如此大型的模型。
具體來說,他們通過多次叠代,結合了監督式微調(supervised fine-tuning)和基于人類反饋的強化學習(reinforcement learning with human feedback)來完成後訓練過程,最終開發出了可以部署的模型。
在預訓練方面,由 Alex 和 Jason 領導的團隊采取了多項措施來最大化計算資源的利用:
使用低精度訓練(low precision training)來充分利用 GPU 性能
跨多個數據中心同時預訓練模型,因爲他們需要的計算資源超過了單一高帶寬網絡架構所能提供的上限
此外,團隊構建了新的推理系統,确保模型能在 ChatGPT 中快速響應用戶,保持對話的流暢性。同時,他們表示将在發布後繼續改進,使模型運行更快。
這些訓練和部署機制的創新使團隊能夠将更多計算能力注入模型中,從而實現無監督學習的大規模擴展,這也是 GPT-4.5 能夠在不依賴逐步推理的情況下,仍然展現出強大理解能力和較低幻覺率的關鍵原因。
值得一提的是,OpenAI 的首席研究官 Mark Chen 在 GPT-4.5 發布之前接受了 Alex Kantrowitz 的采訪。
當被問到 OpenAI 是否在模型運行效率方面有所改進時,他表示:
讓模型的運行更高效這一過程,通常與模型核心能力的開發相對獨立。我看到很多工作都集中在推理(Inference)架構上。DeepSeek 在這方面做得很好,而我們也在這方面投入了大量精力。我們非常關注如何以更低的成本向所有用戶提供這些模型服務,并一直在努力降低成本。
無論是 GPT-4 這樣的推理模型,還是其他模型,我們始終在推動更低成本的推理優化。從 GPT-4 最初發布以來,運行成本已經降低了多個數量級,我們在這方面取得了不錯的進展。
随後,當被問及當前的 Scaling Law 是否已經遇到瓶頸,或者是否觀察到擴展帶來的收益遞減時,Mark Chen 回答道:
「我對 Scaling 有不同的理解。當涉及無監督學習時,你需要更多的關鍵要素,比如計算資源、算法優化以及更多的數據。而 GPT-4.5 确實證明了我們可以繼續推進擴展範式,而且這種範式并不與推理能力相對立。
推理能力需要建立在知識的基礎之上。一個模型不能憑空推理,而是需要先獲取知識,再在此基礎上發展推理能力。因此,我們認爲這兩種範式是相輔相成的,并且它們之間存在相互促進的反饋循環。」
實際上,GPT-4.5 不僅展示了無監督學習的巨大潛力,也預示着 AI 的發展方向——更像人。
過去,AI 的發展主要集中在提高智力,比如下棋、做題、識别圖像等。而現在,與兩年前 GPT-4 橫空出世時引發的轟動不同,人們對 AI 的期待已經從兩年前的「能做什麽」轉向當下「能做得更好、更安全、更可控」。
越來越多的 AI 公司開始關注「情商」,試圖讓 AI 更懂人類的情感和需求。
GPT-4.5 就是這一趨勢的代表。投入資源,研發更懂人心的 AI 依舊是行業值得關注的命題。不過,GPT-4.5 雖然展示了基于海量數據和算力的語言模型所能達到的高度,但它的表現依然顯得有些捉襟見肘。
從這個角度看,它或許更像畫上了階段性的句點,扮演了一個承上啓下的過渡角色。既是對過去幾代模型的總結與修補,也是在爲下一波技術浪潮鋪路。
真正的突破,可能還得等 GPT-5 來實現。
擔心留給 OpenAI 的叠代時間不夠,别急,我有一招,虛假的版本叠代是 GPT-4.5 → GPT-5,在接下來的「數月内」,真實的發布節奏應該是 GPT-4.5 → GPT-4.6 → GPT-4.7 →…
好消息是,這一次估摸着不用再等上兩年了。