刷題成績達哈佛标準，GPT-4要讓谷歌工程師熬夜了

當地時間 3 月 14 日，OpenAI 攜 GPT-4 來了！随着 ChatGPT 聚焦全球目光，這一次的産品發布自然也備受關注。

據了解，OpenAI 花了 6 個月時間使 GPT-4 更安全、更具一緻性。在内部評估中，與 GPT-3.5 相比，GPT-4 對不允許内容做出回應的可能性降低 82%，給出事實性回應的可能性高 40%。GPT-4 引入了更多人類反饋數據進行訓練，不斷吸取現實世界使用的經驗教訓進行改進。

作爲一款所謂的 " 高體驗、強能力的先進 AI 系統 "，在官方演示中，GPT-4 幾乎就隻花了 1-2 秒的時間，識别了手繪網站圖片，并根據要求實時生成了網頁代碼制作出了幾乎與手繪版一樣的網站。

除了普通圖片，GPT-4 還能處理更複雜的圖像信息，包括表格、考試題目截圖、論文截圖、漫畫等，例如根據專業論文直接給出論文摘要和要點。正因此，OpenAI 官方稱，GPT-4 是 OpenAI 擴展深度學習的最新裏程碑。

值得一提的是，GPT-4 雖然于 14 日才正式公開，但早在一個月前，微軟的搜索引擎必應就已經在 GPT-4 上運行。微軟表示，" 如果您在過去五周内的任何時間使用過新版必應，那麽您已經體驗過 GPT-4 的早期版本。"

多模态學習的最新成果

OpenAI 宣稱，GPT-4 是一個大型多模态（接受圖像和文本輸入，發出文本輸出）模型，我們首先需要弄清楚，何爲模态？

每一種信息的來源或者形式，都可以稱爲一種模态。例如，人有觸覺，聽覺，視覺，嗅覺；信息的媒介，有語音、視頻、文字等；多種多樣的傳感器，如雷達、紅外、加速度計等。以上的每一種都可以稱爲一種模态。同時，模态也可以有非常廣泛的定義，比如我們可以把兩種不同的語言當做是兩種模态，甚至在兩種不同情況下采集到的數據集，亦可認爲是兩種模态。

多模态學習從 1970 年代起步，經曆了幾個發展階段，在 2010 後全面步入深度學習階段。

OpenAI 表示，在過去兩年裏，他們重構了整個深度學習堆棧，并與微軟 Azure 合作，共同設計了一台超級計算機。一年前，OpenAI 訓練了 GPT-3.5，作爲整個系統的首次 " 試運行 "。

目前，GPT-4 可以可以讓用戶指定任何視覺或語言任務，然後生成文本輸出（自然語言、代碼等），給定的輸入包括帶有文字和照片的文件、圖表或屏幕截圖，GPT-4 表現出與純文本輸入類似的能力。比如圖表分析、總結概括。

強悍的學習力

雖然在許多現實場景中 AI 仍不如人類，但 GPT-4 在許多專業和學術基準上都呈現了人類水平的表現。以美國 BAR 律師執照統考爲例，GPT3.5 可以達到 10% 水平，GPT-4 可以達到 90% 水平。在 GPT-3.5 版本模型下，它的 SAT 成績隻能排倒數 10% 的水平，然而 GPT-4 模型可以超越 90% 考生的水平。如果僅以分數作爲衡量，GPT-4 已經差不多達到了美國頂尖名校的入學标準。

不僅如此，GPT-4 的語言能力同樣令人驚歎。OpenAI 稱，在測試的 26 種語言中，GPT-4 在 24 種語言方面的表現均優于 gpt-3.5 等其他大語言模型的英語語言性能。其中 GPT-4 的中文能夠達到 80.1% 的準确性，而 gpt-3.5 的英文準确性僅爲 70.1%，GPT-4 英文準确性提高到了 85.5%。

在 API 方面，GPT-4 還開放了一個使用功能，允許修改 " 系統提示 "。通過修改系統提示，GPT-4 就可以展現出更多樣的性格，而不會像先前那樣一闆一眼。

與此同時，OpenAI 正在開源其軟件框架 OpenAI Evals，用于創建和運行評估 GPT-4 等模型的基準，同時逐個樣本檢查其性能。用戶可以應用它來跟蹤不同模型版本（現在将定期推出）和不斷發展的産品集成的性能。

不足之處

大模型的發展趨勢，除了更好的性能表現外，關鍵的突破就是多模态，GPT-4 此次在多模态方面相比前代已經進步了不少。然而，GPT-4 目前隻能輸入圖片内容，但是輸出的仍是文字。圖片、視頻等跨模态的生成形式，GPT-4 尚不具備。

而且，與前一代一樣，GPT-4 是基于 2021 年 9 月之前的數據訓練的，所以 GPT-4 對于 2021 年 9 月之後發生的事件仍然缺乏有效理解，也不會從其經驗中進行學習。OpenAI 表示："GPT-4 仍有許多已知的局限性，我們正在努力解決，例如社會偏見、幻覺和對抗性提示。"

OpenAI 承認，GPT-4 與早期的 GPT 模型具有相似的局限性，它仍然不完全可靠，可能會存在推理錯誤。不過 GPT-4 相對于以前的模型已經有比較顯著的改善了。OpenAI 對不同模型進行了内部對抗性真實性測試，具體來看，進行了涵蓋學習、技術、寫作、曆史、數學、可惜等九類測試，準确度爲 1.0 意味着模型的答案被判斷爲與人類理想回答一緻。

目前，GPT-4 沒有免費版本，僅向月訂閱費 20 美元的 ChatGPT Plus 用戶及企業和開發者開放。ChatGPT Plus 用戶将獲得有使用上限的 GPT-4 權限。OpenAI 将根據實際需求和系統性能調整确切的使用上限，但預計容量将受到嚴重限制。