圖片來源 @視覺中國
文 | 甲子光年,作者 | 趙健
人工智能會替代人類嗎?在 ChatGPT 出現之後,人類對于這個問題的答案已經越來越沒有信心。
而在昨天夜裏,OpenAI 低調發布了深度學習新的裏程碑:GPT-4,一個比 ChatGPT 更強大的大模型!OpenAI 表示,GPT-4 雖然在許多現實世界場景中的能力依舊不如人類,但在各種專業和學術基準上已經和人類表現持平。
GPT-4 是一個多模态大模型,具有更強大的創造性、更長的上下文處理能力,可支持圖像輸入,還可以自定義 GPT-4 的語言風格。在 OpenAI 短短 24 分鍾的發布會中,有這樣一個場景:在草稿本上用紙筆畫出一個非常粗糙的草圖,拍照并上傳,GPT-4 在10 秒左右直接生成了網站代碼。
著名經濟學家朱嘉明表示:GPT-4 是 OpenAI 創造出的又一個重大科技事件,達到了 AI 曆史上前所未有的、不可逆轉的新高度。
過去兩年,OpenAI 重建了整個深度學習堆棧,并與微軟 Azure 一起從頭開始共同設計了一台超級計算機。一年前,OpenAI 訓練 GPT-3.5(即 ChatGPT)作爲系統的第一次 " 試運行 ",發現并修複了一些錯誤并改進了理論基礎。
OpenAI 花了 6 個月的時間來叠代調整 GPT-4,取得了有史以來最好的結果,并且成爲第一個能夠提前準确預測其訓練性能的大型模型。這意味着大模型的訓練方法将會從過去的純粹 " 暴力美學 " 進化出更高的可控性與預期性。
這次 OpenAI 并沒有公布論文,隻有一份技術報告,并且不提供架構(包括模型大小)、硬件、訓練計算、數據集構建、訓練方法等細節。換句話說,其他AI公司不可能再像過去一樣,走一條模仿、複現、超越的道路了。
壓力來到了國内公司,尤其是明天即将發布文心一言的百度。
比 ChatGPT 更強大
GPT-4 比以往任何時候都更具創造性和協作性。它可以承擔文本、音頻、圖像的生成、編輯任務,并能與用戶一起叠代創意和技術寫作任務,例如創作歌曲、編寫劇本或學習用戶的寫作風格等。
GPT-4 能夠處理超過 25000 個單詞的文本,允許使用長格式内容創建、擴展對話以及文檔搜索和分析等用例。
在簡單的談話中,ChatGPT 與 GPT-4 可能看不出太大差距。但是,當任務的複雜性達到足夠的阈值時,差異就會出現—— GPT-4 比 GPT-3.5 更可靠、更有創意,并且能夠處理更細微的指令。
左邊是 ChatGPT,右邊是 GPT-4
爲了解這兩種模型之間的區别,OpenAI 在各種基準測試中進行了測試,包括人類的模拟考試,比如 GRE。OpenAI 并沒有針對這些考試進行專門培訓,但 GPT-4 的排名依然名列前茅。例如,它通過模拟律師考試,分數在應試者的前 10% 左右;相比之下,GPT-3.5 的得分在倒數 10% 左右。
GPT-4 在語言風格上也迎來了更新。與具有固定冗長語氣和風格的經典 ChatGPT 不同,開發人員(普通用戶也将會開放)現在可以在 " 系統 " 消息中通過描述來規定他們的 AI 風格和任務,也就是 " 自定義 " 能力。
OpenAI 在爲機器學習模型設計的傳統基準上評估了 GPT-4,大大優于現有的大型語言模型,以及大多數最先進的 ( SOTA ) 模型:
許多現有的 ML 基準測試都是用英語編寫的。OpenAI 使用 Azure Translate 将 MMLU 基準——一套涵蓋 57 個主題的 14000 個多項選擇題——翻譯成多種語言。在測試的 24 種語言中,GPT-4 優于 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英語語言性能,包括拉脫維亞語、威爾士語和斯瓦希裏語等低資源語言:
OpenAI 表示内部也在使用 GPT-4,對支持、銷售、内容審核和編程等功能産生了巨大影響。
多模态大模型,支持圖片輸入
除了文本能力的增強,GPT-4 還帶來了新的能力——多模态,它可以接受圖像作爲輸入并生成說明、分類和分析結果。
具體來說,它能在用戶輸入散布式文本與圖像後,自主生成文本輸出(自然語言、代碼等)。在包括帶有文本和照片的文檔、圖表與屏幕截圖中,GPT-4 展示了與純文本輸入同樣強大的功能。此外,它還可以通過爲純文本語言模型開發的測試時間技術實現進化,能運用少量鏡頭和思維鏈提示。
不過,GPT-4 的圖像輸入展示仍然隻是研究 " 樣品 " 預覽,真正的成果尚未公開。
GPT-4 可以指出被加工圖片的 " 異常 " 之處
GPT-4 還能讀懂 " 梗圖 ",理解幽默
GPT-4 甚至可以直接閱讀并分析帶有圖片的論文:
OpenAI 在一組标準的學術視覺基準測試中對 GPT-4 的表現進行評估,預覽了它的性能。然而,OpenAI 表示這些數字并不完全代表它的能力範圍,因爲 OpenAI 不斷發現這個模型能夠解決新的、" 令人興奮 " 的任務。OpenAI 計劃很快發布更多的分析和評估數據,以及對測試時間技術影響的全面調查。
花 6 個月時間訓練,但訓練數據隻截止到 2021 年 9 月
GPT-4 是如何訓練出來的?
遵循 GPT、GPT-2 和 GPT-3 的研究路徑,OpenAI 的深度學習方法利用更多數據和更多計算來創建越來越複雜和強大的語言模型。
過去兩年,OpenAI 重建了整個深度學習堆棧,并與微軟 Azure 一起從頭開始共同設計了一台超級計算機。一年前,訓練 GPT-3.5 作爲系統的第一次 " 試運行 ",OpenAI 發現并修複了一些錯誤并改進了理論基礎。結果,GPT-4 訓練運行前所未有地穩定,成爲能夠提前準确預測其訓練性能的第一個大型模型。
OpenAI 花了 6 個月的時間使用對抗性測試程序和 ChatGPT 的經驗教訓叠代調整 GPT-4,從而在真實性、可操縱性以及拒絕越界和敏感問題方面獲得了有史以來最好的結果。在 OpenAI 的内部評估中,與 GPT-3.5 相比,GPT-4 響應被禁止内容請求的可能性低 82%,産生事實響應的可能性高 40%。
與以前的 GPT 模型一樣,GPT-4 基礎模型經過訓練可以預測文檔中的下一個單詞,并且使用公開可用的數據(例如互聯網數據)以及已獲得許可的數據進行訓練。
盡管功能強大,但 GPT-4 與早期的 GPT 模型具有相似的局限。最重要的是,它仍然不完全可靠,會 " 幻覺 " 事實并出現推理錯誤。
GPT-4 的訓練數據截止到 2021 年 9 月,因此對之後發生的事件缺乏了解,并且不會從自己的經驗中學習。它有時會犯一些簡單的推理錯誤,這些錯誤似乎與其強大的跨領域功能不符,有時也會過于輕信用戶明顯錯誤的陳述;有時,它也會像人類一樣在解決難題時失敗,例如在生成的代碼中引入安全漏洞。
OpenAI 提醒,在使用語言模型輸出時應格外小心,特别是在高風險上下文中,使用符合特定用例需求的确切協議(例如人工審查、附加上下文的基礎或完全避免高風險使用)。
爲此,OpenAI 納入了更多的人工反饋,包括 ChatGPT 用戶提交的反饋——這其中可能也包括你與 ChatGPT 的對話數據。OpenAI 還與 50 多位專家合作,在 AI 安全和保障等領域獲得早期反饋。
雖然生成内容的可靠性仍是一個真問題,但 GPT-4 相對于以前的模型顯著減少了胡說八道。在 OpenAI 的内部對抗性真實性評估中,GPT-4 的得分比 OpenAI 最新的 GPT-3.5 高 40%:
GPT-4 項目的主要焦點之一是構建可預測擴展的深度學習框架,主要原因是對于像 GPT-4 這樣非常大的訓練任務,進行大量的模型特定調整是不可行的。
OpenAI 開發了基礎設施和優化方法,能夠在多個規模下表現出非常可預測的行爲。爲了驗證這種可擴展性,OpenAI 通過對使用相同方法進行訓練但計算量少 10000 倍的模型進行推斷,在内部代碼庫(不是訓練集的一部分)上準确預測了 GPT-4 的最終損失。
現在 OpenAI 可以準确預測 OpenAI 在訓練期間優化的指标(損失),開始開發方法來預測更多可解釋的指标。例如,OpenAI 成功預測了 HumanEval 數據集子集的通過率,從計算量減少 1000 倍的模型推斷。
OpenAI 認爲,準确預測未來的機器學習能力是安全的重要組成部分,但相對于其潛在影響而言,它并沒有得到足夠的重視。OpenAI 正在加大力度開發方法,爲社會提供更好的未來系統預期指導,希望這成爲該領域的共同目标。
如何嘗鮮 GPT-4?
目前有兩種辦法可以體驗 GPT-4。
如果你是普通用戶,此前訂閱了 ChatGPT Plus,将會直接獲得 GPT-4 的訪問權限。不過,ChatGPT Plus 隻能用美國信用卡開通。
OpenAI 将根據實踐中的需求和系統性能調整使用上限,但預計會受到嚴重的容量限制。
根據 OpenAI 看到的流量模式,OpenAI 可能會爲更高容量的 GPT-4 使用引入新的訂閱級别;OpenAI 也希望在某個時候提供一些免費的 GPT-4 查詢,這樣那些沒有訂閱的人也可以嘗試一下。
如果你是開發者,要訪問 GPT-4 API(使用與 GPT-3.5-turbo 相同的 ChatCompletions API),需要像等待New Bing 一樣加入 OpenAI 的候補名單。
OpenAI 今天将開始邀請一些開發人員,并逐步擴大規模以平衡容量與需求。
OpenAI 也公布了定價策略——每 1000 個prompt tokens 0.03 美元,每 1000 個 completion tokens 0.06 美元。默認速率限制爲每分鍾 4 萬個 token 和每分鍾 200 個請求。
GPT-4 的上下文長度爲 8192 個 token。OpenAI 還提供了 32768 個 tokens 上下文(約 50 頁文本)版本的有限訪問,該版本也将随着時間自動更新(當前版本 GPT-4-32k-0314,支持到 6 月 14 日 ) 。定價爲每 1000 個 prompt token 0.06 美元和每 1000 個 completion token 0.12 美元。
此外,OpenAI 宣布開源其軟件框架 OpenAI Evals,用于創建和運行基準測試以評估 GPT-4 等模型。
OpenAI 使用 Evals 來指導 OpenAI 模型的開發,OpenAI 的用戶可以應用它來跟蹤模型版本的性能,并不斷發展産品集成。例如,Stripe 使用 Evals 來補充他們的人工評估,以衡量其基于 GPT 的文檔工具的準确性。
由于所有代碼都是開源的,Evals 支持編寫新的類來實現自定義評估邏輯。然而,在 OpenAI 自己的經驗中,許多基準測試都遵循幾種 " 模闆 " 的其中之一,因此 OpenAI 還包括了最有用的模闆,包括一個 " 模型評估模闆 " —— OpenAI 發現 GPT-4 出人意料地能夠檢查自己的工作。
OpenAI 希望 Evals 成爲分享和衆包基準測試的工具,代表着最廣泛的失敗模式和困難任務。作爲一個示範,OpenAI 創建了一個邏輯謎題評估,其中包含 GPT-4 失敗的十個提示。Evals 也與實施現有基準測試兼容;OpenAI 包括了幾個實施學術基準測試和幾個(小的子集)CoQA 集成的筆記本作爲示例。
GPT-4 已經積累了部分商業客戶。比如,Stripe 使用 GPT-4 掃描商業網站并向客戶支持人員提供摘要,Duolingo 将 GPT-4 構建到新的語言學習訂閱層中。摩根士丹利正在創建一個由 GPT-4 驅動的系統,該系統将從公司文件中檢索信息并将其提供給金融分析師。可汗學院正在利用 GPT-4 構建某種自動化導師。
GPT-4 将大模型推向了一個新的高度,甚至是 " 斷崖式 " 領先。包括谷歌、百度在内的海内外科技公司,不可避免地将面對自家産品 " 發布即落後 " 的尴尬局面,而微軟則躺在 OpenAI 背後 " 賺麻了 "。
明天我們将報道百度的文心一言。
參考資料:
https://openai.com/research/gpt-4
https://openai.com/product/gpt-4
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App