GPT-3 究竟是如何進化到 GPT-4 的?
字節給 OpenAI 所有大模型來了個" 開盒 " 操作。
結果還真摸清了 GPT-4 進化路上一些關鍵技術的具體作用和影響。
比如:
SFT 是早期 GPT 進化的推動者
幫助 GPT 提升編碼能力的最大功臣是 SFT 和 RLHF
在預訓練中加入代碼數據則提升了後續 GPT 版本的各方面能力,尤其是推理……
創業後忙得不可開交的AI 大牛李沐看完,也久違地出現在公衆視野,并給這項研究點了個贊。
網友們更是盛贊:
這是迄今爲止第一個充分開盒 OpenAI 所有模型的工作,respect。
而除了一些新發現,它還坐實了一些已有猜想:
比如GPT-4 在變笨并非危言聳聽,這項評測發現 GPT 進化路上出現了明顯的" 跷跷闆現象 ",即模型進化過程中一部分能力提升另一部分下降。
這和網友此前的感受不謀而合。
如作者本人表示:
這項工作可以爲 GPT-3 到 GPT-4 的演化路徑提供寶貴的見解。
言外之意,通過它我們可以一窺 GPT 模型的 " 成功之道 ",爲接下來的大模型構建工作提供有效經驗。
那麽,具體它都 " 開 " 出了哪些東西,我們扒開論文來看。
探秘 GPT-3 到 GPT-4 進化之路
最開頭的進化圖由作者們根據公開信息總結得出。
可以看到,它标注了每一個中間模型是經過哪些技術(如代碼微調、SFT/FeedME 等)一路從最初的 GPT-3 進化到 3.5 再到如今的 4。
這些技術具體起到了多大影響,從 davinci 到 gpt-4-0613,字節對每代 GPT 的數學、編碼、推理等7 大能力全部測了個 " 底朝天 "。
1. SFT:早期 GPT 進化的推動者
首先,在 GPT-3 系列中,最初的 davinci ( GPT-3 ) 通過監督微調 SFT 和其變體 FeedME 進化爲了 text-davinci-001。
這讓後者在幾乎全部任務上都獲得了性能提升:
更直觀的表現如下圖所示(" 粉圈 " 爲進化後的 text-davinci-001)。
接着,GPT 開始進入 3.5 系列,在該系列早期階段,先是最基礎的 code-davinci002采用同樣的技術進化成 text-davinci-002。
然而這一進化操作的效果屬實不大,GPT 的各項性能隻有少數幾個提升,更多是不增反減的。
在此,作者引出他們的第一個結論,即:
SFT 隻在較弱的基礎模型上管用,用在更強的模型上收效甚微。
類似現象在開源模型身上也可見(這個評測還測了 Llama1 和 2、PaLM2-L、Claude 2 等模型):
在初代 Llama-65B 之上,SFT 成功提升了它在 MMLU 基準上的性能,但是,所有使用了 SFT 改進的 Llama2-70B 在 Open LLM Leaderboard 榜單上卻隻表現出微小的進步。
總結:在 GPT3 階段,SFT 技術對模型的進化起到了關鍵作用。
2、RLHF 和 SFT:編碼能力提升的功臣
順着 GPT3.5 系列接着看,從 text-davinci-002 開始,OpenAI 開始引入新技術基于 PPO 算法的 RLHF,得到 text-davinci-003。
此時,它在大部分基準上的表現和前代模型持平或略變差,說明作用不是特别明顯(在開源模型身上也是如此)。
但有一個除外:編碼任務,最高足足增加了近 30 分。
聯想到前面 code-davinci002 采用 SFT 技進化成 text-davinci-002 造成整體性能下降時,編碼任務也沒受影響,反而還漲分了——
作者決定驗證 SFT 和 RLHF 對大模型編碼能力的影響。
在此,他們測量了幾代 GPT 模型的 pass@1(采樣 1 次通過的概率)、pass@100(采樣 100 次通過的概率)等分數。
結果是與基礎模型相比,使用了 SFT 和 RLHF 技術的模型在 pass@1 上出現了大幅提升,而在 pass@100 上略有下降。
這說明啥呢?
作者解釋:
pass@100 刻畫的是模型内在 coding 能力,而 pass@1 代表的是模型一遍過、bug-free 的 coding 能力。
pass@100 小幅下降表明 SFT 和 RLHF 在編碼任務上和其它任務一樣,仍然有所謂的對齊稅(alignment tax)。
不過,SFT 和 RLHF 能夠将 pass@100 的能力學到 pass@1 上,即把内在能力(但需要很多次嘗試)轉化到一遍過、bug-free 的 coding 能力,緻使 pass@1 大幅提升。
而再仔細看結果,可以發現 gpt-3.5-turbo-0301 通過 SFT 和 RLHF,大幅提升了 pass@1,這對于小模型的性能優化是個好消息。
這還沒完,鑒于作者之前觀察到 GPT-4 在一些複雜推理任務上經過多次嘗試才能解決問題。
他們結合上面的觀察,總結爲:
LLM 仍可以通過 SFT 和 RLHF,不斷将内在能力(但需要多次嘗試)轉化成一次性解決問題的能力,不斷逼近 LLM 的能力上限。
言外之意,GPT-4 還可以更強。
3、代碼加入預訓練,對推理幫助最大
在 GPT4 進化之路上,還出現了 2 個特别的模型:
code-cushman-001 ( Codex-12B ) 和 code-davinci-002。
前者是 OpenAI 初次嘗試使用代碼數據訓練模型,盡管它的規模較小,但也取得了不錯的代碼能力。
後者是 GPT3.5 的基座模型,它是在 GPT3 的基礎上使用 RLHF+ 代碼訓練的結果,也就是文本和代碼混合預訓練。
可以看到,它大幅超越 GPT-3(不止是編碼能力)、在一些推理任務上(如 BBH)表現甚至可以超過後面的 gpt-3.5-turbo-0613。
作者表示:
這表明預訓練加入代碼數據可以全面提升 LLM 的能力,尤其是推理能力。
4、" 跷跷闆 " 現象
通過比較 2023 年 3 月和 2023 年 6 月的 OpenAI API 模型,我們确實可以發現這一現象:
與 gpt-3.5-turbo-0301 相比,升級後的 gpt-3.5-turbo-0613 在 HumanEval 上表現出色(53.9 -> 80.0),但在 MATH 上卻大幅下降(32.0 -> 15.0)。
gpt-4-0613 在 DROP 上的表現優于 gpt-4-0314 ( 78.7 -> 87.2 ) ,但在 MGSM 上也出現了直線下降 ( 82.2 -> 68.7 ) 。
作者認爲:
" 跷跷闆現象 " 可能成爲 LLM 通往 AGI 之路的絆腳石,因爲 AGI 強調 " 通用智能 ",要在所有 task 上都有優異的性能,要求模型不能 " 偏科 "。
在此,他們也呼籲社區重視這個問題,共同推進大模型平衡發展的研究。
幫助大模型從業者找到方向
以上這些發現,全部基于 GPT-Fathom ——
字節最新提出的一個大模型評測工具。
想必大家肯定疑問:
大模型排行榜和評測工具已經有很多了,爲什麽還要提出一個新的方法?
作者介紹,相比已有的測評方式,GPT-Fathom尺度更加統一,結果具有可重現性。
大模型從業者可以借助它來明确自己與領先模型的差距到底在什麽地方,從而有的放矢地完善自己的産品。
具體來看,GPT-Fathom 主要是解決了其他大模型評測方法的三個不足:
setting 标準不一緻:是否使用思維鏈(CoT)、樣本數量等設置,以及答案評價方法沒有統一标準
模型和任務收集不完整:測試關注的能力不全面,缺乏對早期模型的關注
缺乏對模型敏感性的研究
爲了更直觀體現 GPT-Fatham 的特點,作者對比了一些具體的現有榜單,可以總結成下面這個表格:
其中,對敏感性的評測就發現了此前的測試标準沒能找出的問題。
相比于 GPT,其他模型對提示詞的敏感度很高,稍有變化就會導緻輸出截然不同,提示其他模型的魯棒性和 GPT 之前還存在很大差距。
比如在 TriviaQA 數據集上,提示詞的細微改變就讓 Llama 2-70B 的得分下降四分之一,而 GPT 系列模型則沒有明顯變化。
此外諸如 CoT、樣本數量以及采樣方差等因素也都被包括進了敏感性測試當中。
未來,作者計劃從能力種類、測試數據集和模型三個維度繼續擴展 GPT-Fathom,将支持多輪對話、多模态等能力的測評,以及增加對多個數據集和模型的測試。
GPT-Fatham 的兩位共同一作分别是字節公司應用機器學習研究組的研究人員張馭宇(Yuyu Zhang)和實習生 Shen Zheng。
Shen Zheng 是伊利諾伊大學香槟分校(UIUC)的一名碩士生。
此外,字節公司的 Yijie Zhu 等四名研究人員,以及 UIUC 的 Kevin Chen-Chuan Chang 教授也參與了這項研究。
論文地址:
https://arxiv.org/abs/2309.16583
參考鏈接:
https://github.com/GPT-Fathom/GPT-Fathom