新模型在 MATH 上(以數學競賽爲主)動辄跑分 80% 甚至 90% 以上,卻一用就廢。
這合理嗎??
爲了真實檢驗模型數學推理能力,上海人工智能實驗室司南 OpenCompass 團隊放大招了。
推出新的複雜數學評測集 LiveMathBench,以全新性能指标 G-Pass@16 來連續評估模型的性能潛力和穩定性。
好家夥!團隊在模拟真實用戶使用采樣策略、重複多次評測大模型的數學推理能力時發現:
大部分的模型平均會有五成以上的性能下降,即使是最強推理模型 o1-mini 也會下降 3 成 6,更有模型直接下降九成。
具體咋回事兒下面接着看。
全新評價指标 : G-Pass@k
研究團隊重新思考了大模型評測常用的技術指标,如傳統經常采用的 Pass@k, Best-of-N, Majority Voting,這些指标主要關注模型的性能潛力,缺少對模型的魯棒性的評測。
而真實場景中,爲了提高回複的多樣性,模型往往使用采樣解碼的方式進行推理,這也會帶來大量的随機性。在複雜推理任務中,這種随機性會嚴重影響模型的性能,而用戶更預期在真實問題中,模型能又穩又好。
Pass@k 指标回顧
經典的 Pass@k 指标關注模型在多次生成中至少給出一次正确答案的概率。假設模型生成次數爲,正确答案數爲,c 表示其中正确解的數量,那麽 Pass@k 的計算方式如下:
兼顧性能潛力與穩定性的評測指标 G-Pass@K
Pass@k 體現了模型的性能潛力,卻不能體現模型的穩定性,基于這一目的團隊将 Pass@k 推廣爲 Generalized Pass@k(以下簡稱 G-Pass@k)。
通過引入阈值,該工作關注模型在次生成中至少給出 ⎡ · ⎤次正确答案的概率。
一般來說,認爲模型的每次生成是 i.i.d.(Independent and Identically Distributed)的,那麽模型給出的正确答案數服從二項分布,這可以通過超幾何分布逼近二項分布。基于此,可以得出 G-Pass@k 的定義:
在較小時,G-Pass@k衡量模型的性能潛力;較大時,G-Pass@k衡量模型的穩定性,或者說模型對于問題的掌握程度,因此研究者可以通過 G-Pass@k 連續地觀察模型的性能潛力與穩定性。
進⼀步地,研究團隊還定義了 mG-Pass@k 用于對模型的性能進行整體觀測。
具體來說,mG-Pass@k 是 — G-Pass@k 曲線下的面積,爲了更好地模拟真實場景,團隊重點考慮∊ [ 0.5,0.1 ] 的情況,即:
G-Pass@K 是 Pass@K 是泛化形式
當⎡ · ⎤ =1 時,Pass@K 是 G-Pass@k 等價,這意味着 Pass@K 是 G-Pass@k 的特例,讀者可以參考論文附錄提供的證明。
研究團隊給出了兩者關系的對比分析,如下圖所示:
圖中展示了不同的和 c 下 Pass@K 和 G-Pass@k 的值,可以看出在較小時,兩者反映的是模型的潛力,然而這種分數可能是偏高的,在 24/80 的整體通過率下,Pass@K 指标的值可以接近 80%。
但當關注較高的時,更能夠觀察到模型在實際生成時的真實性能。
LiveMathBench:避免數據污染的複雜數學評測集
研究團隊構建了一個新的 benchmark LiveMathBench 用于驗證實驗。
具體來說,他們收集了最近發布的中國數學奧林匹克,中國高考最新模拟題,美國數學競賽和美國普特南數學競賽中最新的題目,盡量減少數據污染的可能性。
整個 LiveMathBench(202412 版本)包括 238 道題目,每個題目提供中文 / 英文兩個版本的題目,覆蓋不同的難度。研究團隊計劃後續持續更新 LiveMathBench 中的題目,來持續觀測 LLM 的真實數學水平。
另外,研究團隊還在兩個公開 Benchmark MATH500 和 AIME2024 上進行了實驗。
對于 MAH500,研究團隊選擇了難度爲 L5 的題目,命名爲MATH500-L5;對于 AIME2024,研究團隊使用了 Part1 和 Part2 兩個部分全部 45 道題目,命名爲 AIME2024-45。
實驗
在實驗設置方面,對于每道題目,進行了 16*3=48 次生成并報告 G-Pass@16 分數。研究團隊在通用模型、數學模型和類 o1 模型三種不同類型的大模型中選擇了具有代表性的大模型進行實驗。
LiveMathBench 性能對比如下:
根據實驗結果,可以看到:
大部分閉源模型和開源模型在 [email protected] 指标上也都不超過 30 分。
最強的 o1-mini 模型在 [email protected] 獲得了最高分 42 分,相對性能下降比例也是所有模型中最低的(36.9%),雖體現出相對較高的穩定性,但仍然難以忽視。
Math-500-L5/AIME2024-45 性能對比如下。
對于開源數據集:
在常用的高中競賽級别題目 MATH500-L5 上,多數模型不管是貪婪解碼的表現還是穩定性 [email protected] 的表現都相比 LiveMathBench 都有所提升,而 AIME2024 則相反,大多數模型的 [email protected] 分數都隻有個位數,甚至部分模型接近 0 分;
對于難度頗高的 AIME2024,雖然 o1-min 和 QwQ-32B-Preview 在貪婪解碼下表現突出,但面對高難度題目下的穩定性還是難以保證,如 QwQ-32B-Preview 甚至跌到了不到原來的 1/5,而其在 MATH500-L5 中卻比較穩定,達到了原分數的 3/5,這也說明了最新的高難度數學題目對模型的穩定性帶來了更大的壓力。
最後,模型在不同難度題目上的能力分析如下 。
下表展示了關鍵模型在 LiveMathBench 兩個子集上的性能表現。
其中 CCEE 代表中國高考題目,主要涉及到基礎的高中數據知識;而 WLPMC 代表來自普特南(Putnam)競賽的題目,普特南競賽是久負盛名的美國大學生數學競賽,其題目難度要高于高考題目。
由實驗結果可以看出,先進的推理模型,例如 DeepSeek-V2.5, Qwen2.5-72B-Instruct, QwQ 等在 Pass@16 指标下在兩個子集上都有較好的性能,但大部分模型在 WLPMC 上的穩定性下降更爲嚴重。
因此可以有如下猜想,推理模型容易學習到訓練數據中的平凡解,導緻 Pass@k 等指标的上升,然而在困難的問題上,這種提升并不與模型真實推理性能提升相關。在強基座模型的訓練中,更應該關注推理穩定性的表現,以提升其真實推理能力。
重要觀測觀察一:閉源和開源模型均不能穩定地進行複雜推理
研究人員對當前主流的約 20 個模型進行了測試,發現盡管多數模型在貪婪解碼的準确率 Greedy Accuracy 和 Pass@16 上表現相對較好,但當使用 G-Pass@K 指标進⾏評估時,性能卻顯著下降。
當設置爲 1.0 時,即要求模型在所有 16 次采樣中都提供正确答案, 幾乎所有模型的表現都急劇下降。
例如,在對 LiveMathBench 的測評中,Llama-3.1-8B-Instruct 模型的準确率從 18.1% 下降到 0.8%(G-Pass@16=1.0),降幅高達 95.7%。即使是較大的模型,如 NuminaMath-72B-CoT,其準确率也從 34.45% 下降到 3.7%,減少了 89.3%。
在大約 20 個測試模型中,平均性能下降了 60%。即便是表現最爲穩定的 OpenAI o1-mini,其準确率也從 66.5% 下降到 42.0%,降幅爲 36.9%。
即使将放寬到 0.5,即隻要求一半的樣本正确即可通過,通用模型、數學推理模型和 o1-like 模型仍分别經曆了 14.0%、22.5% 和 4.8% 的平均性能下降。
這表明,在複雜條件下,多數模型難以在多次采樣中保持一緻的推理能力。
不過目前的評估指标通常依賴單次貪婪解碼,可能無法充分反映這些模型在實際應用中的魯棒性和穩定性。
因此,研究團隊指出,需要對模型的推理能力進行更嚴格的評估,尤其是在那些需要在多次采樣中保持一緻性和可靠性的重要應用中。
觀察二:增大模型規模對推理能力的提升有限
研究人員觀察到,以同系列模型 Qwen2.5-32B-Instruct 與 Qwen2.5-72B-Instruct 爲例,雖然它們的模型規模相差一倍以上,但無論指标采用 G-Pass@K 還是 Greedy Accuracy,無論評測數據集是最新的 LiveMathBench 還是現有開源數據集,兩者的表現均相似。
另外,在更大體量的模型 Mistral-Large-Instruct-2411(123B)上,盡管模型規模繼續增大,但其性能和穩定性相比 Qwen2.5-72B-Instruct 卻出現下滑。
這表明,對于需要深度理解和邏輯推理的任務,簡單增大參數并不能顯著提升性能或穩定性。
這可能是因爲這些任務不僅需要模型具備記憶和模式識别能力,更需要強大的推理和上下文理解能力。
觀察三:模型的性能潛力和實際表現之間的巨大差距
研究團隊在評估模型性能時發現,理論最大能力 G-Pass@16 → 0、實際表現能力 Greedy Accuracy 和多次采樣下的穩定能力 G-Pass@16=1.0 之間存在顯著差距。
盡管模型在理論上具備相當高的潛在性能,但在實際應用中未能充分展現這一水平,尤其是在輸出穩定性方面。一些模型在單次貪婪解碼中表現出高準确率,顯示出處理特定任務的潛力,但在保持一緻高準确率方面卻不穩定,遠未達到最佳性能。
這反映了現有模型在推理穩定性和一緻性上的不足,這在訓練和評估中常被忽略。
模型在單次推理表現中易受輸入數據變化、初始化狀态或随機采樣的影響,導緻不同采樣解碼的結果不一緻。
研究人員指出,在高可靠性和一緻性要求的實際應用中,如何在保持接近最佳性能的同時确保輸出的穩定性,是一個亟待解決的問題。
總結
本研究深入分析了當前大型模型的數學推理能力,提出了全新的性能指标 G-Pass@16 ,用于連續評估模型的性能潛力和穩定性。
此外,還設計了避免數據污染的 LiveMathBench 數據集。
實驗結果顯示,目前的大型模型在推理性能方面未達到預期,尤其在多次重複采樣時,性能出現顯著下降。研究團隊期望學術界和工業界能夠在推理能力的魯棒性研究上持續探索與推進。
論文鏈接:https://arxiv.org/abs/2412.13147
項目地址:https://github.com/open-compass/GPassK
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>