如今很多大模型都聲稱擅長數學,誰有真才實學?誰是靠背測試題 " 作弊 " 的?
有人在今年剛剛公布題目的匈牙利全國數學期末考試上做了一把全面測試。
很多模型一下子就" 現原形 "了。
先看綠色部分,這些大模型在經典數學測試集 GSM8k 和全新卷子上取得的成績差不多,共同組成參照标準。
再看紅色部分,在 GSM8K 上的成績顯著高于同參數規模的大模型,一到全新卷子上成績卻明顯下降,與同規模大模型差不多了。
研究者把他們歸類爲" 疑似或已知在 GSM8k 上訓練過 "。
網友看過這項測試後表示,是時候開始在大模型從來沒見過的題目上搞評測了。
也有人認爲,這項測試 + 每個人實際上手使用大模型的經驗,是目前唯一靠譜的評估手段。
測試者Keiran Paster是多倫多大學博士生、谷歌學生研究者,也是測試中 Lemma 大模型的作者之一。
讓大模型考匈牙利全國高中數學期末考試,這招出自馬斯克的 xAI。
xAI 的 Grok 大模型發布時,除了幾個常見的測試集,還額外做了這項測試,就是爲了排除模型無意中在網絡數據見過測試題的問題。
這個考試今年 5 月底才考完,當前大模型基本沒機會見過這套試題。
xAI 發布時還公布了的 GPT-3.5、GPT-4、Claude 2 的成績作爲比較。
在這組數據基礎上,Paster 進一步測試了多個生成數學能力強的開源模型。
并把測試題目、測試腳本、各模型回答結果都開源在了 Huggingface 上,供大家檢驗以及進一步測試其他模型。
結果來看,GPT-4 和 Claude-2 組成第一梯隊,在 GSM8k 和新卷子上成績都很高。
雖然這不代表 GPT-4 和 Claude 2 的訓練數據中完全沒有 GSM8k 的洩露題,但至少它倆泛化能力不錯、能做對新題,就不計較了。
接下來,馬斯克 xAI 的 Grok-0(33B)和 Grok-1(未公布參數規模)表現都不錯。
Grok-1 是 " 未作弊組 " 裏成績最高的,新卷子成績甚至高過 Claude 2。
Grok-0 在 GSM8k 上的表現接近 GPT3.5-Turbo,新卷子上略差一些。
除了上面這幾個閉源模型,測試中其他的都是開源模型了。
Code Llama 系列是 Meta 自己在 Llama 2 基礎上微調的,主打根據自然語言生成代碼,現在看來數學能力比同規模的模型稍差。
在 Code Llama 的基礎上,多所大學和研究機構共同推出Llemma 系列,并由 EleutherAI 開源。
團隊從科學論文、包含數學的網絡數據和數學代碼中收集了 Proof-Pile-2 數據集,訓練後的 Llemma 能使用工具和做形式定理證明,無需任何進一步的微調。
Llemma 34B 在新卷子上與 GPT-3.5 Turbo 水平接近。
Mistral 系列則是法國 AI 獨角獸 Mistral AI 訓練的,Apache2.0 開源協議比 Llama 更寬松,成爲羊駝家族之後最受開源社區歡迎的基礎模型。
" 過拟合組 "裏的OpenChat 3.5和MetaMath Mistral都是基于 Mistral 生态微調而來。
MetaMath和MAmmoTH Code則是基于 Code Llama 生态。
有在實際業務中選擇開源大模型的就要小心避開這一組了,它們很有可能隻是刷榜成績好看,但實際能力弱于同規模模型。
不少網友都對 Paster 這項試驗表示感謝,認爲這正是了解模型實際情況所需要的。
也有人提出擔心:
從這一天起,所有訓練大模型的人都會加入匈牙利曆年數學考試題。
同時他認爲,解決辦法可能是有一家擁有專有測試的專門大模型評估公司。
另一項提議是建立一個逐年更新的測試基準,來緩和過度拟合問題。
參考鏈接:
[ 1 ] https://x.com/keirp1/status/1724518513874739618
[ 2 ] https://ai.meta.com/blog/code-llama-large-language-model-coding/
[ 3 ] https://arxiv.org/abs/2310.10631