國産數學大模型,能力已經超過了 ChatGPT!
最新榜單中,上海交大 GAIR 實驗室出品的 Abel 專有大模型:
準确率高達 83.6%,在開源模型中位列第一。
據團隊介紹,該模型是用挪威數學家尼爾斯 · 阿貝爾(Niels Abel)的名字命名的,以此向阿貝爾在代數和分析方面的開創性工作緻敬。
在 GSM8k 數據集上,70B 參數量的 Abel 碾壓所有開源模型,還超過了 ChatGPT。
甚至在新數據集 TALSCQ-EN 上,Abel 的表現比 GPT-4 還要強。
而實現這樣效果的 Abel,成分可以說是十分 " 單純 ":
沒有使用工具
沒有使用數學領域的大規模預訓練數據
沒有使用獎勵模型
沒有使用 RLHF
僅使用有監督精調(Supervised Fine-tuning,SFT)
那麽 Abel 的效果究竟怎麽樣呢?
成績超越開源模型 SOTA
這裏我們選擇同樣是開源的 Llama-2 來和 Abel 對比。
首先來看下這個雞兔同籠問題的變體:
Brown 由牛和雞一共 60 隻,雞的數量是牛的兩倍,一共有多少條腿?
這道題 Llama-2 出師不利,而且不是計算錯誤,是邏輯上就有問題:
Abel 則成功地解決了這個問題。
再來看下一個問題:
12,21,6,11 和 30 的中位數與平均數的和是多少?
兩個模型都正确理解了所涉及的概念,但 Llama 還是在計算和排序上出了錯。
而 Abel 依舊是正确地做出了這道題:
再從測試數據上看看 Abel 的表現。
首先是 OpenAI 提出的 GSM8k 數據集(大概是美國高中難度),這份榜單的前十名,Abel 占了三個(不同參數規模)。
開源模型當中,70B 規模的 Abel 打敗了曾經的 SOTA —— WizardMath。
如果把商業閉源模型算進來,Abel 也僅次于 GPT-4、Claude-2 和 PaLM-2-Flan 這些最著名的模型。
甚至 ChatGPT 也不是 Abel 的對手。
△地球代表開源模型,鎖代表閉源模型
在難度更高的 MATH(競賽題目)數據集中,開源模型的前三名被三個規模的 Abel 包攬,加上閉源也僅次于 Google 和 OpenAI 的産品。
研究團隊還使用了新數據集 TALSCQ-EN 對 Abel 進行測試,結果超過了 GPT-4。
那麽,研究團隊是怎麽調教出這樣一款高性能模型的呢?
" 保姆級 " 微調訓練策略
核心奧義就是高質量的訓練數據。
Abel 使用數據是經過精心策劃的,不僅包含問題的答案,還要能告訴模型找到正确答案是的方法。
爲此,研究團隊提出了一種叫做家長監督(Parental Oversight)的 " 保姆級 " 微調訓練策略。
在家長監督的原則之下,團隊僅通過 SFT 方式就完成了 Abel 的訓練。
爲了評價 Abel 的魯棒性,研究團隊還用 GPT4 對 GSM8k 中的數字進行了修改,測試 Abel 是否依然能解出正确的答案。
結果顯示,在調整版 GSM8k 數據集下,70B 參數的 Abel 魯棒性超過了同等規模的 WizardMath。
在 Abel 的介紹的最後,研究團隊還留下了一個彩蛋:
Abel 的下一代,将進化成爲 Bernoulli(伯努利)
不過團隊并沒有對其中的含義進行說明,我們不妨期待一番。
團隊簡介
Abel 由上海交通大學 GAIR(生成式人工智能研究組)團隊打造。
該團隊還曾推出過大模型高考 Benchmark、AIGC 事實核查工具 Factool 等成果。
該小組負責人、清源研究院劉鵬飛副教授同時也是 Abel 項目的負責人。
對這個數學模型感興趣的讀者,可以到 GitHub 頁面詳細了解。
GitHub 頁面:
https://github.com/GAIR-NLP/abel