聯手谷歌，學而思發起全球大模型數學解題競賽，探索人工智能數學推理“無人區”

做好 AI 大模型時代的數學基礎工作。

來源|多知網

作者 |Penny

圖片來源 |Pexels

日前，由學而思牽頭，聯合谷歌、暨南大學等多家科技企業及高校的專家學者，依托智慧教育國家新一代人工智能開放創新平台，共同舉辦 AAAI2024 全球大模型數學推理競賽。該比賽邀請全球人工智能專家、開發者以及愛好者，一起用大模型自動解答中小學數學難題，探索和解決人工智能在數學領域的挑戰。

此次比賽分爲中文數學解題和英文數學解題兩個方向。由學而思提供比賽所用的中英文數據集—— TAL-SAQ7K-CN、TAL-SAQ6K-EN。該數據集囊括了國内外多個中小學數學競賽真題。

比賽期間，參賽者需使用大模型對給定的數學題目，生成推理步驟與答案。主辦方将通過對比參賽者的模型輸出答案與正确答案之間的準确率，來爲參賽者進行排名。準确率最高的參賽者将會赢得此次比賽。

這是全球首次數學大模型解題競賽，主辦方還爲此次比賽提供了 3 個測評基準作爲參考，即 GPT-3.5，GPT-4 以及好未來自研的數學大模型 MathGPT 在公榜上的表現。

好未來對 MathGPT 投入巨大，這次解題競賽也是學而思試圖解決 " 大模型不擅長理科方面的推理和計算 " 這一不足所做出的努力之一。

‍探索人工智能數學推理無人區

‍

衆所周知，大語言模型具備 " 先天性的缺陷 "（如缺乏複雜推理能力、數值計算不夠準确等），如何提升大語言模型數學推理能力，突破語言模型的先天不足，成爲當下全球人工智能領域關注的重點。這是此次學而思牽頭，聯合谷歌、暨南大學等共同舉辦的 AAAI2024 全球大模型數學推理競賽的重要原因。

AAAI2024 全球大模型數學推理競賽比賽官網已經公布：https://ai4ed.cc/competitions/aaai2024competition

AAAI（Association for the Advancement of Artificial Intelligence）由計算機科學和人工智能科學家 Allen Newell、 Marvin Minsky 和 John McCarthy 等創辦，是國際人工智能領域最爲權威與重要的協會之一，AAAI 會議被中國計算機學會（CCF）推薦爲 A 類會議。

爲了更充分地探究各類大模型的數學推理能力，此次比賽分爲中文數學解題和英文數學解題兩個方向。由學而思提供比賽所用的中英文數據集—— TAL-SAQ7K-CN、TAL-SAQ6K-EN。該數據集囊括了國内外多個中小學數學競賽真題，題目格式均經過精心處理，每道題目都包含題目内容，題目難度等級和題目涉及到的從粗粒度到細粒度的知識點鏈條等字段。與之同時，TAL-SAQ7K-CN、TAL-SAQ6K-EN 數據集中涉及到數學表達式已經處理成統一的文本模式 Latex。

比賽分爲兩個階段，第一階段即日起截止到 12 月 31 日，爲公榜階段。主辦方事先随機在 TAL-SAQ7K-CN 和 TAL-SAQ6K-EN 中選出 30% 的數據，供參賽者進行大模型調試。第二階段則從 2024 年 1 月 1 日到 1 月 10 日，爲私榜階段。期間，參賽者使用第一階段調優過的大模型來解答數據集中剩餘的 70% 題目。這一階段的成績将會作爲比賽的最終成績。

此外，主辦方還爲此次比賽提供了 3 個測評基準作爲參考，即 GPT-3.5，GPT-4 以及好未來自研的數學大模型 MathGPT 在公榜上的表現，具體結果如下：

Track1:

Track2:

做好 AI 大模型時代的數學基礎工作

大模型一直是近來年人工智能發展最熱門的領域之一，ChatGPT 的橫空出世則讓更多人看到了人工智能未來的方向。然而，現有的大語言模型在數學問題的解決、講解、問答和推薦方面則存在明顯不足，如解答數學問題經常出錯，難以進行複雜運算。

作爲本次全球大模型數學競賽的發起者，學而思方面表示，希望能夠通過這次大模型數學比賽，探索、解決現有的模型擅長文科而不擅長理科方面的推理和計算這一不足。學而思也在積極探索解決，如學而思 MathGPT（官網：https://www.mathgpt.com/）結合大模型和計算引擎兩者能力解決大模型在數學領域的三大挑戰——解對題、講清步驟、内容有趣生動。前者負責理解題目、分步解析，并在合适的步驟自行調用計算引擎，以此來提高正确率。基于海量名師解題過程的數據進行模型訓練，模型的解題步驟可以更加清晰。再引入優秀老師的教學理念和方法，模型在解題趣味性上也能進一步提高。

以一道數列題爲例，MathGPT 給出的答案包含 " 分析 "、" 詳解 "、" 點睛 " 三個部分，比通用大模型的粗略講解方式更爲細緻，" 分析 " 提供了題目的解題思路、思考方式，幫助用戶更好地理解題目，" 詳解 " 則給出具體的計算方式和答案，最後 " 點睛 " 的環節，對題目的考點、難點、關鍵點進行提示，幫助用戶回顧反思出題意圖、舉一反三。

作爲國内首個數學領域千億級大模型，MathGPT 數學計算能力已覆蓋小學、初中、高中階段，題目類型涵蓋計算題、應用題、代數題等多個類型，還可以針對題目進行追問。相關技術報告顯示，在 CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考數學和 Math401 等 6 個公開數學評測集合的測試結果中，學而思 MathGPT 取得了多項測試的最高分數；在 C-Eval 的初高中的全科測試集合上，MathGPT 也均有不錯的表現。

此外，學而思也在 GitHub、Hugging Face 等技術社區開源了 MathGPT 的模型訓練測試數據集—— TAL-SCQ5K-EN/CN ( 各 3K 訓練集和 2K 測試集 ) ，題目爲單選形式，涉及小初高階段數學内容，帶有詳細的解析步驟便于進行 COT 的訓練。（GitHub 開源地址：https://github.com/math-eval/TAL-SCQ5K；Hugging Face 開源地址：https://huggingface.co/datasets/math-eval/TAL-SCQ5K）

作爲智慧教育國家新一代人工智能開放創新平台承建單位，學而思一直積極參與推動我國人工智能技術發展與進步。随着大模型時代的到來，學而思希望用自身在數學和 AI 上的多年積累，面向全球範圍内的數學愛好者和科研機構，做好 AI 大模型時代的數學基礎工作。

相關閱讀：