7B 開源模型,數學能力超過了千億規模的 GPT-4!
它的表現可謂是突破了開源模型的極限,連阿裏通義的研究員也感歎縮放定律是不是失效了。
無需借助任何外部工具,它就能在競賽水平的 MATH 數據集上達到 51.7% 的準确率。
在開源模型中,它第一個在該數據集上達到一半的準确率,甚至超過了早期和 API 版本的 GPT-4。
這一表現讓整個開源社區爲之震撼,Stability AI 的創始人 Emad Mostaque 也表示研發團隊屬實讓人印象深刻,而且潛力被低估了。
它,就是深度求索團隊最新開源的 7B 數學大模型 DeepSeekMath。
7B 模型力壓群雄
爲了評估 DeepSeekMath 的數學能力,研究團隊使用了中(MGSM-zh、CMATH)英(GSM8K、MATH)雙語的數據集進行了測試。
在未使用輔助工具、僅靠思維鏈(CoT)提示的情況下,DeepSeekMath 的表現均超越了其他開源模型,其中包括 70B 的數學大模型 MetaMATH。
和自家推出的 67B 通用大模型相比,DeepSeekMath 的成績也有大幅提升。
如果考慮閉源模型,DeepSeekMath 也是在幾個數據集上都超越了 Gemini Pro 和 GPT-3.5,在中文的 CMATH 上超越了 GPT-4,MATH 上的表現也與之接近。
但要注意的是,GPT-4 按洩露規格是一個千億參數的龐然大物,而 DeepSeekMath 參數量隻有 7B。
如果允許使用工具(Python)進行輔助,DeepSeekMath 在競賽難度(MATH)數據集上的表現還能再提高 7 個百分點。
那麽,DeepSeekMath 優異表現的背後,都應用了哪些技術呢?
基于代碼模型打造
爲了獲得比從通用模型更好的數學能力,研究團隊使用了代碼模型 DeepSeek-Coder-v1.5 對其進行初始化。
因爲團隊發現,無論是在兩階段訓練還是一階段訓練設置下,代碼訓練相比于通用數據訓練都可以提升模型的數學能力。
在 Coder 的基礎上,研究團隊繼續訓練了 5000 億 token,數據分布如下圖:
訓練數據方面,DeepSeekMath 使用的是從 Common Crawl 提取的 120B 高質量數學網頁數據,得到了 DeepSeekMath Corpus,總數據量是開源數據集 OpenWebMath 的 9 倍。
數據采集過程是叠代式進行的,經過四次叠代,研究團隊收集了 3500 多萬個數學網頁,Token 數量達到了 1200 億。
爲了确保訓練數據中不包含測試集的内容(因爲 GSM8K、MATH 中的内容在互聯網上大量存在),研究團隊還專門進行了過濾。
爲了驗證 DeepSeekMath Corpus 的數據質量,研究團隊分别用 MathPile 等多個數據集訓練了 1500 億 token,結果 Corpus 在多個數學基準上效果明顯領先。
對齊階段,研究團隊首先構建了一個 776K 樣本的中英文數學指導監督微調(SFT)數據集,其中包括 CoT、PoT 和工具集成推理等三種格式。
而在強化學習(RL)階段,研究團隊使用了一種名爲 " 基于組的相對策略優化 "(Group Relative Policy Optimization ,GRPO)的高效算法。
GRPO 是近端策略優化(PPO)的一種變體,過程中傳統的價值函數被替換爲一個基于組的相對獎勵估計,可以減少訓練過程中的計算和内存需求。
同時,GRPO 通過叠代過程進行訓練,獎勵模型會根據策略模型的輸出不斷更新,以确保策略的持續改進。
曾推出首個國産開源 MoE 模型
推出 DeepSeekMath 的深度求索團隊,是國内開源模型領域的一名 " 頭部選手 "。
此前,該團隊就曾推出過首個國産開源 MoE 模型 DeepSeek MoE,它的 7B 版本以 40% 的計算量擊敗了相同規模的密集模型 Llama 2。
作爲通用模型,DeepSeek MoE 在代碼和數學任務上的表現就已十分亮眼,而且資源消耗非常低。
代碼方面,該團隊推出的 DeepSeek-Coder 的編程能力在代碼生成、跨文件代碼補全、以及程序解數學題等多個任務上均超過了同等規模的開源标杆 CodeLllama。
同時,它也擊敗了 GPT-3.5-Turbo,成爲最接近 GPT-4-Turbo 的開源代碼模型。
如前文所說,此次推出的 DeepSeekMath,也正是在 Coder 的基礎之上打造的。
而在 X 上,已經有人開始在期待 Coder 和 Math 的 MoE 版本了。
論文地址:
https://arxiv.org/abs/2402.03300
參考鏈接:
[ 1 ] https://twitter.com/deepseek_ai/status/1754701472363958581
[ 2 ] https://mp.weixin.qq.com/s/CPyKHnBNzJuCn-wZ1wpPoA
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~