Qwen2.5登上全球開源王座！72B模型擊敗LIama3 405B，輕松勝過GPT-4o-mini

擊敗 LIama3！Qwen2.5 登上全球開源王座。

而後者僅以五分之一的參數規模，就在多任務中超越 LIama3 405B。

各種任務表現也遠超同類别的其他模型。

跟上一代相比，幾乎實現了全面提升，尤其在一般任務、數學和編碼方面的能力表現顯著。

值得注意的是，此次 Qwen 可以說是史上最大規模開源，基礎模型直接釋放了 7 個參數型号，其中還有六七個數學、代碼模型。

像 14B、32B 以及輕量級 Turbo 模型勝過 GPT-4o-mini。

除 3B 和 72B 模型外，此次所有開源模型均采用 Apache 2.0 許可。

Qwen2.5：0.5B、1.5B、3B、7B、14B、32B 和 72B

Qwen2.5-Coder：1.5B、7B 和 32B（on the way）

Qwen2.5-Math：1.5B、7B 和 72B。

直接一整個眼花缭亂，已經有網友開始用上了。

Qwen2.5 72B 與 LIama3.1 405B 水平相當

相比于 Qwen2 系列，Qwen2.5 系列主要有這麽幾個方面升級。

首先，全面開源。

他們研究表明，用戶對于生産用的 10B-30B 參數範圍以及移動端應用的 3B 規模的模型有濃厚興趣。

因此在原有開源同尺寸（0.5/1.5/7/72B）基礎上，還新增了 14B、32B 以及 3B 的模型。

同時，通義還推出了 Qwen-Plus 與 Qwen-Turbo 版本，可以通過阿裏雲大模型服務平台的 API 服務進行體驗。

可以看到，超半數模型都支持 128K 上下文，最多可生成 8K 上下文。

在他們的綜合評測中，所有模型跟上一代相比實現了能力的躍遷，比如 Qwen2.5-32B 勝過 Qwen2-72B，Qwen2.5-14B 勝過 Qwen2-57B-A14B。

其次，預訓練數據集更大更高質量，從原本 7 萬億個 token 擴展到最多 18 萬億個 token。

然後就是多方面的能力增強，比如獲得更多知識、數學編碼能力以及更符合人類偏好。

此外，還有在指令跟蹤、長文本生成（從 1k 增加到 8K 以上 token）、結構化數據理解（如表格）和結構化輸出生成（尤其是 JSON）方面均有顯著提升。

來看看實際效果。

表格理解

生成 JSON 輸出

此外，Qwen2.5 模型總體上對系統提示的多樣性具有更強的适應能力，增強了聊天機器人的角色扮演實現和條件設定能力。

那麽就來看看具體模型能力如何。

旗艦模型在前文已經看到，它在各個任務都有明顯的進步。

而像 0.5B、1.5B 以及 3B 這樣的小模型，性能大概是這樣的：

值得注意的是，Qwen2.5-0.5B 型号在各種數學和編碼任務上的表現優于 Gemma2-2.6B。

除此之外，Qwen2.5 還展現了指令調優之後的模型性能，72B-Instruct 在幾項關鍵任務中超越了更大的 Llama-3.1-405B，尤其在數學（MATH：83.1）、編碼（LiveCodeBench：55.5）和聊天（Arena-Hard：81.2）方面表現出色。

還有像 32B-Instruct、14B-Instruct 以及 Qwen2.5-Turbo，展現了與 GPT-4o-mini 相當的能力。

Qwen 史上最大規模開源

除了基礎模型，此次 Qwen 還放出了代碼和數學專業模型。

Qwen2.5-Coder 提供了三種模型大小：1.5B、7B 和 32B 版本（即将推出）。

主要有兩點改進：代碼訓練數據規模的擴大以及編碼能力的增強。

Qwen2.5-Coder 在更大規模的代碼數據上進行訓練，包括源代碼、文本代碼基礎數據和合成數據，總計 5.5 萬億個 token。

它支持 128K 上下文，覆蓋 92 種編程語言。開源的 7B 版本甚至超越了 DeepSeek-Coder-V2-Lite 和 Codestral 等更大型的模型，成爲目前最強大的基礎代碼模型之一。

而數學模型這邊，Qwen2.5-Math 主要支持通過 CoT 和 TIR 解決英文和中文數學問題。

目前不建議将此系列模型用于其他任務。

Qwen2.5-Math 這一系列開源了包括基礎模型 Qwen2.5-Math-1.5B/7B/72B、指令調優模型 Qwen2.5-Math-1.5B/7B/72B-Instruct，以及數學獎勵模型 Qwen2.5-Math-RM-72B。

與 Qwen2-Math 系列僅支持使用思維鏈（CoT）解決英文數學問題不同，Qwen2.5-Math 系列擴展支持使用思維鏈和工具集成推理（TIR）解決中英文數學問題。

跟上一版本相比，他們主要幹了這三件事來實現基礎模型升級。

利用 Qwen2-Math-72B-Instruct 模型來合成額外的高質量數學預訓練數據。

從網絡資源、書籍和代碼中收集更多高質量的數學數據，尤其是中文數據，跨越多個時間周期。

利用 Qwen2.5 系列基礎模型進行參數初始化，展現出更強大的語言理解、代碼生成和文本推理能力。

最終實現了能力的提升，比如 1.5B/7B/72B 在高考數學問答中分别提升了 3.4、12.2、19.8 分。

好了，以上是 Qwen2.5 系列一整套堪稱「史上最大規模」的開源。

不叫草莓叫猕猴桃

阿裏通義開源負責人林俊旸也分享了背後的一些細節。

他首先表示，在開源 Qwen2 的那一刻就開始了 Qwen2.5 項目。

在這過程中，他們認識到了很多問題和錯誤。

比如在預訓練方面，他們們隻是專注于提高預訓練數據的質量和數量，使用了很多大家熟悉的方法。

比如文本分類器用于召回高質量數據，LLM 評分器用于對數據進行評分，這樣就能在質量和數量之間取得平衡。

還有在創建專家模型的同時，團隊還利用它們生成合成數據。

在後期訓練時候，用戶的反饋來幫助他們逐一解決問題，同時他們也在探索 RLHF 方法，尤其是在線學習方法。

對于之後的升級和更新，他表示受 o1 啓發，認爲應該深入研究推理能力。

值得一提的是，在 Qwen2.5 預熱之時，他們團隊就透露不叫草莓，叫猕猴桃。

好了，現在猕猴桃可以快快用起來了。

參考鏈接：

[ 1 ] https://x.com/JustinLin610/status/1836461575965938104

[ 2 ] https://x.com/Alibaba_Qwen/status/1836449414220779584

[ 3 ] https://qwenlm.github.io/blog/qwen2.5/

[ 4 ] https://qwenlm.github.io/blog/qwen2.5-llm/

[ 5 ] https://qwenlm.github.io/blog/qwen2.5-coder/

[ 6 ] https://qwenlm.github.io/blog/qwen2.5-math/