10 月 17 日記者獲悉,司南 OpenCompass 大語言模型評測榜 9 月榜單公布,阿裏通義千問開源模型 Qwen2.5-72B-Instruct 擊敗 Claude 3.5、GPT-4o 等閉源模型,成爲該評測榜首個開源模型冠軍。據了解,9 月底通義千問開源模型 Qwen 系列的衍生模型數量首次超越 Llama,成爲全球最大的開源模型群。
司南 OpenCompass 是由上海人工智能實驗室研發的大模型評測體系平台,OpenAI、阿裏巴巴、智譜 AI、Meta、零一萬物等百餘個最主流的大模型均已加入評測,是最具國際影響力的中國權威第三方評測榜單。司南 OpenCompass 自建評測榜單每月一更,從語言、推理、知識、代碼、數學、指令跟随、智能體等七大能力維度、十餘項細分任務,對近期主流模型進行全面評測分析。
在 2024 年 9 月的司南 OpenCompass 榜單中,開源的 Qwen2.5-72B 以 70.3 分奪冠,首次超越 Claude 3.5 和 GPT-4o 等頂尖閉源模型。Qwen2.5-72B-Instruct 在此次榜單的多項能力測評中均名列前茅。在代碼能力方面,Qwen2.5-72B-Instruct 以 74.2 分奪冠,不僅能準确完成代碼編寫,還能詳細解釋代碼的功能和邏輯;在數學能力方面,Claude 3.5 得分 72.1,GPT-4o 得分 70.6,遠不及 Qwen2.5-72B-Instruct 獲得的 77 分成績。
司南 OpenCompass 評價稱,Qwen2.5 的登頂,标志着開源社區在模型領域取得快速進展,以 Qwen 2.5 等爲代表的國産主流廠商模型,在經曆最新一輪技術叠代後,其性能有了顯著提升,與國際頂尖模型之間的差距正在快速縮小,展現了國産模型的強大競争力。
早在 9 月底,Qwen2.5-72B-Instruct 就沖進 Chatbot Arena 大模型盲測榜單前十,是前十中唯一的中國大模型。Qwen 系列開原模型涵蓋多尺寸的大語言模型、多模态模型、數學模型和代碼模型,幾乎所有尺寸的模型都實現了同等規模的最佳性能。截至 9 月底,全球開發者基于 Qwen 系列二次開發的衍生模型數量也已突破 7.43 萬,超越 Llama 的 7.28 萬,成爲全球最大的開源模型群。
雷峰網