超越Claude 3.5、GPT-4o等頂尖閉源模型，阿裏通義開源模型Qwen2.5斬獲OpenCompass評測榜冠軍 - 青年圖摘

10 月 17 日記者獲悉，司南 OpenCompass 大語言模型評測榜 9 月榜單公布，阿裏通義千問開源模型 Qwen2.5-72B-Instruct 擊敗 Claude 3.5、GPT-4o 等閉源模型，成爲該評測榜首個開源模型冠軍。據了解，9 月底通義千問開源模型 Qwen 系列的衍生模型數量首次超越 Llama，成爲全球最大的開源模型群。

司南 OpenCompass 是由上海人工智能實驗室研發的大模型評測體系平台，OpenAI、阿裏巴巴、智譜 AI、Meta、零一萬物等百餘個最主流的大模型均已加入評測，是最具國際影響力的中國權威第三方評測榜單。司南 OpenCompass 自建評測榜單每月一更，從語言、推理、知識、代碼、數學、指令跟随、智能體等七大能力維度、十餘項細分任務，對近期主流模型進行全面評測分析。

在 2024 年 9 月的司南 OpenCompass 榜單中，開源的 Qwen2.5-72B 以 70.3 分奪冠，首次超越 Claude 3.5 和 GPT-4o 等頂尖閉源模型。Qwen2.5-72B-Instruct 在此次榜單的多項能力測評中均名列前茅。在代碼能力方面，Qwen2.5-72B-Instruct 以 74.2 分奪冠，不僅能準确完成代碼編寫，還能詳細解釋代碼的功能和邏輯；在數學能力方面，Claude 3.5 得分 72.1，GPT-4o 得分 70.6，遠不及 Qwen2.5-72B-Instruct 獲得的 77 分成績。

司南 OpenCompass 評價稱，Qwen2.5 的登頂，标志着開源社區在模型領域取得快速進展，以 Qwen 2.5 等爲代表的國産主流廠商模型，在經曆最新一輪技術叠代後，其性能有了顯著提升，與國際頂尖模型之間的差距正在快速縮小，展現了國産模型的強大競争力。

早在 9 月底，Qwen2.5-72B-Instruct 就沖進 Chatbot Arena 大模型盲測榜單前十，是前十中唯一的中國大模型。Qwen 系列開原模型涵蓋多尺寸的大語言模型、多模态模型、數學模型和代碼模型，幾乎所有尺寸的模型都實現了同等規模的最佳性能。截至 9 月底，全球開發者基于 Qwen 系列二次開發的衍生模型數量也已突破 7.43 萬，超越 Llama 的 7.28 萬，成爲全球最大的開源模型群。

雷峰網

熱門排行

感染新冠後亂吃藥，女子被送進ICU！這麼吃藥，無效又傷身！繁綺文 | 9天前
《孤島驚魂6：異界迷失》DLC試玩報告：一次性的解謎闖關體驗佼昌翰 | 7天前
iPhone出現大bug：未開專注模式也會靜音通知漏接大量電話衛青柏 | 6天前
王思聰能接班王健林麼？二代接班的謎之困局甄正浩 | 6天前
ChatGPT死活不認27能被3整除，網友：不是說AI要統治世界了嗎？幸聽楓 | 7天前
《阿凡達2》票價再創新高，但電影仍然不是個人人賺大錢的行業幸聽楓 | 2天前
張蘭首回應更改國籍！曝有不得已原因，居國内無退休金醫保？佼昌翰 | 5天前
年度期待大翻車，顔值再高也救不了郟君昊 | 2天前
完美日記淪為國貨反面教材衛青柏 | 7天前
秋瓷炫回中國随丈夫聚餐，于曉光摟着異性熱聊，秋瓷炫神情嚴肅集玲琳 | 9天前
普京：俄羅斯絕不會走自我封閉的道路繁綺文 | 3天前
謝娜大變樣快認不出！五官怪異臉變男相幸聽楓 | 5天前
國務院聯防聯控機制倡導互聯網醫療服務，多家互聯網平台提供7x24免費在線防疫咨詢郟君昊 | 8天前
人際關系再重要，也要學會翻臉，做到這五點，不吃啞巴虧集玲琳 | 9天前
老人家中陽台上常有鳥類停栖感染鹦鹉熱：可通過接觸疫鳥或吸入疫鳥排洩物氣溶膠感染袁曼雁 | 6天前
深圳首個不限購“住宅”産品入市，剩44年産權嬴覓晴 | 4天前
這陣容有點怪，怪期待的繁綺文 | 1天前
美财長耶倫：明年通脹料大幅下降衰退并非必然結果習又夏 | 3天前
小米首款車型2024年量産！目标超比亞迪大衆但計劃可能有變？惠惠君 | 9天前
田亮森碟現身活動與賭王四太合照網友：長大了甄正浩 | 2天前
今年車市大局已定！還要不要“拯救”燃油車？嬴覓晴 | 1天前
從大企業到了小公司，要改變生存策略衛青柏 | 6天前
暴雪元老克裡斯·梅森回歸《魔獸争霸》項目組，擔任創意顧問郜萌運 | 9天前
漲價潮前，傳統車企轉型冰火兩重天惠惠君 | 6天前
少兒體育訓練品牌尋找有意做體育素質項目的合作夥伴郟君昊 | 9天前
拍成這樣，就别再糟蹋經典了幸聽楓 | 1天前
從馬蘇、楊幂到秦岚，魏大勳一手串起泰迪姐妹團的十年更叠衛青柏 | 9天前
劉嘉玲曬家中巨型聖誕樹，堆滿奢侈品，罕見穿百元衣服郟君昊 | 7天前
小米迷你主機拆解：長江存儲SSD加持郜萌運 | 9天前
江西：《關于發展科技金融支持創新創業的若幹措施》繁綺文 | 7天前
飛凡汽車攜手謝晖呈現《追回來》，緻敬每一個“非凡的開始” 郟君昊 | 1天前
退燒藥大賣，醫藥股又爆發，這隻新龍頭6天漲68%！繁綺文 | 6天前
瘋搶黃桃罐頭郜萌運 | 3天前
黃桃剛囤完，電解質水又賣斷貨！專家提醒惠惠君 | 6天前
香港金管局：基準利率上調至4.75% 嬴覓晴 | 7天前
到底要多喪心病狂，才會想着把“傑尼龜”做成海龜湯？幸聽楓 | 5天前
蘋果為iCloud引入端到端加密實現高級數據保護寸飛蘭 | 2天前
昨天6.5，今天逆襲華語十佳繁綺文 | 4天前
宋仲基新劇引爆韓國！暗諷三星，撕開韓國财閥黑暗内幕寸飛蘭 | 7天前
1000TOPS算力時代來臨賁芳蕤 | 8天前