藍鲸教育 5 月 10 日訊,日前,中文通用大模型綜合性評測基準 SuperCLUE 正式發布。該基準測試可通過多個維度,考驗目前市面上主流的中文 GPT 大模型的能力。
利用 SuperCLUE 測試基準,該機構對市面上主流的支持中文的通用大模型進行了評測與排名。結果顯示,GPT-4 排名第一,已經非常接近人類的能力。
國産大模型中,科大訊飛研發的星火認知大模型總排名第三,國内排名第一。由于大模型不斷叠代,該排行榜會定期更新,并于 CLUEbenchmarks 官方網站公示。
據介紹,該基準測試關注的問題包括:中文大模型在不同任務上的表現如何?與國際代表性模型相比,中文大模型的表現達到了何種程度?中文大模型與人類表現相比如何?SuperCLUE 測試基準可以考驗目前市面上主流的中文 GPT 大模型的能力,評測維度涵蓋基礎能力、專業能力、中文特性。