大模型們參加2023高考了，成績單已出爐

2023 年高考成績陸續出爐，我們也來看看各大語言模型的 " 高考成績 " 如何？

FlagEval 大模型評測團隊從 2023 年高考考卷中整理了 147 道客觀題（其中語文 20 道，英語 44 道，曆史 31 道，數學 9 道，物理 8 道，政治 21 道，生物 14 道）形成 Gaokao2023 V1.0 評測集。

排除特殊符号等因素之後，通過 5-shot 方式對參數量相近的開源大語言模型進行評測，如悟道 · 天鷹 AquilaChat、Alpaca、Chinese-Alpaca、StableLM-tuned-alpha、MOSS、BELLE、ChatGLM 等。

鑒于 2023 高考題 6 月初才發布，尚未進入模型訓練數據集，此次測試結果能較爲直接地反映模型的知識運用能力。

ChatGPT 毫無懸念得分最高，GPT-4 和 GPT-3.5-turbo 正确率分别爲 60.4%、42.5%。

悟道 · 天鷹 AquilaChat-7B 在國内外參數量相近的 SFT 開源模型中表現亮眼，以 37.2% 正确率的綜合成績位居首位，接近 GPT-3.5-turbo 水平。

而 ChatGLM2-6B、Chinese-Alpaca 緊随其後，正确率分别爲 25.5%、24.7%。

經 SFT 微調的模型與基礎模型在能力側重點上具有明顯差異。

公平起見，僅對比經 SFT 微調後的語言模型。

評測方式解釋：

本次評測采用 5-shot 的 In-context 形式 prompt 作爲輸入，即在 Prompt 中給給出 5 個示例和答案作爲 Context，最後附上一道評測題目，要求模型選擇輸出【A/B/C/D】中的正确選項，考察模型的 In-Context（上下文）學習能力和知識量。總成績（TOTAL）爲每個模型的 7 個學科成績算數平均值。

從學科成績中，還有幾點有趣的發現：

AquilaChat 學科知識非常均衡，沒有明顯的短闆，并且生物、物理成績突出，正确率分别達到 50%、62.5%；

相比英語成績，所有模型的語文成績普遍不高，AquilaChat 與 Chinese-Alpaca 以 15% 正确率并列第一，ChatGPT 的正确率也僅有 10% 。說明大模型在學習中文知識時難度較大，這對後續中英雙語大模型訓練提出了挑戰。

這次針對 2023 高考的能力評測，主要對國内外 7B 量級開源大模型進行對比。7B 量級作爲當前主流模型，因部署性價比高，廣受産業歡迎。

" 巨無霸 "ChatGPT 作爲标志參照項，在 " 高考 2023 評測 " 等能力對比中依然 " 一覽衆山小 "。

考慮到其在模型參數量、訓練數據量方面的巨大差異，以 AquilaChat-7B 爲代表的 7B 量級開源模型，依然實力不容小觑、未來可期！

目前尚未有公開信息

Gaokao2023 V1.0（高考評測結果）已更新至 FlagEval 大語言模型評測榜單。我們将持續擴充題庫能力，提升對模型評測結果的深入分析能力。

歡迎大模型研究團隊評測申請：

flageval.baai.ac.cn

智源 FlagEval 大模型開放評測平台，創新構建了 " 能力 - 任務 - 指标 " 三維評測框架，劃定了大語言模型的 30+ 能力維度，在任務維度集成了 20+ 個主客觀評測數據集，不僅涵蓋了知名的公開數據集 HellaSwag、MMLU、C-Eval 等，還增加了智源自建的主觀評測數據集 Chinese Linguistics & Cognition Challenge ( CLCC ) ，北京大學與閩江學院共建的詞彙級别語義關系判斷、句子級别語義關系判斷、多義詞理解、修辭手法判斷評測數據集。更多維度的評測數據集也在陸續集成中。

在最新 SFT 模型評測榜單中，AquilaChat 在 " 主觀 + 客觀 " 評測中排名第一。

GitHub:

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

模型倉庫：

https://model.baai.ac.cn/models