2023 年高考成績陸續出爐,我們也來看看各大語言模型的 " 高考成績 " 如何?
FlagEval 大模型評測團隊從 2023 年高考考卷中整理了 147 道客觀題(其中語文 20 道,英語 44 道,曆史 31 道,數學 9 道,物理 8 道,政治 21 道,生物 14 道)形成 Gaokao2023 V1.0 評測集。
排除特殊符号等因素之後,通過 5-shot 方式對參數量相近的開源大語言模型進行評測,如悟道 · 天鷹 AquilaChat、Alpaca、Chinese-Alpaca、StableLM-tuned-alpha、MOSS、BELLE、ChatGLM 等。
鑒于 2023 高考題 6 月初才發布,尚未進入模型訓練數據集,此次測試結果能較爲直接地反映模型的知識運用能力。
ChatGPT 毫無懸念得分最高,GPT-4 和 GPT-3.5-turbo 正确率分别爲 60.4%、42.5%。
悟道 · 天鷹 AquilaChat-7B 在國内外參數量相近的 SFT 開源模型中表現亮眼,以 37.2% 正确率的綜合成績位居首位,接近 GPT-3.5-turbo 水平。
而 ChatGLM2-6B、Chinese-Alpaca 緊随其後,正确率分别爲 25.5%、24.7%。
經 SFT 微調的模型與基礎模型在能力側重點上具有明顯差異。
公平起見,僅對比經 SFT 微調後的語言模型。
評測方式解釋:
本次評測采用 5-shot 的 In-context 形式 prompt 作爲輸入,即在 Prompt 中給給出 5 個示例和答案作爲 Context,最後附上一道評測題目,要求模型選擇輸出【A/B/C/D】中的正确選項,考察模型的 In-Context(上下文)學習能力和知識量。總成績(TOTAL)爲每個模型的 7 個學科成績算數平均值。
從學科成績中,還有幾點有趣的發現:
AquilaChat 學科知識非常均衡,沒有明顯的短闆,并且生物、物理成績突出,正确率分别達到 50%、62.5%;
相比英語成績,所有模型的語文成績普遍不高,AquilaChat 與 Chinese-Alpaca 以 15% 正确率并列第一,ChatGPT 的正确率也僅有 10% 。說明大模型在學習中文知識時難度較大,這對後續中英雙語大模型訓練提出了挑戰。
這次針對 2023 高考的能力評測,主要對國内外 7B 量級開源大模型進行對比。7B 量級作爲當前主流模型,因部署性價比高,廣受産業歡迎。
" 巨無霸 "ChatGPT 作爲标志參照項,在 " 高考 2023 評測 " 等能力對比中依然 " 一覽衆山小 "。
考慮到其在模型參數量、訓練數據量方面的巨大差異,以 AquilaChat-7B 爲代表的 7B 量級開源模型,依然實力不容小觑、未來可期!
目前尚未有公開信息
Gaokao2023 V1.0(高考評測結果)已更新至 FlagEval 大語言模型評測榜單。我們将持續擴充題庫能力,提升對模型評測結果的深入分析能力。
歡迎大模型研究團隊評測申請:
flageval.baai.ac.cn
智源 FlagEval 大模型開放評測平台,創新構建了 " 能力 - 任務 - 指标 " 三維評測框架,劃定了大語言模型的 30+ 能力維度,在任務維度集成了 20+ 個主客觀評測數據集,不僅涵蓋了知名的公開數據集 HellaSwag、MMLU、C-Eval 等,還增加了智源自建的主觀評測數據集 Chinese Linguistics & Cognition Challenge ( CLCC ) ,北京大學與閩江學院共建的詞彙級别語義關系判斷、句子級别語義關系判斷、多義詞理解、修辭手法判斷評測數據集。更多維度的評測數據集也在陸續集成中。
在最新 SFT 模型評測榜單中,AquilaChat 在 " 主觀 + 客觀 " 評測中排名第一。
GitHub:
https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
模型倉庫:
https://model.baai.ac.cn/models