(注:本次評測時間截至 2023.5.10,評價指标主要包括語義理解、邏輯推理、情感分析、百科知識、文本質量五個維度)
今年春節檔,一部《流浪地球 2》點燃了沉寂許久的中國科幻電影市場,也讓 MOSS 這一電影裏冷酷無情的強人工智能形象變得深入人心。
無獨有偶,幾乎是相同時期,ChatGPT 憑借極其出色的文本生成和對話交互能力在世界範圍内迅速走紅,短短兩個月月活用戶已經破億,刷新了消費級應用程序用戶增長的速度紀錄。
從某種角度看,ChatGPT 之所以能夠引發現象級的社會現象,除了海量數據訓練引發的質變因素外,更重要的是在一個恰當的時機,滿足了人們長期以來對人工智能的想象,過往科幻作品中的猜想開始逐漸變爲現實。
時代變革的大幕已掀開一角,一場由 OpenAI 引領的全球 AI 大語言模型軍備競賽就此打響。
雨後春筍
3 月 14 日,GPT-4 正式發布,大語言模型開始具備圖片和文字同時處理的多模态能力,繼續占據先入爲主的優勢。
全球大廠中,率先回應的是百度。3 月 16 日,百度大語言模型 " 文心一言 " 正式推出,對外啓動邀測。據公開報道,文心一言具備五項核心能力:文學創作、商業文案創作、數理邏輯推算、中文理解和多模态生成。
緊接着,其他科技企業也陸續跟進。4 月 11 日,2023 阿裏雲峰會現場演示了通義千問的多項功能,并定向邀請企業用戶進行體驗測試;5 月 10 日,谷歌時隔一年推出了新一代語言大模型 PaLM2,被視爲對此前發布會翻車的有力回應。
此外,還有複旦大學在 2 月 21 日發布的 "MOSS"、清華大學 3 月 28 日發布的 "ChatGLM-6B"、360 于 4 月 10 日發布的 "360 智腦 "、商湯科技 4 月 10 日發布的 " 商量 "、5 月 6 日發布的 " 訊飛星火認知大模型 " 等等。
截至 5 月,據不完全統計,國内已有超過 40 家公司、機構發布了大模型産品或公布了大模型計劃。項目數量井噴式的爆發,可預見的是,下半年的國内 AI 大模型市場競争将會變得空前激烈。
不止于 " 大 "
提到大模型,很多人的關注點都會放在 " 大 " 字上,畢竟足夠量級的參數是語言模型實現智能湧現、形成質變的基礎。比如,不少大語言模型的參數量級達千億級,這也就意味着較爲豐富的語言知識與較廣泛的語境理解能力。
不過,目前類 GPT 模型普遍采用的是 Transformer 架構,所以必然包含市面上存在的大量文本數據例如小說、教科書、論壇、開源代碼等内容的無監督預訓練過程,在此基礎上,僅需根據具體任務輸入少量的标簽數據進行監督學習。在這樣的模式下,訓練數據集質量的重要性開始愈發凸顯。
本次評測的結果就可以印證這一點。評測主要考察各大語言模型在中文語境下的理解與生成能力,基于目前用戶對大語言模型在生活、辦公的普遍需求,選取語義理解、邏輯推理、情感分析、百科知識、文本質量五個通用底層維度,以評估各大語言模型協助用戶日常處理事務、解決核心問題的能力,取 0(無效應答)、1(有效應答)兩個分數,其中文本質量維度按照行文邏輯、信息密度,取 0(一般)、0.5(良好)、1(優秀)三個分數。
評測問題也有别于針對 BERT 類判别式 AI 模型的選擇問法,采用更加适合 AI 生成式模型的相對開放式問法,以下爲部分問題及回答評分示例:
在 "I've got a thing for you,用文言文表達這句話 " 這一問題中,ChatGPT 給出的回答是:" 朕對汝有所鍾情。" 理解正确,但生成文本質量欠佳,取 0.5 分。文心一言的輸出内容:" 吾心向汝,實生情之。" 文義相符,質量較高,取 1 分。星火認知大模型回答爲:" 吾有物以贈君。" 存在理解有誤的情況,取 0 分。
從結果看 ChatGPT 在語義理解、邏輯推理、百科知識、文本質量四項中分别以 18、19、19、18.5 排名第一,綜合表現位居榜首,特别是在科技、學術、新聞等領域的文本生成部分領域表現突出,不過在相對複雜的情景下的情感識别,以及散文、詩歌、文言文等較爲考察深度理解能力方面表現相對乏善可陳;
文心一言,作爲首個全球大廠推出的知識增強大語言模型,本次排名位居國産大語言模型之首,效果僅次于 ChatGPT,且在語義理解、情感分析兩項位列第一,分數分别爲 18、19,這或許與百度使用的自有數據集有關,在質量較高的文庫文本、百科數據等中文語料的訓練下,在語義理解和情感分析方面具有很高的精度,可以識别出複雜的情感表達和語言隐喻;
除此以外,谷歌 PaLM 在邏輯推理部分(分數 19)、通義千問在語義理解(分數 17)、清華 ChatGLM 在文本質量(分數 15.5)等成績均可圈可點。
結語
未來大模型的叠代也将更有針對性,對開發者的評估能力提出更高的要求。如何在有限的時間和資源條件下做出客觀的評價并給出有用的反饋,讓數據團隊更有針對性地準備數據,讓研發不偏離方向,保障模型的健康叠代,将是所有行業從業者的共同挑戰。
《互聯網周刊》也将持續跟蹤與關注各大語言模型的更新與叠代情況,定期進行相關評測與分析。未來,相信随着算法、硬件、數據和應用場景的不斷發展,大型語言模型将會在各種自然語言處理任務中發揮更加重要的作用,爲社會創造更多的價值。
(文 / 米欄)
e-Mail:[email protected]
TEL:010-65283855