Claude 3的競技場排名終于來了:
短短 3 天内,20000 張投票,将榜單的流量推向空前。
最終,Claude 3 最強的 " 大杯 " 模型Opus得分 1233,成爲第一個能和 GPT-4-Turbo 一較高下的選手。
" 中杯 "Sonnet也還不錯,和 GPT-4 的兩個舊版本不相上下。
不過總的來說,還是 GPT-4 系列占據上風。
Claude 3 的表現和宣傳有些許出入。如網友總結:
GPT-4 還是大模型之王!
但,免費的 " 中杯 "Claude 3(Sonnet)更物超所值。
大模型競技場出爐," 新王 " 排第三
Claude 3 發布時官方的宣傳是全面超過了 GPT-4,但沒提是哪個版本的 GPT-4。
競技場榜單(LMSYS Chatbot Arena Leaderboard)的最新更新,幫咱摸清了。
來看詳細情況。
排在第一名的是 OpenAI 去年 11 月推出的 GPT-4 Turbo,也就是:
GPT-4-1106-preview。
它功能更強價格也更便宜,具有 128k 上下文,訓練數據從此前的 2021 年 9 月更新到 2023 年 4 月。
與它并列第一的是 GPT-4 Turbo 最新的版本,今年一月發布的:
GPT-4-0125-preview。
它的訓練數據更廣,擴展到了 2023 年 12 月。
兩者均取得了 1251 的分數。
接着才是 Claude 3(訓練數據截止到 2023 年 8 月)。
它的最強版本 Opus 得分 1233,比 GPT-4 Turbo 低了 18 分。
這個差距相比起來不算太大,畢竟再往下看:
它比 GPT-4 的兩個版本(0314、0613)分别高了 48 分、72 分。
至于中等性能的Claude 3 Sonnet,則排名第 6,位于 GPT-4 這兩個版本之間:
不過隻比 0314 版低 5 分,大有潛力一舉超越。
所以總的來說,官方宣傳的也算沒大毛病,全面超越老版 GPT-4,但離 GPT-4 Turbo 還有點距離,盡管不算太大。
——從此榜單的評比機制等情況來看,它的結果還是相當有業内認可度的。
它由 " 小羊駝 "(Vicuna)的作者團隊發起。
但裁判官不是 " 小羊駝 ",更不是 GPT-4,而是基于人類偏好。
詳細來說,也就我們随機向兩個匿名模型提出任意問題,然後評價它們各自的回答,把票投給更好的那一個。
如果一輪投不出,咱可以選擇繼續提問。如果聊天中模型不小心透露了自己的身份,投票則作廢。
特别的,計分規則采用 Elo 機制來保證公平(玩王者榮耀的朋友都熟)。
舉個例子:如果某個模型輸了,但它的分數不一定低,因爲它本身實力就弱,這是預料之中。
截止目前,這個榜單可以說是非常火爆,已經有全球 73 個模型參與挑戰,共收到了網友們 37 萬張 + 投票。
通義千問擠進前 10
除了 Claude 3,我們再看看其他表現亮眼的選手。
首先要提的就是基于 Gemini Pro 的 Bard,排名第四,僅次于 GPT-4Turbo 和 Claude 3。
可以說是有點讓人驚喜。
網友戲谑:
谷歌這是生生在在排行榜上開了個 " 洞 " 啊。
并連忙艾特 JeffDean 和 DeepMind 負責人:喂,加把勁兒啊(旺柴)
然後要說的就是阿裏通義千問(1.5 版本,上個月發布)。
它在本次排名中擠進了前十、并列第九,是國内選手中表現最好的。
被它甩在身後的,除了其他國産選手,還有 Claude 2、Gemini Pro 和 GPT-3.5 等等。
完整榜單:
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
參考鏈接:
https://twitter.com/lmsysorg/status/1765774296000172289