開源模型首勝GPT-4！競技場最新戰報引熱議，Karpathy：這是我唯二信任的榜單

能打得過 GPT-4 的開源模型出現了！

大模型競技場最新戰報：

1040 億參數開源模型Command R+攀升至第 6 位，與 GPT-4-0314 打成平手，超過了 GPT-4-0613。

這也是第一個在大模型競技場上擊敗 GPT-4 的開放權重模型。

大模型競技場，可是大神 Karpathy 口中唯二信任的測試基準之一。

Command R+ 來自 AI 獨角獸 Cohere。這家大模型創業公司的聯合創始人兼 CEO，正是Transformer 最年輕作者 Aidan Gomez（簡稱割麥子）。

這份戰報一出，又掀起了一波大模型社區的熱烈讨論。

大家夥兒興奮的理由很簡單：基礎大模型卷了一整年，沒想到在 2024 年格局還在不斷地發展變化。

HuggingFace 聯合創始人 Thomas Wolf 就說：

最近大模型競技場上的情況發生了巨大的變化：

Anthropic 的 Claude 3 opus 在閉源模型中獨占鳌頭。

Cohere 的 Command R+ 則成爲了開源模型中的最強者。

沒想到，2024 年在開源和閉源兩條路線上，人工智能團隊的發展都如此之快。

另外，Cohere 機器學習總監 Nils Reimers 還指出了值得關注的一點：

Command R+ 最大的特色是對内置 RAG（檢索增強生成）進行了全面優化，而在大模型競技場中，RAG 這樣的外挂能力并未納入測試。

RAG 優化模型登上開源王座

在 Cohere 官方定位中，Command R+ 是一個 "RAG 優化模型 "。

就是說，這個 1040 億參數的大模型主要針對檢索增強生成技術進行了深度優化，以減少幻覺的産生，更适配于企業級工作負載。

和此前推出的 Command R 一樣，Command R+ 的上下文窗口長度是 128k。

此外，Command R+ 還具備以下特點：

覆蓋 10+ 種語言，包括英語、中文、法語、德語等；

能使用工具完成複雜業務流程的自動化

從測試結果來看，在多語種、RAG 和工具使用這三個維度上，Command R+ 都達到了 GPT-4 turbo 的水平。

但在輸入成本方面，Command R+ 的價格僅爲 GPT-4 turbo 的 1/3。

輸出成本方面，Command R+ 則是 GPT-4 turbo 的 1/2。

正是這點引發了不少網友的關注：

不過，盡管在大模型競技場這種人類主觀評測上表現搶眼，還是有網友甩出了一些不同觀點。

在 HumanEval 上，Command R+ 的代碼能力就連 GPT-3.5 都沒打過，在兩組測試中分别排在 32 位和 33 位。

最新版 GPT-4 turbo 則沒有懸念地拿下了第一。

另外，我們也在最近剛登上正經論文的弱智吧 benchmark 上簡單測試了一下 Command R+ 的中文能力。

你給打個分？

需要說明的是，Command R+ 的開源隻面向學術研究，并不能免費商用。

One More Thing

最後的最後，還是多聊一嘴割麥子小哥。

Aidan Gomez，Transformer 圓桌騎士中最年輕的一位，加入研究團隊時隻是個本科生——

不過，是在多倫多大學讀大三時就加入了 Hinton 實驗室的那種。

2018 年，割麥子被牛津大學錄取，開始像他的論文搭子們那樣攻讀 CS 博士學位。

但在 2019 年，随着 Cohere 的創立，他最終選擇退學加入 AI 創業的浪潮。

Cohere 主要是爲企業提供大模型解決方案，目前估值達到了 22 億美元。

參考鏈接：

[ 1 ] https://twitter.com/lmsysorg/status/1777630133798772766

[ 2 ] https://txt.cohere.com/command-r-plus-microsoft-azure/

— 完 —

【火熱報名中】中國 AIGC 産業峰會

定檔 4 月 17 日

峰會已經邀請到數位代表技術、産品、投資、用戶等領域嘉賓，共論生成式 AI 産業最新變革趨勢。

最新确認嘉賓包括：商湯科技楊帆、輕松集團高玉石、印象筆記唐毅、螞蟻集團李建國等，。

峰會将全程線上下同步直播，歡迎預約直播 ⬇️

點這裏關注我，記得标星噢

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~