國産模型指令跟随全球第一！來自LeCun親推的「最難作弊」大模型新榜單

What？？？

一直低調行事的國内初創公司，旗下模型悄悄地躍升成國内第一、世界第五（僅排在 o1 系列和 Claude 3.5 之後）！

而且是前十名中的唯一一家國産公司。

（該榜上國産第二名是阿裏開源的 qwen2.5-72b-instruct，總榜第 13）。

而且它登上的這個排行榜 LiveBench，雖然現在還沒有大模型競技場（LMSYS Chatboat Arena）那麽廣爲人知，但資格杠杠的——

圖靈獎得主、Meta 首席 AI 科學家楊立昆（Yann LeCun），聯合紐約大學等在今年 6 月推出。

号稱是" 全球首個無法作弊的 LLM 基準測試 "。

而這次冷不丁殺出來的黑馬，其實比較熟悉國内大模型競争格局的朋友們已經猜到了——

Step 系列，背後是大模型六小虎之一的階躍星辰。

指令跟随高分拿下全球第一

在 LiveBench 榜單上，階躍星辰自研的萬億參數語言大模型 Step-2-16k-202411 在 Global Average 上拿下 57.68 分。

位列總榜第五、國産第一。

這個榜單之前出現頻率不高，一方面是它确實很新，今年 6 月才剛推出；另一方面更加現實，那就是此前國産大模型并未在這個榜單塔尖取得傲人成績。

這倒也不耽誤榜單自身的實力——

LeCun 和紐約大學等機構聯手推出，專爲大模型設計，目前包含 6 個類别的 17 個不同任務，每月更新新問題。

目标是确保榜單的問題不易受到污染，并且能夠輕松、準确、公平地進行評估。

強調不易受到污染，是因爲訓練數據中包含了大量互聯網内容，許多 BenchMark 很容易受到污染。

比如大家比較熟悉的數學測試集 GSM8K，最近被證明有好些模型已經在它這兒過拟合了。這顯然爲評估模型能力帶來了困擾。

除了要小心 BenchMark 被污染，确保評估方式公平、無偏見也很重要。

一般來說，大家都采用的是 LLM 擔任評委或人類當裁判這兩種方式。而 LiveBench 選擇采用客觀、基本事實判斷來評估每個問題。

那麽，當我們首次正視這個榜單的時候，我們還能從其中看出些什麽？

先說成績出色的 Step-2。

IF Average 一項，也就是指令跟随，它以最高分拿下全球第一。

這個項目的内容，是對《衛報》近期新文章進行改寫、簡化、總結或生成故事。

86.57 這個成績是真的非常高——榜單上其餘衆人（哪怕是 OpenAI 和 Anthropic 家的模型們）都在 70-80 分段，單項第二名的 Meta-LLaMA-3.1-405b-instruct-turbo 比它低了 8 分多。

這意味着，Step-2 在語言生成上對細節有強控制力，理解能力 max，然後更好地遵循人類指令。

更具體些可以理解爲，當我們普通人輸入語句颠倒、語意不清、表意模糊的非專業 · 真普通 · prompt 時，Step-2 能結合上下文、具體情境推斷使用者的具體需求，把一個模糊指令從 "360p" 進行 "1080p" 的理解，精準捕捉模糊指令背後的真實意圖。

同時意味着内容創作能力也很強，比如讓它創作一首古詩詞，它在字數、格律、押韻、意境等方面，都能有精準的把控。

完全自主研發，MoE 架構，萬億參數

在這次因爲 LiveBench 又出來炸場一波之前，Step-2 留給外界的最深刻印象，一定有一個是 "國内首個由初創公司推出的萬億參數大模型"。

這有點像階躍風格的具像化。在大模型六小虎中，階躍的 Step 系列發布最晚，但出手毫不含糊。

今年 3 月，Step-2 在全球開發者先鋒大會開幕式預覽亮相，一下子就從前作 Step-1 的千億參數規模，拉升到了萬億參數規模。

吊足了胃口後，夏天的 WAIC 2024 期間，Step-2 推出正式版。

模型采用了 MoE 架構。

一般而言，主流訓練 MoE 模型有兩種方式，不然就基于已有模型通過 upcycle（向上複用）開始訓練，不然就從頭開始訓練。

Upcycle 方式所需算力相對更低、訓練效率更高，但随随便便就到這種方式的天花闆了。

比如基于拷貝複制得到的 MoE 模型，非常容易出現專家同質化嚴重的情況。

而選擇從頭開始訓練 MoE 模型的話，能夠探得更高的模型上限，但作爲代價，訓練難度也會增大。

但階躍團隊還是選擇了後者，選擇完全自主研發，選擇從頭開始訓練。

過程中，通過部分專家共享參數、異構化專家設計等創新 MoE 架構設計，Step-2 這個混合專家模型中的每個專家都得到了充分訓練。

故而，Step-2總參數量達到萬億級别，每次訓練或推理所激活的參數量也超過了市面上的大部分 Dense 模型。

此外，Step-2 的訓練過程中，階躍的系統團隊突破了 6D 并行、極緻顯存管理、完全自動化運維等關鍵技術，支撐起了整個模型的高效訓練。

初亮相時，階躍官方表示：

Step-2 在數理邏輯、編程、中文知識、英文知識、指令跟随等方面體感全面逼近 GPT-4。

結合這次 LiveBench AI 的成績來看，團隊對 Step-2 的定位、優勢所在，把握得很清晰。

基座模型技術能力強，關鍵是要讓人用起來才行。

官方消息是，Step-2已經接入了階躍星辰的 C 端智能生活助手「躍問」，Web 端和 App 都可以試一把。

如果是開發者，可以在階躍星辰開放平台通過 API 接入使用 Step-2。

語言模型和多模态模型全都要

開篇咱們提到，Step 模型是一個系列，而 Step-2 是其語言模型的實力代表。

在這個系列中，除了語言模型，階躍星辰的多模态模型也很有看頭。

Step-1.5V是階躍星辰的多模理解大模型，這款模型在三個方面優勢突出：

一是感知能力。創新的圖文混排訓練方法，讓 Step-1.5V 能理解複雜圖表、流程圖、準确感知物理空間複雜的幾何位置，還能夠處理高分辨率和極限長寬比的圖像。

二是推理能力。根據圖像内容進行各類高級推理任務，如解答數學題、編寫代碼、創作詩歌等。

三是視頻理解能力。它不僅能夠準确識别視頻中的物體、人物和環境，還能夠理解視頻的整體氛圍和人物情緒。

生成方面，階躍手裏有Step-1X 圖像生成大模型。

Step-1X 采用 DiT（Diffusion Models with transformer）架構，有 600M、2B 和 8B 三種不同的參數量，語意理解和圖像創意實現兩手抓。

具體而言，不管文本指令簡單還是複雜，不管是畫單一對象還是多層次、複雜内涵場景，它都能 cover。

另外，該模型還支持針對中國元素的深度優化，使生成内容更适合國人的審美風格。

至于語言模型和多模态模型全都要，階躍有自己的道理。

從成立一開始，階躍星辰就明确了自身通往 AGI 的路線圖：

單模态——多模态——多模态理解和生成的統一——世界模型—— AGI。

換言之，階躍的目标是開發出能夠實現 AGI 的多模态大模型，并利用這些自主研發的大模型，創造新一代的 AI 應用。

爲着這個目标，這一年多來，階躍已經寫下了屬于自己的答案。

研發叠代速度很快，不到一年，無論 Step-1 到 Step-2，還是 Step-1V 到 Step-1.5V，整體持續跑步前進中。

産品也有自己的想法，沒有局限在 ChatBot 上。Step-2 登頂國内的同一天，階躍旗下的躍問還上了一個新功能：

簡單設置，就能通過 iPhone 16 右下方側邊的 " 相機控制 " 按鈕，一鍵調用 " 拍照問 " 功能。

沒有 iPhone 16 的蘋果用戶，把系統升級到 iOS18 也能一步調用國産 AI 了。

雖然已經在六小虎中占據一席，但近日看階躍，仍然想以黑馬來形容它。

論技術和實力，Step-2 能突然殺到業界權威榜單國内第一，成爲全球榜單前十唯一國産玩家。

大模型浪潮奔騰至今，已經有快兩年的時間了。

兩年裏，投身其中的技術從業者們都在（看似分布其實共同）打造一個願景，一個許多人都願意參與并與之聯系在一起的願景。

有理由相信，階躍 Step 系列，以及中國的大模型們，都會因爲卓越的技術實力和不懈的創新追求，越來越熠熠生輝。

One More Thing

上個月，智源研究院推出辯論平台 FlagEval Debate，旨在通過引入模型辯論這一競争機制對大模型能力評估提供新的度量标尺。

和大模型競技場玩法有點類似，就是倆模型一個正方一個反方，雙盲測試，辯論完後用戶投票。

然後才揭曉正反雙方都是誰。

模型辯論，主要靠的是信息理解、知識整合、邏輯推理、語言生成和對話能力。

當然了，同時還能測複雜語境中信息的處理深度和遷移應變能力，反映其學習與推理的進步水平。

淺玩了一下，有些議題還蠻有意思。

比如 " 博物館着火，隻能救一個，救貓還是救《蒙娜麗莎》" 這個議題。

倆模型吵到後面，" 貓有九條命 " 的話都說出來了，笑死。

最後反複投了幾次，Step-2 大勝 o1。

看來它辯論能力也很強呀……

榜單官網：https://livebench.ai/#/blog

躍問鏈接：https://yuewen.cn

FlagEval Debate 官網：https://flageval.baai.org/#/debate

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~