GPT-4o mini排名雪崩，大模型競技場規則更新，奧特曼刷分小技巧無效了

大模型競技場規則更新，GPT-4o mini 排名立刻雪崩，跌出前 10。

新榜單對 AI 回答的長度和風格等特征做了降權處理，确保分數反映模型真正解決問題的能力。

想用漂亮的格式、增加小标題數量等技巧讨好用戶、刷榜，現在統統沒用了。

在新規則下，奧特曼的GPT-4o mini、馬斯克的Grok-2 系列排名顯著下降，谷歌Gemini-1.5-flash小模型也有所回落。

Claude 系列、Llama-3.1-405b大模型分數則紛紛上漲。

隻計算困難任務（Hard Prompt）的情況下，大模型在風格控制榜單中的優勢更加明顯。

此前 GPT-4o mini 小模型一度登頂，與 GPT-4o 滿血版并列第一，與網友的體感明顯不符。

Lmsys 大模型競技場這個一度被 Karpathy 推薦的評價标準，口碑也跌落到 " 隻能反映用戶喜好而不是模型能力了 "。

Lmsys 組織痛定思痛，先是公開了 GPT-4o mini 參與的 1000 場 battle 數據，從而分析出模型拒絕回答率、生成内容長度、和格式排版是影響投票結果的幾個因素。

而且奧特曼還在 GPT-4o mini 發布之前，暗示了正是按照人類偏好做優化的。

現在，Lmsys 進一步推出了控制這些因素的新算法，而且還隻是規劃中的第一步。

假設有模型 A擅長生成代碼、事實和無偏見的答案等，但它的輸出非常簡潔。

模型 B在實質内容（例如正确性）上不是很好，但它輸出的内容長而詳細、格式排版華麗。

那麽哪個更好？

答案不是唯一的，Lmsys 嘗試用數學方法找出一個模型的得分有多少是内容或風格貢獻的。

此外，最近也已經有研究表明，人類對排版漂亮和更詳細的 AI 回答可能存在偏好性。

通過在Bradley-Terry 回歸中添加樣式特征，如響應長度、markdown 小标題的數量、列表和加粗文本數量作爲自變量。

這是統計學中的一種常用技術，最近被 AlpacaEval LC 等用于大模型評估。

在回歸中包含任何混雜變量（例如回答長度），可以将分數的增加歸因于混雜變量，而不是模型能力本身。

相關代碼已在 Google Colab 上公開。

此外團隊還對 " 隻控制長度 " 和 " 隻控制格式 " 做了消融實驗。GPT-4o mini、谷歌 Gemini 系列分數受格式影響更大。

不過這種做法也存在局限性，比如可能存在未觀察到的混雜因素，例如長度和回答質量之間的正相關，這些因素沒有被考慮在内（例如思維鏈提示）。

有不少網友表示，調整後的困難任務榜單與自己的主觀印象更吻合了。

也有人覺得，正是榜單和沖榜的大模型公司這種來回博弈，才能讓整個領域一起進步。

你還在參考大模型競技場結果選擇模型嗎？或者有什麽更好的評估方法，歡迎在評論區分享。

參考鏈接：

[ 1 ] https://x.com/lmsysorg/status/1829216988021043645

[ 2 ] https://lmsys.org/blog/2024-08-28-style-control/

[ 3 ] https://arxiv.org/abs/2402.10669