開源大模型新王幹翻GPT-4o，新技術可糾正自己幻覺，數學99.2分刷爆測試集 - 青年圖摘

開源大模型王座突然易主，居然來自一家小創業團隊，瞬間引爆業界。

新模型名爲Reflection 70B，使用一種全新訓練技術，讓 AI 學會在推理過程中糾正自己的錯誤和幻覺。

比如最近流行的數 r 測試中，一開始它犯了和大多數模型一樣的錯誤，但主動在< 反思 > 标簽中糾正了自己。

在官方評測中，70B 模型全面超越最強開源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，特别是數學基準 GSM8K 上直接刷爆，得分 99.2%。

這個結果也讓 OpenAI 科學家、德撲 AI 之父 Noam Brown 激情開麥：

GSM8K 得分 99%！是不是可以正式淘汰這個基準了？

模型剛剛上線網友就把試玩擠爆了，對此 Meta 還主動支援了更多算力。

在網友測試中，Reflection 70B 能回答對 GSM8K 數據集中本身答案錯誤的問題：

我向模型提供了 GSM8K 中存在的 5 個 "ground_truth" 本身就不正确的問題。

模型沒有重複數據集中的錯誤答案，而是全部回答對了，這很令人印象深刻，表明那 99.2% 的準确率并非來自于記憶測試集！

數各種 r 都不在話下，連生造詞"drirrrngrrrrrnnn" 中有幾個 r 也能被正确數對。

網友紛紛對小團隊做出的開源超越頂流閉源感到驚訝，現在最強開源模型可以在本地運行了。

關鍵 70B 還隻是個開始，官方表示下周還會發布更大的Reflection 405B。

預計 405B 性能将大幅優于 Sonnet 和 GPT-4o。

Reflection 70B 權重已公開，API 訪問将于今天晚些時候由 Hyperbolic Labs 提供。

模型能自我反思糾正錯誤

目前關于 Reflection 70B 的更多細節如下。

Reflection 70B 能力提升的關鍵，是采用了一種名爲Reflection-Tuning的訓練方法，它能夠讓模型反思自己生成的文本，在最終确定回應前檢測并糾正自身推理中的錯誤。

訓練中的數據來自使用 GlaiveAI 平台生成的合成數據。

Reflection 70B 基于 Llama 3.1 70B Instruct，可以使用與其它 Llama 模型相同的代碼、pipeline 等從 Reflection Llama-3.1 70B 進行采樣。

它甚至使用了标準的 Llama 3.1 聊天格式。

不過，Reflection 70B 引入了一些特殊 tokens，結構化輸出過程。

如下面這個例子所展示的，規劃過程分爲一個獨立的步驟，這樣做可以提高 CoT 效果，并保持輸出精煉：

模型将從在 <thinking> 和 </thinking>标簽内輸出推理開始，一旦對其推理感到滿意，就會在 <output> 和 </output> 标簽内輸出最終答案。

所以它能夠将其内部思考和推理與最終答案分離。

在 <thinking> 部分，模型可能會輸出一個或多個<reflection> 标簽，這表明模型發現了其推理中的錯誤，并将在提供最終答案之前嘗試糾正該錯誤。

系統提示如下：

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.

（你是一個世界級人工智能系統，能夠進行複雜的推理和反思。在标簽内對查詢進行推理，然後在标簽内提供你的最終回應。如果你發現自己在任何時候推理出錯，請在标簽内糾正自己。）

此外值得一提的是，基準測試中，所有基準都已通過 LMSys 的 LLM Decontaminator 檢查污染，隔離了 <output> 部分，并單獨對這一部分進行測試。

使用 Reflection 70B 的時候，官方還分享了小 tips：

初步建議參數 temperature 爲 .7 ， top_p 爲 .95

爲提高準确性，最好附加 "Think carefully." 在 Prompt 末尾

官方還表示，下周會發布一份報告，詳細介紹模型訓練過程和發現。

Agent 創業團隊打造

Reflection 70B 的背後是一支小團隊，由 HyperWriteAI 的 CEO Mutt Shumer帶領。

領英顯示，Mutt Shumer 是一位連續創業者，畢業于美國錫拉丘茲大學，現任 OthersideAI 的聯合創始人兼 CEO。

OthersideAI 是一家 AI 應用公司，緻力于通過大規模 AI 系統開發全球最先進的自動補全工具，也是 HyperWrite 的幕後公司。

HyperWrite 是一個浏覽器操作 agent，可以像人一樣操作谷歌浏覽器來完成一系列任務，比如訂披薩：

和 gpt-llm-trainer 一樣，你隻需要用文字描述目标，它就會一邊列步驟，一邊執行。

剛推出時号稱 " 比 AutoGPT 強 "。

HyperWrite 還可以在谷歌擴展程序中安裝。

另外，Mutt Shumer 高中時期就創立了 Visos，緻力于開發用于醫療用途的下一代虛拟現實軟件。

還創立了 FURI，這是一家旨在通過創造高性能産品并以公平的價格銷售它們來颠覆體育用品行業的公司。

雖然有 Meta 支持，但目前打開試玩，還是：暫時無法訪問。

感興趣的童鞋可以先碼住了～

https://reflection-playground-production.up.railway.app/

參考鏈接：

[ 1 ] https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

[ 2 ] https://x.com/mattshumer_/status/1831767014341538166

[ 3 ] https://x.com/polynoamial/status/1831798985528635806

[ 4 ] https://x.com/degeneratoor/status/1831809610451448196

[ 5 ] https://x.com/kimmonismus/status/1831772661296345333