數學能力超ChatGPT，70B開源大模型火了：用AI微調AI，微軟全華班出品

用AI 生成的指令微調羊駝大模型，數學能力超 ChatGPT ——

微軟最新開源大模型WizardMath來了。

如下圖所示，經過 GSM8k 數據集測試，WizardMath 數學能力直接擊敗了 ChatGPT、Claude Instant 1、PaLM 2-540B 等一衆大模型——

并且是在參數隻有 700 億，遠不及後三者的情況之下。

HuggingFace 已上線 3 個在線可玩版本（分别爲 7B、13B 和 70B 參數），各種數學題可以直接丢進去試一試。

比如解決下面這道四次多項式方程：

或者是一道簡單的微積分：

亦或者是稍微修改過的拉格朗日方程推導：

它都全部正确（過程也不需要等太久）。

有網友向作者表示：

效果真的很驚人，感謝你們對開源 LLM 的貢獻。

目前，相關代碼、複現方式以及論文也都開源或上線，GitHub 短短幾天已攬獲4.8k 标星。

那麽，WizardMath 究竟是如何做到的？

用 AI 生成的指令增強大模型能力

OpenAI 的大模型（InstructGPT、GPT-4 等）能夠取得巨大成功、去執行各種複雜和多樣化的任務，一部分原因是使用了真實人類用戶生成的開放域指令數據進行了微調。

然而，不是誰都能像這家公司一樣獲得這樣的指令數據集。

一是因爲整個注釋過程極其昂貴且耗時，二是人工難以創建出足夠比例的高難度指令。

因此，開發出一種成本相對較低的、大規模開放域指令自動生産方法，成爲當下指令調優語言模型的關鍵。

在此，作者将他們的方法命名爲Evol Instruction。

它是一種利用 AI 來代替人類自動生成涵蓋各種難度級别開放域指令的新方法。

具體而言，Evol Instruction 分爲指令進化器和指令消除器。

其中指令進化器可通過深度進化（藍線）或廣度進化（紅線）兩種路徑，将簡單指令升級爲更複雜的指令或創建一條全新指令。

具體執行哪一條？随機選擇就好。

其中，深度進化的具體 " 進化法 "，則是通過五種類型的操作來完成，包括：

添加約束（add constraints）、深化（deepening）、具體化（concretizing）、增加推理步驟（increase reasoning steps）和使輸入複雜化（complicate input）。

由于所有指令均由 AI 完成，有時難免會出現錯誤。因此，指令消除器就是用于過濾失敗指令的。

以下是一個具體示例，該方法從 "1+1=？" 開始，最終通過以上步驟自動生成了相當多的新指令。

通過重複這一生成過程，最終我們就能得到足夠多的指令，然後将它們合并并随機打亂，組成一個難度級别均勻分布的指令集，就可以對基礎大模型進行微調了。

在此，作者選擇 Alpaca 的訓練數據（僅由 175 條人工創建的種子指令生成）作爲初始數據集，然後使用 ChatGPT 的 API 執行了四個進化周期，最終獲得 25 萬條指令。

爲了與 Vicuna 的 70k 真實用戶數據（ShareGPT）進行公平比較，作者從這 25 萬條數據中抽取了等量的樣本，訓練 LLaMA 7B 模型，最終得到 WizardLM，結果 WizardLM 的性能明顯優于 Vicuna。

（Alpaca：斯坦福在 LLaMa-7B 基礎上微調出來的模型；Vicuna，UC 伯克利在 LLaMa-13B 的基礎上微調得來）

此外，在更爲複雜的測試指令下，人類更喜歡 WizardLM 的輸出，而非 ChatGPT，這表明該方法可以顯着提高 LLM 處理複雜指令的能力。

基于此，作者又利用 Evol Instruction 生成了很多數學領域相關的指令，然後微調羊駝大模型，得到了WizardMath。

其效果如開頭所示，在 GSM8k 數據集上測得其數學能力超越包括 ChatGPT、Claude Instant 1、PaLM 2-540B 等一衆大模型，位列第 5 名，僅次于 GPT-4、Claud1.3 和 2.0，以及 5400 億參數的 Flan-PaLM 2 之後。

以此類推，作者還在羊駝之上得到了專攻代碼能力的WizardCoder，效果超越 Claude 和 Bard（詳情可戳文末地址）。

團隊介紹

本文共 9 位作者，全華人。

一作有 3 位：

Can Xu，微軟亞洲互聯網工程院 S+D NLP 組高級應用科學家，之前曾在微軟小冰研究組和微軟亞研院從事聊天機器人系統工作；

Qingfeng Sun， Microsoft Research 科學家，研究方向爲自然語言處理和信息檢索，精通構建高效搜索系統，爲 Microsoft Bing 和 Office 365 貢獻了核心深度模型；

Kai Zheng，Microsoft Research 科學家，研究方向爲自然語言處理、搜索和推薦排名，同樣爲 Microsoft Bing 和 Office 365 貢獻了核心深度模型。

通訊作者爲姜大昕，微軟全球合夥人、副總裁、前微軟亞洲研究院首席科學家，在微軟工作 16 年有餘、曾作爲微軟必應搜索引擎和 Cortana 智能助手自然語言理解負責人，日前已被曝離職投身大模型創業。

另還有一位作者 Jiazhan Feng，是北大學生，這篇合著論文是 TA 在微軟實習時産出的。

項目主頁： https://github.com/nlpxucan/WizardLM/tree/main/WizardMath

論文地址：

https://arxiv.org/abs/2304.12244（WizardLM）

https://arxiv.org/abs/2306.08568（WizardCoder）