模型合并就進化，直接拿下SOTA！Transformer作者創業新成果火了

把 Huggingface 上的現成模型拿來 " 攢一攢 " ——

直接就能組合出新的強大模型？！

日本大模型公司 sakana.ai 腦洞大開（正是 "Transformer 八子 " 之一所創辦的公司），想出了這麽一個進化合并模型的妙招。

該方法不僅能自動生成新的基礎模型，而且性能絕不賴：

他們得到的一個 70 億參數的日語數學大模型，直接在相關基準測試上取得了 SOTA，打敗了 700 億參數的 Llama-2 等前輩。

最重要的是，得出這樣的模型不需要任何梯度訓練，因此需要的計算資源大大減少。

英偉達科學家 Jim Fan 看完大贊：

這是我最近讀過的最有想象力的論文之一。

合并進化，自動生成新基礎模型

從開源大模型排行榜上表現最好的模型，大多不再是 LLaMA 或 Mistral 這種 " 原始 " 模型，而是一些微調或合并模型之後，我們就能看出：

一種新的趨勢出現了。

Sakana.ai 介紹，開源基礎模型很容易在數百個不同的方向上進行擴展和微調，然後産生在新的領域表現出色的新模型。

而在這之中，模型合并顯現出了巨大前景。

但，它可能是一種 " 黑魔法 "，嚴重依賴直覺和專業知識。

因此，我們需要更爲系統性的方法。

受自然界的自然選擇啓發，Sakana.ai 盯上了進化算法，引入 " 進化模型合并 "（Evolutionary Model Merge）的概念，提出一種可以發現最佳模型組合的通用方法。

該方法結合了兩種不同的思路：

（1）合并數據流空間（層）中的模型，以及（2）合并參數空間（權重）中的模型。

具體而言，第一種數據流空間方法是通過進化來發現不同模型層的最佳組合，以此形成新模型。

在社區以往的做法中，都是靠直覺來确定如何以及模型哪些層可以與另一個模型的層結合。

但其實，Sakana.ai 介紹，這個問題有一個組合數量巨大的搜索空間，最适合由優化算法如進化算法來搜索。

其操作示例如下：

至于第二個參數空間方法則混合多個模型權重來形成新模型。

這種方法其實很無數種實現，再加上混合的每一層原則上可以使用不同的混合比例，就更多了。

而這，利用進化方法就可以有效地找出更爲新穎的混合策略。

以下是将兩個不同模型的權重進行混合得到新模型的操作示例：

将以上這兩種方法合并，就是這樣的：

作者介紹，他們希望在相距較遠的領域，例如數學和非英語語言、視覺和非英語語言，來組成之前大家不曾探索過的新興組合。

結果，還真有點讓人驚喜。

新模型輕松拿下 SOTA

用以上進化合并方法，團隊得到了 3 個基礎模型：

大語言模型 EvoLLM-JP

由日語大模型 Shisa-Gamma 和數學大模型 WizardMath/Abel 合并而成，擅長解決日語數學問題，進化了 100-150 代。

視覺語言模型 EvoVLM-JP

日語大模型 Shisa Gamma 7B v1+LLaVa-1.6-Mistral-7B，是具有日語能力的 VLM。

圖像生成模型 EvoSDXL-JP

支持日語的 SDXL 擴散模型。

前兩個已在 Hugging Face 和 GitHub 上發布，最後一個也即将推出。

具體來看。

1、EvoLLM-JP

它在 GSM8K 數據集的多語言版本—— MGSM 的日語評估集上取得成績如下：

可以看到，EvoLLM-JP 用日語解決數學問題的表現超過了它們的原始模型，也超過了 Llama-2、GPT-3.5 等高性能模型。

其中模型 4 是僅在參數空間進行了優化，模型 6 是使用模型 4 在數據流空間中進一步優化的結果。

在既評估數據能力也評估一般日語能力的日語 lm-evaluation-harness 基準上，EvoLLM-JP 則在 9 個任務上的平均得分最高達到了 70.5 ——隻用 70 億參數，它就打敗了 700 億的 Llama-2 等模型。

團隊表示，EvoLLM-JP 已經足夠優秀，可以作爲通用日語大模型，并解決一些有趣的例子：

比如需要特定日本文化知識的數學問題，或者用關西方言講日本笑話。

2、EvoVLM-JP

在以下兩個圖像問答的基準數據集上，分數越高，代表模型用日語回答的描述越準确。

結果，它不僅比其所基于的英語 VLM LLaVa-1.6-Mistral-7B 更出色，也比現有的日語 VLM 更厲害。

如下圖所示，在回答圖中的信号燈爲什麽顔色之時，隻有 EvoVLM-JP 答對：藍色。（日本的習俗就是把紅綠燈稱爲紅藍燈）

3、EvoSDXL-JP

這個支持日語的 SDXL 模型隻需 4 個擴散模型即可執行推理，生成速度相當快。

具體跑分還沒出來，但團隊透露也是 " 相當有希望的 "。

可以欣賞一些示例：

提示詞包括：味噌ラーメン、最高品質の浮世絵、葛飾北斎、江戸時代。

對于以上 3 個新模型，團隊指出：

原則上，我們可以采用基于梯度的反向傳播來進一步提高以上這些模型的性能。

但我們不用，因爲現在的目的就是表明，即使沒有反向傳播，我們仍然可以得到足夠先進的基礎模型，挑戰當前的 " 昂貴範式 "。

對此，網友們紛紛點贊。

Jim Fan 也補充：

在基礎模型領域，目前社區幾乎完全專注于讓模型去學習，而不太重視搜索，但後者在訓練（也就是本文提出的進化算法）和推理階段其實都有巨大的潛力。

△馬斯克點贊

所以，如網友所說：

我們現在已經處于模型的寒武紀大爆發時代了嗎？

論文地址：

https://arxiv.org/abs/2403.13187

參考鏈接：

[ 1 ] https://sakana.ai/evolutionary-model-merge/

[ 2 ] https://twitter.com/DrJimFan/status/1771927650883522899?s=20

[ 3 ] https://twitter.com/SakanaAILabs/status/1770613032198279663