智源：70萬預算從頭開發千億參數大模型，挑戰成功

預算 10 萬美元（約 73 萬人民币），從頭訓練一個全新的千億參數大模型。

智源研究院與國内多所高校及南洋理工聯合團隊，挑戰成功。

要知道，當 GPT-3 的訓練成本可是高達 460 萬美元，近一些的 Llama2 據估算也大概是這個數。

這個用 10 萬美元訓練出的大模型名叫 FLM，擁有 1010 億參數量，目前已經開源。

得益于研究團隊的新型訓練策略，FLM 隻用了 2.17% 的花銷，就達到了可以比肩 GPT-3 的效果，在開發社區引起不小關注。

那麽，FLM 團隊是如何把訓練成本降低近 50 倍的呢？

" 成長策略 " 降低訓練成本

不管是租還是買，硬件的價格都擺在那動不了，所以隻能是通過減少運算量來降低成本。

爲了降低訓練過程中的運算量，研究團隊在 FLM 中采用了一種 " 成長策略 "。

也就是先訓練 16B 參數的小規模模型，然後擴大到 51B，最終再擴展到 101B 版本。

由于訓練低參數量模型的運算效率更高，這種循序漸進的訓練方式成本要低于一步登天。

看到這裏也許有的讀者會有疑問，其他模型不是也有分成多個參數量的版本嗎？

是沒錯，但是這些參數量不同的同種模型是分别進行訓練的，這造成了大量的重複計算，因而成本并不低。

而 FLM 采用的 " 成長策略 " 在訓練大規模版本時會直接繼承低參數量模型中已有的知識，降低了重複運算率。

而具體參數的确定，應用了 loss prediction 技術，即根據低參數模型的訓練損失預測出高參數量模型的損失。

除了這種 " 由小及大 " 的 " 成長策略 " 之外，FLM 的訓練過程中還通過改善并行策略來提高吞吐量。

FLM 使用的是混合并行策略，将多種并行方式進行最優化配置，達到高吞吐量，單 GPU 利用率超過了 50%。

團隊還利用序列并行和分布式優化器技術，将輸入序列和優化器狀态分配到不同 GPU，減輕了單個 GPU 的計算和内存壓力。

那麽，這種 " 成長策略 " 訓練出的 FLM 表現又如何呢？作者給出了 Open LLM 數據集的測試結果。

FLM 在四個項目中取得的平均成績接近 GLM-120B 和 Llama-7B，但訓練成本顯著低于二者。

而在其中的 TruthfulQA 單項中，FLM 的成績甚至超過了 Llama 2。

專業知識方面，16B 參數的 eFLM 在 C-eval 評測中，平均成績超過了 130B 參數的 GLM，并接近 ChatGPT。

除了這些一般的 benchmark，FLM 團隊還提出了一項大模型 "IQ 測試 "。

給大模型 " 測智商 "

FLM 團隊提出的大模型 " 智商測試 " 重點考察模型的推理泛化能力，而非知識儲備。

這項測試從如下四個維度進行了展開：

符号映射：使用随機符号替換分類标簽，評估模型推理和泛化能力，避免過度拟合。

規則理解：檢驗模型能否按照給定規則進行操作，如 " 計數 "、" 字符串替換 " 等。

模式挖掘：給出示例，讓模型歸納推導出規律并應用，如 " 頭尾添加 " 等。

抗幹擾能力：在噪聲環境中提取關鍵信息，包括多關鍵信息提取、單論據追蹤和雙論據追蹤三項内容。

其中第一、三、四項的示例如下圖所示：

那麽，FLM 面對自家提出的測評标準，成績到底怎麽樣呢？

符号映射測評中，FLM 以低一個數量級的運算量在 SuperGLUE 數據集上取得了與 GLM 和 GPT-3 相近的成績，在 CLUE 數據集上的表現更是超過了 GLM。

其餘三個項目的成績也都超過了 GLM，并接近 GPT-3。

論文地址：

https://arxiv.org/abs/2309.03852

Hugging Face 項目頁：

https://huggingface.co/CofeAI/FLM-101B