Scaling Law 并非描述大模型能力的唯一視角!
清華 NLP 實驗室劉知遠教授團隊,最新提出大模型的密度定律(densing law),表達形式讓人想到芯片領域的摩爾定律:
模型能力密度随時間呈指數級增長,2023 年以來能力密度約每 3.3 個月(約 100 天)翻一倍。
根據密度定律,研究團隊還得出以下重要推論—— AI 時代的三大核心引擎——電力、算力與智力,都同樣遵循密度快速增長趨勢。
爲了發現這一結論,研究團隊引入了一項衡量大模型性價比的新指标——能力密度(capability density)。
團隊通過設置參考模型的方式,将 " 能力密度 " 定義爲了" 有效參數量 " 與實際參數量的比值。
給定目标模型後,其 " 有效參數量 " 被定義爲實現與目标模型一樣的效果,參考模型需要的最少參數量。
論文第一作者肖朝軍表示,根據拟合曲線,到了明年年底,隻要 8B 參數就能實現和 GPT-4 一樣的效果。
論文地址:https://arxiv.org/abs/2412.04315
大模型 " 能力密度 " 三個月翻一番
大模型尺度定律(Scaling Law)和密度定律(Densing Law),都是大模型指導性的規律發現。
它們分别在不同的維度,對大模型進行科學化的推演。
大模型尺度定律是一種描述大模型随着規模的變化而發生的規律性變化的數學表達,表現爲大模型的 Loss 與模型參數規模、訓練數據規模之間的幂律關系。
尺度定律之外,清華研究團隊發現,大模型還有另一種度量與優化的空間,能力密度(Capability Density),它爲評估不同規模 LLM 的訓練質量提供了新的統一度量框架。
清華研究團隊提出的 " 能力密度 "(Capability Density),定義爲給定 LLM 的有效參數大小與實際參數大小的比率。
有效參數大小指的是達到與目标模型同等性能所需的參考模型的參數數量。
清華研究團隊特别引入了參考模型(Reference Model)的概念,通過拟合參考模型在不同參數規模下的性能表現,建立起參數量與性能之間的映射關系。
具體來說,若一個目标模型 M 的參數量爲 NM ,其在下遊任務上的性能分數爲 SM,研究人員會計算出參考模型要達到相同性能所需的參數量 N ( SM ) ,即 " 有效參數量 "。
目标模型 M 的密度就定義爲這個 " 有效參數量 " 與其實際參數量的比值:
ρ ( M ) = N ( SM ) /NM。
比如一個 3B 的模型能達到 6B 參考模型的性能,那麽這個 3B 模型的能力密度就是 2(6B/3B)。
爲了準确估計模型性能,研究團隊采用了兩步估計法。
第一步是損失(Loss)估計,通過一系列不同規模的參考模型來拟合參數量與語言模型 Loss 之間的關系;
第二步是性能估計,考慮到湧現能力的存在,研究人員結合開源模型來計算它們的損失和性能,最終建立起完整的映射關系。
通過研究分析近年來 29 個被廣泛使用的開源大模型,清華研究團隊發現,LLMs 的最大能力密度随時間呈指數增長趨勢,可以用公式ln ( ρ max ) = At + B來描述 .
其中 ρ max 是時間 t 時 LLMs 的最大能力密度。
密度定律表明,大約每過 3.3 個月(100 天),就能用參數量減半的模型達到當前最先進模型的性能水平。
ChatGPT 發布後,能力密度增長更快了
基于密度法則,清華研究團隊提出了多個重要推論。
首先,模型推理開銷随時間指數級下降。
2022 年 12 月的 GPT-3.5 模型每百萬 Token 的推理成本爲 20 美元,而 2024 年 8 月的 Gemini-1.5-Flash 模型僅爲 0.075 美元,成本降低了 266 倍,約 2.5 個月下降一倍。
與此同時,大模型推理算法不斷取得新的技術突破——模型量化、投機采樣、顯存優化。
其次,研究還發現,自 ChatGPT 發布以來,大模型能力密度正在加速增強。
以 MMLU 爲評測基準測量的能力密度變化情況,ChatGPT 發布前按照每 4.8 倍增,發布後按照每 3.2 月倍增,密度增強速度增加 50%。
這一現象背後,更高效模型引起了學術界和産業的廣泛關注,誕生了更多高質量開源模型。
再次,芯片電路密度(摩爾定律)和模型能力密度(密度定律)持續增強,兩條曲線交彙揭示端側智能巨大潛力。
研究顯示,在摩爾定律的作用下,相同價格芯片的計算能力每 2.1 年翻倍,而密度法則表明模型的有效參數規模每 3.3 個月翻倍。
兩條曲線的交彙,意味着主流終端如 PC、手機将能運行更高能力密度的模型,推動端側智能在消費市場普及。
此外,團隊指出,無法僅依靠模型壓縮算法增強模型能力密度。
也就是說,現有的模型壓縮技術(如剪枝和蒸餾)未必能提高模型密度。
實驗表明,大多數壓縮模型的密度低于原始模型,模型壓縮算法雖可以節省小參數模型構建開銷。
但是如果後訓練不充分,小參數模型能力密度非但不會增長,反而會有顯著下降。
最後,研究團隊指出,模型高性價比有效期不斷縮短。
根據尺度定律,更多數據 + 更多參數實現能力增強,訓練成本會急劇上升;
而能力密度定律,随着能力密度加速增強,每隔數月會出現更加高效的模型。
這意味着模型高性價比的有效使用期縮短,盈利窗口短暫。
例如,2024 年 6 月發布的 Google Gemma-2-9B 模型,其訓練成本約 185 萬人民币;
但僅兩個月後,它的性能就被參數量減半的 MiniCPM-3-4B 超越。
以 API 盈利方式估算,2 個月内需要 17 億次用戶訪問,才能夠收回訓練成本!
尺度定律下,LLM 規模至上。而在密度定律下,LLM 正進入一個全新的發展階段。
在清華劉知遠老師最新報告中,AI 時代的三大核心引擎——電力、算力與智力,密度都在快速增長:
電池能量密度在過去 20 年中增長了 4 倍,其倍增周期約爲 10 年;
摩爾定律則揭示,芯片的晶體管密度每 18 個月翻倍;
而 AI 模型能力密度每 100 天翻倍的速度更是驚人。
尤其是模型能力密度的提升也意味着用更少的資源實現更強的能力,這不僅降低了 AI 發展對能源和算力的需求,也爲 AI 技術的可持續發展提供了無限可能。同時也揭示了端側智能的巨大潛力。
在這一趨勢下,AI 計算從中心端到邊緣端的分布式特性協同高效發展,将實現 "AI 無處不在 " 的願景。
作者預計,随着全球 AI 計算雲端數據中心、邊緣計算節點的擴張,加上模型能力密度增長帶來的效率提升,我們将看到更多本地化的 AI 模型湧現,雲端和邊緣端各司其職,可運行 LLM 的終端數量和種類大幅增長,"AI 無處不在 " 的未來正在到來。
論文地址:
https://arxiv.org/abs/2412.04315