隻要改一行代碼,就能讓大模型訓練效率提升至 1.47 倍。
擁有得州大學奧斯汀分校背景四名華人學者,提出了大模型訓練優化器 Cautious Optimizers。
在提速的同時,Cautious 能夠保證訓練效果不出現損失,而且語言和視覺模型都适用。
該優化器以哈密頓量和下降動力學爲理論基礎,在加速的同時不影響收斂特性。
作者在 600M 到 1B 不同參數規模的 Llama 模型上進行了試驗,獲得了最高 47% 的加速率。
該研究相關代碼已經開源,在 GitHub 上有使用方法的詳細講解。
一行代碼改進大模型訓練
Cautious Optimizers 在 PyTorch 當中增加的一行代碼,核心思路是引入實現一種掩蔽機制,從而避免參數更新的方向與當前梯度方向相悖。
因爲這兩個方向一旦不一緻,就有可能導緻損失函數暫時增加,造成收斂速度的減緩。
不過作者并未在方向不一緻的來源問題上過度糾結,而是引入了一種判斷機制,在參數更新之前增加一步計算,從而過濾掉方向不一緻的情形。
這也正是上面代碼的直接作用。
△GD:梯度下降,GDM:帶動量的梯度下降,C-GDM:本項目
具體來說,加入的兩行代會對 u 和 g 兩個向量求内積,u 向量對應優化器給出的參數更新方向,而 g 向量對應當前時刻的梯度方向。
作者設計了一個對齊掩碼函數 ϕ,當 u 和 g 的内積小于 0 時(即方向不一緻),ϕ 的輸出爲 0 向量;當内積大于等于 0 時,ϕ 的輸出爲全 1 向量。
而一旦 ϕ 爲零向量時,w_t 計算式中含 u 的項也會變爲零向量,導緻此項更新被跳過。
這樣就可以判斷參數更新和梯度方向是否一緻,如果不一緻則不會用于參數更新,避免了訓練過程中損失函數的回升。
訓練效率提升 47%
爲了評估 Cautious Optimizers 的具體效果,作者分别在語言模型 Llama 和視覺模型 MAE 上進行了試驗。
作者選取了 60M、100M、350M 和 1B 四種參數規模的 Llama 模型,在 C4 語料庫上進行預訓練。
優化器選用了 AdamW 和 Lion,以及它們對應的 Cautious 版本 :C-AdamW 和 C-Lion,每個實驗中進行 1 萬步叠代。
結果 C-AdamW 和 C-Lion 在所有規模上都表現出明顯的收斂加速效果。
尤其是在 1B 規模上,相比原版的 AdamW 和 Lion,它們的樣本效率分别提高了 47% 和 28%,這表明 Cautious Optimizer 能有效減少訓練震蕩,使收斂更平穩高效。
并且,Cautious Optimizer 在所有情況下都取得了更低的困惑度,印證了其出色的泛化性能。
爲了評估模型的實際效果,研究者在語句匹配、文本蘊含、情感分類等 6 個 GLUE 下遊任務上測試了 AdamW 和 C-AdamW 優化後 1B 模型的表現 ,
結果表明,C-AdamW 的平均得分比 AdamW 高出 2%,在大多數任務上都取得了進步,說明 Cautious 跳過部分參數更新的方式不會引起模型性能下降。
對于視覺模型,作者以 ViT 爲骨幹網絡,在 ImageNet-1K 數據集上預訓練了 MAE 模型。
由于視覺任務的特殊性,訓練過程采用了随機遮擋圖像塊并重建的範式,因此優化目标是最小化重建誤差,而非通常的分類損失。
作者對比了 AdamW 和 C-AdamW 的表現,即訓練 50 輪後的最終重建誤差,結果 C-AdamW 的誤差爲 0.5926,低于 AdamW 的 0.6085。
一作曾在一周内複刻 o1
本項目是由四名華人學者共同打造的。
第一作者 Kaizhao Liang,是 AI 推理加速服務商 SambaNova 公司的一名高級 ML 工程師。
在 o1 模型發布一周内,該公司就推出了一個類似 o1 模型思考過程的開源平替,主要作者正是 Liang。
其他三名作者是得州大學奧斯汀分校 CS 助理教授 Qiang Liu,以及他的兩名博士生,Lizhang Chen 和 Bo Liu。
此外,Liang 的人工智能碩士學位也是從該校獲得。
論文地址:
https://arxiv.org/abs/2411.16085
GitHub:
https://github.com/kyleliang919/C-Optim
— 完 —
「MEET2025 智能未來大會」
火熱報名中
定檔 12 月 11 日!李開複博士、周志華教授、智源研究院王仲遠院長都來量子位MEET2025 智能未來大會探讨行業破局之道了!
最新嘉賓陣容在此,觀衆報名通道已開啓!歡迎來到 MEET 智能未來大會,期待與您一起預見智能科技新未來
左右滑動查看最新嘉賓陣容
點這裏關注我,記得标星哦~
一鍵三連「點贊」、「分享」和「在看」
科技前沿進展日日相見 ~
>