谷歌終于更新了 Transformer 架構。
最新發布的Mixture-of-Depths(MoD),改變了以往 Transformer 計算模式。
它通過動态分配大模型中的計算資源,跳過一些不必要計算,顯著提高訓練效率和推理速度。
結果顯示,在等效計算量和訓練時間上,MoD 每次向前傳播所需的計算量更小,而且後訓練采樣過程中步進速度提高 50%。
這一方法剛剛發布,就馬上引發關注。
MoE 風頭正盛,MoD 已經來後浪拍前浪了?
聽說 GPT-4 Turbo 在 Blackwell 上提速 30 倍,再加上這個方法和其他各種加速,下一代生成模型可以走多遠?
迫使大模型關注真正重要信息
這項研究提出,現在的大模型訓練和推理中,有很多計算是沒必要的。
它在輸入序列中的特定位置動态分配 FLOPs(運算次數或計算資源),優化不同層次的模型深度中的分配。
通過限制給定層的自注意力和 MLP 計算的 token 數量,迫使神經網絡學會主要關注真正重要的信息。
因爲 token 數量是事先定義好的,所以這個過程使用一個已知張量大小的靜态計算圖,可以在時間和模型深度上動态擴展計算量。
下圖右上圖中的橙色部分,表示沒有使用全部計算資源。
這些模型在等效的 FLOPS 和訓練時間上與基線性能相匹配,但每次前向傳播所需的 FLOP 更少,并且在訓練後采樣時提速 50%。
對比來看,如果爲每一個 token 生成一個概率分布,每個 token 根據最高概率被送去對應的 " 專家 ",可能會導緻負載不平衡。
如果反過來,這能保障負載平衡,但是可能導緻某些 token 被過度處理或處理不足。
最後來看論文中使用的 Expert-choice MoD,router 輸出的權重被用于确定哪些 token 将使用 transformer 虧啊計算。權重較大的 token 将參與計算,權重較小的 token 将通過殘差連接繞過計算,從而解決每次向前傳播的 FLOPs。
首先,他們使用相對較小的 FLOP 預算(6e18),以确定最佳超參數配置。
通過這些實驗,作者發現 MoD 方法能夠 " 拉低并向右推移 "isoFLOP 基線曲線,這意味着最優的 MoD 方法在更低的損失水平上擁有更多的參數。
結果顯示,在更多 FLOP 預算下,FLOP 最優的 MoD 仍然比基線模型有更多的參數。
存在一些 MoD 變體,在步驟速度上比 isoFLOP 最優基線模型更快,同時實現更低的損失。這表明在訓練之外,MoD 的計算節省仍然有效。
結果表明而這結合能提供更好的性能和更快的推理速度。
MoD 推出後馬上引發了不小關注。
有人感慨,MoE 還沒有弄清楚呢,MoD 都已經來了!
主要貢獻者是 David Raposo 和 Adam Santoro。
這篇論文目前被引次數超過 3500 次,論文核心定義了 Inductive bias(歸納偏置)概念。
論文地址:
https://arxiv.org/abs/2404.02258
參考鏈接:
[ 1 ] https://twitter.com/TheSeaMouse/status/1775782800362242157
[ 2 ] https://twitter.com/_akhaliq/status/1775740222120087847
— 完 —
【 火熱報名中】中國 AIGC 産業峰會
定檔 4 月 17 日
峰會已經邀請到數位代表技術、産品、投資、用戶等領域嘉賓,共論生成式 AI 産業最新變革趨勢。
最新确認嘉賓包括:商湯科技楊帆、輕松集團高玉石、印象筆記唐毅、螞蟻集團李建國等,。
點這裏關注我,記得标星噢
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~