谷歌更新Transformer架構，更節省計算資源！50%性能提升

谷歌終于更新了 Transformer 架構。

最新發布的Mixture-of-Depths（MoD），改變了以往 Transformer 計算模式。

它通過動态分配大模型中的計算資源，跳過一些不必要計算，顯著提高訓練效率和推理速度。

結果顯示，在等效計算量和訓練時間上，MoD 每次向前傳播所需的計算量更小，而且後訓練采樣過程中步進速度提高 50%。

這一方法剛剛發布，就馬上引發關注。

MoE 風頭正盛，MoD 已經來後浪拍前浪了？

還有人開始 " 算賬 "：

聽說 GPT-4 Turbo 在 Blackwell 上提速 30 倍，再加上這個方法和其他各種加速，下一代生成模型可以走多遠？

所以 MoD 如何實現？

迫使大模型關注真正重要信息

這項研究提出，現在的大模型訓練和推理中，有很多計算是沒必要的。

比如預測下一個句子很難，但是預測句子結束的标點符号很簡單。如果給它們分配同樣的計算資源，那麽後者明顯浪費了。

在理想情況下，模型應該隻給需要準确預測的 token 分配更多計算資源。

所以研究人員提出了MoD。

它在輸入序列中的特定位置動态分配 FLOPs（運算次數或計算資源），優化不同層次的模型深度中的分配。

通過限制給定層的自注意力和 MLP 計算的 token 數量，迫使神經網絡學會主要關注真正重要的信息。

因爲 token 數量是事先定義好的，所以這個過程使用一個已知張量大小的靜态計算圖，可以在時間和模型深度上動态擴展計算量。

下圖右上圖中的橙色部分，表示沒有使用全部計算資源。

這種方法在節省計算資源的同時，還能提高效率。

這些模型在等效的 FLOPS 和訓練時間上與基線性能相匹配，但每次前向傳播所需的 FLOP 更少，并且在訓練後采樣時提速 50%。

對比來看，如果爲每一個 token 生成一個概率分布，每個 token 根據最高概率被送去對應的 " 專家 "，可能會導緻負載不平衡。

如果反過來，這能保障負載平衡，但是可能導緻某些 token 被過度處理或處理不足。

最後來看論文中使用的 Expert-choice MoD，router 輸出的權重被用于确定哪些 token 将使用 transformer 虧啊計算。權重較大的 token 将參與計算，權重較小的 token 将通過殘差連接繞過計算，從而解決每次向前傳播的 FLOPs。

最後，研究團隊展示了 MoD 在不同實驗中的性能表現。

首先，他們使用相對較小的 FLOP 預算（6e18），以确定最佳超參數配置。

通過這些實驗，作者發現 MoD 方法能夠 " 拉低并向右推移 "isoFLOP 基線曲線，這意味着最優的 MoD 方法在更低的損失水平上擁有更多的參數。

通過 isoFLOP 分析，比較 6e18、2e19 和 1e20 FLOPs 的總計算預算下的模型性能。

結果顯示，在更多 FLOP 預算下，FLOP 最優的 MoD 仍然比基線模型有更多的參數。

存在一些 MoD 變體，在步驟速度上比 isoFLOP 最優基線模型更快，同時實現更低的損失。這表明在訓練之外，MoD 的計算節省仍然有效。

同時，研究團隊還探讨了 MoD 和 MoE 結合的可能性—— MoDE。

結果表明而這結合能提供更好的性能和更快的推理速度。

網友：聯想到了 ResNet

MoD 推出後馬上引發了不小關注。

有人感慨，MoE 還沒有弄清楚呢，MoD 都已經來了！

這麽高效的方法，讓人馬上聯想到了 ResNet。

不過和 ResNet 不同，MoD 跳過連接是完全繞過層的。

還有人表示，希望這種方法是完全動态的，而不是每個層固定百分比。

這項研究由 DeepMind 和麥吉爾大學共同帶來。

主要貢獻者是 David Raposo 和 Adam Santoro。

他們二人都是 DeepMind 的研究科學家。此前共同帶來了神作《Relational inductive biases, deep learning, and graph networks》。

這篇論文目前被引次數超過 3500 次，論文核心定義了 Inductive bias（歸納偏置）概念。

論文地址：

https://arxiv.org/abs/2404.02258

參考鏈接：

[ 1 ] https://twitter.com/TheSeaMouse/status/1775782800362242157

[ 2 ] https://twitter.com/_akhaliq/status/1775740222120087847

— 完 —

【火熱報名中】中國 AIGC 産業峰會

定檔 4 月 17 日

峰會已經邀請到數位代表技術、産品、投資、用戶等領域嘉賓，共論生成式 AI 産業最新變革趨勢。

最新确認嘉賓包括：商湯科技楊帆、輕松集團高玉石、印象筆記唐毅、螞蟻集團李建國等，。

峰會将全程線上下同步直播，歡迎預約直播 ⬇️

點這裏關注我，記得标星噢

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~