DeepMind 的 AI 智能體,又來卷自己了!
注意看,這個名叫 BBF 的家夥,隻用 2 個小時,就掌握了 26 款雅達利遊戲,效率和人類相當,超越了自己一衆前輩。
要知道,AI 智能體通過強化學習解決問題的效果一直都不錯,但最大的問題就在于這種方式效率很低,需要很長時間摸索。
而 BBF 帶來的突破正是在效率方面。
怪不得它的全名可以叫 Bigger、Better、Faster。
而且它還能隻在單卡上完成訓練,算力要求也降低許多。
BBF 由谷歌 DeepMind 和蒙特利爾大學共同提出,目前數據和代碼均已開源。
最高可取得人類 5 倍成績
用于評價 BBF 遊戲表現的數值,叫做 IQM。
IQM 是多方面遊戲表現的綜合得分,本文中的 IQM 成績以人類爲基準進行了歸一化處理。
經與多個前人成果相比較,BBF 在包含 26 款雅達利遊戲的 Atari 100K 測試數據集中取得了最高的 IQM 成績。
并且,在訓練過的 26 款遊戲中,BBF 的成績已經超過了人類。
與表現相似的 Eff.Zero 相比,BBF 消耗的 GPU 時間縮短了将近一半。
而消耗 GPU 時間相似的 SPR 和 SR-SPR,性能又和 BBF 差了一大截。
而在反複進行的測試中,BBF 達到某一 IQM 分數的比例始終保持着較高水平。
甚至有超過總測試次數 1/8 的運行當中取得了 5 倍于人類的成績。
即使加上其他沒有訓練過的雅達利遊戲,BBF 也能取得超過人類一半的分數 IQM 分數。
而如果單獨看未訓練的這 29 款遊戲,BBF 的得分是人類的四至五成。
以 SR-SPR 爲基礎修改
推動 BBF 研究的問題是,如何在樣本量稀少的情況下擴展深度強化學習網絡。
爲了研究這一問題,DeepMind 将目光聚焦在了 Atari 100K 基準上。
但 DeepMind 很快發現,單純增大模型規模并不能提高其表現。
在深度學習模型的設計中,每步更新次數(Replay Ratio,RR)是一項重要參數。
具體到雅達利遊戲,RR 值越大,模型在遊戲中取得的成績越高。
最終,DeepMind 以 SR-SPR 作爲基礎引擎,SR-SPR 的 RR 值最高可達 16。
而 DeepMind 經過綜合考慮,選擇了 8 作爲 BBF 的 RR 值。
考慮到部分用戶不願花費 RR=8 的運算成本,DeepMind 同時開發了 RR=2 版本的 BBF
DeepMind 對 SR-SPR 中的多項内容進行修改之後,采用自監管訓練得到了 BBF,主要包括以下幾個方面:
更高的卷積層重置強度:提高卷積層重置強度可以增大面向随機目标的擾動幅度,讓模型表現更好并減少損失,BBF 的重置強度增加後,擾動幅度從 SR-SPR 的 20% 提高到了 50%
更大的網絡規模:将神經網絡層數從 3 層提高至 15 層,寬度也增大 4 倍
更新範圍(n)縮小:想要提高模型的表現,需要使用非固定的 n 值。BBF 每 4 萬個梯度步驟重置一次,每次重置的前 1 萬個梯度步驟中,n 以指數形式從 10 下降至 3,衰減階段占 BBF 訓練過程的 25%
更大的衰減因子(γ):有人發現增大學習過程中的 γ 值可以提高模型表現,BBF 的 γ 值從傳統的 0.97 增至 0.997
權重衰減:避免過度拟合的出現,BBF 的衰減量約爲 0.1
删除 NoisyNet:原始 SR-SPR 中包含的 NoisyNet 不能提高模型表現
消融實驗結果表明,在每步更新次數爲 2 和 8 的條件下,上述因素對 BBF 的表現均有不同程度的影響。
其中,硬複位和更新範圍的縮小影響最爲顯著。
而對于上面兩個圖中沒有提到的 NoisyNet,對模型表現的影響則并不顯著。
論文地址:
https://arxiv.org/abs/2305.19452
GitHub 項目頁:
https://github.com/google-research/google-research/tree/master/bigger_better_faster
參考鏈接:
[ 1 ] https://the-decoder.com/deepminds-new-ai-agent-learns-26-games-in-two-hours/
[ 2 ] https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/