繼 GPT-4 驚豔《我的世界》後,國産 AI 智能體也來了——
像人一樣生存、探索和創作,并且通關了整個遊戲!
從生存模式白手起家,不僅可以拿到主世界的所有物品、挖鑽石,還能制作附魔書!
面對各類地形、環境、白天黑夜場景都能 hold 住,甚至遇到怪物也能自如應對。
不賣關子,全都是這個小東西幹的,它的名字叫 Ghost in the Minecraft(GITM)。
由商湯科技聯合清華大學、上海人工智能實驗室等機構研究者們共同開發。
和以往的智能體相比,GITM 的特點可以用兩個字來形容:更強。
能完成更多的任務:
在主世界的所有技術挑戰上實現了 100% 的任務覆蓋率。
更高的任務成功率:
在 " 獲取鑽石 " 任務上,也可以達到 67.5% 的高成功率。
看到這,你肯定會問:這麽強,訓練要花很長時間吧?
漏!單一 CPU 節點隻需要訓練兩天!
打破 AI 發展限制
在 AI 發展進程中有一個非常有趣卻有違常識的現象:
一些對人類而言相對困難的任務,例如下棋,對 AI 來說卻相對容易實現;而在開放世界中與環境交互、進行規劃和決策等對人類來說較簡單的事,AI 卻面臨巨大挑戰。
這就是莫拉維克悖論。
不過,這個通才 AI 智能體 GITM,據說已經成功打破了這一悖論限制:
它可以在複雜且類似于現實世界的環境中取得突破,能夠像人類一樣生存,探索和創造。
先來看一下它的具體表現怎麽樣:
在《我的世界》中,GITM 在主世界的所有技術挑戰上實現了 100% 的任務覆蓋率,也就是成功解鎖了完整的科技樹的 262 個物品。
而此前所有智能體的總和隻能覆蓋 30%。(以往所有智能體方法包括 OpenAI 和 DeepMind 在内總共隻解鎖了 78 個)
△紅色代表其它代理也解鎖了的物品,綠色代表隻有 GITM 解鎖的物品
在最受關注的 " 獲取鑽石 " 任務上,GITM 取得了 67.5% 的成功率,相比于目前最佳成績(OpenAI VPT)提高了 47.5%。
然鵝,重點來了。
在訓練效率上,GITM 也達到了新高度。環境交互步數隻需已有方法的萬分之一,單一 CPU 節點訓練兩天即可完成。
遠遠低于之前 OpenAI VPT 所需的 6480 個 GPU 天或 DeepMind DreamerV3 所需的 17 個 GPU 天。
不僅如此,GITM 還可以進一步應用在《我的世界》更加複雜的任務中,比如生存所需的避難所、農田、鐵傀儡,創造自動化設備所需的紅石電路、進入下界所需的下界傳送門等。
GITM 強大的能力和可擴展性的背後是大語言模型(LLM)的加持。
GITM 的心髒:大語言模型
之前基于強化學習的代理程序所面臨的最大困境在于:
如何将一個極長時域和複雜目标映射成一系列鍵盤、鼠标操作。
爲了解決這個問題,GITM 的開發者采用了基于大語言模型(LLM)的代理程序。
與強化學習代理程序直接映射不同,他們基于 LLM 的代理程序采用了一種分層的方法:
首先将分解目标拆分爲子目标,然後進一步拆分爲結構化的操作,最後再拆分爲鍵盤、鼠标操作。
具體來說,基于 LLM 的代理程序包括 LLM 分解器、LLM 規劃器和 LLM 界面,它們分别負責對子目标、結構化操作和鍵盤 / 鼠标操作進行分解:
1)LLM 分解器首先根據從互聯網收集到的基于文本的知識,将目标分解爲一系列明确定義的子目标。
2)然後,LLM 規劃器爲每個子目标規劃一系列結構化操作。LLM 規劃器還會将成功的動作列表,記錄并總結到基于文本的記憶中,來增強規劃能力。
3)LLM 界面通過處理原始的鍵盤 / 鼠标輸入和接收原始的觀察結果,執行結構化操作與環境進行交互。
此前,商湯基于監督學習和強化學習就煉成了可以在《星際争霸 2》中,對挑頂級水平玩家的 DI-star。
而訓練一個 DI-star,就用了"16 萬場錄像 "和"1 億局對戰 "。
而這次,有了大語言模型的加持,事情又變得有意思了捏。
項目地址:https://github.com/OpenGVLab/GITM