這個遊戲 AI 研究陣容太豪華!
斯坦福李飛飛、通院朱松純兩位教授坐鎮,還有 UCLA、微軟研究院及 Xbox 團隊、清華、北大參與其中。
研究提出多智能體框架 MindAgent,利用大模型給遊戲 NPC 規劃和協作的能力。
用在現成遊戲中,我的世界裏 NPC" 活 " 了,變成我的 AI 世界。
也開發了新遊戲作爲測試基準,玩法類似分手廚房,但你玩得不好 AI 也不會和你分手。
我的 AI 世界,甚至支持 VR
簡單來說,MindAgent 框架給了遊戲 NPC 規劃複雜任務的能力,以及相互協作、與人類玩家協作。
在我的世界中,首先測試了多智能體協作能力,任務是完成不同類型肉食的烹饪。
可以看到左圖中 Alex 和 Steve 分别狩獵不同動物,右圖是兩個 NPC 狩獵完成後一起在爐子旁煮肉。
人機協作中,人類玩家可以通過語音聊天向 NPC 實時表達自己的意圖和期望的目标。
甚至支持 VR 模式,将玩家與 NPC 的交互體驗提升到一個新的水平。
在我的世界測試中,新任務生成間隔(T 值)越大、規劃難度越小,GPT-4 在簡單到中等(T3-T5)任務中表現不錯,高難任務中表現有明顯下降。
CoS 指标衡量多智能體協作的效率,GPT-4 在不同難度任務下平均完成了 58% 的任務。
分手廚房,沒朋友也能玩了
研究還設計了測試基準 CuisineWorld。
規則類似著名聯機遊戲《胡鬧廚房》,2-4 位玩家需要在限制時間内分工配合完成各種菜品的制作并送達顧客手中。
(因爲玩家之間配合不好容易 " 友盡 ",在玩家群體中被戲稱爲分手廚房。)
與我的世界一樣,CuisineWorld 同樣支持智能體間協作,人機協作,以及 VR 交互。
由于專爲智能體協作打造,在 CuisineWorld 上可以方便完成更多測試。
這回 GPT-4、ChatGPT(gpt-3.5-turbo0613)、Claude-2 和 Llama2 70b 都參與進來。
結果 GPT-4 隻控制兩個智能體就能完成 68% 的任務,Claude-2 能完成 31%,Llama2 和 ChatGPT 則根本不會玩。
另外 3 個 GPT-4 就已經能完成 80% 的任務,再加到 4 個效果已經不明顯,Claude-2 增加智能體數量還有進步空間。
MindAgent 框架,讓大模型學會規劃
那麽大模型到底怎麽學會玩遊戲的呢?
也就是靠研究中提出的 MindAgent 框架了,主要由提示、當前狀态和記憶三個組件組成。
提示組件中包含菜譜、一般說明、推理知識和單樣本演示。
當前狀态組件提供對環境的觀察快照,包括智能體的位置、持有的物品、環境中可使用的工具等信息,還包括違反規則時會被觸發的反饋。
記憶組件記錄了每個時間步驟的環境狀态和智能體狀态。
利用這些組件,大模型會先輸出對任務規劃的文本描述,接下來還有兩個關鍵步驟:
動作提取,用正則表達式提取輸出文本中的動作,這一步是必不可少的,因爲輸出文本黃總可能包含大模型思維過程,甚至是察覺到失誤而道歉的信息。
動作驗證,評估每個動作的可行性,如果發現無法執行則返回錯誤消息。
最終,團隊在實驗中得到如下發現:
GPT-4 在零樣本條件下就能根據簡單的遊戲說明調度 2-4 個智能體完成菜肴制作,甚至可以與人類玩家協作。
提供極少量的專家演示,解釋某些動作的推理、以及在規劃過程中提供實時反饋,可以顯著提升大模型的多智能體規劃表現。
可以從更少智能體的例子推廣到協調更多智能體,以及适應新的遊戲領域。
與經典的專用規劃算法相比,大模型規劃仍存在計算成本、上下文長度限制、非最優規劃等瓶頸,但可以從數據中在線改進,更靈活地适應不同規劃問題。
在人機互動實驗中,不同數量智能體與人協作會提高任務成功率,但太多智能體也會降低遊戲樂趣。
另外,論文附錄上還給出了系統提示詞示例,如果想讓 AI 學會玩你喜歡的遊戲,可以參考一下。
論文地址:
https://www.microsoft.com/en-us/research/publication/mindagent-emergent-gaming-interaction/