到《西部世界》當鎮長，多校聯合開源國産AI小鎮，戳戳交互界面就能編輯的虛拟世界

覺得爆火斯坦福「AI 小鎮」25 個角色不夠熱鬧？

一個可以自己創建無限 AI 智能體的像素風小鎮來了，還是國産的！

用戶創建 AI 後，可以讓它們根據用戶設置的任務或計劃，在虛拟城鎮中購物、上班、吵架，以評估大模型們的各項能力。

要是急了，還可以以第三方身份作爲鎮長介入，幹涉任務情況（doge）。

這個國産「AI 小鎮」叫AgentSims，是一個開放式、自定義的沙盒評估基建設施。

并且它還貼心地設置了專業開發者模式和普通用戶模式，對那些不那麽精通大模型和代碼的研究人員還挺友好。

具體操作中，研究人員可以通過 GUI（交互式圖形用戶界面）添加 AI 角色、建築物來設置不同的評估任務。

此外，也可以通過少量代碼來部署和測試新的支持機制，比如規劃和記憶系統。

并且可以設置角色的長期記憶，以及規劃能力：

這項工作來自北航、中山大學、浙大和華東師範的小夥伴們，目前已經在GitHub 上開源。

而且量子位還眼尖發現，AgentSims 這個項目開源時間還早于斯坦福的「AI 小鎮」（雖然隻早了 2 天吧）。

能評估大模型能力的國産《西部世界》

從演示 Demo 來看，AgentSims 建了一個虛拟的城鎮環境，包含各種虛拟居民和建築。

這些都由用戶自定義創建，最終組成沙盒，完成關于大模型能力的評估測試。

比如語言理解能力、語言生成能力、推理能力、計劃和規劃能力、多輪對話能力、數據記憶與檢索能力、自我調整能力什麽的。

So，AgentSims 到底要怎麽玩兒呢？

首先來說創建 AI 角色。

這個環節的自由度比較高，能給 AI 起名，設置性格、喜好人生任務等。

圖示中名叫 John 的 AI 角色，背後就依靠 GPT-4 來完成行動決策。

根據性格設定，John 還是非常樂于助人。

再加上 Demo 給它設置的人生目标是 " 在小鎮上勤奮工作 " ——于是，它就成爲了小鎮上的善良、勤懇打工人，

創建每個 AI 角色時，都需要選擇提供行爲決策支持的大模型，可以是 ChatGPT、GPT-4、LLaMA 等等。

研究團隊在論文中提到，AgentSims可以用來重複測試同一模型，也可以在類似設置下，比較不同模型的表現。

創建好角色後，這個 AI 幾點幾分幹了什麽事情，和誰說了話……每天的所有行爲會被記錄在檔案中。

它們彼此之間還會發生交互，甚至産生對話：

評測過程中，不僅是 AI 和 AI 之間能夠産生交互。

如果有需要，研究人員自己還可以以 " 小鎮鎮長 " 等用戶身份進入小鎮，和智能體對話、互動，幹預任務完成的過程。

其次，構成沙箱環境虛拟城鎮建築和社區設置，也由用戶自己創建。

建築物中的設備是預先設定好的，但可以在開發者版本中進行修改編輯，甚至調用外部 API。

從 demo 裏可以看到，AgentSims 提供的是 GUI（交互式圖形界面）。

也就是說，用戶不需要寫代碼，隻需要關注任務設計的合理性。

（這裏提一句，爲了像現實世界一樣擁有咖啡廳、商店、餐廳，用戶還需要花費一定金額。）

值得一提的是，無論何時創建的 AI 角色和建築，都處于同等地位，也就是說 AI 角色們可以對新加個體産生探索與交互。

高度自定義，戳戳就能編輯

從國内超參數科技做出的 GAEA，到斯坦福 AI 小鎮，再到國産 AI 小鎮 AgentSims，這幾項研究都是利用 AI 打造了 NPC 系統，并依靠（各種各樣的）大模型來幫助 AI 角色做行動決策。

走 " 小鎮 " 這條相似路徑，原因不外乎虛拟城鎮能夠模拟真實世界中的社會環境和人際交互，從而方便考察大模型處理複雜社交場景的能力。

但是要讓 AI 們模拟人類水平的社交能力，比如記憶、行爲長期連貫性，僅靠大模型能力是不夠的——

衆所周知，大模型對對話的上下文窗口有限制性。

在 AgentSims 這裏，團隊用了一種輔助系統，讓 AI 角色直追人類水平。

具體抽象爲三個部分：

計劃系統，用來将目标分解爲子任務，并記錄當前狀态，生成下一步行動。

記憶系統，将每日經曆編碼爲向量，存儲在數據庫中，用于維持行爲一緻性。

工具使用系統，存儲了使用設備的反饋，可以推斷設備的操作方法。

因爲這個機制的存在，AgentSims 的靈活度更高，用戶可以自己 " 排列組合 " 不同的計劃、記憶和學習系統。

那麽，AgentSims 相比斯坦福小鎮，還有哪些不一樣的地方？

最大的不同之處在于——可以像玩遊戲一樣搞研究！

斯坦福的 AI 小鎮在設置人物名字、運轉次數和運行定制文件時，需要在終端裏手動輸入内容：

AgentSims 則降低了使用門檻，自定義和模塊化程度都更自由。

如果用戶不想用命令行輸入，可以直接選擇使用可交互界面，隻需要戳戳就能更改設置。

具體來說，研究團隊提供了兩個模式：普通用戶模式和開發者模式。

普通用戶模式，就是利用 GUI，點點鼠标進行屬性和位置選擇，就能構建出一個用來評估大模型能力的社區 / 城鎮。

至于開發者模式，那就可以直接上代碼了，能更改一些設置細節。

但相對應的，門檻也更高。

當然，相比 AgentSims，斯坦福小鎮會注重于生成 " 更逼真 " 的人類行爲，換而言之，AI 案例會更加豐富一些。

例如 AI 角色們可以在小鎮裏自發組織情人節派對，策劃詳實，包括時間地點和到場人物等：

不過，所有的類似 AI 小鎮都有同樣的通病：

虛拟城鎮隻能 " 模拟 "，無論怎樣逼真，也無法完全反映現實世界的複雜性。

而且任務性能還決定了用戶可能無法深入了解模型成功 / 失敗的原因。

不過這仍然不妨礙沖浪在一線的英偉達科學家 Jim Fan 狂呼，這類工作未來 " 有無限可能 "。

團隊介紹

林家駒（Jiaju Lin），碩士畢業于華東師範大學，賓州州立大學博士在讀，研究方向爲 LLM 領域适配，價值對齊。

趙浩然（Haoran Zhao），BHU 博士在讀，研究方向爲 Multi-Agent System，LLM Agent 及 AIgame。

張傲弛（Aochi Zhang）, PTA Studio，Deep Learning coder, 服務器架構師。

吳旖婷（Yiting Wu），PTA Studio，遊戲 &HMI 方向交互設計師。

平胡秋月（Huqiuyue Ping），浙江大學碩士在讀，研究方向爲 Multi-Agent System 與強化學習。

Website: AgentSims.com

Paper: arxiv.org/pdf/2308.04026.pdf

Code: github.com/py499372727/AgentSims

— 聯系作者 —