覺得爆火斯坦福「AI 小鎮」25 個角色不夠熱鬧?
一個可以自己創建無限 AI 智能體的像素風小鎮來了,還是國産的!
用戶創建 AI 後,可以讓它們根據用戶設置的任務或計劃,在虛拟城鎮中購物、上班、吵架,以評估大模型們的各項能力。
要是急了,還可以以第三方身份作爲鎮長介入,幹涉任務情況(doge)。
這個國産「AI 小鎮」叫AgentSims,是一個開放式、自定義的沙盒評估基建設施。
并且它還貼心地設置了專業開發者模式和普通用戶模式,對那些不那麽精通大模型和代碼的研究人員還挺友好。
具體操作中,研究人員可以通過 GUI(交互式圖形用戶界面)添加 AI 角色、建築物來設置不同的評估任務。
此外,也可以通過少量代碼來部署和測試新的支持機制,比如規劃和記憶系統。
并且可以設置角色的長期記憶,以及規劃能力:
這項工作來自北航、中山大學、浙大和華東師範的小夥伴們,目前已經在GitHub 上開源。
而且量子位還眼尖發現,AgentSims 這個項目開源時間還早于斯坦福的「AI 小鎮」(雖然隻早了 2 天吧)。
能評估大模型能力的國産《西部世界》
從演示 Demo 來看,AgentSims 建了一個虛拟的城鎮環境,包含各種虛拟居民和建築。
這些都由用戶自定義創建,最終組成沙盒,完成關于大模型能力的評估測試。
比如語言理解能力、語言生成能力、推理能力、計劃和規劃能力、多輪對話能力、數據記憶與檢索能力、自我調整能力什麽的。
So,AgentSims 到底要怎麽玩兒呢?
首先來說創建 AI 角色。
這個環節的自由度比較高,能給 AI 起名,設置性格、喜好人生任務等。
圖示中名叫 John 的 AI 角色,背後就依靠 GPT-4 來完成行動決策。
根據性格設定,John 還是非常樂于助人。
再加上 Demo 給它設置的人生目标是 " 在小鎮上勤奮工作 " ——于是,它就成爲了小鎮上的善良、勤懇打工人,
創建每個 AI 角色時,都需要選擇提供行爲決策支持的大模型,可以是 ChatGPT、GPT-4、LLaMA 等等。
研究團隊在論文中提到,AgentSims可以用來重複測試同一模型,也可以在類似設置下,比較不同模型的表現。
創建好角色後,這個 AI 幾點幾分幹了什麽事情,和誰說了話……每天的所有行爲會被記錄在檔案中。
它們彼此之間還會發生交互,甚至産生對話:
評測過程中,不僅是 AI 和 AI 之間能夠産生交互。
如果有需要,研究人員自己還可以以 " 小鎮鎮長 " 等用戶身份進入小鎮,和智能體對話、互動,幹預任務完成的過程。
其次,構成沙箱環境虛拟城鎮建築和社區設置,也由用戶自己創建。
建築物中的設備是預先設定好的,但可以在開發者版本中進行修改編輯,甚至調用外部 API。
從 demo 裏可以看到,AgentSims 提供的是 GUI(交互式圖形界面)。
也就是說,用戶不需要寫代碼,隻需要關注任務設計的合理性。
(這裏提一句,爲了像現實世界一樣擁有咖啡廳、商店、餐廳,用戶還需要花費一定金額。)
值得一提的是,無論何時創建的 AI 角色和建築,都處于同等地位,也就是說 AI 角色們可以對新加個體産生探索與交互。
高度自定義,戳戳就能編輯
從國内超參數科技做出的 GAEA,到斯坦福 AI 小鎮,再到國産 AI 小鎮 AgentSims,這幾項研究都是利用 AI 打造了 NPC 系統,并依靠(各種各樣的)大模型來幫助 AI 角色做行動決策。
走 " 小鎮 " 這條相似路徑,原因不外乎虛拟城鎮能夠模拟真實世界中的社會環境和人際交互,從而方便考察大模型處理複雜社交場景的能力。
但是要讓 AI 們模拟人類水平的社交能力,比如記憶、行爲長期連貫性,僅靠大模型能力是不夠的——
衆所周知,大模型對對話的上下文窗口有限制性。
在 AgentSims 這裏,團隊用了一種輔助系統,讓 AI 角色直追人類水平。
具體抽象爲三個部分:
計劃系統,用來将目标分解爲子任務,并記錄當前狀态,生成下一步行動。
記憶系統,将每日經曆編碼爲向量,存儲在數據庫中,用于維持行爲一緻性。
工具使用系統,存儲了使用設備的反饋,可以推斷設備的操作方法。
因爲這個機制的存在,AgentSims 的靈活度更高,用戶可以自己 " 排列組合 " 不同的計劃、記憶和學習系統。
那麽,AgentSims 相比斯坦福小鎮,還有哪些不一樣的地方?
最大的不同之處在于——可以像玩遊戲一樣搞研究!
斯坦福的 AI 小鎮在設置人物名字、運轉次數和運行定制文件時,需要在終端裏手動輸入内容:
AgentSims 則降低了使用門檻,自定義和模塊化程度都更自由。
如果用戶不想用命令行輸入,可以直接選擇使用可交互界面,隻需要戳戳就能更改設置。
具體來說,研究團隊提供了兩個模式:普通用戶模式和開發者模式。
普通用戶模式,就是利用 GUI,點點鼠标進行屬性和位置選擇,就能構建出一個用來評估大模型能力的社區 / 城鎮。
至于開發者模式,那就可以直接上代碼了,能更改一些設置細節。
但相對應的,門檻也更高。
當然,相比 AgentSims,斯坦福小鎮會注重于生成 " 更逼真 " 的人類行爲,換而言之,AI 案例會更加豐富一些。
例如 AI 角色們可以在小鎮裏自發組織情人節派對,策劃詳實,包括時間地點和到場人物等:
不過,所有的類似 AI 小鎮都有同樣的通病:
虛拟城鎮隻能 " 模拟 ",無論怎樣逼真,也無法完全反映現實世界的複雜性。
而且任務性能還決定了用戶可能無法深入了解模型成功 / 失敗的原因。
不過這仍然不妨礙沖浪在一線的英偉達科學家 Jim Fan 狂呼,這類工作未來 " 有無限可能 "。
團隊介紹
林家駒(Jiaju Lin), 碩士畢業于華東師範大學,賓州州立大學博士在讀, 研究方向爲 LLM 領域适配,價值對齊。
趙浩然(Haoran Zhao),BHU 博士在讀,研究方向爲 Multi-Agent System,LLM Agent 及 AIgame。
張傲弛(Aochi Zhang), PTA Studio,Deep Learning coder, 服務器架構師。
吳旖婷(Yiting Wu),PTA Studio,遊戲 &HMI 方向交互設計師。
平胡秋月(Huqiuyue Ping),浙江大學碩士在讀,研究方向爲 Multi-Agent System 與強化學習。
Website: AgentSims.com
Paper: arxiv.org/pdf/2308.04026.pdf
Code: github.com/py499372727/AgentSims
— 聯系作者 —