用ChatGPT控制NPC，行動逼真到像正常人！斯坦福谷歌新研究炸場，賦予大模型準确記憶力 - 青年圖摘

放任 25 個 AI 共同生活，他們竟然模拟起了人類的行動！

不僅像人一樣起床、刷牙、吃飯、睡覺，還會被迫 " 出門打工 "，甚至在閑暇時分一起慶祝節日。

這一切，來自斯坦福和谷歌的一項新研究——

他們做了一個很新的實驗，創造了 25 個 AI NPC，每個 NPC 都有不同的身份和行動決策，并讓它們在一個沙盒環境中共同生活，背後依靠ChatGPT大模型來完成行動決策。

結果發現，這些 AI NPC 不僅會像人一樣生活，如作家就去寫作、店主就去經營商店，而且他們彼此之間還會發生交互，甚至産生對話：

研究一 po 出就爆火，賓大沃頓商學院教授 Ethan Mollick 表示：

這些行動相比 " 角色扮演 "，更像是正常人類會做出來的行動。

OpenAI 科學家 Andrej Karpathy 更是直呼 " 這讓開放世界遊戲相形見绌 "：

所以，這個研究究竟構建了一個怎樣的 "AI 社會 "？

當 AI 玩起模拟人生

從 Demo 展示來看，這 25 個 AI 有着不同的身份、性格和年齡：

他們會在一個共同社區中生活，這些社區的構造非常詳細，包括居住區、大學、公園、咖啡廳等：

可以看見，每個 AI 都有自己的基礎行程，包括起床、洗漱、吃飯、睡覺等，根據不同的身份設定，又會做出不同的行動，共同維持社區的運轉。

其中，Demo 中的 emoji 簡單代表了 AI 正在進行的操作，如收發信件和吃飯：

但在這其中，也會有交互行爲産生：

用的也不是 AI 的語言，而是人類說話的方式：

不僅如此，這些相互之間可以産生互動的 AI，甚至還能聽取人類玩家的要求，并采取對應的行動。

例如論文作者提到，他們以人類的身份告訴其中一個 AI NPC，希望在社區舉辦一個 " 情人節派對 " 的活動。

沒想到，這位 AI NPC 不僅熱情地答應了作者們的請求，自發開始組織起這場活動，包括時間地點和到場人物等：

看到這裏，已經有網友表示 " 太瘋狂了 " ——

對于玩家來說，相比遵循步驟，以後在遊戲中可能真的需要去說服 NPC 或思考并采取行動，才能完成任務。

還有腦洞大開的網友想到了更加 " 邪惡 " 的玩法：

想象你殺死了一個 NPC，然後坐車回到城市，看着他們爲他舉辦葬禮……

那麽，這些 AI 究竟是如何自發行動，構建起一個自運轉的 AI 互動社會的呢？

用大模型控制行動決策

具體來說，斯坦福和谷歌分兩步讓 AI 們采取行動、與其他 AI 發生交互。

第一步，是構建各種各樣的 AI" 人設 "，并讓他們做出符合設定的日常行動來。

這裏我們以其中一個 AI 角色 John Lin 爲例，在 Demo 中可以找到他的設定列表。

可以看見，他的設定非常詳細，包括基礎信息（姓名、年齡、位置、時間），注意力設定（視野範圍等），個人情況（性格、家庭背景、工作等）。

以此爲參照，這位名叫 John Lin 的 AI 就能形成每天固定的生活習慣，包括早起例行洗漱，然後上班，最後回家睡覺。

但在他的生活過程中，必定會與其他 AI 溝通、或是遇到新人，于是——

第二步，就是要讓 AI 人設對外界環境和其他人的行動做出反應，産生交互。

于是，這項研究構建了一種賦予 AI 記憶力、檢索記憶、感知、反饋和交互等能力的架構。

從架構圖來看，AI 會首先感知周遭環境，并将一定視野（注意力）範圍内發生的事件記錄下來，加進自己的記憶流（memory stream）中；

随後，無論是 AI 計劃要做的事（plan）、還是對外界發生的事情給出反饋（reflect），都會受到這個記憶流的影響，具體方式是通過從記憶中檢索對應的事件，并依靠大模型 ChatGPT 來進行決策；

（當然，無論是計劃還是反饋，對應的事件也會加入記憶流中，成爲新的記憶）

最後，這些決策的結果将被轉變爲具體的方案，促使 AI 思考并做出具體的行動。

研究提到，之所以采用大模型 + 記憶架構的方式，是因爲大模型雖然已經具備非常好的行動邏輯性，但無論是 GPT-4 還是其他大模型，長期規劃和保持清晰的記憶仍然是一種挑戰。

基于此，需要一套記憶系統作爲大模型的 " 參照物 "，讓它在采取決策的時候有清晰的事件列表可以回溯。

不過，這項研究也提出了一些關于AI 安全的問題。

包括如何防止它對社會産生的影響，同時被有心之人用于生成 Deepfake 和 " 定制版 "AI 詐騙等——

例如，以後和你聊天的 AI 賣茶小妹，可能不僅會記得你說過的每一件事情、每一個生日，甚至還能以此爲參照，生成更加 " 貼心 " 的回答，讓 " 她 " 看起來更像一個人……

One More Thing

值得一提的是，此前國内也已經有名叫超參數科技的公司做出了類似的 AI NPC 系統。

和斯坦福谷歌這項研究一樣，GAEA 同樣具備記憶系統，并依靠大語言模型來幫助 NPC 做出行動決策。

不過，二者促使 AI 産生行動的激勵機制有一些差異。相比這項研究依靠大模型來完成行動決策：

GAEA 中的 AI 還會額外依靠更具體的數值，進一步影響 NPC 的行動決策（饑餓值、心情值等）：

對于這類 AI NPC 技術，你還想到了什麽腦洞大開的玩法？

試玩地址：

https://reverie.herokuapp.com/arXiv_Demo/#

論文地址：

https://arxiv.org/abs/2304.03442

參考鏈接：

[ 1 ] https://twitter.com/emollick/status/1645499660402925576

[ 2 ] https://twitter.com/karpathy/status/1645485475996790784