放任 25 個 AI 共同生活,他們竟然模拟起了人類的行動!
不僅像人一樣起床、刷牙、吃飯、睡覺,還會被迫 " 出門打工 ",甚至在閑暇時分一起慶祝節日。
這一切,來自斯坦福和谷歌的一項新研究——
他們做了一個很新的實驗,創造了 25 個 AI NPC,每個 NPC 都有不同的身份和行動決策,并讓它們在一個沙盒環境中共同生活,背後依靠ChatGPT大模型來完成行動決策。
結果發現,這些 AI NPC 不僅會像人一樣生活,如作家就去寫作、店主就去經營商店,而且他們彼此之間還會發生交互,甚至産生對話:
研究一 po 出就爆火,賓大沃頓商學院教授 Ethan Mollick 表示:
這些行動相比 " 角色扮演 ",更像是正常人類會做出來的行動。
OpenAI 科學家 Andrej Karpathy 更是直呼 " 這讓開放世界遊戲相形見绌 ":
所以,這個研究究竟構建了一個怎樣的 "AI 社會 "?
當 AI 玩起模拟人生
從 Demo 展示來看,這 25 個 AI 有着不同的身份、性格和年齡:
他們會在一個共同社區中生活,這些社區的構造非常詳細,包括居住區、大學、公園、咖啡廳等:
可以看見,每個 AI 都有自己的基礎行程,包括起床、洗漱、吃飯、睡覺等,根據不同的身份設定,又會做出不同的行動,共同維持社區的運轉。
其中,Demo 中的 emoji 簡單代表了 AI 正在進行的操作,如收發信件和吃飯:
但在這其中,也會有交互行爲産生:
用的也不是 AI 的語言,而是人類說話的方式:
不僅如此,這些相互之間可以産生互動的 AI,甚至還能聽取人類玩家的要求,并采取對應的行動。
例如論文作者提到,他們以人類的身份告訴其中一個 AI NPC,希望在社區舉辦一個 " 情人節派對 " 的活動。
沒想到,這位 AI NPC 不僅熱情地答應了作者們的請求,自發開始組織起這場活動,包括時間地點和到場人物等:
看到這裏,已經有網友表示 " 太瘋狂了 " ——
對于玩家來說,相比遵循步驟,以後在遊戲中可能真的需要去說服 NPC 或思考并采取行動,才能完成任務。
還有腦洞大開的網友想到了更加 " 邪惡 " 的玩法:
想象你殺死了一個 NPC,然後坐車回到城市,看着他們爲他舉辦葬禮……
那麽,這些 AI 究竟是如何自發行動,構建起一個自運轉的 AI 互動社會的呢?
用大模型控制行動決策
具體來說,斯坦福和谷歌分兩步讓 AI 們采取行動、與其他 AI 發生交互。
第一步,是構建各種各樣的 AI" 人設 ",并讓他們做出符合設定的日常行動來。
這裏我們以其中一個 AI 角色 John Lin 爲例,在 Demo 中可以找到他的設定列表。
可以看見,他的設定非常詳細,包括基礎信息(姓名、年齡、位置、時間),注意力設定(視野範圍等),個人情況(性格、家庭背景、工作等)。
以此爲參照,這位名叫 John Lin 的 AI 就能形成每天固定的生活習慣,包括早起例行洗漱,然後上班,最後回家睡覺。
但在他的生活過程中,必定會與其他 AI 溝通、或是遇到新人,于是——
第二步,就是要讓 AI 人設對外界環境和其他人的行動做出反應,産生交互。
于是,這項研究構建了一種賦予 AI 記憶力、檢索記憶、感知、反饋和交互等能力的架構。
從架構圖來看,AI 會首先感知周遭環境,并将一定視野(注意力)範圍内發生的事件記錄下來,加進自己的記憶流(memory stream)中;
随後,無論是 AI 計劃要做的事(plan)、還是對外界發生的事情給出反饋(reflect),都會受到這個記憶流的影響,具體方式是通過從記憶中檢索對應的事件,并依靠大模型 ChatGPT 來進行決策;
(當然,無論是計劃還是反饋,對應的事件也會加入記憶流中,成爲新的記憶)
最後,這些決策的結果将被轉變爲具體的方案,促使 AI 思考并做出具體的行動。
研究提到,之所以采用大模型 + 記憶架構的方式,是因爲大模型雖然已經具備非常好的行動邏輯性,但無論是 GPT-4 還是其他大模型,長期規劃和保持清晰的記憶仍然是一種挑戰。
基于此,需要一套記憶系統作爲大模型的 " 參照物 ",讓它在采取決策的時候有清晰的事件列表可以回溯。
不過,這項研究也提出了一些關于AI 安全的問題。
包括如何防止它對社會産生的影響,同時被有心之人用于生成 Deepfake 和 " 定制版 "AI 詐騙等——
例如,以後和你聊天的 AI 賣茶小妹,可能不僅會記得你說過的每一件事情、每一個生日,甚至還能以此爲參照,生成更加 " 貼心 " 的回答,讓 " 她 " 看起來更像一個人……
One More Thing
值得一提的是,此前國内也已經有名叫超參數科技的公司做出了類似的 AI NPC 系統。
和斯坦福谷歌這項研究一樣,GAEA 同樣具備記憶系統,并依靠大語言模型來幫助 NPC 做出行動決策。
不過,二者促使 AI 産生行動的激勵機制有一些差異。相比這項研究依靠大模型來完成行動決策:
GAEA 中的 AI 還會額外依靠更具體的數值,進一步影響 NPC 的行動決策(饑餓值、心情值等):
對于這類 AI NPC 技術,你還想到了什麽腦洞大開的玩法?
試玩地址:
https://reverie.herokuapp.com/arXiv_Demo/#
論文地址:
https://arxiv.org/abs/2304.03442
參考鏈接:
[ 1 ] https://twitter.com/emollick/status/1645499660402925576
[ 2 ] https://twitter.com/karpathy/status/1645485475996790784