圖片來源 @視覺中國
文 | 追問 NextQuestion
在打遊戲時,玩家常常會注意到遊戲中的 NPC 似乎過于天真和容易受欺騙,即使你偷走了商人的錢,他們仍然會感謝你。他們似乎總是不厭其煩地說同一句話,比如 " 我曾經也是個勇士,直到我膝蓋中了一箭。"
這些 NPC 有一個專業的名稱,叫做可信代理(believable agent)。可信代理的設計旨在提供一種真實生命的幻覺,并使他們在決策和自主行動的方式上呈現出一種真實感 [ 1 ] 。
随着遊戲行業的發展,可信代理經曆了多次更新和叠代。從早期的《質量效應》和《模拟人生》中使用基于規則的方法,通過有限狀态機和行爲樹來刻畫 NPC 的行爲,到後來的《星際争霸》和《Dota 2》引入了基于學習(尤其是強化學習)的方法來創建 AI 電腦玩家。NPC 的行爲變得越來越智能,可以采取的行動也越來越豐富,不再僅受限于預先編寫的腳本内容。
然而,人類的行爲空間是廣闊而複雜的。
這些可信代理雖然能夠滿足當前的交互需求和遊戲内容,但與人類靈活、多變的真實行爲模式相比,他們仍顯得僵化和缺乏變通。
于是,今年 4 月,來自斯坦福和谷歌的研究團隊有了一個大膽的想法 [ 4 ] ——" 是否可以借助大模型打造一個反映可信人類行爲的交互式人工社會?"而支撐這一想法的關鍵是,他們觀察到大型語言模型從訓練數據中學到了大量且多樣的人類行爲。
▷圖 1:參考文獻 4。圖源:arXiv 官網
研究者們提出了一個基于大模型的可信人工代理架構。這一架構通過維護和提取 " 記憶 ",并采用 " 記憶 - 反思 - 計劃 " 的架構來操控代理,從而使其更好地模仿出可信的人類行爲。
Smallville ——人工代理的小鎮生活
爲了展示大模型版人工代理的可用性,研究者設計了一個小鎮沙盒遊戲—— Smallville,并把這些代理實例化成小鎮中的角色。
▷圖 2:Smallville 的多層級地圖。圖源:參考文獻 4
Smallville 是一個有着 25 個人工代理的社區,每個 " 人 " 都有着自己的身份描述,包括他們的職業以及與其他代理的關系。這些描述将作爲人工代理的初始記憶輸入給大模型。
▷圖 3:Lin 的身份描述(初始記憶)。圖源:參考文獻 4
這些代理會與環境互動,也可以通過自然語言與其他代理進行交流。在每個沙盒引擎的時間步 *,代理都會使用自然語言輸出來描述其當前操作,例如 " 伊莎貝拉正在寫日記 ",或者像圖 4 中那樣進行對話。
編者注:
時間步(time step),是指前後兩個時間點之間的差值。 在過程模拟中,模型将整個過程離散爲 iV 個細小的過程,而每一步需要的時間就是 AT,即時間步。 在模拟系統的時間響應時往往需要設定時間步長,時間步長的大小一般取決于系統屬性和模型的目的。 其絕對值越大,計算時間越少;其絕對值越小,計算時間越長,模拟就越精細,過程越複雜。
▷圖 4:代理之間的對話。圖源:參考文獻 4
Smallville 擁有許多常見設施,包括咖啡館、酒吧、公園、學校、宿舍、住宅和商店。此外,還定義了許多不同功能的房間和物體,例如住宅中的廚房和廚房中的爐竈。代理們可以通過他們的行動來影響環境,比如當代理正在睡覺時,床可能會被占用。此外,代理還會對環境的變化作出反應,例如,如果将伊莎貝拉的淋浴設施狀态設置爲 " 漏水 ",她将前往客廳取工具并嘗試修複漏水。
小鎮居民的 " 一天 " 從一段身份描述開始。随着沙盒世界中時間的流逝,他們的行爲會随着與其他代理和環境的互動而不斷演化,建立記憶和關系,最終影響他們的行爲。
有趣的是,研究者們發現,即使在沒有預先編程的情況下,Smallville 中的代理們也會進行一些自發的社會行爲,比如交換信息、建立新的關系,并協同進行活動。
首先,随着時間的推移,信息會通過代理之間的對話傳播。例如,山姆告訴湯姆他想參加選舉(圖 5 左),然後在某一天,湯姆會與約翰讨論山姆的選舉成功的可能性(圖 5 右)。漸漸地,山姆的選舉會成爲全城的熱門話題,一些人會支持他,而另一些人還沒有下決定。
▷圖 5:信息傳播。圖源:參考文獻 4
其次,代理之間會建立新的關系,并記住他們與其他代理的互動。例如,山姆一開始不認識拉托亞,在某次散步中遇到了她并進行了自我介紹,然後在下次遇到時,山姆會主動提起上次拉托亞提到的攝影項目。
最後,代理之間存在複雜的協同作用。例如,伊莎貝拉想辦一場情人節派對,她會請求朋友瑪麗亞幫忙,而瑪麗亞會邀請她喜歡的克勞斯參加派對,最終他們以及另外的五名代理都會出現在派對上。而這一過程中,研究者隻設置了伊莎貝拉舉辦派對的初始意圖和瑪麗亞對克勞斯的迷戀。消息傳播、裝飾、邀請、到達派對以及在派對上的互動社交行爲,都是由代理自發發起的。
人工代理的架構設計
研究者的目标是爲開放世界中的代理行爲提供一個框架,一個可以與其他代理進行互動并對環境變化做出反應的框架。人工代理将當前環境和過去經曆作爲輸入,然後利用大模型生成行爲作爲輸出。
爲确保代理行爲的長期一緻性,研究者設計了一個 " 記憶 - 反思 - 計劃 " 的架構來引導代理的行動。他們維護了大量的事件和記憶流,确保在需要時檢索和合成代理記憶中最相關的部分。這些記憶會被遞歸地合成爲更高層次的反思,從而指導代理的行爲。
▷圖 6:人工代理的架構。圖源:參考文獻 4
(一)記憶
爲了确保記憶的全面性,研究者維護一個内存流,記錄一個代理的所有經曆。每一段經曆都包括自然語言描述、創建時間和最近訪問時間。這些記憶包括代理自身的曆史行動、感知到的其他代理的行動以及對世界的感知。例如,咖啡店工作的伊莎貝拉的記憶會包括 " 伊莎貝拉正在擺放糕點 "、" 瑪麗亞在一邊喝咖啡一邊準備考試 " 以及 " 冰箱是空的 "。
相對于人類,人工代理的記憶能力無疑更爲精确和持久,但過多的記憶可能會讓大型模型變得混亂。爲了有效地檢索與當前情境最相關的記憶,研究者設置了三種評分來協助檢索:
新近度評分:賦予最近的記憶較高的分數,并随着時間逐漸衰減。
重要性評分:這個評分取決于代理對每段記憶的重要性評價。研究者讓代理對每一段新的記憶都進行評分,從而區分核心記憶和一般記憶。
相關性評分:這個評分依賴于不同記憶與當前情境的相關程度。例如,如果一個代理正在與同學讨論化學測試,那麽關于老師授課内容的記憶就遠比 " 早上吃了什麽 " 更爲相關。
通過對這三種評分的加權求和,人工代理會在每種情況下選擇最相關和最重要的記憶輸入給大模型,從而輔助決策過程。
▷圖 7:人工代理的記憶流。圖源:參考文獻 4
(二)反思
上述的記憶模塊代表了代理對自己、世界和他人的觀察。但僅有觀察是不夠的,記憶還應當包括反思,即代理的思考曆史。這種反思是确保代理能夠更全面地理解和适應不同情境的重要部分。
舉例而言,如果用戶問克勞斯 " 你願意和誰共進晚餐 ",如果隻有觀察記憶的話,克勞斯的回答可能是 " 沃夫岡 ",因爲他是與克勞斯互動最頻繁的人,盡管每次互動都隻是擦肩而過。但如果加入了反思模塊,讓克勞斯從 " 沉迷科研 " 這一觀察記憶中意識到自己對科研的興趣,以及意識到瑪麗亞在自己的科研中的努力和他們之間的共同興趣,那麽克勞斯可能會得出一個完全不同的答案—— " 瑪麗亞 "。
研究者設計了一個 " 兩步走 " 反思模塊。第一步是 " 提問 ",代理根據最近的 100 條記憶向自己提出 5 個最重要的問題(如圖 8 所示)。第二步是 " 回答 ",代理根據這些問題生成反思結果,并将這些結果存儲在記憶池中。
▷圖 8:反思的第一步—— " 提問 "。圖源:參考文獻 4
這一模塊的精妙之處在于,代理可以将反思結果與新的觀察記憶結合,進行更高級别的反思和抽象。最終,代理會生成一顆反思樹——樹的葉節點代表基本觀察,非葉節點代表思想,樹的位置越高,就越抽象和高級。這些高級反思可以幫助大模型更準确地理解記憶和角色。
▷圖 9:反思樹。圖源:參考文獻 4
(三)計劃
爲了确保人工代理可以保持長時間内的行爲一緻性,研究者賦予了代理制定計劃的能力,以避免像在 12 點吃完午飯後立刻在 13 點再次吃飯的情況發生。
計劃描述了代理未來的行動順序,例如," 穆勒計劃在房間裏畫畫,持續 3 個小時 "。這種較長時間的計劃有助于代理的行爲随着時間的推移保持一緻。從初始計劃出發,代理會自上而下地分解計劃,逐步生成更多細節,如 " 花必要的時間收集材料、混合油漆、休息和清理 "。這些計劃會存儲到記憶流中,與反思和觀察一起影響代理的行爲。
▷圖 10:提示代理生成計劃。圖源:參考文獻 4
當然,代理并不總是一成不變地遵守計劃,而會根據當前情況實時做出反應。舉例來說,如果穆勒正在畫畫時看到父親進入房間,這一新的 " 觀察記錄 " 會傳遞給大模型,綜合考慮反思、計劃,然後決定是否需要暫停計劃來做出相應的反應。
一旦穆勒開始與父親對話,他們會檢索對彼此的記憶以及當前對話的曆史,然後生成對話内容,直到一方決定終止對話。
實驗
研究者的實驗主要集中在兩個問題上:第一,人工代理是否能夠正确地檢索過去的經驗并生成可信的計劃、反應和思考,以塑造他們的行爲?第二,代理社區内能否形成信息傳播、關系建立和多人協同這三類自發社會行爲?
(一)受控實驗
爲了驗證問題一,研究者對代理進行多方面的采訪,以評估代理的自我認知、記憶、計劃、反應和反思能力。
自我認知采訪:研究者要求代理進行自我介紹或概括描述他們的工作日程,以檢查代理是否能夠識别自己的核心特征。
記憶能力采訪:研究者要求代理從記憶中檢索特定事件或對話以正确回答提出的問題,例如 " 誰是山姆?" 或 " 誰在競選村長?"
計劃能力采訪:研究者詢問代理的長期計劃,例如 " 明天上午 10 點你會做什麽?"
反應能力采訪:研究者提出一些假設情況,然後詢問代理的反應,例如 " 你的早餐燒焦了!你會怎麽辦?"
反思能力采訪:在這類采訪中,研究者提出問題要求代理通過更高層次的推理來深入了解他人和自己,例如 " 如果你要花時間與最近遇到的一個人在一起,那會是誰,爲什麽?"
這些采訪有助于确定代理是否能夠維護自我認知、正确檢索記憶、制定計劃、做出反應和進行深思熟慮,以塑造他們合理且拟人化的行爲和決策。
▷圖 11:采訪結果反映的代理可信程度。圖源:參考文獻 4
研究者雇傭了 100 位實驗人員來評估采訪結果,并對采訪結果的可信度和合理性進行量化分析。研究結果表明,擁有完整的 " 記憶 "、" 反思 " 和 " 計劃 " 三個模塊的代理能夠産生最合理的回答,其可信度甚至可以超過真實人類。而當代理缺少其中任何一個或多個模塊時,其可信程度會顯著降低。
值得注意的是,盡管人工代理表現得十分可靠,但他們的記憶并非沒有缺陷。例如," 湯姆 " 一方面确信自己需要在情人節派對上談論選舉的事,但同時又聲稱自己不知道情人節是否有派對。
此外,人工代理也有可能捏造事實。比如,當被問及伊莎貝拉是否知道山姆參加選舉的事時,伊莎貝拉會正确地回答知道,但會額外補充說 " 他會在明天宣布 ",而這一信息在之前的交談中并未出現。
(二)端對端實驗
爲了觀察代理社區中的自發社會行爲,研究者将 25 位代理放入沙盒 Smallville 中,并持續運行了兩個遊戲日。
研究者發現,人工代理會自發地傳遞消息并進行協同工作。在運行開始之前,研究者設置了兩條關鍵信息,即 " 山姆要競選村長 " 和 " 伊莎貝拉要舉辦情人節派對 ",然後在兩天之後觀察這兩條信息的傳播情況。結果顯示,最初隻有這兩位代理自己知道這些信息,但在兩天之後,分别有 8 人和 13 人獲悉了這兩條信息。兩天之後,共有 5 位代理參加了情人節派對,同時有 12 位代理受到了邀請,這顯示出代理之間的協同舉辦派對的能力。
此外,人工代理社區在模拟過程中自發地形成了新的關系。研究者對代理之間的關系網絡複雜性進行了量化。他們發現,兩天内網絡密度從 0.167 增加到 0.74。
▷圖 12:人工代理關系網。圖源:參考文獻 4
從人工代理到人類代理——第一系統思維
上個月,來自華盛頓大學的研究人員指出,與人工代理不同,人類思考時不僅考慮外部環境,還會考慮内在感受 [ 5 ] 。這兩種思維方式對應了人類兩種互補的思維模式。
▷圖 13:參考文獻 5。圖源:arXiv 官網
Kahneman 認爲 [ 6 ] ,人類有兩個互補的思維過程。第一系統是直覺的、輕松的、即時的,而第二系統是邏輯的、有意的、緩慢的。人工代理主要專注于第二系統思維,而忽略了第一系統。
爲了更好地引導人工代理的行爲,華盛頓大學的研究人員引入了第一系統中可以影響其行爲的三個方面:基本需求、情感和社會關系的親近程度,以實現人工代理向人類代理的升級。
具體而言,基本需求指的是人類内在的生存需求,包括飲食、社交、娛樂、健康和精力等方面。如果這些需求無法得到滿足,代理将會受到負面反饋,例如孤獨、疾病和疲勞。因此,代理會自發地采取行動來滿足這些需求,而不僅僅遵循刻闆的日常計劃。
情感也是真實人類行爲模型中的關鍵因素 [ 7 ] 。如果代理感到憤怒,他應該能夠通過采取一些有助于釋放情感的行動來做出反應,比如跑步或冥想。
此外,代理之間的社交關系的親近程度也應該影響他們之間的互動方式。社會大腦假說認爲,我們的認知能力在很大程度上是爲了跟蹤社會關系的質量而進化的 [ 8 ] ,這意味着人們經常會根據與他人的關系來調整與他人的互動方式 [ 9 ] 。爲了更好地模仿人類行爲,研究者讓代理能夠根據彼此之間的關系親近程度來調整他們的對話和互動方式。
▷圖 14:結合第一系統思維的人類代理。圖源:參考文獻 5
研究者在斯坦福大學提出的人工代理架構的基礎上,引入了第一系統思維的反饋(如圖 14 所示)。他們使用數值來衡量五項基本需求和關系親近程度,同時定義了七種情緒。
在初始化階段,每種需求都被設定爲中性值(中間值或者中性情感詞彙)。在每次代理采取行動之前,代理會考慮是否需要滿足某種需求,并在行動結束後評估是否滿足了特定需求,從而動态調整需求值(比如對話結束後代理會根據對話是否愉快調整關系親近度)。此外,一些需求的值會随着時間的推移而變化,比如飲食需求會随着時間而下降。
人類代理是否能理解第一系統的各種需求,并順利對其做出合理的反應呢?研究者針對這兩個問題進行了一系列實驗。
實驗表示,人類代理基本能夠理解各種行動對需求的影響,但對于 " 娛樂 " 和 " 健康 " 這兩種需求對應的行爲,代理的辨别能力較差。比如,代理會認爲醫生給患者用藥也會增加醫生的健康度。
此外,實驗證明,研究者将各種需求值設置爲零時,代理會自發地進行相應的行動來滿足需求。有趣的是,設置爲負面情緒時似乎比積極情緒對代理人的影響更大,影響最大的是憤怒,其次是悲傷和恐懼,幸福影響最小。
關于親近度的實驗發現,随着關系親近程度的增加,對話頻次呈現倒 U 型。不太親近和非常親近時對話最多,相對親近時因爲不需要客套的寒暄,反而降低了對話次數。
此外,當親密程度較高時,具有積極情緒的對話比例通常會下降,這類似于當人們與他人非常親密時,會覺得不需要贊揚他人來獲得他人的喜愛。當然,當代理之間比較疏遠時,對話的積極程度同樣會下降。
通過加入第一系統思維,研究者使人工代理更接近人類的行爲和思維方式。代理能夠更好地理解和滿足基本需求、情感和社會關系,從而更準确地模拟人類行爲。
總結
雖然人類代理看似接近人類行爲,但仍然存在不少不合理之處。研究者發現,随着模拟時間的延長,人類代理的不合理行爲逐漸增加。此外,他們在理解常識方面存在缺陷,偶爾會犯一些 " 闖入單人浴室因爲誤以爲浴室都是多人的 " 等錯誤。
實驗還表明,人類代理可能缺乏獨立的人格。過度的協同作用可能導緻代理的一些人格特質被重新塑造,包括興趣愛好等。
此外,應用人類代理技術時需要認真考慮倫理問題,包括錯誤的嚴重影響和用戶對代理的過度依賴等問題。
盡管如此,人類代理邁出了實現 " 借助大模型打造一個反映可信人類行爲的交互式人工社會 " 的第一步。他們通過綜合第一系統和第二系統思維,結合記憶、計劃和反思的能力,相對準确和可信地模拟人類行爲。這一進展對于遊戲行業、人機交互領域以及智能社會學的研究都具有重要意義,爲未來的研究和應用提供了新的方向和可能性。
參考文獻
[ 1 ] Bates J. The role of emotion in believable agents [ J ] . Communications of the ACM, 1994, 37 ( 7 ) : 122-125.
[ 2 ] Mark O. Riedl. 2012. Interactive narrative: A novel application of artificial intelligence for computer games. In Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence ( AAAI ’ 12 ) . 2160 – 2165.
[ 3 ] Georgios N. Yannakakis. 2012. Game AI revisited. In Proceedings of the 9th Conference on Computing Frontiers. ACM, Cagliari, Italy, 285 – 292.
[ 4 ] Park J S, O'Brien J C, Cai C J, et al. Generative agents: Interactive simulacra of human behavior [ J ] . arXiv preprint arXiv:2304.03442, 2023.
[ 5 ] Wang Z, Chiu Y Y, Chiu Y C. Humanoid Agents: Platform for Simulating Human-like Generative Agents [ J ] . arXiv preprint arXiv:2310.05418, 2023.
[ 6 ] Daniel Kahneman. 2011. Thinking, fast and slow. Farrar, Straus and Giroux, New York.
[ 7 ] Paul Ekman. 1992. An argument for basic emotions. Cognition and Emotion, 6 ( 3-4 ) :169 – 200.
[ 8 ] R.I.M. Dunbar. 2009. The social brain hypothesis and its implications for social evolution. Annals of Human Biology, 36 ( 5 ) :562 – 572.
[ 9 ] W.-X. Zhou, D. Sornette, R. A. Hill, and R. I. M. Dunbar. 2005. Discrete hierarchical organization of social group sizes. Proceedings of the Royal Society B: Biological Sciences, 272 ( 1561 ) :439 – 444.