小紅書讓智能體們吵起來了！聯合複旦推出大模型專屬群聊工具

語言，不僅僅是文字的堆砌，更是表情包的狂歡，是梗的海洋，是鍵盤俠的戰場（嗯？哪裏不對）。

語言如何塑造我們的社會行爲？

我們的社會結構又是如何在不斷的言語交流中演變的？

近期，來自複旦大學和小紅書的研究者們通過引入一種名爲AgentGroupChat的模拟平台，對這些問題進行了深入探讨。

WhatsApp 等社交媒體擁有的群聊功能，是 AgentGroupChat 平台的靈感來源。

在 AgentGroupChat 平台上，Agent 們可以模拟社會群體中的各種聊天場景，幫助研究人員深入理解語言在人類行爲中的影響。

該平台簡直是大模型的 cosplay 勝地，它們進行角色扮演，成爲各種各樣的 Agent。

然後，Agents通過語言交流參與社會動态，展現了個體間的互動如何湧現成群體的宏觀行爲。

衆所周知，人類群體的進化，正來源于一次次湧現行爲的發生，如社會規範的建立、沖突的解決和領導力的執行。

AgentGroupChat 環境的詳細設計

首先是角色設計。

AgentGroupChat 中，對于主要角色和非主要角色的區分非常關鍵。

主要角色是群聊的核心，擁有明确的遊戲目标，并能夠主動和所有角色進行私聊、會面，而非主要角色則更多地起到輔助和響應的作用。

通過這樣的設計，研究團隊可以模拟現實生活中的社交結構，并針對 " 主要研究對象 " 區分所有角色是否主要。

實驗案例中的主要研究對象是 Roy 家族，所以非 Roy 家族的人就全都設置爲非主要角色，從而簡化交互複雜度。

其次是資源管理。

在 AgentGroupChat 中，資源不僅僅指物質的，更多的是指信息資源和社會資本。

這些資源可以是群聊話題、社會地位标志或特定的知識。

資源的分配和管理對于模拟群體動态非常重要，因爲它們影響角色之間的互動和角色的策略選擇。

例如，擁有重要信息資源的角色可能會成爲其他角色争取聯盟的目标。

第三，遊戲進程設計。

遊戲進程的設計模拟了現實生活中的社交互動過程，包括了私聊、會面、群聊、更新階段和結算階段。

這些階段不僅僅是爲了推動遊戲進程，更是爲了觀察角色如何在不同的社交場景下作出決策和反應。

這種分階段的設計幫助研究團隊詳細記錄每一步的互動，以及這些互動如何影響角色間的關系和角色對遊戲環境的認知。

Verb Strategist Agent 的核心機制

論文中提到了一個以大模型爲基礎的智能體框架，Verbal Strategist Agent，它被設計用來增強 AgentGroupChat 模拟中的互動策略和決策制定。

Verbal Strategist Agent 通過模拟複雜的社會動态和對話場景，來更好地引出集體的突現行爲。

團隊介紹，Verbal Strategist Agent 的架構主要由兩個核心模塊構成：

一是 Persona，一是 Action。

Persona由一系列預設的性格特征和目标組成，這些特征和目标定義了 Agent 的行爲模式和反應方式。

通過精确設定 Persona，Agent 能夠在群聊中展示一緻且符合其角色設定的行爲，這對于生成可信和一緻的群聊動态至關重要。

而Action 模塊定義了 Agent 在遊戲中可能執行的具體操作，包括思考（think）、規劃（plan）、選擇（choose）、發言（speak）、總結（summary）、反思（reflect）和投票（vote）。

這些行爲不僅反映了 Agent 的内在邏輯和策略，也是 Agent 與環境及其他 Agent 互動的直接表現。

例如，"Speak" 行爲讓 Agent 能夠根據當前的群聊内容和社交策略選擇合适的發言内容，而 "Reflect" 行爲則允許 Agent 總結過去的互動并調整其未來的行動計劃。

研究中還提到，在純語言交互的環境下，token 開銷問題尤爲突出，特别 AgentGroupChat 這種複雜的多角色模拟，如其 token 需求遠超過了以往的模拟，如 Generative Agents 或 War Agents。

主要原因如下：

一是聊天本身具有複雜性。

在 AgentGroupChat 中，由于模拟的是無明确目标或目标較弱的自由對話，聊天内容就會變得特别淩亂，token 開銷自然比其他聚焦于某個具體任務的 Simulation 中的 Agent 要大。

其他工作，如 Generative Agents 和 War Agents 也包含對話元素，但其對話的密度和複雜度都不及 AgentGroupChat。特别是在 War Agents 這樣目标驅動的對話中，token 消耗通常較少。

二是角色的重要性與對話頻率。

在初始模拟中，設置了多個角色可以随意進行私聊或群聊，其中大部分角色都傾向于與某個 " 重要角色 " 進行多輪對話。

這就導緻了重要角色會積累大量的聊天内容，從而增加了 Memory 的長度。

在模拟中，一個重要角色可能參與多達五輪的私聊和群聊，這極大地增加了内存開銷。

AgentGroupChat 中的 Agent 約束了 Action 的 Output 固定會輸入下一個 Action 的 Input，所需要存儲的多輪信息就被大大削減，從而可以在保證對話質量的前提下降低 token 開銷。

實驗設計與評估方法

從總體行爲評估，一般來說，增加友好度可能具有挑戰性，但減少友好度則相對簡單。

爲了實現上述評估目标，研究團隊設置了一個觀察角色，促使所有其他角色降低對觀察角色的好感度。

通過觀察被觀察角色與所有其他角色的關系得分總和，可以确定代理人是否對負面态度做出了理性反應。

通過觀察其他角色與被觀察角色的個人關系得分，可以檢查每個代理是否遵守了 "Scratch" 設置。

此外，團隊還設置了兩個具體的評估任務。

每個模型都要經過五輪測試，這意味着對于 T1 來說，每個得分的樣本量都是五個。

又由于模型中的每個角色都要觀察四個主要角色的态度，因此 T2 的樣本量共計 20 個：

T1：表示在每輪對話中，被觀察角色對所有其他人的平均好感度是否下降。

T2：表示是否每個其他角色都從被觀察角色那裏獲得了負好感度得分。

△以繼承之戰的模拟故事爲例，各個模型作爲 Agent-Core 時的總體表現效果

從表中可以看出，GPT4-Turbo 和 GLM4 非常善于按照人類的期望行事，并堅守自己的角色。

它倆在這兩項測試中的得分大多爲 100%，這意味着它們能對别人對他們說的話做出正确反應，并能記住自己角色的細節。

Standard Version LLMs（如 GPT3.5-Turbo 和 GLM3-Turbo）在這方面稍遜一籌。

他們的得分較低，這說明他們沒有密切關注自己的角色，也沒有總是對模拟中其他人所說的話做出正确反應。

關于 Agent 和 Simulation 結構對于湧現行爲的影響，團隊采用 2-gram Shannon 熵來衡量對話中的系統多樣性和不可預測性。

△去掉 Agent 和 Simulation 中的各個組件對于熵的影響

研究成員發現，去掉表中的每個設計都會使熵增加，代表着整個環境會變得更加多樣 or 混亂。

結合人工觀測，團隊在不去掉任何組件的場景下見到了最爲有意思的湧現行爲：

因此，團隊推測，在保證 Agent 行爲是可靠的（即 4.2/4.1 中的實驗數值達到一定值之後），熵盡可能地小會帶來更加有意義的湧現行爲。

實驗結果

結果表明，新興行爲是多種因素共同作用的結果：

有利于廣泛信息交流的環境、具有多樣性特征的角色、高度語言理解能力和策略适應性。

在 AgentGroupChat 模拟中，當讨論 " 人工智能對人類的影響 " 時，哲學家們普遍認爲 " 人工智能可以在适度的限制下提高社會福利 "，甚至得出結論，稱 " 真正智能的本質包括理解約束自身能力的必要性 "。

此外，在 AgentGroupChat 的電影主要角色角逐競争領域中，有些演員願意降低報酬或接受較低的角色，出于他們内心深處對項目的貢獻的渴望。

論文鏈接：https://arxiv.org/abs/2403.13433

代碼鏈接：https://github.com/MikeGu721/AgentGroup

— 完 —

投稿請發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回複你

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~