1000個智能體打造《我的世界》，北大校友35頁技術報告揭秘

，背後原理揭曉了！

團隊全新公開35 頁技術報告，詳盡解密 AI 智能體如何産生專業化分工、社交互動、甚至傳播虛拟宗教……

其中最精彩的，當數團隊整活兒：

讓牧師 NPC 引入虛拟宗教，最後發現該宗教在 500 個智能體（橫跨 6 大城鄉）中進行了廣泛傳播。

據介紹，項目整體由一個名爲PIANO 的架構提供支持，它核心解決多智能體交互問題，用于确保多個輸出流的一緻性。

接下來，團隊使用受人類曆史啓發的文明基準，來分别評估單個智能體和多智能體的行爲表現。

出人意料的是，在投放了 30 個初始配置完全相同的智能體後，一群 AI 經過一番互相試探，最終竟産生了社會分工。

而在更大範圍内，有關舞蹈、生态意識和惡作劇等話題的讨論表明，多智能體在不同區域竟形成了不同文化圈。

看完這些，難怪有網友驚呼：

我們生活在模拟矩陣中，未來就是現在。

全新 PIANO 架構

這個項目代号Sid，由北大校友、MIT 教授 Robert Yang 發起，最終目标是将智能體無縫整合進人類社會中。

前一陣，團隊展示了由 GPT-4 驅動的 1000 個智能體如何在「我的世界」中創建新文明，當時就引發大量關注。

不過對 Sid 團隊來說，這離最終目标還很遠，其交互範圍和複雜性仍然有限。

按他們的話來說：

目前單個智能體在自主決策和執行上已經有了很大提升，但構建能夠自發社交互動甚至共同進步的智能體仍然是一項根本挑戰。

與此同時，靠大模型驅動的智能體也存在諸多問題。

比如，即使配備了用于規劃和反思的模塊，智能體也經常陷入重複，甚至在幻覺積累到一定程度後出現錯誤。

更可怕的是，這種錯誤還會出現 " 人傳人現象 "，導緻進一步的幻覺和循環。

對此，團隊提出了全新架構"PIANO"（通過神經編排的并行信息聚合），其中 P 代表感知模塊，I 代表智能核心，A 則是行動模塊。

這一架構被用來回答：

智能體如何在多個時間尺度上有意識和潛意識地同時思考和行動？

團隊打了個比方，這就好比鋼琴的琴鍵，代表着不同的大腦模塊，當它們一起演奏時，可以産生優美的和弦。而在智能體中，同樣産生了類人的特質。

具體而言，PIANO 架構基于兩個原則設計：

并發性原則

連貫性原則

首先，類似于系統 1 系統 2，智能體應該能夠同時思考和行動，這意味着智能體可以在處理即時反應的同時，進行緩慢的深思熟慮。

這種設計允許智能體在實時環境中與低延遲交互，同時保持複雜決策的能力。

其次，智能體産生的多個輸出應該是一緻的。

爲了确保這一點，PIANO 引入了認知控制器（CC）模塊，它負責做出高層決策，并将這些決策轉化爲下遊決策，以将其轉換爲每個電機模塊中的适當輸出。

這一設計減少了信息量，并使得智能體能夠在多個輸出流之間保持一緻性。

基于上述原則，PIANO 由10 個并發運行的不同模塊組成：

比如，目标生成模塊可以根據智能體的經驗和環境的相互作用，來生成智能體的目标。

舉個例子，假如一個智能體以前是幹物流的，現在新遇到了堵車情況，這個模塊可能就會生成一個新目标：

與其他智能體協作，設計一種新的物流方案。

在這裏，感知處理模塊負責處理來自環境的輸入信息，如視覺和聽覺感知，并将其轉化爲智能體可以理解和處理的信息。

接下來，技能執行模塊可以讓智能體在環境中執行特定技能或動作，如在 Minecraft 中挖掘、制作或建造結構。

遇到一些突發情況，動作反射模塊負責處理即時反應和行動，這個模塊由小型、快速的非 LLM 神經網絡構成。

而且，在整個過程中，智能體還可以通過行動意識模塊評估自己的狀态和表現，從而實現即時的調整和自我改進。

若遇到與其他智能體交流的情況，還有Talk 模塊負責解釋并生成語音。

除此之外，社會意識模塊也在其間發揮作用。它使得智能體能夠解釋和響應來自其他智能體的社交線索，支持合作與交流。

這還不算完，甚至還有一個專門的社會交互模塊，負責處理智能體之間的社交交互，如對話的理解和回應。

當然，關鍵核心還是記憶模塊。它負責存儲和檢索不同時間尺度上的對話、動作和觀察，包括工作記憶（WM）、短期記憶（STM）和長期記憶（LTM）。

這個模塊主打一個細緻，智能體不僅能記住每個步驟的描述，甚至還能記住對話中的提問、回答的順序以及雙方強調的重點内容。

最後，前面提到的認知控制器（CC）模塊，負責保證整體輸出連貫性。

新的文明誕生了

爲了評估智能體的表現，團隊分别測試了單智能體和多智能體的行爲。

對于單智能體，一個重要評價标準爲：能否産生專業化分工。

爲此，團隊提出了評估智能體專業化的 3 個基本原則：

在角色選擇和轉換方面，擁有自主性

其專業化應該通過互動和經驗來體現，沒有明确的方向和限制

其選擇的角色，應該體現在與其專業相一緻的行爲中

展開來說，團隊在一個 Minecraft 村莊中，投放了30 個初始配置完全一樣的智能體。

實驗預設的前提是，隻有存在社會意識，才會驅動社會分工産生。

而這 30 個智能體需要通過社交互動，了解其他人的行爲動機，并最終确定自己的分工目标。

最後結果顯示，這群智能體自行發展了不同的職業，有農民、工程師等。

且一旦移除社會意識，智能體會選擇更多的同質角色，這些角色也不會随着時間推移而持續下去。

接下來，團隊繼續測試了多智能體，主要聚焦在一群 AI 如何處理社會規則。

通過觀察一個由25 位選民組成的社會，團隊發現這群智能體最初遵守了預設的稅法，按照規定的時間繳納稅費。

然而，随着社會中有影響力的個體對公衆輿論産生影響，選民們通過民主投票決定了稅率的調整。

當然，新的稅率通過後，大家也按照新稅率完成了稅款支付。

更進一步，團隊繼續擴大了測試範圍——分布在 6 個城鄉的 500 位智能體組建的社會。

結果顯示，智能體自發地創造并傳播了文化内容，例如舞蹈、生态意識和惡作劇等，而且還形成了一個虛拟的宗教，并通過智能體協會進行傳播。

更有意思的是，城鄉之間最終還形成了不同的文化圈。

看完智能體的上述表現，網友們也直言非常興奮，紛紛期待更大規模智能體的到來！

你怎麽看？

論文：

https://www.openread.academy/zh/paper/reading?corpusId=512036838

GitHub：

https://github.com/altera-al/project-sid

參考鏈接：

[ 1 ] https://digitalhumanity.substack.com/p/project-sid-many-agent-simulations

[ 2 ] https://x.com/GuangyuRobert/status/1852397383939960926

[ 3 ] https://news.ycombinator.com/item?id=42035319