撰文 | 李 熙
編輯 | 楊博丞
題圖 | IC Photo
電子遊戲業經曆了三十多年的牛市,遊戲中的 NPC 在畫面視效上有了飛躍,然而互動智能上并沒有給玩家相似的體驗提升。
玩家們在 1995 年的國産角色扮演遊戲裏,見過漁夫 NPC 隻會重複一句 " 今天是釣魚的好天氣 ";在 2017 年的育碧開放沙盒遊戲裏,聽過玻利維亞鄉民 NPC 反複隻說單調的西語粗口。
其他領域的人工智能已經改頭換面,但用在遊戲 NPC 上的人工智能長久以來還像複讀機。" 身邊槍林彈雨,NPC 八風不動 " 的哏,已經讓瑞恩 · 雷諾茲老師拍成熱賣電影了。
電影《失控玩家》截圖
在大語言模型風靡的當下,以之改造遊戲 NPC 成爲可能。然而 2023 年 4 月 7 日,斯坦福大學和谷歌的研究者在預印本平台上發布的論文,成就遠過于業界期待:NPC 豈止更聰明,簡直算是 " 活過來了 "。
01.
開遊戲業與 AI 界 40 年未有之先河
生成式 AI 和大語言模型興起前,用 AI 改善遊戲 NPC 的努力,一般是在更易實現的強化學習方向,其中最出名的是 2019 年在 DOTA2 裏擊敗人類世界冠軍的 OpenAI 公司制作的 5 個 AI。
這種思路的概括,是用有清晰争勝目标的對抗性環境來作爲獎懲機制來訓練 NPC,最終完成的 AI 架構能讓 NPC 自我修正行爲以取得勝利目标。
OpenAI 的 DOTA2 AI 與人類對戰截圖
不過遊戲業的産品生态不止于此。不少遊戲産品以奪旗、清空敵手等可以明确定義的對抗性勝利目标爲基礎,但很多遊戲沒有這種對抗性,遊戲機制是模拟下廚、賣雜貨、拖拉機耕地、校園戀愛等随機度更高的活動。更多遊戲的機制是開放性沙盒,沒有明确定義的取勝路徑與規則。
這些遊戲的 NPC 功能如何從 AI 技術革命中獲益,很長時間内業内大公司暫時還沒明确答案。
然而 2023 年 4 月中旬谷歌與斯坦福大學研究者的論文《生成式行爲體:人際行爲的交互式互動》,給出了通往答案的路徑:用大語言模型,讓沙盒模拟遊戲裏的 NPC" 獲得生命 "。
研究者稱,過去四十年來,學界嘗試過創造行爲可信的 NPC 的各種途徑,但在實際應用中,這些途徑基于簡單環境或智能體行爲的單調維度,否則無法運行。而此研究的成功,突破了上述局限。
02.
原理:ChatGPT 讓 NPC" 思考 ",本地數據庫讓 NPC" 記憶 "
簡單來說,研究者通過普通編程,爲一個《模拟人生》類型遊戲的虛拟小鎮中的 NPC 們寫好了虛拟環境設定、智能體人物設定、記憶庫架構、拟定計劃等各方面程序代碼。然後在 NPC 與虛拟環境間、多名 NPC 之間的每次接觸時,将以上各方面基礎數據、互動環境等以自然語言描述後,通過應用程序接口輸入給 ChatGPT,再将 ChatGPT 的答案作爲 NPC 下一步行爲的指令。
具體而言,研究中的 " 生成式行爲體 "NPC,其決策路徑如下圖所示:感知-錄入記憶流-檢索記憶庫-反思/計劃-行爲
" 生成式行爲體 " 決策路徑簡圖
" 感知 " 是 NPC 行爲體對互動、虛拟環境等的信息輸入,錄入 " 記憶流 " 後,與記憶數據庫對比。
然後 " 檢索 " 是從數據庫中提取相關的記憶事項,NPC 行爲體會用自然語言将事項輸入給 ChatGPT,由大語言模型來決策事項的優先級,優先級由事項的晚近程度、ChatGPT 判斷的重要度與相關性爲判斷基準。給出的答案作爲 NPC 思維流程的下一步輸入詞。
接着,數據庫與大語言模型會開始 NPC 的 " 反思 " 過程,數據庫将行爲體最近 100 條記憶事項以自然語言輸入 ChatGPT,讓大模型來推斷出由此可知最重要 / 相關的觀點。
" 檢索 " 獲取的答案、" 反思 " 得出的觀點、結合 NPC 本身的人設數據,都以自然語言自動再次輸入 ChatGPT,用大模型得出最符合人類行爲邏輯的行動指令。
試運行截圖
如此設計的用意,是因爲大語言模型在訓練期間已經被寫入了廣泛的人類行爲資料,在給出背景涵義足夠精準的提示詞時,ChatGPT 等大模型可以生成高拟真度的人類行爲預測答案。
然而在這個迅速驚豔世界的功能後,大語言模型存在小瑕疵:它不能記住每個用戶的個性化錄入内容,所有用戶與模型間的對話都不能直接修改模型的參數,任何顯得 ChatGPT 有記憶的表現都是算法在複讀最時新的用戶錄入内容緩存。
所以谷歌與斯坦福的研究者,結合存儲在雲服務器上的數據庫與 ChatGPT,來制作出能完成前述 " 思維步驟 " 的 NPC,讓它們可以實時模拟人類的自主決策。固定數據庫與軟件架構是 NPC 佐助連續性思考的 " 記憶 ",而大語言模型是 NPC 用來即時性思考的 " 靈魂 "。
03.
效果:NPC 能自行談戀愛和選鎮長了
在研究者的試運行中,NPC 智能體可以做到沒有人工幹預微操、隻給簡單指令,就能自行完成複雜事件。當研究者讓名叫伊莎貝拉的 NPC 籌劃情人節聚會時,她自行在虛拟小鎮中開始逐個邀請自己的朋友和熟人,并自行裝飾作爲聚會場所的咖啡館。
智能體與虛拟環境間的互動可以完全自發且自洽。在環境狀況設置爲 " 食物引燃 " 的狀況下," 伊莎貝拉 " 能自主做出 " 關閉燃氣竈 " 的決策。如果這用普通編程也可以做到的話,智能體接下來的 " 重做早飯 " 行爲,就是較前有顯著突破的 AI 自發決策。
智能體之間的互動,已經達到可以模拟實際人際關系中的 " 信息擴散 " 與 " 協作 " 行爲。
例如 " 伊莎貝拉 " 宣布要開情人節聚會後,她邀請到的 AI 智能體們又進一步邀請其他與伊莎貝拉無直接接觸的 AI,例如名叫瑪麗娅的 AI 就邀請自己的 " 暗戀對象 " 克勞斯一同赴會。
情人節聚會消息在 NPC 中擴散的過程
再如名叫 " 山姆 " 的 AI 宣布要競選虛拟小鎮鎮長後,AI" 伊莎貝拉 " 與 " 湯姆 " 對此有自發的議論:" 伊莎貝拉 " 詢問 " 湯姆 " 的意見," 湯姆 " 答出自己的觀點:" 老實說我不看好山姆,他與本社區已經脫節,也并不真把我們的攸關利益放在心上 "。
在研究者的兩日試運行中,虛拟小鎮的 25 個 NPC 裏,得知 " 山姆 " 參選鎮長的從單個擴散到 8 個、得知 " 伊莎貝拉 " 辦聚會的從單個擴散的 12 個,過程中完全無人工幹預。并且 NPC 們在互動内容的置信度上部分超過了真人玩家。
論文裏各種狀态下 NPC 與人類的行爲置信度對比量表
當然,論文出圈後的 "《西部世界》實現 " 熱議并不準确。仔細的觀察者們大都發現,不管所用的 ChatGPT 還是自制的 NPC 程序,并沒有真正的自主人類意識,隻是将大模型的相關性引擎性能潛力進一步發掘。
由于大語言模型的現有局限,研究中的 NPC 也經常有無厘頭的 " 幻覺 " 缺陷。例如 NPC 觀測到虛拟小鎮中有 " 公廁 ",就不認爲是 " 單人廁所 ",出現了 "AI 使用洗手間時常被其他 AI 闖入 " 的互動場景。虛拟小鎮上的商店是下午五點關門,然而 NPC 們時常在歇業時間試圖進入。有 AI 看到其他 NPC 的名字是亞當 · 史密斯,就說:" 啊我曉得你,你就是那個 18 世紀的經濟學宗師。"
論文中提到了這些缺陷,還說 " 提示詞黑客手段 - 即人類玩家用仔細準備好的對話内容來迷惑 NPC 行爲體,可以讓 AI 幻覺出從未發生的事件的記憶。"
現在很多遊戲業者認爲生成式 AI 的技術還在襁褓期,暴炒 Chatgpt 的人很多五六年前在狂吹加密貨币。有名的波蘭遊戲公司 CD Projekt Red,其動作遊戲系列的内容開發者領軍人在 2023 年 1 月說,NPC 離自行建立一個生态活躍的虛拟社區,還太過遙遠。
生成式 AI 的确是在襁褓期,但襁褓中的生物,最突出特征就是飛快的生長速度。AI 大模型将如何改變遊戲業,實在讓人充滿憧憬。