大模型玩《寶可夢》達人類水平！網友喊話世界冠軍：是時候一較高下了

基于大模型的 Agent 會玩寶可夢了，人類水平的那種！

名爲Pok é LLMon，現在它正在天梯對戰中與人類玩家一較高下：

Pok é LLMon 能靈活調整策略，一旦發現攻擊無效，立刻改變行動：

Pok é LLMon 還會運用人類式的消耗戰術，頻繁給對方寶可夢下毒，并一邊恢複自身 HP。

不過面對強敵，Pok é LLMon 也會 " 慌亂 " 逃避戰鬥，連續切換寶可夢：

最終對戰結果是，Pok é LLMon 在随機天梯賽中取得 49% 的勝率，與專業玩家的邀請賽中取得 56% 的勝率，遊戲戰略和決策水平接近人類。

網友看到 Pok é LLMon 的表現也很意外，直呼：

小心被任天堂封禁，這話是認真的。

甚至有網友喊話寶可夢大滿貫選手、世錦賽冠軍Wolfey Glick，來和這個 AI 一較高下：

這究竟是如何做到的？

Pok é LLMon 大戰人類

Pok é LLMon 由佐治亞理工學院研究團隊提出：

具體來說，他們提出了三個關鍵策略。

一是上下文強化學習（In-Context Reinforcement Learning）。

利用從對戰中即時獲得的文字反饋作爲一種新的 " 獎勵 " 輸入，不需要訓練就可以在線叠代完善和調整 Pok é LLMon 的決策生成策略。

其中反饋内容包括：回合 HP 變化、攻擊效果、速度優先級、招式額外效果等。

比如 Pok é LLMon 反複使用相同的攻擊招式，但由于對方寶可夢具有 " 幹燥皮膚 " 的能力，對其沒有任何效果。

在第三回合中對戰中，通過即時上下文強化學習，Pok é LLMon 随後選擇更換寶可夢。

二是知識增強生成（Knowledge-Augmented Generation）。

通過檢索外部知識源作爲額外輸入，融入到狀态描述中。比如檢索類型關系、招式數據，模拟人類查詢寶可夢圖鑒，來減少未知知識導緻的 " 幻覺 " 問題。

由此一來，Pok é LLMon 可以準确理解并應用招式效果。

比如面對犀牛進化形态的地面攻擊，Pok é LLMon 未選擇更換寶可夢，而是施展 " 電磁飄浮 "，該技能在五回合内成功抵禦地面攻擊，使犀牛的 " 地震 " 技能無效。

三是一緻性動作生成（Consistent Action Generation）。

研究人員發現，當 Pok é LLMon 面對強大對手時，思維鏈（CoT）的推理方式會導緻它因 " 恐慌 " 而頻繁更換道具或寶可夢。

△Pok é LLMon 害怕，不斷切換寶可夢

而通過一緻性動作生成，可以獨立多次生成行動，投票出最一緻的，從而緩解 " 恐慌 "。

值得一提的是，研究人員所用的模型自主和人類作戰的寶可夢對戰環境，基于 Pokemon Showdown 和 poke-env 實現，目前已開源。

爲了測試 Pok é LLMon 的對戰能力，研究人員用它分别與随機天梯賽玩家和一名擁有15 年經驗的專業玩家對戰。

結果，Pok é LLMon 與天梯随機玩家的勝率爲 48.57%，與專業玩家的邀請對戰勝率爲 56%。

總的來說，Pok é LLMon 的優勢在于：能準确選擇有效招式，統一使用一個寶可夢擊倒全部對手；展現出類人的消耗戰略，使對手中毒後再拖延回血。

不過研究人員也指出了 Pok é LLMon 的不足之處，面對玩家的消耗戰略 ( 拖延回血 ) 很難應對：

‍

容易被玩家的迷惑戰術誤導（迅速切換寶可夢，巧妙使 Pok é LLMon 浪費強化攻擊機會）：

團隊簡介

三位作者均爲華人學者。

論文一作胡思昊，現爲佐治亞理工學院計算機科學博士生，本科畢業于浙江大學，曾在新加坡國立大學擔任研究助理。

研究興趣包括用于區塊鏈安全和推薦系統的數據挖掘算法及系統。

作者Tiansheng Huang，同爲佐治亞理工學院計算機科學博士生，華南理工大學校友。

研究興趣包括分布式機器學習、并行與分布式計算、優化算法以及機器學習安全性。

導師劉玲，現爲佐治亞理工學院計算機系教授。1982 年畢業于中國人民大學，1993 年于荷蘭蒂爾堡大學獲博士學位。

劉教授主導分布式數據密集系統實驗室（DiSL）的研究工作，專注于大數據系統及其分析的多個方面，如性能、安全和隐私等。

同時她也是 IEEE Fellow，2012 年獲得 IEEE 計算機學會技術成就獎，還曾擔任多個 IEEE 和 ACM 大會主席。

參考鏈接：

[ 1 ] https://twitter.com/_akhaliq/status/1754337188014100876

[ 2 ] https://poke-llm-on.github.io/

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~