大學教授跳槽騰訊，用1年時間解決行業難題？

廣闊天地，大有作爲。

文 / 以撒

又是一年 GDC 落幕。這個關乎遊戲産業未來的「遊戲圈春晚」，年年都是神仙打架。今年的情況可能更特别——「AI+ 遊戲」是這一年的關鍵詞，這是現在最前沿、最受關注的領域。所以沒兩把刷子的團隊，可能都很難在這裏分享。

不過中國團隊還是很争氣，以騰訊、網易、米哈遊、字節爲首，他們組團參與這個頂級盛會，就 AI、渲染、跨端等多個維度與全球遊戲開發者做了分享和交流；騰訊系海外全資及控股工作室 Digital Extremes、拳頭、Supercell 等也帶來近 10 場分享。足以見得，我們整體上在很多方面的水平确實已經上了國際牌桌。

這些分享中讓我印象深刻的一場，是騰訊魔方技術中心 AI 團隊負責人 Elvis 分享的技術：「《火影忍者》手遊：針對格鬥遊戲大規模強化學習的優化」。它是 GDC AI 峰會 16 場主題分享中的一場，含金量相當高。研發遊戲 AI 的團隊并不少，它特别在哪兒？

你可以這麽理解：在格鬥遊戲領域，這是全球首次這樣應用強化學習技術——在此之前，根本就沒多少人嘗試用三四百個機制各異的角色，去做大規模的強化學習，畢竟這訓練成本想想就非常恐怖。但魔方這支 AI 團隊花了一年多時間，就找到了高效率的解決方案，報名 GDC 後，這個議題也很快被官方 pick 了。

在這背後，他們到底經曆了什麽？我們和負責人 Elvis 聊了聊，發現 Elvis 和這支團隊近年的曆程還挺有趣。

20 年經驗學術大佬，

加入騰訊做 AI

我們不妨從 Elvis 的故事聊起：和很多人一樣，他小時候的夢想是當科學家；但和大多數人不一樣的是，他真的一步一步讀到博士，實現了科研夢想。

早期他研究過遊戲引擎，拿過中國發明家協會的發明銀獎；讀博時，他研究的專業是仿真系統；後來他又去 IBM 研究過超級計算機的大規模仿真系統，順便拿了 ACM 的全球論文獎……後來，他就一直在海外擔任大學教授，課程依然涉及遊戲開發。到現在，他在物理仿真、大規模虛拟世界、遊戲 AI 等領域的研發經驗已經有 20 多年。

這樣一個學術大佬，爲什麽選擇加入騰訊做遊戲 AI？

最大的原因，可能是在高校任職多年後，他逐漸發現：夢想并不像現實那樣美好。

Elvis 說，之前在海外時，大部分高校的運作模式和他小時候的想象不太一樣——「大家都很重視 KPI，可能每年會給你一個棒形圖作爲推手，統計每個教授的文章發表數量、排名。」重視研究倒無可厚非，但關鍵在于，他們在申請研究經費時，往往要寫上未來三年的發表量，如果某一年審核不達标，經費可能就拿不到了。

這一點讓 Elvis 挺迷惑：「如果真的要做一個很有影響力的研究，你怎麽可能在還沒做之前就知道自己每一年能發表多少呢？你連研究是否成功還不知道呢！」特别是久而久之，許多年輕的教授都會順着這樣的規則，傾向于去做非常保守、安全，基本沒什麽應用場景的研究。因爲考慮到經費和學校給到的壓力，他們沒有這個冒險的空間。

但 Elvis 可能天生是個不安分的人：他真正想做的，是更有影響力、有大規模應用場景的事。結果機緣巧合，他 20 多年的老朋友——魔方的技術總監，正好和他聊到了這件事。聊過後，他很快就決定加入魔方，去從頭組建一支 AI 技術團隊。

有騰訊的平台在，這支團隊組建得不算困難，成員中既有遊戲行業從業者，也有像 Elvis 一樣的科研工作者。有意思的是，比起團隊成員的實踐能力，Elvis 最看重的一個因素，是聽起來比較虛的「熱情」。

熱情這種事要怎麽測試？Elvis 說，他每次在面試環節，都喜歡提兩個特别的問題——爲了保護「機密」，題目我不能具體描述，但你可以想象到，他提的是那種常見的開放性題目。比如經常被網友調侃的「一頭牛重 800 公斤，一座橋承重 700 公斤，請問牛怎麽過橋？」（僅爲舉例，真實題目還是更嚴謹一些）

當然，他問這個不是爲了一個标準答案，或者抖機靈的回答，而是會一直問面試者：「還有沒有更好的方案？有沒有更好的回答？」一次一次問下去，即便說不出最優解，但隻要能耐心地一直探究下去，這種熱情其實就比大多數人強了。

一年時間，

解決世界性難題

團隊組建起來之後，Elvis 面對的第一個項目，就是個艱巨的挑戰。

這個項目，是用強化學習的方式，爲《火影忍者》手遊研發角色的對戰 AI。爲什麽魔方會想到做這個？Elvis 說，他們并非一個純粹的科研團隊，而是貼近産品的技術團隊，他們做的事都是爲了解決項目組的需求。

而這個 AI 主要解決兩個需求：一個是在「曉 · 覺醒」和「爬塔玩法」等 AI 挑戰賽中挑戰 AI；另一個是因爲《火影忍者》手遊角色超多，光靠人力驗證平衡性會很難，如果能用 AI 的自我對戰提供大量數據參考，調整起來就會更有效率。聽起來很實在，但講真，這無論對《火影忍者》手遊，還是魔方來說，都算是一個相當激進的創新。

強化學習和傳統的行爲樹 AI 不一樣，不是靠固定的動作路數來出招，也沒有數值上的加成，而是要通過自博弈（Self-play）的訓練方法，讓 AI 左右互搏，模拟人類的反應、技巧，像真人一樣公平地走位、玩心機、拼操作，不斷提升水平。在技術層面，這倒不至于特别難。

但對《火影忍者》手遊這種類型的産品，它太難了：遊戲裏的角色有三四百個，每個人都有一套獨立的機制、動作模組，總技能數上千。這個數量一多，訓練時間和算力成本就成倍上升——「20 個角色的對局要訓兩天，如果是 400 個角色，對局數起碼是 200 多倍。你可以想象，這樣訓下去可能一年多才能訓完一次，這是不可行的。」

在初期，Elvis 就和團隊攻堅這個難題。大概一年後，他們找到了一種巧妙的方法，直接讓訓練需要的時間和資源都下降了 90%。

對這種方法，Elvis 有一個比喻：「張無忌學太極劍時，張三豐讓他忘記招式，我們的做法有點類似。」在傳統方案中，AI 要記住每個對手的技能，再一一查找 ID，進而用對應的方式反擊——這就好比讓張無忌把天下所有門派的武功招式都記住再去打架練習，等他一遇到新的對手，又要從頭學習一遍。

而新的方案，就是「忘記招式」——不再讓 AI 查找技能，而是把所有技能标出詳細的屬性，比如 XY 軸的攻擊範圍、起手的速度、後搖時間的長短……讓 AI 識别這些泛化的屬性，把所有招式都看成同一種武功心法，用已有的經驗應對。這樣一來，既能省去查找和訓練的時間，也不用擔心遇到新角色要再次學習。

解決了這個最大的難題，魔方在格鬥遊戲 AI 上的強化學習技術和應用，可以說已經在世界範圍内領先了。《火影忍者》手遊本身也很争氣，已經保持了 8 年常青和連續增長。

除此之外，他們也會遇到一些其他層面的問題。比如 AI 的打法非常務實：爲了保證獲勝，它往往會隻用效果最好的技能，結果就是一些輔助手段一直捏在手裏沒用過。這種做法其實沒什麽不對，但從項目組的角度來看，這種模式不夠「拟人」，也體現不出很多角色的設計特點。

爲了解決這個問題，他們又引入了更加豐富的獎懲體系——強化學習的基礎原理，就是通過不同的獎懲條件，讓 AI 一次次不斷接近更加「正确」的行爲模式。舉例來說，設置「三技能使用」的獎勵，就是鼓勵 AI 多用大招，要麽用來斬殺對手，要麽在保證能銜接技能的情況下放大招。這些如果放在 AI 絕對理性的判斷下，可能沒那麽「有效」，但這種打法顯然是更精彩、更拟人的，畢竟哪個人類玩家會不喜歡秀呢？

後來，除了解決一開始的兩個需求外，這項技術也被應用到了《火影忍者》手遊 2022 年的「曉•覺醒」活動裏。這場人機大戰一開打，就引起了相當多玩家的挑戰和熱議。有趣的是，在活動最難的第三階段，還有 10% 的玩家戰勝了 AI。

在未來，這項技術還有很大的發展空間。比如結合角色設定，他們可以嘗試訓練出更加性格化的 AI，讓角色給人的感受更加立體、真實；另外，他們也正在探索一些類似爬塔的，與玩法相結合的新模式。不管怎麽用，大概都能讓玩家有更新奇多元的體驗。

遊戲行業的能量，

遠超我們想象

在 GDC 之前，這套技術方案已經在去年的世界人工智能大會分享過一次，這次也是它第二次在世界舞台上露面。GDC 現場，Elvis 分享完後，不少遊戲開發者都忍不住圍上來，排隊與他繼續交流。

有一位海外開發者問到「如何保證 AI 忍者的樂趣？」，Elvis 說：「遊戲的核心還是要好玩，所以 AI 的難度設計并不是越難越好。實際上，經過我們的測試，如果僅保留以勝利爲目标的獎懲體系，AI 爲了獲勝，戰鬥行爲會變得非常保守，讓戰鬥體驗不那麽有趣，這也是爲什麽我們還加入了第二套更加細緻定義忍者行爲的獎懲體系，讓 AI 忍者的行爲更有個性，更好玩。」

和 Elvis 聊到這些經曆，讓我挺感慨的——魔方在 GDC 分享了全球首次将強化學習應用于格鬥遊戲的經驗，隻是上千場演講中的一個例子而已。那麽多團隊，有那麽多故事，他們的能量彙集在一起，遊戲行業的勢能其實遠超我們想象。而國内大廠的這麽多前沿技術探索在 GDC 亮相，背後的意義可能也比我們想象中還要深遠。

在 36 年前，首屆 GDC 大會由 Chris Crawford 在自家的客廳中舉辦，參會人數僅僅 25 人；而 36 年後，這一屆 GDC 在美國舊金山最大的會議中心舉辦，裏面聚集了 1000 多場演講、近 3 萬名從業者，演講提案要經過專家委員會多輪篩選，據說申報最終通過率可能不足 15% ……有如此強大的影響力，可以說 GDC 已經代表着遊戲行業最前沿的動向和未來趨勢。

反過來說，這些登上 GDC 的開發者和團隊，都在積極擁抱全球化的遊戲研發進程，并用自己的探索影響着遊戲行業的未來。不管平時怎麽調侃國内大廠，這一點我還是挺 Respect。

就拿魔方來說，從一個玩家的角度出發，我從來沒期望過《火影忍者》手遊搞這麽前沿的 AI 技術；從開發者角度思考，從頭建團隊、做這麽激進的方案，好像也有點危險。尤其是在這幾年，能把團隊養活都不錯了，還有多少人顧得上搞這種超長線的投資？

但從功利的角度想想，這或許也是因爲此前的一些經曆，讓魔方對前沿産品所需的積累和儲備格外敏感、敢去沖這樣的項目。好比 Enzo（魔方總裁張晗勁）說的：「就像自己天天在家練功夫，突然有一天發現外面的人都用上機關槍了。這時你的第一反應不會是爲什麽我這次沒打赢，而是開始懷疑，我大概率打一萬次也打不過。」

原文：晚點 LatePost 報道

所以，自從魔方 AI 團隊的技術以《火影忍者》手遊爲範本取得多項專利後，他們的「集海訓練系統」也陸續應用到 FPS 領域的《暗區突圍》手遊，以及另外三款在研新品中。AI 團隊規模人數，在 2023 年擴充了 50% 左右。除了遊戲内的智能 AI 外，他們也開始探索應用于不同品類遊戲的生成式 AI 項目，大大加速了遊戲美術和動畫資源的生産效率。

在産品層面上，整個射擊品類的成績，也是靠他們這種勢頭沖出來的。從《獨立防線》到《王牌戰士》，再到《暗區突圍》，在付出八年時間、三代産品前赴後繼的努力之後，魔方終于拿到了射擊品類的門票——發行 1 年，全球用戶已經超過了 1 億。

而上升到騰訊，乃至其他頭部大廠的層面，這一點其實是一樣的——如今騰訊已經有了足夠充分的條件和位置，他們就是一定要走向全球、影響未來的。

怎麽影響呢？有一些挺實在的例子可以聊聊。比如 Elvis 就提到，他在魔方很開心的一個原因是：他在高校的研究成果，可能隻會有幾百人看看論文，根本沒地方應用；而在遊戲團隊的研發成果，大概率會和數百萬玩家見面。

這或許也關系到做學術和做工程的本質區别。Elvis 舉了另一個例子：「科學跟工程最大的區别在哪？有一篇關于網絡遊戲架構的論文曾在 2004 年發表，它是這個領域裏引用量最高的論文。但是從 2004 年到 2024 年，從來沒有一個成功的遊戲應用它的架構，一個也沒有。」

「我經常舉這個例子——科學跟工程最大的區别就在這裏，工程不一定要非常創新，不一定要做很多高大上的事情，但一定要解決真正的問題。」

而放眼全球，遊戲廠商的優勢就在這裏。以騰訊爲例，如今它已經在海外通過投資并購，或者自建了龐大的團隊，全球化也早就布局已久——早在 2008 年就投資了拳頭，2021 年還組建了 Level Infinite 全面出海；最關鍵的，是它擁有極大規模的用戶，這正好就是行業未來發展所必需的，前所未有的技術挑戰和訓練條件，在這麽多用戶的接觸和碰撞之下，真正的應用會放出火花。

如今，中國廠商已經在這條路上邁出了一大步。我相信在不久的未來，我們還能見到更厲害的成果，看到他們實實在在地讓遊戲行業變得更好。

遊戲葡萄招聘内容編輯，