騰訊、莉莉絲等員工分享：如何更好地用新技術「摸魚」？

以下文章來源于GT遊戲圈，作者遊戲扳機

編者按：自去年ChatGPT爆火以來，關于AI+遊戲的讨論就一直沒有停止過，并且逐漸兩極化：一方面是大量「萬字長文解析AI」、「AI再度刷新記錄」等文章的輪番轟炸；另一方面則是始終有些「難産」的新技術和新落地形式。

換句話說，除了生産素材等通用解法外，我們希望看到AI在更多遊戲研發的實踐中落地，在保證效率和成品效果的同時，讓人類能更好地「摸魚」。

爲了綜合遊戲開發和AI技術的多方視角，遊戲扳機邀請了某頭部工作室項目AI負責人Rolan、莉莉絲内容算法負責人膠水、騰訊光子工作室TA黃志翔、聆心智能聯合創始人兼CTO鄭叔亮、「絕世好武功」制作人留白，共同探讨AI在實踐落地中的困難、具體和Gameplay的結合形式。

以下爲本次分享的原文：

Rolan，某頭部工作室項目AI負責人，算法研究跨策劃的遊戲AIer，NLP科班出身，早前在大廠AI中台做研究員，後接觸遊戲AI業務後轉做基于RL的AI agent研究和落地；爲推進AI技術在遊戲研發尤其是玩法體驗側的落地，從中台來到工作室；目前任項目AI組負責人兼任AI技術策劃，團隊主攻基于RL和LLM的AI agent技術。

膠水，莉莉絲内容算法負責人，清本美碩，曾在新能源汽車、遊戲等行業從事AI相關工作，專業領域包含數據科學、深度學習及生成式人工智能，職能包含算法研究、算法開發、算法工程部署及産品業務負責人。過去項目經曆包括遊戲内聊天機器人、角色動作生成管線、遊戲關卡AI及語音生成模仿算法等。目前主要在開發落地基于LLM的複雜應用構建，如智能客服Copilot Agent、AI夥伴Agent。

黃志翔，騰訊光子工作室TA ，LitGate 社區入駐達人，《玩具帝國》制作人，從RPG Maker玩到Unity、UE的獨立遊戲人。

鄭叔亮，聆心智能聯合創始人兼CTO，清華大學計算機系本碩，曾任四達時代集團研究院首席架構師和大視頻事業部VP，寶尊電商AI Lab技術總監，曾參與創辦心理教育公司北京大腦智庫，聆心智能是第二次創業。喜歡學習研究各類技術和解決方案，包括視頻、大數據、AI等，近兩年開始學習大模型，深陷其中不能自拔。

留白，幻魔寺「絕世好武功」制作人，一直在修行，總想幹點不好幹的事。

成志&ROSA，主持人，AI+遊戲市場觀察者，GameTrigger投資副總裁

他們探讨的話題包括但不限于：

究竟什麽是AI原生遊戲？

AI目前與Gameplay的結合主要在哪些方面？

Character AI算是遊戲嗎？

智能NPC的構成有哪些關鍵設計？

面對技術選型問題，有時候真的需要AI嗎？

LLM驅動Vtuber會是一個有趣的方向嗎？

究竟什麽是AI原生遊戲

Rolan

原生這個詞最早是在講技術層的雲原生，LLM是去年年末在NLP的圈子開始火的第一波，ChatGPT真正出圈是在今年年初，當時已經有人開始去提所謂的LLM Native App，隻是還沒延伸到遊戲。

一開始我本人并沒有這麽認同這個概念，有人可能是出于對新技術的興奮感，但我覺得太早了，你說是在工程層面的大飛躍那我信，可C端體驗和技術之間差的還挺遠，甚至ChatGPT本身也不足以稱爲一個産品。

而後來各類産品出現，我自己也在遊戲内做了些功能層面的探索，逐漸發現這個命題也許沒這麽虛。即使抛開遊戲不說，LLM作爲一種C端功能，基本有兩大類，一是作爲工具，以ChatGPT爲代表的一派；二也是我們比較關心的娛樂項目這一塊，以遊戲爲主，也開始看到一些【隻有基于LLM技術，才能夠有的體驗】，這也是我對LLM Native的定義。

另一方面，LLM能夠做的增效，有時候可能本質上是它能夠幫你更好的功能可擴展化。我們在做強化學習時也會發現它提供的體驗并不一定比行爲樹強多少，它更多的是能把戰鬥Bot這個功能給Scaling，即用行爲樹不一定能這麽快Scale到這麽多角色或者場景，但是用強化管線可以。它不是跟Play層面結合的新體驗，但這種能力某種程度上算是研發層面的native，而這種管線能力是可能催生更多的設計空間的，會間接帶來新的設計體驗。

成志

最近《逸劍風雲決》很火，在RPG方向上，LLM究竟能有什麽幫助，或者說我們真的需要一個LLM在裏面嗎？

我感覺這款遊戲比較偏線性叙事體驗，有點像月影傳說系列、劍俠情緣系列，但是它又加了一些相對有自由度的設計，有一點開放世界的感覺。我原本認爲這種體驗以叙事、堆數值爲主、主角有角色模闆的，沒什麽AI可加。

但我今天發現在做任務時，如果有劇情和隊伍裏的NPC相關，可能會觸發新的對話，給玩家新的信息。這些NPC的主劇情過完之後，我其實隻是把他們當做打架時的挂件，缺乏相關的叙事表現，也沒有太強的養成層面的互動。

而這種穿插在其他劇情裏的小互動，我還挺喜歡的，很多JRPG也有類似設計，包括傳說系列和異度之刃系列，這種可能比較合适用AI去賦能。

這就可以引申到有什麽地方适合用LLM的問題。很多人第一反應就是做智能NPC，這件事的吊詭之處在于ROI可能算不明白，NPC在智能程度上可以分三層，第一個是路人，之前有老滾的GPT Mod，基本上是用在路人NPC身上，但即使智能化了，它對整個遊戲的體驗影響也不大。

第二類就像我剛才說的JRPG裏很多非主角團的攜帶性NPC，他們有一定故事背景和個性，但不是核心的叙事角色，所以ooc的風險相對較低。這類NPC做智能化收益相對較高，類似剛才劇情裏的互動，而且還能擴展遊戲原生世界的叙事能力，提供碎片化叙事的手段。

最高層的NPC是很多人都想講、也是各種二遊或者叙事型遊戲裏成分很大的NPC，但這一類才是最危險的，二遊尤其是女性向遊戲的玩家對這一塊的容忍度其實很低，他們的重點會放在角色本身帶來的、很确定性的叙事内容上，是遊戲呈現給玩家的第一手資料。

而Character AI做的其實是角色IP的二創，不在遊戲的原生内容裏。我們現在讨論的是遊戲原生内容，而一創場景裏做這類功能是很危險的，别說上線了，現在哪怕是輔助文案創作都是比較難的，雖然的确有在嘗試落地這個功能（指輔助文案創作）的團隊。

AI目前與遊戲Gameplay

的結合在哪些方面

在更加開放的沙盒遊戲中，NPC該承擔怎樣的角色，怎麽樣大家才會願意去對話交互？另外，留白老師立項時爲什麽沒有選擇線性RPG，而是更開放的沙盒。

留白

我們在立項《絕世好武功》時也在琢磨怎麽做出一些新的突破，NPC在線性遊戲的作用涵蓋了故事背景、劇情引入等重要環節，而在我做的開放世界沙盒遊戲裏，NPC的主要作用第一是豐富世界環境，讓玩家在遊戲世界裏可以遇到形形色色的人，給玩家産生一種在跟很多人玩，而不隻是AI的感覺。

我們現在還沒有用到大模型，因爲不管是邏輯思考還是執行層面，由于我們也不是做技術的，很多具體實踐方案不知道怎麽去做。目前還是通過比較笨的辦法去補充細節，包括各個NPC的行爲會産生哪些影響、數值的變動是什麽樣的規則等等。

我們從底層開始設計框架，包括世界的構成、可交互的物品和内容、NPC的出生死亡等，整個過程都可以動态調節，這也是沙盒遊戲的一個核心點，你可以通過系統化設計或者交互産生更多的玩法。它的前提條件是必須達到非常大的體量，量變産生質變，否則一定會比線性遊戲差很多，因爲線性遊戲的設計感要求極強，玩家進入遊戲之後成長、曆練、交互等都會提前規劃。

我們希望GPT可以接入NPC的思考層，讓它更偏向于人的生理或邏輯思考。我覺得這是大語言模型的優勢，我們寫出的文案、現實規則等，交由LLM的語義識别去理解，然後去調動遊戲内接口，産生可執行的行爲，這點現在已經可以滿足需求。

我們現在在做各種底層的AI元件，比如說行爲單元等等，期望GPT的作用可以替代現有人工編寫的行爲樹和驅動底層行爲的思考邏輯。

如果能落地把LLM融合進遊戲的話，我希望它可以做三件事情：

1. 第一是接管現在最上層的NPC思考層，NPC會根據自己所處的環境或者條件、和其他人的關系，來确定他優先做哪些事情。

2. 第二點和對話有關，我們還是會編一些事件，但是事件裏的對話文本可以根據當前情況而動态輸出，這樣也可以增加代入感，玩家每次的體驗都不一樣。

3. 第三點是希望NPC能理解玩家輸入的語義，并且能反映到執行層面，比如我跟NPC說我們倆關系很好，希望它去幫我去做一件什麽事情，它理解了意思後就會自動執行它的行爲層，這也是我覺得沙盒類遊戲可以随意交互、破壞、打亂遊戲節奏等條件下可以發揮的點。

由此也聯想一下之前談的元宇宙，我的理解它并不是所有人都在一個虛拟世界過第二人生，而是一個互聯互通的平台，在這個平台之上有很多小世界，每個世界裏的NPC都由AI控制，而世界的主角隻有玩家一人。我們現在也在摸索，希望通過打造一個生動的武俠世界，裏面所有的行爲交互完全由玩家來決定，你可以不按照一般的套路去完成遊戲，但也能在裏面得到相應的樂趣。

不知道這種NPC的智能決策發展到什麽階段了呢？大概有什麽技術路徑？

我之前寫的文章裏提到一個AI NPC的三大模塊，剛剛留白老師基本都提到了，對話肯定是希望的，但Speaker有一些潛在的技術坑，反而可能是比較難落地的點。

關于NPC的思考層，也就是Humanity模塊，雖然很多人覺得思考和對話的設計單元是一起的，但實現上其實差很遠，是兩個不同模塊，思考層反而比較合适去切入。

而且我覺得挺有意思的一個觀察是，技術出身的人大部分先想到的都是Speaker或者描述文本，反而很多遊戲設計出身的制作人，他們想到的都是去感知世界。有可能是在實際執行，尤其是做過設計之後，會感覺到難寫的部分很多時候在于對遊戲裏各種狀态的判定，NPC感知周圍的環境，不管是天氣、地理位置、心路曆程等，然後再總結出下一步的行爲，這是一個映射關系，跟對話無關，很多遊戲出身的人覺得這一塊才是最有價值的。

很多遊戲尤其是開放世界和沙盒遊戲裏都會要去堆料，而光堆料是沒用的，關鍵是這些料能夠湧現其他的互動，最近的博德之門3和塞爾達都是典型代表，當物理和元素規則能夠普适地與堆疊的料産生互動，才能産生所謂的湧現。

這一塊實際上做的時候，最大的工程量在于如何寫從料到反應結果的演化過程，而AI就有可能賦能這個Evolver模塊。什麽東西、在什麽情況下、被誰、做了什麽事、會發生什麽，這樣的映射過程要考慮的内容是很海量的。而如果料不夠多，傳統的規則系統已經幾乎可以cover了。

剛才提的Humanity思考層和這個本質上是一樣的，以前的NPC因爲受限于技術、人力，遊戲本身的屬性也是線性叙事，NPC不需要很強的實時性思考和感知，follow既定的演出表現路線（也就是腳本）就好。但如果真的要做一個沙盒，那Humanity和Evolver在技術目标上是等質的，都是爲了模拟從什麽場景輸入，感知到什麽、到可能會發生什麽這樣一個過程。

膠水

我們現在對原生遊戲沒有固定确切的定義，讨論的重點在于AI能帶來什麽新的遊戲形式。

目前人工智能生成的總體還是比較薄的系統，如果涉及複雜系統，大模型現在能力很難讓人滿意。

如果把玩法的規則也當成遊戲内容的一部分，比如塞爾達，我在想這個事情會不會變成玩法和規則上降本增效的邏輯？我這麽提問的緣由會在于眼下甚至未來一段時間通用大語言模型可能無法實時生成複雜内容，必須要依賴一層人工驗證，這背後的邏輯是因爲即便像GPT4這種世界模型，雖然在常識、數學等方面表現不錯，但在推理上仍舊會有原始數據分布導緻的偏好問題，導緻它沒有辦法去分析複雜系統和内部的規則。

而複雜系統，尤其是遊戲，我們對它在狀态轉移中的運作方式預期是一種偏好，而不是事實。什麽能給你驚喜，什麽能讓你玩得舒服，都是偏好數據，目前是依賴策劃人爲調制的。所以短期内實時生成複雜内容我感覺做不太到。現在看到比如斯坦福小鎮裏有角色可以去閑聊，但隻是看起來fancy，其實一點都不好玩。

AI想在玩法中落地

主要遇到的困難

現在的半人工智能其實還挺吃力不讨好的，從管線角度，策劃跟AI之間的配合會比較麻煩嗎？另一方面，算力成本在實踐中是什麽樣的呢？

嚴格來說不存在純粹AI控制，尤其是我們現在讨論的LLM而不是強化。本質的原因在于大語言模型在做NPC上，它隻是一個心智模型的模拟者和對話系統，但是最終都要映射回你的資産空間，但遊戲本身的表現不是語義的，Character AI不是一個遊戲，因爲遊戲必然要有表現層、資産層，如果想把LLM放在遊戲裏作爲一個功能模塊，那它一定會存在兩種系統、兩種類型數據結構之間的接口點，爲了适配這種結構點，做NPC模塊的時候肯定有一些部分不屬于LLM控制，這某種意義上算是一種理論層面的、不可逾越的邊界。

從設計角度來說，哪怕再自由開放，肯定是有一條主線的，這是遊戲設計的核心和錨點，它一定是明确可控的，在NPC上就表現爲希望有什麽功能維度，比如說它能做什麽、是否有好感度系統、是否有主動跟其他NPC社交系統等類似很具體的設計點，策劃們才能夠去抓住這些功能，去進一步設計和其他系統的互動、規劃玩家能體驗到怎樣的内容。

如果沒有這些東西，就會變成在Glow或者Character AI裏的體驗，隻能指望用戶在随意的聊天中能碰撞出什麽東西，這也是爲什麽我不太把這一類Chatbot叫做遊戲，因爲它并沒有設計性。隻要你希望去設計一些東西，它必然不可能讓LLM接管所有事情，這裏面甚至還沒有考慮成本問題。

在做設計的時候怎麽去評估一個NPC，比如對話質量的好壞，以及所謂的節目效果是否要刻意爲之呢？該怎麽考慮這種聽起來有點失控的東西？

每一個設計師都不希望遊戲是失控的，對于一個龐雜的系統，它裏面涉及的元素太多了，這也是我覺得LLM可以賦能設計的最重要原因，相當于有一個助手程序，它能幫你解決很多不符合邏輯的事件和行爲。博德之門是依靠多年時間、很多人去填充各種細節而設計出來的，并不是由bug産生的。

各種語言模型我都有嘗試，之所以我覺得這次比較有意思，是因爲你輸入信息後，你可以感覺到AI在像人一般思考，我們是否可以利用這一點，在遊戲設計中爲AI接口去做符合人的邏輯的定義的元素，或者說記憶。

比如NPC的好感度系統，它背後是有數值的，如果用語言或者說定義讓NPC更拟人地去理解數值後，再輸出結果交給下一層級去執行，這樣是否更加可靠和可落地？

AI去生成整個邏輯或者表現層顯然不太現實，但讓它分段執行任務，根據接受的信息調用符合邏輯的輸出結果，至于說做到像真人一樣的智能，可能還需要好幾年的叠代。

Rolan

類似我剛才提到的，你需要留一些設計錨點，在數據結構上類似于字段，這些數據結構就是NPC的内核，可以理解爲Inner space，它可以隔離NPC的對外以及内在，也就是用LLM賦能的一部分的中間層，這個中間層可能就是你剛才提的用去輔助設計的東西，這個肯定是可以做的。

現在主流的做法可能也在關注應該怎麽設置中間層，設置得越細，承載的功能和表現會更複雜，同時LLM終究是一個開放式、發散的模型，你越要約束它，在實現層面成本就會越高，越可能不如用行爲樹，類似我在AI不可能三角裏提到的問題。這種做法本身是很合理的，也是可以去嘗試的一個點，至于能不能實際提供你想要的功能，那就是另外一個case，會回到堆料和合理性驗證方面。

目前在對話層面，讓NPC做到像人一樣的難度在哪？

鄭叔亮

回歸大語言模型的起點，它到底解決的是什麽問題？

在大語言模型流行之前，我們做了很多年的對話系統，用相對傳統的AI技術，或者說淺層神經網絡，來解決人機對話當中的問題，希望Chatbot能像人一樣平滑地跟用戶進行多輪對話，當時能實現五輪或者十輪的對話已經是很有挑戰的事情。

直到後來大語言模型，比如GPT2出來後，逐漸讓我們看到大語言模型能夠在很大程度去解決傳統神經網絡所遇到的關鍵問題，比如短時記憶、知識引用等。在對話時AI不會犯上句不接下句、或者一些基本的邏輯問題、語法問題等。到今年GPT火出圈的這段時間，它解決的更多還是基礎語言層面的問題，說白了就是讓AI說話怎麽像正常人一樣。

其實各位老師提了很多在遊戲設計上的挑戰跟訴求，我覺得可能對于LLM的期待有點過高了，特别是語言模型的邏輯能力方面，幫助設計遊戲的框架或者串聯遊戲的關鍵環節，對于LLM來說是非常有挑戰的事情。

GPT4是目前全球範圍内能力最強的大語言模型，也是參數量最大的可商用模型，他學習了很多COT或者邏輯推理的數據，通過策略組織的方式，讓模型能夠在一定程度推演問題，現在也有一些Agent的解決方案，在沙盒遊戲當中，比如我的世界，通過設計一套策略讓AI去感知周圍的環境，包括打怪、采集資源、生存，相比于人類，這些還是非常初期的邏輯能力。LLM的下一步一定是提高通用邏輯能力，要處理的更好更深，并且能夠建立獨立的思考，具有長期記憶能力。

很多時候LLM的發展脈絡不同于我們人類智能增長，他是先學會說話或者最基本的表達，但這其實是一種概率推理的方式，本質上并沒有獨立的思維。

我們也在做拟人大模型，去年我們發布了AI烏托邦産品，對标Character AI，但裏面的角色并不會真正去思考，也不會主動記憶用戶輸入的信息，它下一步的發展一定是把深層次的思考能力，類似人類大腦前額葉區域，逐漸的構建起來。它的基礎是巨量的數據以及算力、更好更新的模型架構支持。

所以拟人也是有一個步驟，第一步先模拟人說話，第二步在對話的過程當中，讓AI智能體去理解人的情緒或者話外音，給予人類對于情緒的反饋，這是一個連接和調頻的過程，能夠讓對話體驗更加平滑。但是從根本上講，它還是一個學說話的過程，隻不過技巧會更加豐富、見到的情緒化内容會更多，因此對于人類的情緒能有一定的理解、

再往後一步需要LLM真正地去理解世界，包括我賦予它一定的人設、相關的角色和關系，都需要通過模型清晰、恰當地表達出來，這又是一個更高的挑戰，需要都邏輯思考能力和架構設計能力。現在很多文字交互式遊戲，比如海龜湯，更多利用的是Code Interpreter能力，通過半結構化的腳本做仿真執行，本質上并不是LLM自發的去構建。

我非常同意不管是做遊戲還是做複雜的具有世界觀的應用、不管是虛拟世界還是真人世界，人類設計師一定會占到主導作用。

我們做大語言模型會盡可能按照剛才的節奏逐步推進，今年年初的時候我們也開始嘗試去交付智能NPC給遊戲工作室，可以把一些世界觀的設定應用到角色的創建中，同時做一些場外的小遊戲或者營銷推廣的活動。

不過對于當時的大語言模型來說，想要不OOC也是非常難的，沒有特别成功的NPC交互案例，反倒如果退而求其次用語言模型做交互式文本創作，比如我和創作者都設定好了角色，一起去寫一些可交互劇本，後續策劃和編輯進一步去潤色篩選，這是比較能夠落地的。

至于真正的做NPC拟人化，我認爲遊戲是一個非常有挑戰、嚴肅、有難度的場景，LLM必須去設計很多外圍的東西，比如工程化内容、輔助模型、Agent架構等，去幫助遊戲實現目标，單靠語言模型本身還沒有相應的能力。

拟人化是一個很有挑戰性、但也很重要的方向，但總體是未來可期的，最近幾個月也在快速進步，把很多關聯的問題克服掉後，我相信能夠在更多的場景下實現落地。

AI+Gameplay的實際落地探索

現階段也出現了不少有意思的AI小型作品，接下來請志翔談談他在項目中是怎麽運用AI技術讓玩家體驗更好的。

黃志翔

我之前用AI結合做過兩種不同方向的遊戲，一個是純粹讓AI做美術和參考工作，一個是用LLM接到遊戲裏去産生内容讓玩家去玩。

最後發現，用AI生成美術素材、爲開發加速的遊戲，玩家反饋非常好，反而深度接入LLM的看起來不像個遊戲，比如用LLM生成NPC對話，如果沒有經過精心的叙事設計和配套的美術資産，玩起來跟一個文字遊戲其實差别不大，而且玩家還要受到各種程序上的制約，交互形式也有限，那爲什麽不直接去跟Chatbot聊天呢，這也是我覺得LLM遊戲應用的一個誤區。

反而是我之前玩GTA的時候，每次重啓任務NPC都會說出一些不一樣的話，把這種錦上添花的事情交給AI做，既不太會出現不可控的情況，而且可以減少重複感。

第二點是太依賴于AI不一定可以降本增效，反而讓開發時間更長了。比如說我在做《玩具帝國》時想畫一個諸葛連弩，而大模型裏面沒有素材導緻我還得去找參考煉丹，中間花的時間還不如我直接畫出來。還有一點在于，AI是能産生大量素材填充遊戲内容，但這不一定會讓遊戲變得有趣，反而會更像一個罐頭。

AI應用到遊戲裏面更多應該考慮的是怎麽讓玩家玩得爽，之前OpenAI的星際項目、Alpha Go下圍棋等突出的是AI能力，而我當時的設計是在RTS遊戲中，玩家可能會有不同的戰術戰隊，我想讓AI在玩家看起來動作是想偷家的時候，故意讓他能成功偷家，或者玩家布下了口袋陣後剛好讓敵人能進到口袋陣，讓玩家打出爽感，這種情況下AI會更像一個會琢磨玩家心理的人。

再比如我的遊戲有些機制比較複雜，需要做很長的新手引導，但如果我的戰術很多，我不可能每一種戰術都做出來讓玩家學習，而這時比如我想教玩家一個偷家戰術，我可以讓AI在某幾條路上大軍壓境壓過去，當玩家兩條路都打不過去時自然會嘗試從另一條路去偷并發現這種方案能成功，不知不覺就學會了偷家，這種方式下不僅讓玩家打起來很爽，也可以提高粘性。

再舉個例子，一些事件驅動型的遊戲，比如歐陸風雲裏最有意思的就是各種各樣的事件，如果我用明朝打赢了土木堡之戰，蹦出來相關事件我就覺得特别爽，但我之前試過跟AI聊一些曆史上可能發生轉折的事，我感覺他聊出來完全不在點子上，會出現不符合事件發展或者背景人設完全變掉的情況，雖然可能比較符合邏輯規範，但缺少讓玩家覺得很爽的爆點。

AI堆料固然可以一下子生成很多不一樣的事件，但還難以琢磨玩家想要的是什麽，直接用LLM生成容易讓玩家感到疲勞，不如手動設計一些真正好的事件。總結就是AI作爲陪玩，可能比單純生成資産更有意思。

面對技術選型問題，固然可以用AI驅動，但有時候真的有必要用AI嗎？

我之前試着用GPT做長文本交談的，但發現它越聊到後面就越不可控，比如海龜湯，如果能增加它的可控性我覺得是挺好的嘗試，因爲設計者可能很難考慮全玩家嘗試的内容，反而交給AI更合适。

你之前提到的問題從技術底層來說是兩個原因，第一，曆史相關話題的認知跟幻覺有比較大關系，主要是模型對自己的知識還沒這麽有信心，因爲幻覺本質上在算法層面來說，一般是Counter Fact能力的缺失，其實是神經網絡層面的問題，不是到了大模型才會有。

所有神經網絡都會有這個問題，即它不知道自己知不知道，一般來說，你不在Prompt或對齊階段裏面強行做安全性的控制，其實很難根治，是一個不斷去對細節的過程，不止大語言模型這個時代，以前我們做AI很多時候都是在處理這個問題，細節技術、數據叠代等都是爲了讓幻覺越來越少，但是不可能消除。

第二，在用ChatGPT或Character AI去玩跑團的時候，有時候會出現跑題或者劇情歪掉的情況，這就是爲什麽我會說設計得有一個主心骨。如果沒有專門去做主線設計，大模型天然就是會發散的，它不像人類有天然的邏輯主線和認知架構的，除非在Prompt層面或者做一個Storyteller Agent的架構層面去顯式地控制它，否則是很容易跑偏的，這種體驗就離不開設計師在體驗層面做更多努力。

是不是目前對于獨立遊戲或者個人開發者來說，想用LLM做類似海龜湯之類比較長的一些文本交互内容還是有比較大的困難？

取決于怎麽理解困難吧，在我看來是可做的，也有人在做了，但是它做的過程不是一蹴而就的，肯定需要不斷碰撞做設計，不斷嘗試設計原型、設計架構，不斷調整限制條件和上下文邏輯，所以它的難度不在于技術本身行不行，而是在于設計層面的推進。

目前技術方面主要在研究些什麽呢？你們會期待業界去做什麽樣的探索？

我們最近在做AI夥伴相關的内容，嚴格來說更像個對話産品。在落地遇到問題時需要去做一些設計，LLM現在還不是一個足夠通用的世界模型，你可以從參數進行一系列限制，比如說上下文長度，你可以把它類比成内存，我們做AI的時候大部分是去用它的推理能力，而推理能力會有計算錯誤率，使得它跟以前的程序計算有非常大的區别，它會有一定概率出錯。比如GPT4的有8K的上下文長度，但并不意味着都能拿來做推理，當上下文超過1000個token時推理就會有小概率開始出錯。

在這個前提下，你并沒有辦法把所有的想推理的任務跟信息丢進去，導緻你必須要去做一些額外的系統，比如RAG、 TAG之類，需要把整個系統進行召回和拆分，這樣又會涉及到一些外部系統來幫助LLM按照事實做出比較好的推理結果，所以最後問題就回到了你要先有某個需求場景，根據這個需求場景其實是一套專家設計，後續的評價和反饋數據也是針對這個需求場景進行。

清華前段時間發了一篇論文《Agent Bench》，跟我們實際的體驗非常相似，雖然GPT4非常貴，導緻你一開始會想盡辦法不去用它，但當你去做推理任務的時候，盡管會有Llama2以及其他開源模型在部分指标上看起來更好，但實際應用構建最終結果上看沒有GPT4始終是不行的。

關于技術層面可以做的事情，其實有很多是比較具體的LLM的落地，尤其是偏工程側，我這邊說一些偏功能側的東西，我認爲很多創業者或者大廠試驗性項目的同學已經有這個感知了，當把LLM運用到具體項目的時候，最明顯的問題就是如何讓大語言模型去懂你這個項目。

現在我們看到很多，比如說論文《Generative Agent》，它沒有任何背景或隻是個常識場景，GPT3.5甚至一些國産大模型其實都能cover大部分内容。或者是很火的遊戲，Jim Fan的論文《Voyager》在MC上用GPT4和3.5一起做的，核心原因是MC已經有相當多的信息已經在GPT的訓練語料裏面。

而當我們實際去跑的時候，會遇到兩類問題，但核心本質上都是一樣的，第一，如果遊戲本身需要AI去做一些簡單推理（複雜推理确實我們不會期待），遊戲設計師們很希望有一個所謂的常識引擎，而這一波大模型比起複雜推理，他們更興奮的一個點正是因爲有了常識引擎。但如果項目場景，尤其世界觀設定比較特别時，常識引擎不管是用來生成對話、文案輔助、甚至隻是效率工具，都有可能因爲架空而導緻嚴重的幻覺，非常影響實際效果，這是我們在項目端落地AI功能時，一個需要亟需解決的技術層面問題。

另一個方面是在玩法端，比如剛才提到NPC的内在建模、環境規則演化的建模，目前不是所有的模型都很擅長這方面，GPT4雖然已經能夠模拟大部分，但實際用的時候仍會出現不可控的情況，做線上功能的時候，我們對預期的輸出是幾乎零容忍的，但GPT天然有助人情結，在實際使用當中經常跳出人設，以及GPT自帶的安全協議等問題，會讓它屏蔽掉很多場景是的輸出。

以上本質上都是如何去去獲得一個懂你項目，不管是玩法設計還是世界觀等的LLM，遊戲項目，尤其是在研項目，本身都是很specific的存在，必然是比較特殊和離群點的存在，然而LLM是世界模型，它一定是比較中心化的東西，這裏會存在對齊問題。所以如何去把一個大模型對齊到自己項目的過程，就已經足夠我們這些AI組吃一壺的了。

不管你底下用什麽技術棧，其實都是爲了這個功能目的，而這會直接影響AI能力的完整性、易用性、以及成本。

隻有當AI足夠懂你項目的時候，很多成本，不管是部署成本、算力成本、還是使用時人的心理和複雜程度的成本才會整個下降，才能夠真正意義上成爲一個管線級别的工具，雖然不确定一年之内能不能搞定，但我認爲它正在發展中。

觀衆

LLM驅動VTuber是一個可行的方向嗎？

已經是有了，像Neuro Sama已經是古早的存在了，但其實大部分時候它不值得上資源，最後能夠做到頭部Top3才可能有資源。這個比較偏具體的産品領域，屬于商業素質問題。

如果時間放到五年，我個人覺得是有希望的，但不是以商業層面的數據爲依據，我覺得這一塊有很多東西沒挖，核心原因是VTuber本身這個業态比較吃力不讨好，哪怕上真人也好，其實都很卷，而且真人VTuber會有很多其他配套的東西，這些配套目前在AI VTuber上基本沒有看到，目前走得相對比較前的是米哈遊的鹿鳴。

如果把很多其他的運營、渠道等方面算進去，智能化應該是比現在所看到的情況還要大的，所以如果拉到五年的時長，我認爲不僅是AI技術層面的功能，還有産品設計層面的功能等很多東西沒做，至于說最後ROI能否打平也不好說。

注：以上内容僅代表嘉賓個人觀點，不形成任何普适性結論