科幻小說描述的場景,正在成為今天的現實。
12 月 10 日,在中國科幻界「諾貝爾」——第十三屆華語科幻星雲獎的頒獎典禮上,發生了有趣的一幕:MMC 工作室的科幻遊戲《星球:重啟》問鼎最佳科幻遊戲創意獎,現場領獎的卻不是主創團隊,科幻作家劉慈欣把獎杯頒給了一名遊戲角色——虛拟人李星瀾 Lydia。
在《星球:重啟》遊戲中,玩家是在 2112 年星球遭受外星入侵後的幸存者。作為一名來自 2112 年的超級人工智能少女,李星瀾為了拯救世界犧牲自己,将身體分解成信号發送回了 21 世紀。她的任務是召集 21 世紀人類一起回到未來拯救世界。在遊戲中,李星瀾是遊戲中每位幸存者最好的夥伴。她将是玩家的新手「引導員」,也是玩家在曆險中的「好助手」,更是跌宕劇情中的「女主角」。她也将為了拯救世界,犧牲自己回到 21 世紀。這科幻色彩十足的遊戲設定,賦予了李星瀾鮮活的人設,讓她的「靈魂」得以誕生。
李星瀾不是簡單的遊戲 NPC,根據開發團隊 MMC 工作室介紹,李星瀾是他們的首位真 · 元宇宙虛拟人,不僅在遊戲中引導玩家,在遊戲外,發抖音、接代言、做主持人、領個獎、看個秀都不在話下。超寫實皮囊讓她在今年 4 月「穿」回地球後,發布十幾個視頻就積累了上千萬的播放量。
李星瀾也不是傳統意義上的「虛拟人」,一方面是外形更加「像」人;另一方面,也是更重要的,驅動她的内核不再是「中之人」,而是最新的 AI 技術。
在李星瀾身上,人設靈魂、外形皮囊和 AI 内核讓她和已誕生的虛拟人們如此不同——這引起了我們的好奇:創造李星瀾的背後到底是什麼樣的技術?一個 AI 驅動的虛拟人,能有什麼樣的産業價值?頒獎結束後,我們向 MMC 工作室請教,後者和我們分享了李星瀾背後的技術,以及他們對未來虛拟人産業發展的思考。
「好皮囊」的背後,是更高效的制作技術
外表宛若鄰家小妹的李星瀾,其背後是幾乎已經做到了當前市面上最極緻的超寫實虛拟人「皮囊」技術。李星瀾的制作團隊有着成熟完整的生産管線,其中既有自研技術,也有來自 NVIDIA 相關技術的加成。
社媒視頻中的李星瀾
創造一個虛拟 3D 形象并不是什麼新鮮的技術,但讓虛拟人能在不同場景下,像真人一樣做出活靈活現的動作和表情卻并不容易,尤其是在不借助演員動捕的情況下。
為了解決這個難點,MMC 工作室自研了四項關鍵專利技術,這些技術與超寫實數字人的表情綁定及高精度面捕相關。這部分技術的核心在于如何更高效地完成高精度數字人的模型制作。據 MMC 工作室透露,采用相關自研技術後,能節約 30% 的模型制作成本。
據工作室數字人團隊負責人山謙介紹,其自研的技術核心在于數字人面部基表情制作和自動化綁定,「基表情是指面部表情編碼系統會有一系列基礎表情,通過這些基表情組合就可以滿足各種不同的表情表現需求。」通過掃描真人表情,以及通過美術進一步刻畫,團隊為李星瀾制作出 70 多個基表情,是市面上大部分虛拟人的一倍以上。
自動化綁定則極大提高了整個虛拟人生成表情的效率,山謙提到,「以前要把基表情人工一步一步綁定到虛拟人模型上,自動化綁定後就可以自動地完成整個虛拟人物的所有的面部表情的生成。」
此外,引入 NVIDIA 的技術支持也大大提升了工作室的效率。3D 資産制作、渲染相關的軟件工具繁多,工序複雜一直是産業痛點之一,而 MMC 工作室采用的 NVIDIA 相關技術也在協作和渲染方面提供了極大的加成。
協作上,無論是負責技術,還是設計、美術的團隊成員,都可以通過 NVIDIA Omniverse 這一 3D 仿真虛拟和協作平台相互連接,Omniverse 可以統一整合資産、庫和工具,這項優勢能讓藝術家在多種應用之間實時導入和編輯素材,以助其實現更大程度的創作自由。
同時借助實時光線追蹤和交互式路徑追蹤技術,以及雲端 GPU 資源,Omniverse 可以實時渲染出高保真、物理級精确的結果,相比過去影視制作中動辄幾十數百小時的渲染時間大大縮短,從而大幅降低了工作室的時間成本。
AIGC,虛拟人的「内核」
相比「皮囊」,驅動虛拟人的「内核」更加關鍵。如果說今天前者更多是在解決從 1 到 10 的效率問題,那麼後者需要解決的則是從 0 到 1 的突破。
過去虛拟人的「内核」來自扮演的中之人,而李星瀾更進一步,她的「内核」來源于人工智能,AI 技術整體的發展是虛拟人更有「内核」的基礎,不同的虛拟人項目需要在大的技術背景下更好應用落地,創造價值。
李星瀾團隊産品負責人肉山介紹,李星瀾的對話交互結構設計分為三個模塊——基礎對話集成、對話生動表現、對話策略能力,三部分在虛拟人的實時對話能力表現中能力逐漸遞進,從「智障」逐漸變得「智能」,從明顯的「機器人」感覺,隻能用于客服環境,到讓人有時已經分不清她是一個機器人,即使知道,也可能會投入情感,在某些瞬間把她當作一個「真人」。
基礎對話集成是基礎的對話模塊能力,包含了 NLP(Natural Language Processing,自然語言處理)的生成模型,包含了音色合成、語音轉換及敏感詞管理等。常見使用場景便是比如語音助手、電商、銀行的對話機器人,給你打騷擾電話的機器人等。
在一項調查中,讓人們想出一個最能代表你是真人而非 AI 的詞,大多數人會選擇包括悲傷、憤怒等強烈情緒的詞語,甚至髒話。那麼想讓 AI 更像人,也需要讓 TA 們學會「表達情緒」。
對話生動表現能力就是李星瀾表現情緒的能力。據肉山介紹,虛拟人有基于人情緒的分類标簽,最基礎的有 8 種,常用的有 20 多種,李星瀾用的是 30 多種。基于「機器人」式的基礎對話文本,用情緒分類标簽定義它生成的每一句話,比如開心、憤怒、沮喪 ……
表現這些情緒的方式也和人類一樣,語氣、表情、肢體,這些都要基于情緒标簽,進一步用算法生成。生氣時皺眉、開心時微笑、沮喪時低頭 …… 加上算法加成的肢體和面部表現,就生成了一個 AI 驅動的虛拟人的整體形象。
不過做到這些,也隻是讓虛拟人略顯生動,和 2D 人物相比,在超寫實數字人身上,稍有不慎還是會出現不自然甚至恐怖谷的情況,虛拟人的生動表現能力還在持續叠代中。
比如眼神對視在人的交流中非常重要,雖然目前還無法讓虛拟人和人交流時眼波流轉,不過肉山介紹,李星瀾已經可以「和你對視」,對視可以讓人産生真正的人與人的交流感,「視覺交互方面,落地場景可以調用攝像頭,李星瀾就可以看着交互的對象,眼神會聚焦到對話人身上。」
對話策略能力是基于人設的擴充模塊,也就是讓李星瀾之所以是李星瀾,而不是别的虛拟人的地方。肉山介紹道,「基于人物設定,李星瀾擁有屬于她自己的知識、記憶、技能,她會帶你進入哪些情境模塊,她有特殊偏好的話題。」
在口型生成和面部算法表現加成上,李星瀾團隊借助了 NVIDIA 的技術能力來提高模型訓練效率。
為了加快在創造李星瀾中使用的深度學習模型的訓練周期,團隊利用了 NVIDIA GPU 加速器。除了硬件,團隊還利用了 FP16 混合精度訓練和 Megatron-LM 風格的模型并行方案,在不犧牲收斂質量的情況下進一步提升訓練吞吐量。團隊目前的系統總共使用了約幾十個 NVIDIA GPU,并且能夠在兩天内完全訓練 audio2motion 和 text2speech 模型,并在五天内完全訓練基于 Transformer 的 Chatbot 模型,生成超過 10TB 的訓練數據。
在推理方面,團隊利用了另一 NVIDIA GPU 集群,還将 NVIDIA 的 FasterTransformer(一種基于 CUDA、cuBLAS 和 cuBLASLt 的定制解決方案,用于優化 Transformer 架構)整合到其推理運行時中,從而将推理延遲減半,使李星瀾能夠以高度響應的方式與觀衆互動。
簡而言之,以豐富的 GPU 計算資源為支撐,并結合 NVIDIA 團隊量身定制的 AI 系統進行優化,MMC 工作室在創造李星瀾的過程中,在幾個月的時間内就完成了打造高質量虛拟人的端到端叠代。
另外,得益于 NVIDIA Omniverse 中 Audio2Face 的高精度效果,數字人的口型表情表現得到了明顯提升。Omniverse Audio2Face 是一款由 NVIDIA 深度學習 AI 技術提供動力支持的應用程序,僅基于一個音頻來源即可快速輕松生成表情豐富的面部表情動畫。隻需錄制語音音軌,然後輸入到該應用中,即可看到 3D 角色的面孔變得活靈活現。
同時,Audio2Face 讓用戶能夠在眨眼之間選擇角色的情緒,并為其設置相應的動畫。AI 網絡會自動操縱臉部、眼睛、嘴部、舌頭和頭部運動,以匹配所選擇的情緒範圍和定制的情緒強度水平,或直接從音頻剪輯中自動推斷情緒。
虛拟人,終極形态升級中
在虛拟人賽道熱度持續的這一年多裡,「生」出來很多虛拟人,有的活着,也有的已經「賽博死亡」。虛拟人的自由野蠻生長,似乎到了需要些梳理的時候。
從「皮囊」即外觀來看,有的虛拟人仍然使用 2D 即「二次元」形象,比如大量的虛拟主播,有的則「卷」起身份型超寫實數字人形象,例如「翎」「AYAYI」。
從「内核」即驅動方式上看,虛拟人産業一直存在兩條技術路線,一條是「中之人」驅動的「套皮」虛拟偶像,例如和李星瀾同出一門的虛拟偶像「A-soul」,其火爆背後的商業模式内核是偶像娛樂工業;另一條路線是以 AI 驅動的服務型虛拟人,落地場景有「Siri 們」系統助手、文字語音問答機器人等,還被稱為「人工智障」,他們的「内核」不夠有趣,無法吸引更多注意力。
在 AI 技術大發展的當下節點,虛拟人産業下一步走向何處,已經成為各團隊需要思考的問題。從科幻遊戲場景誕生的李星瀾,在誕生之時就需要接近真人的超寫實形象,也需要更為智慧的「内核」。
李星瀾有「Siri 們」的解決問題的能力,也有「AYAYI」們的漂亮皮囊,還有更強的情緒和生動的交流,更豐富的人物設定感。
肉山提到,李星瀾其實構建的是身份型加服務型合二為一的數字人,在李星瀾團隊的思考中,這将是最終的虛拟人形态。「之前我們說市場上沒有這樣的虛拟人是因為技術還沒有到這一步,現在就可以融合這兩者了,這樣的形态也是我們最終對虛拟人所想象的形态,包括《鋼鐵俠》裡的賈維斯(人工智能管家),也是身份加服務的類型。」
從商業化角度看,當前的虛拟人産業模式并沒有完全閉環産生真正價值。山謙表示,觀察下來,市面上的虛拟人很多是跟風,為了元宇宙而元宇宙,或者是用來做 ToB 業務宣傳,出發點是展示技術,創造一些商業價值。「李星瀾從一開始就是我們遊戲的核心角色,發現玩家在遊戲中跟她有交互後,希望這個角色不光存在遊戲中,還希望在生活中也能看到她,于是我們讓李星瀾成為一個獨立的虛拟人 IP,是基于遊戲業務出現的一個自然而然的硬需求。」
基于遊戲,李星瀾和其他市面上僅有超寫實「美麗皮囊」的虛拟人不同,李星瀾有自己的故事,豐富的人物性格,有成長時間線。她可以在遊戲中,24 小時的支持、陪伴、引導着每位玩家。她的智能系統也将嵌入到遊戲集成的功能界面裡,在交互中,玩家可以更好的了解 2112 年的未來世界。「如果你想了解他的過去,你可以在遊戲中跟他交互。如果你想了解他的現在,你可以在直播、抖音等社交媒體去感受來到現代社會的她。」
在 IP 打造的階段,李星瀾項目會基于遊戲體驗開始,過程中積累我們的技術管線能力。山謙提到,「我們希望能通過做一個頭部的标杆産品,創造一個文化現象,和内外部合作,打造 IP。」
基于李星瀾的案例,團隊已經完成了整個管線的打通,計劃運用到更大規模的數字人制作場景。山謙表示,當前團隊下一階段目标要攻克的難點就在于,大規模的數字人制作場景的效果和效率優化,「基表情這一套系統還要持續提升,目前長得和李星瀾比較像的自動化綁定效果較好,一但形象差異較大,就會出現一些問題。當下我們正在通過積累更多基表情數據庫來解決。」
在當前,虛拟人産業仍然處于早期階段,共同進步是每個産業内的人希望的,遊戲和 IP 之後,李星瀾團隊同樣希望把自己的技術能力提供出去,山謙表示,「我們也願意把我們的技術能力管線化、工業化,能夠提供更多的服務給外界。」
正如劉慈欣在星雲獎的頒獎詞中所說,「《星球:重啟》把中國科幻從紙張和銀幕上精心剪裁下來,編織進浩瀚的程序裡」。虛拟人的未來,李星瀾這樣有皮囊、有靈魂有技術内核的虛拟人,會從科幻和遊戲中走出,和前沿技術結合,走入更多領域,帶來更大能量。
本文來自微信公衆号 " 極客公園 "(ID:geekpark),作者:鄭玥