作者:袁柏林
編輯:董子博
" 數智人必将爲我們社會帶來翻天覆地的變革。我作爲内容創作者,實地的感受真的是太震撼了。" 作爲騰訊雲智能 2D 小樣本數智人體驗館劉興亮如是說。
圖:劉興亮的數智人分身與本人對比
( 來源:騰訊雲智能 )
随着人工智能技術、雲計算、5G 移動通信技術等的技術發展,數智人行業不斷加快的各種應用場景落地。數智創研院的《2022 數智人分析洞察報告》顯示,中國 AI 數字人市場規模呈現高速增長趨勢,預計到 2026 年将達 102.4 億元。
在過去,要完成一個超寫實、高精度數字人的制作,可能需要數十小時的烘焙和渲染——而在今天,一項數智人技術的突破,或許會讓這項技術,變成以後每個人都共有的 " 标配 "。
" 數智人 " 是什麽人?
元宇宙興起後,數字人賽道成爲各大互聯網企業争逐之地。關于數字人,雷峰網曾在Meta 元宇宙「寒氣」逼人,數字人用「内功」驅寒文章裏詳細叙述過。簡而言之,數字人是元宇宙重要的組成部分,且接近 C 端用戶,具備強大的變現能力。
而數智人則與數字人,雖一字之差,但截然不同。
數智人,如同它的名字,是智能的數字人。因此,數智人不僅具備數字人強勁的變現優勢,而且數智人更擁有智能化與交互性特征,這也是 " 數智人 " 與普通的數字人最大的區别。
在 AI 技術、5G 技術、XR 技術以及深度學習等技術的支撐下,數智人将擁有更智慧的頭腦、更靈活的動作、更豐富的表情以及更人性化的心智等特征。
去年 7 月底,依托多模态人機交互技術,國家博物館就與騰訊 SSV 數字文化實驗室聯合打造出首個虛拟數智人 " 艾雯雯 ",成爲國家博物館虛拟世界的代言人,助力讓文物活起來,成爲文化數字化戰略發展的典型案例。
圖:國博虛拟數智人 " 艾雯雯 "
(來源:國家博物館公衆号)
一年未到,騰訊這次達到了從制作時間和成本上突破數智人發展上限:利用短短 3 分鍾視頻在 24 小時内高效生成數智人。
快速 " 造人 ",背後有哪些技術?
4 月 25 日,騰訊雲智能首次對外重點推介的 2D 小樣本數智人,隻需 3 分鍾視頻即可在一天内定制專屬數智人分身。
騰訊優圖實驗室研究總監汪铖傑表示 " 我們看到的是 3 分鍾的視頻做訓練,但是背後是有一塊很大的多模态數據在支撐。"
3 分鍾的小樣本視頻背後是基于大數據的學習,即對引入自監督機制的通用多模态模型進行訓練,将視頻裏的語音、文本與數智人像的表情、口型進行關聯,并且自監督式的模型可以讓數據自己約束自己,以此節省更多數智人标注時間。
這讓數智人行業完成邊際成本到固定成本的進階。
相較于之前訓練一個數智人,需要幾十小時,甚至更長時間的語料或者視頻素材,現在隻需要通過通用模型的學習,就可以變成一次性的固定成本,後面每一個新的數智人的定制,包括形象、音色等的邊際成本都會比較小。
可想而知,先把底層通用模型訓練好,再制作多少新的數智人也不過 " 添個人就是添雙筷子的事兒 "。
這種一次生成、多次獲利的模式促進數智人的制作時長實現從月級别降到小時級别,數智人的制作成本從百萬級别降到千元級别。
此外,2D 小樣本數智人技術結合 3D 技術,即在從 " 文本或音頻信息 " 到 "3D 人像驅動 ",最後實現 "2D 人像視頻 " 的模式上,騰訊雲智能已經有較多技術積累,這将能夠使生成更加精确、2D 小樣本數智人細節打磨更加精緻。
目前小樣本數智人不僅實現了 " 皺紋級 " 形象還原,還達到 " 音素級 " 音色複刻的效果。
外貌表情、舉手投足的真人風貌複現,讓人驚歎:" 世另我 "!
圖:小紅書營銷講師蘇歆老師與她的數智分身
(來源:騰訊雲智能)
總而言之,數智人背後的技術支持,促使數智人行業得以完成快速生産、成本精益、效果精良的蛻變。
未來可期,數智人惠普化程度大大增強。
此前,數智人主要服務于公司企業或者高層管理等部分精英人員,覆蓋傳媒、醫療、金融、教育等各行各業。
對于集團來說,數智人能夠助力企業數智化轉型升級,降本增效,打造更好的 7*24 全天候客戶服務;對于精英人員來說,數智人能夠跨越時間和空間的限制,幫助其處理閑鎖事務,節約時間成本,解放生産力,将人的注意力放到更有價值的事情上去。
但是,要社會的整體進步發展,數智人的門檻必須往下拉一拉。
而騰訊雲智能所訓練的 2D 小樣本數智人将生産成本的大幅度降低。且客戶可以自己開賬号、下單購買、上傳素材、自行訓練、确認效果,完全實現自助式服務。
可以預見,随着技術發展,生産成本和使用門檻将會越來越低。對于個人,尤其是普羅大衆來說,做自己專屬的數智分身将是觸手可及。
人人都有數智分身的未來,并不是夢。