全身動作捕捉,現在無需昂貴的動捕設備,隻要一個攝像頭就能輕松實現。
并且就在抖音上,人人都能上手體驗。
上面這段虛拟數字形象跳舞的視頻采用了抖音直播伴侶功能背後的全身驅動技術,主播僅需要單個普通攝像頭并開始跳舞,就可以實時、精準地驅動虛拟形象。
相較于以往的輕量化動作捕捉,這項來自字節跳動智能創作團隊的全身驅動技術具有高真實性,可以體現空間的距離感和地面感。
并且具有更高的魯棒性,能夠在複雜的環境、穿戴等場景下實現良好的結果。
同時,還具備更高的還原性,人物的姿态、手勢和動作的姿态、速度都能更加準确地還原。
值得一提的是,普通的慣性動捕手套在一定時間後就會産生漂移損耗,無法支持長時間的直播,而全身驅動技術則可以有效規避這一問題,能夠更好地适應直播場景。
據介紹,全身驅動技術的技術方案包含了數據、估計、修正以及驅動四個步驟,具體的實現方案如下:
△全身驅動技術方案全流程構建高精度 3D 數據供應鏈
技術團隊使用了混合 3D 數據構建方式,其來源包括自建多目工裝動捕系統、2D 數據、僞标簽 3D 數據,基于此,團隊構建了包含 800 萬以上高精 3D 标簽的數據集。
爲了獲取接近業務場景的高精度 3D 人體數據,團隊搭建了一套完整的基于多目攝像頭的無标記物視覺動捕系統,并基于自研的人體重建算法,實現了對人體的位置,姿态和體型的準确估計。
盡管在多數情況下,自動化的重建算法能夠給出精度滿足要求的重建結果,但對于一些遮擋嚴重,運動過快導緻模糊的樣本,仍需要通過人工篩選修正的方式進行數據清洗。通過搭建 3D 數據篩選标注系統,可以實現高效的半自動化數據生産,并通過将人工審核後的樣本用于相關模型的訓練,持續優化數據産線相關模型的性能,最終實現數據質量的自舉式提升。
△高精度 3D 數據構建流程高還原性與高魯棒性的全身估計模型
據介紹,通過上述步驟,團隊積累了樣本量高達近千萬的大規模數據集。
在此基礎上,團隊訓練了一個基礎特征表示底座進行 3D-Aware 的共享特征抽取,基于共享特征構建了姿态估計分支、相機估計分支、Root 點估計分支。
其中,姿态估計分支負責爲表演者的關節點進行局部 3D 坐标估計,相機估計分支以及 Root 點估計分支爲當前表演者的全局位置進行估計。
基于多分枝的估計模塊結合積累的大量自有數據,人體估計模型可以在較少的計算量下取得高還原性與高魯棒性的結果。
另外,針對全身場景下的手部姿态估計,團隊統計了手腕關節旋轉的先驗分布輔助模型訓練,保證模型輸出符合人體結構約束;設計了手腕關節的時序模型,保證手腕姿态的穩定性;對關鍵點預測進行概率建模從而預測模型輸出的置信度進行難樣本過濾;将以上優化點與大量的自有手部數據結合,智能創作團隊的手部姿态算法模型在複雜遮擋模糊場景下結果仍可有不錯的表現。
以下爲人體在複雜遮擋服飾場景下的優化對比。左邊爲原始預測結果,右邊爲異常遮擋優化結果。
再來看看手腕在旋轉動作下的優化對比。左邊爲原始預測結果,右邊爲手部姿态還原性 & 魯棒性優化結果。
時空關聯建模強化魯棒性
在身體估計模塊獲取了基本的 3D 關節點信息後,技術團隊訓練了時序完整性模塊對原始結果進行修正。
在時序完整性模塊中,引入關節點在時序上的關聯關系以及同時刻關節點的空間關聯關系,同時引入了關節點位置感知模塊,使得具體關節點位置可以被顯式編碼爲高維向量加入訓練。
在時序建模的基礎上,團隊同時設計了異常檢測模塊對分布外的姿态結果進行過濾修正。時空關聯建模的設計保證了人體估計算法可以進一步獲得高魯棒性的驅動信号。
人體在複雜遮擋服飾場景下的優化對比(左爲原始預測結果,右爲時空關聯建模修正後結果):
自研算法,實現高真實感驅動
在通過一些算法模型計算後,團隊獲得了精準且可靠的人體關節點輸出,但這距離驅動一個活靈活現的虛拟人仍然還有最後幾個步驟,需要通過 IK 算法獲取特定虛拟角色的旋轉角以對其完成驅動。
對此,團隊自研了 EasyIK 算法,其可以對大臂小臂、大腿小腿等容易出現自旋錯誤的關節提供合理姿态。
同時,爲了保證驅動虛拟角色的真實感,團隊研發了接地算法,對驅動虛拟角色的地面進行估計,并爲單腳以及雙腳姿态在地面上自然姿态以及移動的距離進行估計。
EasyIK 以及接地算法的引入使得虛拟人驅動可以獲得更好的真實感。
足部穩定性優化對比(左爲原始預測結果,右爲高真實感驅動效果):
随着虛拟數字人技術的發展和虛拟偶像的興起,虛拟數字人在遊戲、虛拟社交,在線健身、在線教育、虛拟主播等領域都将有更加廣闊的應用空間。更加實時、輕量化、低成本的動作捕捉技術也将成爲行業的趨勢。
全身驅動技術方案能大大降低了真人驅動虛拟數字人的應用門檻,助力打造更加趣味、沉浸式的交互體驗。
關于字節跳動智能創作團隊:
智能創作團隊通過建設領先的計算機視覺、音視頻編輯、特效處理等技術,支持抖音、剪映、頭條等公司内衆多産品線;同時通過火山引擎爲外部 ToB 合作夥伴提供業界前沿的智能創作能力與行業解決方案。
體驗抖音直播伴侶,可訪問:https://streamingtool.douyin.com/
* 本文系量子位獲授權刊載,觀點僅爲作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和産品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~