隻需 1 張普通照片,就能合成全角度動态 3D 視頻。
眨個眼、動動嘴,都是小 case~
最近 AIGC 爆火,3D 人像模型生成這邊也沒閑着。
如 StyleNerf、StyleSDF、EG3D 等方法相繼出世。
但到目前爲止,這種生成模型都還停留在單幀人像上。
最近,來自新加坡國立大學(NUS)和字節跳動的研究人員,在靜态 3D 模型的基礎上,提出了首個 3D 人像視頻生成模型:PV3D(3D model for Portrait Video generation)。
PV3D 的訓練繼承了 3D GAN 模型的優點,即無需動态的三維數據監督,隻需要在足夠數量的單視角 2D 視頻數據上進行訓練。
該生成框架将人像和動作進行解耦,基于視頻的時間戳生成各自的三維表征,讓視頻可以從任意角度進行渲染。
長視頻也能挑戰:
3D 動态人像生成
PV3D 分别從獨立的高斯分布中采樣随機噪聲來表征外表和運動,外表噪聲生成視頻的主體内容,控制人像的 ID 以及人臉的各個部分,運動噪聲配合視頻幀的時間戳控制當前幀的動作。
爲了确保生成内容的真實性以及外表和運動的解耦,PV3D 訓練兩個獨立的判别器分别判定外表和運動的合理性。
該方法可以生成随機的人像視頻以及相應的高質量的動态幾何表面,讓視頻可以從任意角度進行渲染。
同時,該方法可以支持下遊的應用任務,比如靜态人像驅動,人像視頻的重建以及對人像動作的修改,所有的結果均可以保持高的多視角一緻性。
主流的 3D GAN 模型都脫胎于StyleGAN 結構。
因此這些模型均會将采樣得到的噪聲先映射到一個高維度的中間隐式編碼 ( intermidate latent code ) ,大量現有的研究表明這種結構的隐式空間包含了豐富的語義信息,可以用來控制生成的圖像内容。
因此,最直接的拓展方式就是使用預訓練的單幀 3D GAN 模型,通過學習一個額外的在隐式空間進行推理的時序模型對生成的内容進行合理的改變,從而生成 3D 人像視頻。
然而,該方法的缺點是圖片生成器和時序推理模型在不同的階段分别被優化,導緻最終的視頻很難保持時間上的一緻性。
另一種主流的視頻生成模型使用稀疏訓練的方式,在訓練階段直接随機生成視頻中的少量幀,使用少數幀的時間戳編碼運動信息,進一步的改變中間隐式編碼從而一次性優化完整的生成器。
然而這種做法将全部的時序信息都包含在隐式空間中,導緻最終的模型多樣性較差、生成質量較低。
與上述方法不同,PV3D 在原有 GAN 模型的基礎上在特定尺度的生成模塊中插入運動信息的編碼層,這些編碼層獨立地将控制運動的噪聲映射爲隐式編碼,使用 modulated convolution 操縱外表特征,再将操縱後的特征與原始特征融合,從而提高生成視頻的時序一緻性和運動多樣性。
此外,本工作還研究了以下問題:
如何有效地在視頻生成任務中利用渲染的視角先驗信息
針對 3D 視頻生成,如何設計合理的外表和運動判别器
PV3D 模型基于最新的靜态 3D GAN 模型 EG3D 進行開發,EG3D 采用高效的 3D 表征 Tri-plane 實現圖像生成。
在訓練階段,PV3D 采用稀疏訓練的策略,對于一個視頻采樣兩個噪聲、兩個時間戳以及各自時刻對應的相機視角。
相對應的,模型生成兩幀對應的 3D 表征進行渲染得到粗糙的結果。随後使用超分辨率模塊将圖片上采樣。
PV3D 設計了兩個獨立的判别器監督網絡的學習,其中視頻判别器會編碼兩幀的相機視角以及時間間隔去判斷生成結果的合理性。
實驗部分評價指标
研究人員使用 FVD 來評估生成視頻的質量。此外,爲了評估多視角的一緻性以及 3D 幾何結構的質量,研究人員将 3D GAN 工作中常用的評價指标 ( 生成人像的 ID 一緻性、Chamfer 距離、多視角的重投影誤差 ) 拓展到視頻任務中。
與基線的對比
研究人員首先采用同期的 3D 視頻生成工作 3DVidGen 作爲基線。此外,研究人員還基于 SOTA 的單幀 3D GAN ( EG3D 和 StyleNerf ) 和 2D 視頻生成模型構建了三個基線模型。在 3 個公開數據集 ( VoxCeleb, CelebV-HQ, TalkingHead-1KH ) 上的實驗結果表明,PV3D 在生成視頻的多樣性,3D 幾何的質量,以及多視角一緻性上均超越基線模型。
消融實驗
研究人員對 PV3D 的各部分設計進行了消融實驗,例如:運動信息的編碼和注入的位置,運動信息的插入方式,相機視角的采樣策略,以及視頻判别器的設計。
團隊介紹
目前,該論文已被 ICLR 2023 接收。
作者團隊由新加坡國立大學 Show Lab 和字節跳動組成。
論文地址:
https://openreview.net/pdf?id=o3yygm3lnzS
項目主頁:
https://showlab.github.io/pv3d/