IT 之家 4 月 21 日消息,據微軟官方新聞稿,微軟今天公布了一項圖生視頻的 VASA-1 框架,該 AI 框架隻需使用一張真人肖像照片和一段個人語音音頻,就能夠生成精确逼真的對口型視頻(生成念稿子的視頻),據稱在表情和頭部動作方面特别自然。
IT 之家獲悉,目前業界相關許多研究都集中在對口型上,而面部動态行爲及頭部運動情況通常被忽視,因此生成的面部也會顯得僵硬、缺乏說服力且存在恐怖谷現象。
而微軟的 VASA-1 框架克服了以往面部生成技術的限制,研究人員利用了擴散 Transformer 模型,在整體面部動态和頭部運動方面進行訓練,該模型将所有可能的面部動态,包括嘴唇動作、表情、眼睛注視和眨眼等行爲均視爲單一潛在變量(即一次生成整個具有高度細節的人臉),号稱能夠即時生成 512 × 512 分辨率 40 FPS 的視頻。
IT 之家同時注意到,微軟還利用了 3D 技術輔助标記人臉面部特征,并額外設計了損失函數,号稱能夠讓 VASA-1 不僅能夠生成高品質的面部視頻,還能夠有效地捕捉和重現面部 3D 結構。