谷歌發布了一個新的視頻框架:
隻需要一張你的頭像、一段講話錄音,就能得到一個本人栩栩如生的演講視頻。
視頻時長可變,目前看到的示例最高爲 10s。
可以看到,無論是口型還是面部表情,它都非常自然。
如果輸入圖像囊括整個上半身,它也能配合豐富的手勢:
網友看完就表示:
有了它,以後咱開線上視頻會議再也不需要整理好發型、穿好衣服再去了。
嗯,拍一張肖像,錄好演講音頻就可以(手動狗頭)
用聲音控制肖像生成視頻
這個框架名叫VLOGGER。
它主要基于擴散模型,并包含兩部分:
一個是随機的人體到 3D 運動(human-to-3d-motion)擴散模型。
另一個是用于增強文本到圖像模型的新擴散架構。
其中,前者負責将音頻波形作爲輸入,生成人物的身體控制動作,包括眼神、表情和手勢、身體整體姿勢等等。
後者則是一個時間維度的圖像到圖像模型,用于擴展大型圖像擴散模型,使用剛剛預測的動作來生成相應的幀。
爲了使結果符合特定的人物形象,VLOGGER 還将參數圖像的 pose 圖作爲輸入。
VLOGGER 的訓練是在一個超大的數據集(名叫 MENTOR)上完成的。
有多大?全長 2200 小時,共包含 80 萬個人物視頻。
其中,測試集的視頻時長也有 120 小時長,共計 4000 個人物。
谷歌介紹,VLOGGER 最突出的表現是具備多樣性:
如下圖所示,最後的像素圖顔色越深(紅)的部分,代表動作越豐富。
而和業内此前的同類方法相比,VLOGGER 最大的優勢則體現在不需要對每個人進行訓練、也不依賴于面部檢測和裁剪,并且生成的視頻很完整(既包括面部和唇部,也包括肢體動作)等等。
具體來看,如下表所示:
Face Reenactment 方法無法用音頻和文本來控制此類視頻生成。
Audio-to-motion 倒是可以音頻生成,方式也是将音頻編碼爲 3D 人臉動作,不過它生成的效果不夠逼真。
Lip sync 可以處理不同主題的視頻,但隻能模拟嘴部動作。
對比起來,後面的兩種方法 SadTaker 和 Styletalk 表現最接近谷歌 VLOGGER,但也敗在了不能進行身體控制上,并且也不能進一步編輯視頻。
說到視頻編輯,如下圖所示,VLOGGER 模型的應用之一就是這個,它可以一鍵讓人物閉嘴、閉眼、隻閉左眼或者全程睜眼:
另一個應用則是視頻翻譯:
例如将原視頻的英語講話改成口型一緻的西班牙語。
網友吐槽
最後," 老規矩 ",谷歌沒有發布模型,現在能看的隻有更多效果還有論文。
嗯,吐槽也是不少的:
畫質模型、口型抽風對不上、看起來還是很機器人等等。
因此,有人毫不猶豫打上差評:
這就是谷歌的水準嗎?
有點對不起 "VLOGGER" 這個名字了。
——和 OpenAI 的 Sora 對比,網友的說法确實也不是沒有道理。。
大家覺得呢?
更多效果:
https://enriccorona.github.io/vlogger/
完整論文:
https://enriccorona.github.io/vlogger/paper.pdf