先上代碼再發論文,騰訊新開源文生視頻工具火了。
名爲MuseV,主打基于視覺條件并行去噪的無限長度和高保真虛拟人視頻生成。
老規矩,先看效果。
靜态的金克絲秒秒鍾就能動起來朝你抛媚眼:
畫中詩聖也 " 活 " 了過來:
各種風格都能駕馭,風景圖也不在話下:
更有搞笑風《微笑的騎士》:
再上難度,複雜些的彈唱也處理得比較自然:
此外,加入 " 骨架 " 控制動作、姿勢也可以:
騰訊這次論文還沒發直接放出訓練好的模型和部署運行的代碼的操作讓網友眼前一亮。主頁顯示訓練代碼也即将推出。
不少人已趁熱碼住,GitHub 獲星 500+。
還有網友已經玩上了:
圍觀網友直呼距離成爲視頻達人隻差一個 AI。
嘴唇也能同步
除了直接放出模型代碼,目前 MuseV 還有 demo 可體驗。
demo 界面有兩種玩法。
一種可以上傳一張圖然後加上 Prompt 在這張圖的基礎上進行視頻生成;另一種是上傳一個參考視頻和一張圖,使圖片中的内容按照視頻中的動作運動起來。
緊接着下方還有一些參數可以調整。可以自定義視頻的時長以及視頻的尺寸。
此外值得一提的是,文本、圖像到視頻的生成結果的所有幀直接由 MuseV 生成,沒有時序超分辨、空間超分辨等任何後處理。
而輸入視頻控制姿态的生成模式下,開發團隊表示需要參考視頻的首幀條件和參考圖像的首幀條件對齊,不然會破壞首幀的信息,效果會更差。所以一般生成流程是:
确定參考視頻;
用參考視頻的首幀走圖生圖、controlnet 流程,可以使用 MJ 等各種平台;
拿第二步中的生成圖、參考視頻用 MuseV 生成視頻。
除 MuseV,開發團隊還表示即将發布一個實時高質量的唇同步模型——MuseTalk,可與 MuseV 一起搭配使用。
用上它,蒙娜麗莎也能對嘴型唱歌。
MuseV 裏面長啥樣?
技術方面,據了解 MuseV 是在去年 7 月左右基于擴散模型實現的技術進展,受到 Sora 啓發,開發團隊決定開源 MuseV,之後将轉向擴散 +Transformer 方案。
也就是說,MuseV 是基于擴散模型的虛拟人視頻生成框架。
模型架構如下圖所示:
總的來說,MuseV 具有以下特點:
首先是支持使用新穎的視覺條件并行去噪方案進行無限長度生成,不會再有誤差累計的問題,尤其适用于固定相機位的場景。
并行去噪算法示意圖如下:
其次,MuseV 提供了基于人物類型數據集訓練的虛拟人視頻生成預訓練模型。
而且支持圖像到視頻、文本到圖像到視頻、視頻到視頻的生成;兼容 Stable Diffusion 文圖生成生态系統,包括 base_model、lora、controlnet 等。
還支持多參考圖像技術,包括 IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。
參考鏈接:
[ 1 ] https://github.com/TMElyralab/MuseV
[ 2 ] https://twitter.com/Gorden_Sun/status/1774825159939256678