耗費的計算資源僅爲傳統 Stable Video Diffusion(SVD)模型的2/25!
AnimateLCM-SVD-xt發布,一改視頻擴散模型進行重複去噪,既耗時又需大量計算的問題。
先來看一波生成的動畫效果。
賽博朋克風輕松駕馭,男孩頭戴耳機,站在霓虹閃爍的都市街道:
寫實風也可以,一對新婚夫婦依偎在一起,手捧精緻花束,在古老石牆下見證愛情:
科幻風,也有了外星人入侵地球的即視感:
AnimateLCM-SVD-xt 由來自香港中文大學 MMLab、Avolution AI、上海人工智能實驗室、商湯研究院的研究人員共同提出。
2~8 步就能生成25 幀分辨率 576x1024的高質量動畫,并且無需分類器引導,4 步生成的視頻就能實現高保真,比傳統 SVD 更快、效率更高:
目前,AnimateLCM 代碼即将開源,有在線 demo 可試玩。
上手試玩 demo
在 demo 界面可以看到,AnimateLCM 目前有三個版本,AnimateLCM-SVD-xt 是通用圖像到視頻生成;AnimateLCM-t2v 傾向個性化文本到視頻生成;AnimateLCM-i2v 爲個性化圖像到視頻生成。
下面是一個配置區域,可以選擇基礎的 Dreambooth 模型,也可以選擇 LoRA 模型,并通過滑動條調整 LoRA alpha 值等。
接下來可以輸入 Prompt、負面 prompt,指導生成的動畫内容和質量:
還有一些參數可以調整:
我們上手體驗了一把,提示詞爲 "clouds in the sky",參數設置如上圖,采樣步驟僅爲 4 步時,生成的效果是這樣嬸兒的:
采樣步驟爲 25 步時,提示詞 "a boy holding a rabbit",效果如下:
再看看一波官方放出的展示效果。2 步、4 步、8 步效果對比如下:
步數越多,動畫質量越好,僅 4 步 AnimateLCM 就能做到高保真:
各種風格都能實現:
怎麽做到的?
要知道,雖然視頻擴散模型因能生成連貫且高保真度的視頻而受到越來越多的關注,但難題之一是叠代去噪過程不僅耗時而且計算密集,這也就限制了它的應用範圍。
而在 AnimateLCM 這項工作中,研究人員受到一緻性模型(CM)啓發,該模型簡化了預訓練的圖像擴散模型以減少采樣所需的步驟,并在條件圖像生成上成功擴展了潛在一緻性模型(LCM)。
具體來說,研究人員提出了一種解耦的一緻性學習(Decoupled Consistency Learning)策略。
首先在高質量的圖像 - 文本數據集上蒸餾穩定擴散模型爲圖像一緻性模型,然後在視頻數據上進行一緻性蒸餾以獲得視頻一緻性模型。這種策略通過在空間和時間層面上分别訓練,提高了訓練效率。
此外,爲了能夠在 Stable Diffusion 社區中實現即插即用适配器的各種功能(例如,用 ControlNet 實現可控生成),研究人員又提出了Teacher-Free 自适應(Teacher-Free Adaptation)策略,使現有的控制适配器更符合一緻性模型,實現更好的可控視頻生成。
定量和定性實驗都證明了方法的有效性。
在 UCF-101 數據集上的零樣本文本到視頻生成任務中,AnimateLCM 在 FVD 和 CLIPSIM 指标上均取得了最佳性能。
消融研究驗證了解耦一緻性學習和特定初始化策略的有效:
項目鏈接:
[ 1 ] https://animatelcm.github.io/
[ 2 ] https://huggingface.co/wangfuyun/AnimateLCM-SVD-xt