提速 8 倍!
速度更快、效果更好的混元視頻模型——FastHunyuan來了!
新模型僅用1 分鍾就能生成5 秒長的視頻,比之前提速8 倍,步驟也從 50 步減少到了6 步,甚至畫面細節也更逼真了。
和普通速度的混元對比一下,原來 50 步才能生成 1 條視頻,而現在新模型在相同的時間裏可以生成8 條:
再來看看和 Sora 的畫面對比,可以看到 Fast-Hunyuan 和 Sora 兩者的效果都更逼真一些,衣服、水果和山峰的細節也非常清晰。
甚至在一些物理細節的理解上,Fast-Hunyuan 比 Sora 還強,比如下面拿取檸檬的視頻:
更重要的是,Fast-Hunyuan 的代碼也開源了,這下不用爲 Sora 的訂閱費和限額發愁了。
研究團隊來自加州大學聖地亞哥分校(UCSD)的Hao AI實驗室,他們主要專注機器學習算法和分布式系統的研究。
混元官方賬号還特意發博感謝了他們:
有網友看完後直呼,混元才是最好的開源視頻模型。
開創性的視頻 DiT 蒸餾配方
團隊是如何做到 8 倍提速的情況下還能提升視頻清晰度呢?
下面就一起來看一下 Fast-Hunyuan 的技術原理——
首先,他們開發了全新的視頻 DiT 蒸餾配方。
具體來說,他們的蒸餾配方基于階段一緻性(Phased Consistency Model, PCM)模型。
在嘗試使用多階段蒸餾後發現效果沒有顯著改進,最終他們選擇保持單階段設置,與原始 PCM 模型的配置相似。
其次,團隊使用了 OpenSoraPlan 中的MixKit 數據集進行了蒸餾。
爲了避免在訓練過程中運行文本編碼器和 VAE,團隊還預處理了所有數據,用來生成文本嵌入和 VAE 潛在變量。
在推理階段,用戶可以通過 FSDP、序列并行和選擇性激活檢查點進行可擴展訓練,模型可以近乎線性擴展到 64 個 GPU。測試代碼在 Python 3.10.0、CUDA 12.1 和 H100 上運行。
最低硬件要求如下:
40 GB GPU 内存,每個 GPU 配備 lora
30 GB GPU 内存,每 2 個 GPU 配備 CPU 卸載和 LoRa。
此外,他們還結合了預計算潛變量和預計算文本嵌入,用戶可以根據自己的硬件條件選擇不同的微調方式來執行命令,也支持圖像和視頻的混合微調。
模型已于 2024 年 12 月 17 日發布了 v0.1 版本。
未來的開發計劃還包括添加更多蒸餾方法(如分布匹配蒸餾)、支持更多模型(如 CogvideoX 模型)以及代碼更新(如 fp8 支持、更快的加載和保存模型支持)等等。
One More Thing
除了加速模型,混元還預告了大家都非常期待的圖像到視頻生成功能。
最快1 月份,也就是下個月就可以看到!期待住了。
GitHub:https://github.com/hao-ai-lab/FastVideo
HuggingFace:https://huggingface.co/FastVideo/FastHunyuan
參考鏈接:
[ 1 ] https://x.com/TXhunyuan/status/1869282002786292097
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>