AI 生成視頻,邊生成邊實時播放,再不用等了!
Adobe 與 MIT 聯手推出自回歸實時視頻生成技術——CausVid。
如果你用過視頻生成模型,一定對漫長的等待時間記憶深刻,生成一段 10 秒的視頻,往往需要等待好幾分鍾才可以開始觀看。
研究團隊表示,這一延遲的根本原因在于:傳統視頻生成模型普遍采用的雙向注意力機制,每一幀都需要參考前後幀的信息。
這就像寫故事時必須先構思好整個劇情的所有細節才能動筆,在完整視頻生成完畢前,你看不到任何畫面。
爲此,他們提出了一種全新的解決方案,通過蒸餾預訓練的雙向擴散模型(DiT),構建自回歸生成模型。
實驗中,CausVid 基于自回歸生成的特性,無需額外訓練就能支持多種應用,生成速度和質量均顯著超越現有方法。
研究團隊還表示将很快開源基于開源模型的實現代碼。
用雙向教師監督單向自回歸學生模型
如前所述,研究團隊通過蒸餾預訓練的雙向擴散模型(DiT),構建自回歸生成模型。
爲了進一步提速實現實時視頻生成,作者通過分布匹配蒸餾(DMD)将生成步驟從 50 步縮減到僅需 4 步。
DMD 是一種擴散模型蒸餾技術,将多步擴散模型轉換爲快速的單步生成器。DMD 此前已在圖像生成中取得成功,Adobe Firefly 文生圖的快速模式就是基于此技術。
本次研究團隊将其創新性地應用到視頻擴散模型中,實現了顯著加速。
然而,自回歸模型有一個核心難題——誤差累積。
每一幀視頻都基于之前的幀生成,早期生成的任何細微缺陷都會被放大,導緻生成的視頻逐漸偏離預期軌迹。
爲了解決這一問題,團隊提出了非對稱蒸餾策略。具體來說:
引入一個擁有未來信息的雙向教師模型,在蒸餾訓練階段指導自回歸的單向學生模型。這種教師 - 學生結構允許模型在生成未來幀時具備更強的精确度。
使用雙向教師模型生成的的噪聲 - 數據配對來預訓練單向學生模型,提升其後蒸餾訓練過程的穩定性。
在訓練過程中,針對不同時間點的視頻幀施加不同強度的噪聲,這一策略使模型能夠在測試時基于幹淨的已生成幀對當前幀進行去噪。
通過這種創新性的非對稱蒸餾方法,CausVid 顯著減少了自回歸模型的誤差累積問題,并生成了更高質量的視頻内容。
這種非對稱蒸餾形式中,學生模型和教師模型使用了不同的架構,而這隻有在 DMD 風格的蒸餾中才可行。其他方法,例如漸進式蒸餾(Progressive Distillation)或一緻性模型(Consistency Distillation),都要求學生模型和教師模型使用相同的架構。
下面是自回歸擴散視頻模型的誤差累積示例(左圖)和 CausVid 結果(右圖)對比:
實驗效果如何?
實驗中,CausVid 表現驚豔:
首幀生成延遲從 3.5 分鍾降至 1.3 秒,提速 170 倍
生成速度從 0.6 幀 / 秒提升至 9.4 幀 / 秒,提升 16 倍
生成質量經 VBench 和用戶調查驗證,優于主流模型例如 Meta 的 MovieGen 和智譜的 CogVideoX
得益于單向注意力機制,CausVid 完全支持在大語言模型中廣泛應用的KV 緩存推理技術,從而顯著提升了生成效率。結合滑動窗口機制,CausVid 突破了傳統模型的長度限制。
盡管訓練階段僅接觸過 10 秒的視頻,CausVid 依然能夠生成長達 30 秒甚至更長的視頻,其生成速度和質量均顯著超越現有方法。
基于自回歸生成的特性,CausVid 無需額外訓練就能支持多種應用:
圖片動畫化:将靜态圖片自然轉化爲流暢視頻,賦予畫面生命力。
實時視頻風格轉換:如将 Minecraft 遊戲畫面即時轉換爲真實場景。這一技術爲遊戲渲染帶來全新思路:未來可能隻需渲染基礎 3D 幾何信息,由 AI 實時補充紋理和光影
交互式劇情生成:用戶通過調整提示詞,實時引導視頻劇情發展,帶來全新的創作體驗。
項目鏈接:https://causvid.github.io/
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>