剛剛,Meta 搶在 OpenAI 之前推出自己的 Sora ——Meta Movie Gen
Sora 有的它都有,可創建不同寬高比的高清長視頻,支持 1080p、16 秒、每秒 16 幀。
Sora 沒有的它還有,能生成配套的背景音樂和音效、根據文本指令編輯視頻,以及根據用戶上傳的圖像生成個性化視頻。
Meta 表示,這是 " 迄今爲止最先進的媒體基礎模型(Media Foundation Models)"。
隻需一句 " 把燈籠變成飛向空中的泡泡 ",就能替換視頻中的物體,同時透明的泡泡正确反射了背景環境。
上傳一張自己的照片,就能成爲 AI 電影的主角。
生成的視頻不再無聲,也不隻是能安一個背景音樂。
比如看這裏!視頻會配合滑闆輪子轉動和落地配上逼真音效。(注意打開聲音)
有人表示,随着大量創作者學會使用 AI 視頻編輯工具,很難想象幾年後長視頻和短視頻會變成什麽樣。
這一次,與 Sora 隻有演示和官網博客不同,Meta 在92 頁的論文中把架構、訓練細節都公開了。
不過模型本身還沒開源,遭到抱抱臉工程師貼臉開大,直接在評論區扔下 Meta 的開源主頁鏈接:
在這等着您嗷。
Meta 在論文中特别強調,數據規模、模型大小、訓練算力的擴展對于訓練大規模媒體生成模型至關重要。通過系統地提升這幾個維度,才使得如此強大的媒體生成系統成爲可能。
其中最另業界關注的一點是,這一次他們完全扔掉了擴散模型和擴散損失函數,使用 Transformer 做骨幹網絡,流匹配(Flow Matching)做訓練目标。
用 Llama3 架構做視頻模型
具體來說 Movie Gen 由視頻生成和音頻生成兩個模型組成。
Movie Gen Video:30B 參數 Transformer 模型,可以從單個文本提示生成 16 秒、16 幀每秒的高清視頻,相當于 73K 個視頻 tokens。
對于精确視頻編輯,它可以執行添加、删除或替換元素,或背景替換、樣式更改等全局修改。
對于個性化視頻,它在保持角色身份一緻性和運動自然性方面取得 SOTA 性能。
Movie Gen Audio:13B 參數 Transformer 模型,可以接受視頻輸入以及可選的文本提示,生成與視頻同步的高保真音頻。
Movie Gen Video 通過預訓練 - 微調範式完成,在骨幹網絡架構上,它沿用了 Transoformer,特别是 Llama3 的許多設計。
預訓練階段
在海量的視頻 - 文本和圖像 - 文本數據集上進行聯合訓練,學習對視覺世界的理解。這個階段的訓練數據規模達到了 O ( 100 ) M 視頻和 O ( 1 ) B 圖像,用以學習運動、場景、物理、幾何、音頻等概念。
微調階段
研究人員精心挑選了一小部分高質量視頻進行有監督微調,以進一步提升生成視頻的運動流暢度和美學品質。
爲了進一步提高效果,模型還引入了流匹配(Flow Matching)作爲訓練目标,這使得視頻生成的效果在精度和細節表現上優于擴散模型。
擴散模型通過從數據分布逐漸加入噪聲,然後在推理時通過逆過程去除噪聲來生成樣本,用大量的叠代步數逐步逼近目标分布。
流匹配則是通過直接學習樣本從噪聲向目标數據分布轉化的速度,模型隻需通過估計如何在每個時間步中演化樣本,即可生成高質量的結果。
與擴散模型相比,流匹配方法訓練更加高效,計算成本更低,并且生成的結果在時間維度上具有更好的連續性和一緻性。
在整體架構上,首先通過時空自編碼器(Temporal AutoEncoder, TAE)将像素空間的 RGB 圖像和視頻壓縮到一個時空潛空間,學習一種更加緊湊的表征。
接着,輸入的文本提示被一系列預訓練的文本編碼器編碼成向量表示,作爲模型的條件信息。這裏用到了多種互補的文本編碼器,包括理解語義的編碼器如 UL2、與視覺對齊的編碼器如 Long-prompt MetaCLIP,以及理解視覺文本的字符級編碼器如 ByT5。
最後,生成模型以 Flow Matching 的目标函數進行訓練,從高斯分布采樣的噪聲向量作爲輸入,結合文本條件,生成一個輸出潛碼。這個潛碼經過 TAE 解碼,就得到最終的圖像或視頻輸出。
此外 Movie Gen Video 在技術上還引入了多項創新:
爲了讓模型同時适配圖像和視頻,設計了一套因子化的可學習位置編碼(factorized learnable positional embedding)機制。對高度、寬度、時間三個維度分别編碼,再相加。這樣即适配了不同寬高比,又能支持任意長度的視頻。
針對推理效率問題,它采用了線性 - 二次時間步長調度(linear-quadratic t-schedule)策略。僅用 50 步就能逼近 1000 步采樣的效果,大幅提升了推理速度。
爲了進一步提高生成效率,Movie Gen Video 模型還采用了基于時間平鋪(temporal tiling)的推理方法。應對生成高分辨率長視頻時,直接對整個視頻進行編碼和解碼可能會遇到的内存限制問題。
在時間平鋪推理中,輸入視頻在時間維度上被分割成多個片段,每個片段獨立進行編碼和解碼,然後在輸出時将所有片段重新拼接在一起。這種方法不僅降低了對内存的需求,還提高了推理的效率。
此外,在解碼階段使用了重疊和混合的方式來消除片段邊界處的僞影問題,即通過在片段之間引入重疊區域,并對重疊區域進行加權平均,确保生成的視頻在時間維度上保持平滑和一緻。
另外 Meta 還開源了多個基準測試數據集,包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench,爲後續研究者提供了權威的評測工具,有利于加速整個領域的進步。
這篇長達 92 頁的論文還介紹了更多在架構、訓練方法、數據管理、評估、并行訓練和推理優化、以及音頻模型的更多信息。
感興趣的可到文末鏈接查看。
One More Thing
AI 視頻生成這塊,這兩天熱鬧不斷。
就在 Meta 發布 Movie Gen 之前不久,OpenAI Sora 主創之一Tim Brooks跳槽谷歌 DeepMind,繼續視頻生成和世界模拟器方面的工作。
這讓很多人想到,就像當年谷歌遲遲不推出大模型應用,Transformer 8 個作者紛紛出走。
現在 OpenAI 遲遲發布不了 Sora,主要作者也跑了。
不過另外也有人認爲,Tim Brooks 選擇現在離開,或許說明他在 OpenAI 的主要工作完成了,也讓人開始猜測:
Meta 的發布會迫使 OpenAI 放出 Sora 來回應嗎?
(截至目前爲止,Sora 的另一位主創 Bill Peebles 還未發聲。)
現在 Meta 放出了帶有視頻編輯功能的模型,再加上 10 月 1 日 Pika 1.5 更新,主打給視頻中物體加上融化、膨脹、擠壓等物理特效。
不難看出,AI 視頻生成下半場,要開始卷向 AI 視頻編輯了。
論文地址:
https://ai.meta.com/static-resource/movie-gen-research-paper
參考鏈接:
[ 1 ] https://ai.meta.com/research/movie-gen/
[ 2 ] https://x.com/AIatMeta/status/1842188252541043075