人大盧志武：隻要拿到更多算力，超過Sora也不是那麽難的事

一支人大系大模型團隊，前後與 OpenAI 進行了三次大撞車！

第一次是與 Clip，第二次是與 GPT-4V，最新一次撞在了 Sora 上：

去年 5 月，他們聯合并聯合伯克利、港大等單位于在 arXiv 上發表了關于VDT的論文。

那時候，該團隊就在在技術架構上提出并采用了 Diffusion Transformer。并且，VDT 還在模型中引入統一的時空掩碼建模。

這個團隊，正由中國人民大學高瓴人工智能學院教授盧志武帶隊。

Sora 問世已經兩個多月，現在這支國産團隊在視頻生成領域的進度怎麽樣了？什麽時候我們能迎來國産 Sora 的驚豔時刻？

在本次中國 AIGC 産業峰會上，盧志武對上述問題進行了毫無保留的分享。

爲了完整體現盧志武的思考，在不改變原意的基礎上，量子位對演講内容進行了編輯整理，希望能給你帶來更多啓發。

中國 AIGC 産業峰會是由量子位主辦的行業峰會，20 位産業代表與會讨論。線下參會觀衆近千人，線上直播觀衆 300 萬，獲得了主流媒體的廣泛關注與報道。

話題要點

VDT 使用 Transformer 作爲基礎模型，能更好地捕捉長期或不規則的時間依賴性；

Scaling Law 是視頻生成模型從基于 Diffusion model 轉向基于 Transformer 的重要原因；

VDT 采用時空分離的注意力機制，而 Sora 采用時空合一的注意力機制；

VDT 采用 token concat 方式，實現快速收斂和良好效果；

消融實驗發現，模型效果與訓練消耗的計算資源正相關，計算資源越多，效果越好；

隻要拿到更多算力，超過 Sora 也不是那麽難的事。

……

以下爲盧志武演講全文：

爲什麽做視頻生成突然要轉到用 Transformer 上？

今天的報告，我将重點介紹我們在視頻生成領域的工作，特别是VDT（Video Diffusion Transformer）。

這項工作已于去年 5 月發布在 arXiv 上，并已被機器學習頂級會議 ICLR 接收。接下來，我将介紹我們在這一領域取得的進展。

衆所周知，Sora 非常出色，那麽它的優勢在哪裏呢？之前，所有的工作都是基于 Diffusion Model，那爲什麽我們在視頻生成中突然轉向使用 Transformer 呢？

從 Diffusion 到 Transformer 的轉變，原因如下：

與基于 U-net 的 Diffusion 模型不同，Transformer 具有許多優點，如 token 化處理和注意力機制，這兩個特點使其能夠更好地捕捉長期或不規則的時間依賴性。因此，在視頻領域，許多工作開始采用 Transformer 作爲基礎模型。

然而，這些都是表面現象，最根本的原因是什麽呢？使用 Transformer 進行視頻生成，是因爲其背後的 scaling law 發揮了作用。

Diffusion Model 的模型參數量是有限的，而一旦将 Transformer 作爲基礎模型，參數量可以随意增加，隻要有足夠的計算能力，就可以訓練出更好的模型。實驗證明，隻要增加計算量，效果就會得到提升。

當然，視頻生成涉及各種任務，使用 Transformer 能夠将這些任務統一在一個架構下。

基于上面三個原因探索用 Transformer 當視頻生成的底座，這是我們當時的考慮。

我們的創新點有兩個：

一是将 Transformer 應用于視頻生成，并結合了 Diffusion 的優點；二是在建模過程中，我們考慮了統一的時空掩碼建模，将時間和空間置于同等重要的位置。

無論是 VDT 還是 Sora，第一步都是對視頻進行壓縮和 token 化處理。

這與基于 DM 的方法最大的區别在于，基于 DM 的方法隻能進行空間壓縮，無法進行時間壓縮；而現在，我們可以同時考慮時間和空間，實現更高的壓縮程度。

具體來說，我們需要訓練一個時空空間中的 3D 量化重構器，這可以作爲 tokenizer，得到三維空間中的 patches。

總之，通過這種方式，我們可以得到 Transformer 的輸入，輸入實際上是 3D 的 tokens。

一旦我們将輸入的視頻進行 token 化處理，就可以像通常的 Transformer 一樣，使用标準的 Transformer 架構對 3D 的 token 序列進行建模，細節我就不贅述了。

VDT 和 Sora 有什麽差别？

VDT 模型中最重要的部分是時空的 Transformer Block。

我們與 Sora 有一點不同，當時設計這個 Block 時，我們将時空的 Attention 分開了。高校團隊沒有 OpenAI 那麽多的計算資源，這樣分開後，所需的計算資源會少很多——除此之外，其他所有設計都一模一樣。

現在，讓我們來看看我們與 Sora 的區别。

剛才我說過，VDT 采用了時空分離的注意力機制，空間和時間是分開的，這是在計算資源有限的情況下的折中方案。

Sora 采用的是時空統一的 token 化，注意力機制也是時空合一的，我們推測 Sora 強大的物理世界模拟能力主要來自于這個設計。

至于輸入條件不同，這不是 VDT 與 Sora 最大的區别，基本上圖生視頻能做好，文生視頻也能做好。

文生視頻的難度較大，但并非無法克服，沒有本質上的差别。

接下來，我将介紹我們當時探索的一些事項。架構設計完成後，我們特别關注輸入條件。這裏有 C 代表的 Condition Frame，以及 F 代表的 Noisy Frame。

這兩種輸入條件應該如何結合，我們探索了三種方式：

通過 Normalization 的方式；

通過 token concat 的方式；

通過 Cross attention。

我們發現，這三種方式中，token concat 的效果最佳，不僅收斂速度最快，而且效果最好，因此 VDT 采用了 token concat 方式。

我們還特别關注了通用時空掩碼機制。

不過，由于 Sora 沒有公布細節，我們不清楚它是否也采用了這個機制，但在模型訓練過程中，我們特别強調了設計這樣的掩碼機制，最終發現效果非常好，各種生成任務都能順利完成——我們發現 Sora 也能達到類似的效果。

消融實驗特别有趣，無論是 Sora 還是 VDT，有一個非常重要的問題，就是模型中有大量的超參數，這些超參數與模型密切相關，不同的參數會對模型的效果産生很大影響。

然而，通過大量實驗驗證，我們發現超參數的選擇有一個規律，即如果超參數使得模型的訓練計算量增加，那麽對模型效果是有益的。

這意味着什麽？我們模型的性能隻與其背後引入的計算量有關，模型訓練所需的計算資源越多，最終的生成效果就越好，就這麽簡單。

這個發現與 DiT 類似，DiT 被稱爲 Sora 的基礎模型，它是用于圖片生成的。

總之，消融實驗是 Sora 或我們工作中最重要的事情之一，我們模型的效果隻與訓練消耗的計算資源有關，消耗的計算資源越大，效果越好。

有更多算力，超過 Sora 不是太難

考慮到我們的計算資源确實有限，我們團隊在模型訓練規模上，肯定不能與 OpenAI 相比。但是，我們也進行了一些深入的思考。

物理世界模拟本身就在我們的論文中，并不是說這是 OpenAI 首先想到的，我們一年前就想到了。

當時有這個底座以後，很自然想到這樣模型到底能不能進行物理規律模拟。後來在物理數據集上訓練了一下 VDT，發現它對簡單的物理規律模拟得特别好。

比如，這些例子有抛物線的運動，加速運動，還有碰撞的運動，模拟得都還可以。

所以我們當時做了兩個在思想上特别有前瞻性的事情，一個是當時我們想到 Diffusion Transformer 用到視頻生成裏面，第二個是我們得到了這樣模型以後，我們當時覺得這就是做物理世界模拟很好的模型，我們做實驗驗證了這個事情。

當然，如果我們有更多的算力，我們有更多的數據，我相信肯定可以模拟更複雜的物理規律。

我們這個模型也跟現在有模型做了對比，比如人像生成，給一張寫真的照片讓它動起來，我們隻考慮做這個小的事情，因爲我們算力特别有限。

這些結果表明 VDT 比 Stable Video Diffusion 要好一些，你可以看看生成得人物眼睛眨的更明顯一些，更自然一點。另一個模型生成有點不太自然。

此外，如果人臉從側面轉成正臉，甚至用扇子把臉遮住了，要把人臉預測出來，還是挺難的。

關于這個寫真視頻是怎麽做的我簡單說一下。

先提供幾張寫真的照片，VDT 把每一張寫真照片變成兩秒的鏡頭，通過剪輯的方式把鏡頭拼在一起。

結合我們團隊本身的特點，如果說我做通用的模型，我肯定做不過市面上的大部分，但是我當時挑了一個應用點，在這個點上 VDT 并不比 Sora 差。

Sora 出來以後很多人要做視頻生成，我要考慮怎麽保證我的團隊在這個方向上，哪怕很小的一個點保持世界最前沿。

因此，我們做了寫真視頻生成，國外的 Pika、Sora 也研究了一下。VDT 生成的超寫實人物，是超過 Pika 和 Sora 的。在通用的視頻生成我們很難超過 Sora，這裏的主要原因是我們算力很有限。

我就講這麽多，謝謝大家。

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~