Sora啓示錄：信仰、對抗與未來

圖片來源 @視覺中國

文 | 矽基研究室，作者 | 山核桃

随着 OpenAI 正式發布首個文生視頻大模型 Sora，過去幾天裏圍繞 Sora 技術配方的猜測，對行業影響的讨論成爲了科技圈的頭條。一位 AI 創業者對 Sora 評價是：" 沒有想到文生視頻的 GPT 時刻能來的這麽快。"

從創業者和行業觀察角度，文生視頻一直被視爲多模态 AIGC「聖杯」，除了本身相較于文生圖來說難度更高外，在數據質量、算力以及多融合技術的複雜性上都有諸多需要突破的關卡，這也是爲什麽即便是行業異常火熱，從 Runway 等 AI 視頻初創公司崛起，再到去年 Pika 爆火，業内人士也樂觀地認爲 2024 是 AI 行業的「視頻大年」，但還是在時間上留了保守态度。比如，Pika 聯合創始人 Chenlin Meng 在去年接受采訪預測：" 目前視頻生成處于類似 GPT-2 的時刻。"

但 Sora 所呈現的效果還是打破了業内人士的預期。

無論是同行們——馬斯克「人類願賭服輸」，Runway 聯合創始人「game on」的感慨，還是技術層面，如前阿裏總裁賈揚清「非常牛」的評價，似乎讓人們一夜之間又回到了一年多前令人恐懼和焦慮的 GPT-3 時刻。

在各類觀點之外，Sora 崛起究竟能給創業者乃至技術界帶來哪些啓示？目前國内外文生視頻的發展進度又如何？

01 Sora 是 OpenAI 技術路線的又一次驗證

「矽基研究室」曾在《Pika 爆火，但 AI 視頻還沒到「GPT 時刻」》一文中系統梳理 AI 生成視頻模型背後的技術路線，主要可分爲三個階段——

階段一爲基于 GAN（生成式對抗網絡遊戲）和 VAE 模型（變分自編碼器），可以自回歸地形成視頻幀，但該技術的局限性在于應用範圍窄，生成視頻分辨率低，且僅能生成靜态、單一的畫面；

階段二爲受 GPT3 和 DALLE 啓發，行業開始采用 Transformer 架構，出現了谷歌的 Phenaki、微軟的 NUWA 等一系列的視頻生成模型，巨頭押注之中，提升了視頻模型的能力，例如可以捕捉上下文，實現顆粒度更細的語義控制等，卻缺點也更明顯了——計算量太大了，對配對數據集的要求也更大。

階段三也則是受 stable diffusion 等文生圖應用擴散模型的啓發（diffusion models），從圖像到視頻領域，采用擴散架構成爲了主流，Meta 的 Make-a-video、英偉達的 Video LDM，初創公司 Runway 的 Runway-Gen1、Runway-Gen2、字節的 MagicVideo 等也都是采用了擴散架構。

但擴散模型這一技術路線在算法、數據上存在難點，比如如何改善計算成本和提升數據集質量這一老問題，以及在生成效果與質量上，例如畫面的一緻性、分辨率、生成長度上也有不少的問題。

圖片來源：東吳證券

而 Sora 所呈現出的效果，如生成風格的多樣性、畫面的一緻性等優勢恰好彌補了過去視頻生成模型的劣勢。而複盤 Sora 之所以能加速視頻模型進程，綜合官方的技術文檔和專家的猜測觀點，核心邏輯依舊是 OpenAI 技術路線的又一次驗證，這套路線的特點是：大力出奇迹、足夠簡潔和堅守技術信仰。

一是大力出奇迹，Sora 遵循了 OpenAI 推崇的 Scaling Law。在 Scaling Law 的指導下，OpenAI 擅長以更大規模的算力和數據提升模型性能表現。思謀科技創始人賈佳亞評價 Sora："Sora 是大力出奇迹，在學術界連 VIT 的 256*256 的分辨率都沒法改的情況下，Sora 直接用上了高清以及更大的分辨率，這沒幾千上萬張 H100 都不敢想象如何開始這個項目。"

二是簡潔性。根據技術文檔和專家猜測，Sora 是使用了混合模型架構——是 Transformer 架構的 Diffusion 擴散模型，據紐約大學數據科學中心的助理教授謝賽甯的猜測（注：他也是 Sora 技術文檔中所引用的一篇關鍵論文的作者之一），Sora 應該是建立在一種混合模型 DiT 之上（DiT 是一個帶有 Transformer 主幹的擴散模型，它 = [ VAE 編碼器 +ViT+DDPM+VAE 解碼器 ] ）。

同時，Sora 參考了文生文模型中的 Token 原理。在文生文模型中，文本被同意轉化爲 token 的數字表示形式，用以模型訓練。而 OpenAI 提出了一種用 patch（視覺補丁）統一圖像與視頻的方法。

OpenAI 官方公布的示例視頻

謝賽甯就評價這些技術特點是「簡單性和可擴展性」，沒有專注于創新。" 因爲簡單性意味着靈活性。"

三是不變的技術信仰。Sora 的爆發并非是短期，而是源自業界（比如老大哥谷歌）的技術嘗試以及 OpenAI 長期的技術積累，從文本、圖像等諸多技術嘗試中均可見一斑。

創新無法被計劃，但所有的創新都可以成爲颠覆式創新的墊腳石，這仍然是 OpenAI 給大公司留下的啓示。

02 與 Sora 的距離有多遠？

不可否認的是，在「太牛了」等感歎後，國内外的大模型企業也開始了新一輪的焦慮：從文本、圖像再到視頻模型，随着差距進一步拉大，「追趕」又成了新一輪的主題。

去年 Pika 爆火時，行業曾預測，未來在視頻領域也會是一家公司領先一到兩年，其他公司在追趕。但現在，競争的時間窗口正因 Sora 而大大縮小。面對與 OpenAI 的競争，Pika 創始人郭文景回應：" 我們覺得這是一個很振奮人心的消息，我們已經在籌備直接沖，将直接對标 Sora。"

根據美國 VC 機構 a16z 的統計，2023 年，文生視頻領域發布相關工具與産品達到了 21 種，發布産品的多爲初創企業。

圖片來源：a16z

但當前，國内國外的文生視頻領域呈現出不同的競争态勢。

在國外，一方面形成了「科技巨頭 + 創業派 + 專業派」的組合，目前頭部科技巨頭基本都已入局，隻是産品尚未全面公測。專業派則是如 Adobe 此類面向專業級用戶的老牌軟件巨頭。而創業派則是包括了 Runway、Pika 等。另一方面，由于海外較爲細分和垂直化的科技生态，也湧現出如 HeyGen、Descript、Rephrase.ai 等圍繞輕量化視頻制作的工具或平台型企業，這一部分初創企業目前也在通過收購或被收購，擴充生态。比如 OpenAI 參投了 Descript，而 Rephrase.ai 則被 Adobe 收購。

反觀國内，目前的路線和競争格局還尚不清晰。「矽基研究室」梳理，大廠也在積極押注視頻生成，如字節跳動的文生視頻模型 MagicVideo-V2、阿達摩院的 Zeroscope 等。不久前，張楠辭任抖音集團 CEO，同時轉向剪映發展，也被外界解讀爲字節對視頻領域押注。

盡管技術水平不同，生态也不同，但擺在國内外企業面前的難點與挑戰也是類似的。

首先在技術方面，由于是閉源模型，Sora 并未公開更多的技術細節，路徑依舊是模糊的。據魔搭社區開發者的讨論，一些可能的技術難點如下：Sora 究竟是如何保證視頻特征被更好地保留的？Sora 的數據集組成如何？如何保證海量高質量的數據（數據的獲取和标注又是如何完成的？）

其次在算力方面，初創企業難以複刻 OpenAI「大力出奇迹」的路徑，奧特曼近期一系列押注算力的計劃也再度印證了算力的稀缺性。随着大模型的發展速度更快，算力成本是否能如奧特曼所想的那樣降低，二者之間誰的速度更快，這一速度線往往就是初創企業的生死線。

盡管焦慮，但并非沒有路可走。如一位開發者所言："OpenAI 畫了一條「模糊」的路，但有了這條模糊的路，大家就可以去嘗試，從而畫出通往視頻生成的正确的清晰的路。"

南洋理工大學研究工程師周弈帆就認爲從技術貢獻上來看，Sora 其中一項創新就是使用了一種不限制輸入形狀的 DiT。"DiT 能支持不同形狀的輸入，大概率是因爲它以視頻的 3D 位置生成位置編碼，打破了一維編碼的分辨率限制。後續大家或許會逐漸從 U-Net 轉向 DiT 來建模擴散模型的去噪模型。"（注：UNet 是一種流行的卷積神經網絡架構，特别适合圖像分割任務）

而對一些内容創作者而言，他們關心的不僅是技術，也有開源問題。實驗電影人、AIGC 藝術家 @海辛在即刻中寫道："我還是更相信開源社區，OpenAI 總是提供很好的範式，DallE2，GPT，Sora.. 但至今你都沒辦法讓 DallE2 畫具體某個遊戲畫風的角色 / 場景，由于數據集本身的多樣性不夠，導緻沒有辦法做具體的項目風格，風格沒有辦法自定義，對于大多數商業項目來說就沒有意義，即實用性很低。"

如人們所預測的 2024，無疑是 AI 視頻大年，Sora 提供了一種新的技術路線和方向，也爲内容創作者提供了新的工具，新的追趕開始了，新的競争與創意也從此刻開始，也正在發生。

參考資料：

1、魔搭社區：複刻 Sora 有多難？一張圖帶你讀懂 Sora 的技術路徑

2、Hugging Face：文生視頻 : 任務、挑戰及現狀

3、未盡研究：Sora 模型隻有 3B

4、國盛證券：AI 文生視頻：多模态應用的下一站

5、東吳證券：多模态技術加速，AI 商業宏圖正啓

6、天才程序員周弈帆：OpenAI 視頻模型 Sora 科研貢獻速覽

7、甲子光年：Sora 湧現，OpenAI 又一次暴力美學的勝利