圖片來源 @視覺中國
文 | 矽基研究室,作者 | 山核桃
随着 OpenAI 正式發布首個文生視頻大模型 Sora,過去幾天裏圍繞 Sora 技術配方的猜測,對行業影響的讨論成爲了科技圈的頭條。一位 AI 創業者對 Sora 評價是:" 沒有想到文生視頻的 GPT 時刻能來的這麽快。"
從創業者和行業觀察角度,文生視頻一直被視爲多模态 AIGC「聖杯」,除了本身相較于文生圖來說難度更高外,在數據質量、算力以及多融合技術的複雜性上都有諸多需要突破的關卡,這也是爲什麽即便是行業異常火熱,從 Runway 等 AI 視頻初創公司崛起,再到去年 Pika 爆火,業内人士也樂觀地認爲 2024 是 AI 行業的「視頻大年」,但還是在時間上留了保守态度。比如,Pika 聯合創始人 Chenlin Meng 在去年接受采訪預測:" 目前視頻生成處于類似 GPT-2 的時刻。"
但 Sora 所呈現的效果還是打破了業内人士的預期。
無論是同行們——馬斯克「人類願賭服輸」,Runway 聯合創始人「game on」的感慨,還是技術層面,如前阿裏總裁賈揚清「非常牛」的評價,似乎讓人們一夜之間又回到了一年多前令人恐懼和焦慮的 GPT-3 時刻。
在各類觀點之外,Sora 崛起究竟能給創業者乃至技術界帶來哪些啓示?目前國内外文生視頻的發展進度又如何?
01 Sora 是 OpenAI 技術路線的又一次驗證
「矽基研究室」曾在《Pika 爆火,但 AI 視頻還沒到「GPT 時刻」》一文中系統梳理 AI 生成視頻模型背後的技術路線,主要可分爲三個階段——
階段一爲基于 GAN(生成式對抗網絡遊戲)和 VAE 模型(變分自編碼器),可以自回歸地形成視頻幀,但該技術的局限性在于應用範圍窄,生成視頻分辨率低,且僅能生成靜态、單一的畫面;
階段二爲受 GPT3 和 DALLE 啓發,行業開始采用 Transformer 架構,出現了谷歌的 Phenaki、微軟的 NUWA 等一系列的視頻生成模型,巨頭押注之中,提升了視頻模型的能力,例如可以捕捉上下文,實現顆粒度更細的語義控制等,卻缺點也更明顯了——計算量太大了,對配對數據集的要求也更大。
階段三也則是受 stable diffusion 等文生圖應用擴散模型的啓發(diffusion models),從圖像到視頻領域,采用擴散架構成爲了主流,Meta 的 Make-a-video、英偉達的 Video LDM,初創公司 Runway 的 Runway-Gen1、Runway-Gen2、字節的 MagicVideo 等也都是采用了擴散架構。
但擴散模型這一技術路線在算法、數據上存在難點,比如如何改善計算成本和提升數據集質量這一老問題,以及在生成效果與質量上,例如畫面的一緻性、分辨率、生成長度上也有不少的問題。
圖片來源:東吳證券
而 Sora 所呈現出的效果,如生成風格的多樣性、畫面的一緻性等優勢恰好彌補了過去視頻生成模型的劣勢。而複盤 Sora 之所以能加速視頻模型進程,綜合官方的技術文檔和專家的猜測觀點,核心邏輯依舊是 OpenAI 技術路線的又一次驗證,這套路線的特點是:大力出奇迹、足夠簡潔和堅守技術信仰。
一是大力出奇迹,Sora 遵循了 OpenAI 推崇的 Scaling Law。在 Scaling Law 的指導下,OpenAI 擅長以更大規模的算力和數據提升模型性能表現。思謀科技創始人賈佳亞評價 Sora:"Sora 是大力出奇迹,在學術界連 VIT 的 256*256 的分辨率都沒法改的情況下,Sora 直接用上了高清以及更大的分辨率,這沒幾千上萬張 H100 都不敢想象如何開始這個項目。"
二是簡潔性。根據技術文檔和專家猜測,Sora 是使用了混合模型架構——是 Transformer 架構的 Diffusion 擴散模型,據紐約大學數據科學中心的助理教授謝賽甯的猜測(注:他也是 Sora 技術文檔中所引用的一篇關鍵論文的作者之一),Sora 應該是建立在一種混合模型 DiT 之上(DiT 是一個帶有 Transformer 主幹的擴散模型,它 = [ VAE 編碼器 +ViT+DDPM+VAE 解碼器 ] )。
同時,Sora 參考了文生文模型中的 Token 原理。在文生文模型中,文本被同意轉化爲 token 的數字表示形式,用以模型訓練。而 OpenAI 提出了一種用 patch(視覺補丁)統一圖像與視頻的方法。
OpenAI 官方公布的示例視頻
謝賽甯就評價這些技術特點是「簡單性和可擴展性」,沒有專注于創新。" 因爲簡單性意味着靈活性。"
三是不變的技術信仰。Sora 的爆發并非是短期,而是源自業界(比如老大哥谷歌)的技術嘗試以及 OpenAI 長期的技術積累,從文本、圖像等諸多技術嘗試中均可見一斑。
創新無法被計劃,但所有的創新都可以成爲颠覆式創新的墊腳石,這仍然是 OpenAI 給大公司留下的啓示。
02 與 Sora 的距離有多遠?
不可否認的是,在「太牛了」等感歎後,國内外的大模型企業也開始了新一輪的焦慮:從文本、圖像再到視頻模型,随着差距進一步拉大,「追趕」又成了新一輪的主題。
去年 Pika 爆火時,行業曾預測,未來在視頻領域也會是一家公司領先一到兩年,其他公司在追趕。但現在,競争的時間窗口正因 Sora 而大大縮小。面對與 OpenAI 的競争,Pika 創始人郭文景回應:" 我們覺得這是一個很振奮人心的消息,我們已經在籌備直接沖,将直接對标 Sora。"
根據美國 VC 機構 a16z 的統計,2023 年,文生視頻領域發布相關工具與産品達到了 21 種,發布産品的多爲初創企業。
圖片來源:a16z
但當前,國内國外的文生視頻領域呈現出不同的競争态勢。
在國外,一方面形成了「科技巨頭 + 創業派 + 專業派」的組合,目前頭部科技巨頭基本都已入局,隻是産品尚未全面公測。專業派則是如 Adobe 此類面向專業級用戶的老牌軟件巨頭。而創業派則是包括了 Runway、Pika 等。另一方面,由于海外較爲細分和垂直化的科技生态,也湧現出如 HeyGen、Descript、Rephrase.ai 等圍繞輕量化視頻制作的工具或平台型企業,這一部分初創企業目前也在通過收購或被收購,擴充生态。比如 OpenAI 參投了 Descript,而 Rephrase.ai 則被 Adobe 收購。
反觀國内,目前的路線和競争格局還尚不清晰。「矽基研究室」梳理,大廠也在積極押注視頻生成,如字節跳動的文生視頻模型 MagicVideo-V2、阿達摩院的 Zeroscope 等。不久前,張楠辭任抖音集團 CEO,同時轉向剪映發展,也被外界解讀爲字節對視頻領域押注。
盡管技術水平不同,生态也不同,但擺在國内外企業面前的難點與挑戰也是類似的。
首先在技術方面,由于是閉源模型,Sora 并未公開更多的技術細節,路徑依舊是模糊的。據魔搭社區開發者的讨論,一些可能的技術難點如下:Sora 究竟是如何保證視頻特征被更好地保留的?Sora 的數據集組成如何?如何保證海量高質量的數據(數據的獲取和标注又是如何完成的?)
其次在算力方面,初創企業難以複刻 OpenAI「大力出奇迹」的路徑,奧特曼近期一系列押注算力的計劃也再度印證了算力的稀缺性。随着大模型的發展速度更快,算力成本是否能如奧特曼所想的那樣降低,二者之間誰的速度更快,這一速度線往往就是初創企業的生死線。
盡管焦慮,但并非沒有路可走。如一位開發者所言:"OpenAI 畫了一條「模糊」的路,但有了這條模糊的路,大家就可以去嘗試,從而畫出通往視頻生成的正确的清晰的路。"
南洋理工大學研究工程師周弈帆就認爲從技術貢獻上來看,Sora 其中一項創新就是使用了一種不限制輸入形狀的 DiT。"DiT 能支持不同形狀的輸入,大概率是因爲它以視頻的 3D 位置生成位置編碼,打破了一維編碼的分辨率限制。後續大家或許會逐漸從 U-Net 轉向 DiT 來建模擴散模型的去噪模型。"(注:UNet 是一種流行的卷積神經網絡架構,特别适合圖像分割任務)
而對一些内容創作者而言,他們關心的不僅是技術,也有開源問題。實驗電影人、AIGC 藝術家 @海辛在即刻中寫道:"我還是更相信開源社區,OpenAI 總是提供很好的範式,DallE2,GPT,Sora.. 但至今你都沒辦法讓 DallE2 畫具體某個遊戲畫風的角色 / 場景,由于數據集本身的多樣性不夠,導緻沒有辦法做具體的項目風格,風格沒有辦法自定義,對于大多數商業項目來說就沒有意義,即實用性很低。"
如人們所預測的 2024,無疑是 AI 視頻大年,Sora 提供了一種新的技術路線和方向,也爲内容創作者提供了新的工具,新的追趕開始了,新的競争與創意也從此刻開始,也正在發生。
參考資料:
1、魔搭社區:複刻 Sora 有多難?一張圖帶你讀懂 Sora 的技術路徑
2、Hugging Face:文生視頻 : 任務、挑戰及現狀
3、未盡研究:Sora 模型隻有 3B
4、國盛證券:AI 文生視頻:多模态應用的下一站
5、東吳證券:多模态技術加速,AI 商業宏圖正啓
6、天才程序員周弈帆:OpenAI 視頻模型 Sora 科研貢獻速覽
7、甲子光年:Sora 湧現,OpenAI 又一次暴力美學的勝利