2024 年,Sora 一直活在聚光燈下。
馬斯克不惜溢美之詞,稱「人類願賭服輸」;紅衣教主周鴻祎眼中,借助 Sora 人類實現 AGI 将縮減至一兩年。就連賣付費課程的微商,也拿「Sora」重新組裝了自己的鐮刀。
這種狂熱的蔓延,從美國到中國,從一級到二級甚至再到三級市場,像漣漪一樣,播散向全世界。
因爲,在理想情況下,長視頻生成的底層邏輯,約等于世界模型。十幾秒、幾十秒的視頻中,包含了基礎的圖像處理、空間關系、物理規律、因果邏輯等等現實規律與知識的映射。小處看,可以掀翻傳統電影、遊戲制作的桌子,大處看,通往通用人工智能,這是關鍵一步。
同時,在一衆長視頻生成算法中,Sora 的技術突破是具備革命性的。相比傳統的 Stable Diffusion,Sora 采用的 Diffusion 加 Transformer 架構,既克服了 Stable Diffusion 擴展性的缺失,更是在生成内容的準确性和靈活性上有了質的飛躍。
唯一美中不足是,Sora 并非開源算法。
沒了開源,也就沒了複現的可能;沒了複現可能,那麽哪怕經管出身的合夥人睡前讀物變成了《Scalable diffusion models with transformers》,投資經理一周跑遍北京、深圳科技産業園掘地三尺,所有人都不得不承認一個現實,盡管視頻大模型企業衆多,但或許尚未等到國産 Sora 正式發掘,視頻大模型的淘汰賽就已經走到尾聲。
業内「哇聲一片」,一級市場卻空前焦慮。中國 AI 企業,隻能眼睜睜看着自己距離 Sora 越來越遠嗎?
01「國産 Sora」來了?
場上 VC 幾乎絕望之際,誰也沒曾想到,國産 Sora 的秘密,最先揭曉謎底的,竟是成立僅一年多的大模型企業——生數科技。
近日,生數科技聯合清華大學宣布推出國内首個基于純自研 U-ViT 架構的視頻大模型「Vidu」,支持一鍵生成長達 16 秒、分辨率高達 1080p 的高清視頻内容。從官宣的短片來看,Vidu 在多鏡頭生成、時間和空間一緻性、模拟真實物理世界以及想象力等方面,幾乎與 Sora 齊平。
而相比其他國産「類 Sora」的工作,Vidu 一個最明顯的特點就是,畫面時間足夠長。
一直以來,十秒幾乎是「國産 Sora」的一個生死線。要想達到或者超過十秒,則意味着對訓練素材的積累,以及如何解決算法記憶消失問題,需要做出深厚的研究。
這是 Vidu 放出的另一段官方視頻,從視頻中可以看到,白色老式 SUV 在山坡土路行駛中,滾動的輪胎會揚起灰塵,軌迹自然連貫;周圍樹林,也在陽光的照射下,遵循真實世界中的投射規律,留下光影斑駁。
形成對比的是,保證視頻時長的前提下,大部分國産「類 Sora」都很難保持人物和場景的連貫,同時也難以做到真實地遵循物理世界規律,比如吃漢堡會留下咬痕、汽車開過會留下尾氣與灰塵的痕迹。
根據行業人士透露,目前市面上之前的一些「類 Sora」模型,做到長時長的路徑,其實大多是通過插幀的方式,在視頻的每兩幀畫面中增加一幀或多幀來提升視頻的長度。
這種方法就需要對視頻進行逐幀處理,通過插入額外的幀來改善視頻長度和質量。整體畫面就會顯得僵硬而又緩慢。
但生數科技的作用原理明顯不同。基于單一模型完全端到端生成實現底層算法,直觀上,我們可以看到「一鏡到底」的絲滑感,視頻從頭到尾連續生成,沒有插幀痕迹。
另外,還有一些工具類的長視頻采用了「換湯不換藥」的做法。底層集合了許多其他模型工作,比如先基于 Stable Diffusion、Midjourney 生成單張畫面,再圖生 4s 短視頻,再做拼接。也就是說,想要一個十幾秒長視頻,那就把多個 4s 短視頻拼在一起就好,不僅整體的畫面流暢度會大打折扣,底層也并沒有實現長視頻生成能力的突破。
除了生成時長有了質的突破,從官宣視頻中我們還可以看到,Vidu 還做到了畫面連續流暢,且有細節、邏輯連貫。盡管都是運動畫面,但幾乎不會出現穿模、鬼影、運動不符合現實規律的問題。
做一個簡單對比,以下是某熱門視頻大模型團隊的視頻生成效果截圖,雖然整體視頻長度才四秒,但僅僅一個準備跳躍的動作指令,就足以讓畫面裏的小貓變成 6 隻腳,或者三根尾巴的「鬼影」。
對比如此鮮明,讓人不禁疑惑:爲何 ChatGPT 發布後,市場馬上湧現一批「達到 GPT 3.5,逼近 GPT4.0」的大模型産品。同樣是追趕,爲什麽類 Sora 産品卻如此困難?
答案是,ChatGPT 發布不久,Meta LLama2 開源,開源平替解決了國産 ChatGPT 技術複現的燃眉之急。而 Sora 沒有開源,技術細節未公開,這就導緻,實現「國産 Sora」就隻剩了自研這一條路可以走。
根據 OpenAI 披露的技術報告,Sora 核心技術架構背後源自一篇名爲《Scalable Diffusion Models with Transformers》的論文,論文提出了一個将 Diffusion(擴散模型)和 Transformer 融合的架構—— DiT,後面被 Sora 采用。
巧合的是,比 DiT 早兩個多月,清華團隊就提出了用 Transformer 替代基于 CNN 的 U-Net 的網絡架構 U-ViT。從架構路線上,兩者并無二緻。甚至過程中,還曾出現一個小插曲,由于發布時間更早,當年計算機視覺頂會 CVPR 2023 收錄了清華大學的 U-ViT 論文,卻以「缺乏創新」爲由拒稿了 Sora 底層使用的 DiT 論文。
生數科技的創始團隊正是源于清華大學該論文團隊。公司的 CTO 鮑凡就是該篇論文的第一作者,此次發布的 Vidu 模型底層采用的就是 U-ViT 架構。也就是說,生數科技并不屬于追逐 Sora 的一員,而是一早就踏在了同一起跑線,甚至是更早。
由此窺見,生數科技成立時間雖短,但來頭卻不小。
深扒發現,論人才,其團隊核心成員來自清華大學人工智能研究院,是國内最早開展深度生成式研究的團隊。論技術,團隊多項研究成果被 OpenAI、蘋果、Stability AI 等應用于 DALL · E 2、Stable Diffusion 等模型中,是現階段在生成式領域發表論文成果數最多的國内團隊。論背景,生數科技已獲得螞蟻集團、啓明創投、BV 百度風投、字節系錦秋基金等多家知名機構的認可,完成數億元融資。
而真做到這一切的,爲什麽是生數?
02 爲什麽是生數科技?
最重要的答案或許是,生數科技早早走對了技術路線。
與市面上大部分視頻生成算法采用基于 U-Net 卷積架構的傳統擴散模型不同,生數科技此次發布的 Vidu 與 Sora 采用的都是融合架構(即上文提到的 U-ViT 與 DiT)。
所謂融合架構,可以理解爲 Diffusion(擴散模型)與 Transformer 的融合。
Transformer 架構被熟知應用于大語言模型,該架構的優勢在于 scale 特性,參數量越大,效果越好,而 Diffusion 被常用于傳統視覺任務(圖像和視頻生成)中。
融合架構就是在 Diffusion Model(擴散模型)中,用 Transformer 替換常用的 U-Net 卷積網絡,将 Transformer 的可擴展性與 Diffusion 模型處理視覺數據的天然優勢進行融合,能在視覺任務下展現出卓越的湧現能力。
2022 年 9 月,團隊提交了 U-ViT 論文,在全球首次提出将擴散模型與 Transformer 融合的架構思路。兩個多月之後推出的 DiT 架構同樣采取了這一思路,而後被 Sora 采用。
相比僅在 ImageNet 上做了實驗的 DiT,U-ViT 還在小數據集(CIFAR10、CelebA)、ImageNet、圖文數據集 MSCOCO 均做了實驗。而且,相比傳統的 Transformer,U-ViT 提出了一項「長連接」的技術,大大提升了訓練收斂速度。
之後,團隊繼續深入。2023 年 3 月,團隊基于 U-ViT 架構在大規模圖文數據集 LAION-5B 上訓練出近 10 億參數量模型 UniDiffuser,并将其開源,UniDiffuser 支持圖文模态間的任意生成和轉換。
UniDiffuser 的實現有一項重要的價值——首次驗證了融合架構在大規模訓練任務中的可擴展性(Scaling Law),相當于将融合架構在大規模訓練任務中的所有環節流程都跑通。
值得一提的是,同爲圖文模型,UniDiffuser 比最近才切換至 DiT 架構的 Stable Diffusion 3 領先了一年。
不過,雖然都選了融合架構,但在後續産品路徑的推進上,基于資源等方面的考慮,Sora 團隊選擇「每天基本不睡覺高強度工作了一年」all in 長視頻,生數科技則選擇從 2D 圖像開始,再進一步拓展到 3D 和視頻。
路線沒有對錯之分,一個基本常識是,國内創業公司,技術路線可以與 OpenAI 一樣,說明目光足夠長遠;但商業化打法參考 OpenAI 就是自尋死路—— Sora 背後是 OpenAI 的技術實力,以及微軟的幾乎無限制的算力支持,普通公司沒有學習的資本。
也是因此,回顧整個 2023 年,生數科技主要資源都放在了圖像和 3D 上。到了今年 1 月份,生數科技才正式上線 4 秒短視頻生成,2 月份 Sora 發布之後,公司正式攻堅,很快便在 3 月份就突破了 8 秒的視頻生成,4 月份實現 16 秒長度突破,生成質量與時長,全方面取得突破。
僅僅兩個月的時間就完成從 4 秒到 16 秒的訓練任務,速度令人吃驚。
背後不僅源自技術架構層面的「前瞻」,也在于通過過去圖像到 3D 到視頻的循序漸進,讓團隊積累了高效的工程化經驗。
視頻本質上是圖像在時間序列上的擴增,可以看成連續多幀的圖像,所以先從圖像開始入手,基礎建設類的工程化工作,比如數據的收集、清洗、标注以及模型的高效訓練等經驗,是可以複用的。Sora 就是這麽做的:它采用了 DALL · E 3 的重标注技術,通過爲視覺訓練數據生成詳細的描述,使模型能夠更加準确地遵循用戶的文本指令生成視頻。
據悉,「Vidu」也複用了生數科技在圖文任務的很多經驗,通過在前期的圖像等任務中的準備鋪墊,生數科技利用視頻數據壓縮技術降低了輸入數據的序列維度,同時采用自研的分布式訓練框架,在保證計算精度的同時,通信效率提升 1 倍,顯存開銷降低 80%,訓練速度累計提升 40 倍。
路要一步一步走,飯要一口一口吃。在這個搶奪「國産 Sora」的商業遊戲中,技術上找對和認準方向是第一步;而走出「國産」特色,也是生存下去的必要條件,二者缺一不可。
* 頭圖來源:視頻号生數 shengshu
本文爲極客公園原創文章,轉載請聯系極客君微信 geekparkGO