「Sora 出來之後,團隊就開始連軸轉,沒休息過。」這是 AI 科技評論了解到的,目前國内諸多 AIGC 創業公司的現狀。
Sora 的确讓世界範圍内的創業公司措手不及。随之而來的,有一種悲觀論調和懷疑态度:創業公司和 OpenAI 拼術是否有意義?是否有必要做同樣的事情?有多大的生存空間?
誠然,要彌合和 OpenAI 的差距并非易事,基于算力、投資等前提條件, OpenAI 的效果自然不是短期内可以達到,但是也不見得到了技術層的創業公司無路可走的地步。
清華系創業團隊生數科技提出的技術路線,和 Sora 在架構路線上完全一緻,均是提出了将 Transformer 與擴散模型融合的思路,在具體的實驗路徑上也一緻。并且,生數科技的 U-ViT 比 OpenAI 的 DiT 早了兩個月。
甚至,彼時的 CVPR2023 選擇收錄了 U-ViT,而将 DiT 拒稿。
目前,生數科技的多模态大模型全鏈路均自主訓練、自主研發,是全球首個将 Transformer 架構引入擴散模型的骨幹網絡。在文生圖、文生視頻、文生 3D、圖生 3D 等多項任務中已經初見成效。
近來,也完成了由啓明創投領投,達泰資本、鴻福厚德、智譜 AI、老股東 BV 百度風投和卓源亞洲跟投的數億元融資,是目前國内多模态大模型賽道的最高融資額。
生數科技 CEO 唐家渝表示,面對國内多模态大模型的競争,生數科技會承擔引領國内底層技術創新的角色。
即使在 Sora 的籠罩下,國内的多模态大模型也不無機會。
全棧自研的 MaaS
2023 年 3 月,團隊開源了全球首個基于 Diffusion Transformer 架構(U-ViT)的多模态擴散大模型 UniDiffuser,在參數量和訓練數據規模上,與 Stable Diffusion 直接對齊。在架構上,UniDiffuser 比最近才采用 DiT 架構的 Stable Diffsion 3 領先了一年。
除了單向的文生圖以外,Unidiffuser 支持更通用的圖文任務,能夠實現圖生文、圖文聯合生成、圖文改寫等多種功能。
在統一化架構的思路下,生數科技持續 Scale up。在圖文模型的訓練中,參數量從最早開源版的 1B 不斷擴展至 3B、7B、10B 及以上。同時在此基礎上,通過拓展空間維度和時間維度,逐步實現 3D 生成與視頻生成。同時面向應用層推出了視覺創意設計平台 PixWeaver 與 3D 資産創建工具 VoxCraft。
PixWeaver 是一款自動化的視覺創作工具,支持 AI 生圖、AI 生視頻功能,中英文輸入、秒級生成,融合多元風格,具備出色的語義理解和豐富的畫面表現。(體驗地址:https://pw.shengshu-ai.com/,目前 AI 視頻功能由于新版本叠代暫關閉試用)
在圖像生成方面,支持高質量的文生圖,在畫面聯想豐富度、美觀性等方面優于業内同類模型。
并且,其語義理解能力尤其突出。
(描述詞:公園裏的竹林裏挂着紅色燈籠,旁邊盛開着粉紅色的梅花,遠處是一座亭台樓閣,夕陽灑在蜿蜒的公園小路呈現出溫暖的感覺,寶麗來照片風格,真實攝影)
在 3D 生成方面,VoxCraft 可實現高精度與最快 10 秒級的模型生成。
并推出全球首個 4D 動畫生成,基于視頻和描述詞,輸出逐幀的運動 3D 動畫,自動綁定骨骼動作,支持 360° 全景視角。
此外,該模型還可以通過文本對話或手動調參的方式靈活編輯 3D 場景,包括添加物體、删除物體等,可實時查看變化。
VoxCraft 相較于同類型的 3D 資産創建的自動化工具,核心優勢在于:
精度高:貼圖分辨率可達到 2048*2048,幾何結構的規整度高,色彩與材質質感真實度高;
速度快:在單卡設備上,單個 3D 模型生成最快可在數分鍾内生成;
可用性強:支持 Mesh 的同步生成,支持高模、低模的定制,可直接對接工業管線;
豐富度高:覆蓋資産類型多,通用性強,支持文本或圖像引導。
最接近 Sora 技術架構的中國團隊
從技術架構來看,生數科技是最接近于 Sora 的中國團隊。
OpenAI 推出的 Sora 模型,其核心技術點之一,是将視覺數據轉化爲 Patch 的統一表示形式,并通過 Transformer 和擴散模型結合,展現了卓越的 scale 特性。無獨有偶,最近發布的 Stable Diffusion 3 采用了同樣的架構。
Transformer 架構被熟知應用于大語言模型,該架構的優勢在于 scale 特性,參數量越大,效果越好;而在傳統視覺任務(圖像和視頻生成)中,業内普遍采用常規的卷積路線的擴散模型(基于 SD 開源的思路),該路線能實現一定的效果,但擴展性不好。DiT 将 Transformer 架構與擴散模型融合,把大語言模型的擴展性、湧現性複制到了視覺任務上。
其實早在 2022 年 9 月,生數科技團隊早期成員就提交了一篇名爲《All are Worth Words: A ViT Backbone for Diffusion Model》的論文,這篇論文提出了基于 transformer 的網絡架構 U-ViT。
對比來看,兩項工作采用了相同的 patch embedding、patch size,都得出了同樣的結論 patch size 爲 2*2 是最理想的,在模型參數量上兩者都在 50M-500M 左右的參數量上做了實驗,最終都證實了 scale 特性。
不過 DiT 僅在 ImageNet 上做了實驗,U-ViT 在小數據集(CIFAR10、CelebA)、ImageNet、圖文數據集 MSCOCO 均做了實驗。此外,相比傳統的 Transformer,U-ViT 提出了一項 " 長連接 " 的技術,大大提升了訓練收斂速度。
但 U-ViT 同樣展示了在視覺任務下的優異能力,與當時同階段的 SD1.5 比較,Unidiffuser 效果是基本持平的。更重要是,Unidifuser 擴展性更強,能基于一個底層模型完成圖文之間的任意生成。
生數團隊的幾位核心成員近幾年于 ICML、NeurIPS、ICLR 等人工智能頂會發表相關論文近 30 篇,是現階段在該領域發表論文成果數最多的國内團隊。
抱持着底層算法原始創新、從零開始自主訓練的态度,生數科技團隊也形成了多項能與其他公司拉開差距的技術成果。
無訓練推理框架 Analytic-DPM
擴散模型的一大局限是計算速度緩慢,研究加速算法是提升擴散模型應用效果的難點。
2022 年,團隊核心成員提出了一種無訓練推理框架:Analytic-DPM,使用蒙特卡洛方法和預訓練的基于得分模型來估計方差和 KL 散度的分析形式。該方法可以在無需額外訓練的情況下,直接估計得到最優方差,該成果在理論貢獻方面具有重要意義。
另外從應用效果看,免訓練推理框架的提出大大加速了模型的采樣效率,經對比,Analytic-DPM 經過 50 步采樣的效果優于 DDPM 采樣 1000 步的效果,加速了近 20 倍。
該論文被評選爲 ICLR2022 傑出論文,也是該會議首篇由中國大陸單位獨立完成的獲獎論文,此外該成果也被 OpenAI 應用于 DALL · E2 模型處理方差的策略中。
多模态基礎大模型 UniDiffuser
2023 年 3 月,團隊開源國内首個基于 Transformer 的多模态擴散大模型 UniDiffuser,采用了基于 transformer 的網絡架構 U-ViT,在開源的大規模圖文數據集 LAION-5B 上訓練了一個十億參數量的模型,實現基于一個底層模型能夠高質量地完成多種生成任務。雷峰網雷峰網雷峰網
除了單向的文生圖,還能實現圖生文、圖文聯合生成、無條件圖文生成、圖文改寫等多種功能,能夠實現任意模态之間的轉化,大幅提升文圖内容的生産效率,也進一步提升了生成式模型的應用想象力。
更值得一提的是,從技術路線看,生數科技是國内唯一的原生多模态大模型廠商,原生多模态是基于通用的融合架構對文本、圖像、視頻等多模态數據進行統一範式的訓練,簡單類比就是基于一個底層架構實現 "GPT4+DALLE3+GPT4V" 的統一,而不是通過接口調用不同的模型。生數科技堅持融合架構的原生路線,緻力于提升對開放域下複雜交互場景的信息生成能力。