清華系多模态大模型公司剛剛融了數億元！放話“今年達到Sora效果”

清華系多模态大模型公司，又拿錢了！

生數科技，師出清華朱軍團隊，是國内最早布局多模态大模型的團隊之一。

市場消息傳來，這家公司剛剛完成新一輪數億元融資。本輪融資由啓明創投領投，達泰資本、鴻福厚德、智譜 AI、老股東 BV 百度風投和卓源亞洲繼續跟投。

生數方面的說法是，本輪融資将主要用于多模态基礎大模型的叠代研發、應用産品創新及市場拓展。

此前，生數已經在文生圖、文生 3D 模型、文生視頻方面都有研究成果對外釋出。

2022 年 9 月，生數科技創始成員就提出了基于 Transformer 的網絡架構U-ViT，這與 Sora 和 Stable Diffusion3 背後采用的 Diffusion Transformer 架構 DiT，在架構思路與實驗路徑上完全一緻。

對此，生數科技 CEO 唐家渝表示：

我們積累了完整高效的工程化經驗，擁有在大規模 GPU 集群上實現高效兼容、低成本的模型訓練經驗，整體上來講，我們追趕 Sora 肯定比追趕 GPT-4 輕松很多。

今年一定能達到 Sora 目前版本的效果，很難說是三個月還是半年（笑），但這件事我們的信心還是非常足的。

2022 年已提出類 DiT 架構 U-ViT

在擴散模型方面，生數科技團隊是國内率先開啓該方向研究的團隊，成果涉及骨幹網絡、高速推理算法、大規模訓練等全棧技術方向。

2022 年 9 月，生數創始成員提出了基于 Transformer 的網絡架構 U-ViT 時，U-ViT 就在千萬至數億參數量級範圍内驗證了極強的可擴展性（scaling up）。

這項工作在 CVPR 2023 發表，早于 DiT。

2023 年 3 月，團隊又開源了全球首個基于 Diffusion Transformer 架構（U-ViT）的多模态擴散大模型UniDiffuser，在參數量和訓練數據規模上與 Stable Diffusion 直接對齊。

從架構上來看，UniDiffuser 比最近公開論文的 Stable Diffusion3（采用 DiT 架構）領先了一年。

此外，除了單向的文生圖以外，Unidiffuser 支持更通用的圖文任務，能夠實現圖生文、圖文聯合生成、圖文改寫等多種功能。

持續進行 Scale up

在統一化架構的思路下，生數科技持續進行Scale up。

在圖文模型的訓練中，其模型參數量從最早開源版的 1B 不斷擴展至 3B、7B、10B 及以上，使得模型在美學性、多元風格、語義理解等方面實現快速穩定的提升。

同時在此基礎上，通過拓展空間維度和時間維度，逐步實現 3D 生成和視頻生成模型的訓練。

依托底層 U-ViT 架構的創新嘗試，截至 2023 年 9 月，生數科技推出了基于統一的多模态多任務框架的産業級通用基礎大模型（閉源版），全鏈路自主訓練、自主研發，在圖像生成、3D 生成、視頻生成等多項任務中位居前列。

目前的成果是，生數的 3D 生成，已經可實現高精度與最快 10 秒級的模型生成。

此外，生數團隊還推出全球首個 4D 動畫生成、可控 3D 場景編輯等工作。

而視頻生成方面，也已實現短視頻的編輯與生成能力，在畫面美觀度、連貫性方面實現了突破。

近期将重點突破長視頻生成能力

在商業化落地方面，依托于 MaaS（模型即服務）能力，生數科技在 2B、2C 端同時發力。

一方面以 API 的形式向 B 端機構直接提供模型能力，另一方面打造垂類應用産品，按照訂閱等形式收費。

目前公司已與多家遊戲公司、個人終端廠商、互聯網平台等 B 端機構開展合作，開放模型服務，提供 AIGC 個性化體驗、定制化内容生産等方面的能力。

去年，面向藝術設計、遊戲制作、影視動畫、社交娛樂等創意領域，生數科技上線了兩款工具産品：

視覺創意設計平台 PixWeaver

3D 資産創建工具 VoxCraft

而學術層面上，團隊于 ICML、NeurIPS、ICLR 等人工智能頂會發表相關論文近 30 篇，其中提出的免訓練推理算法 Analytic-DPM、DPM-Solver 等突破性成果，獲得 ICLR 傑出論文獎，并被 OpenAI、蘋果、Stability.ai 等機構采用，并被 DALL · E 2、Stable Diffusion 等項目采用。

那麽，接下來的路是什麽？

談到對未來的規劃，生數科技始終堅持" 原生多模态 "方向。

一邊，是對産品端持續叠代；

另一邊，則是在基礎模型層面持續優化，主要是提升語義理解、可控性、美觀度方面的生成效果。

其實，Sora 出現前，生數内部主要聚焦于短視頻，但現在公司會投入更多資源在長視頻上，架構、數據使用調優方面，團隊已經做過不少探索，也踩過許多坑（很多現在都已經解決了）。

但 OpenAI 砸大錢捧出一個 Sora，驗證了這條路的正确性，也打消了團隊的許多顧慮，" 目前的視頻生成長度在 4-5 秒左右，我們近期将重點突破長視頻生成能力……尤其長視頻畫面的連貫性，我們還在做一系列攻克工作 "。

— 聯系作者 —