IT 之家 4 月 27 日消息,生數科技今天出席中關村論壇未來人工智能先鋒論壇,攜手清華大學正式發布中國首個長時長、高一緻性、高動态性視頻大模型 —— Vidu,被媒體和業内人士認爲是國内首個 Sora 級别的視頻大模型。
根據官方描述,Vidu 模型融合 Diffusion 與 Transformer,開創性創建了 U-ViT,支持一鍵生成長達 16 秒、分辨率高達 1080P 的高清視頻内容。
官方宣傳資料中演示了 " 畫室中的一艘船駛向鏡頭 "、其海浪、船的效果非常逼真。
官方表示 Vidu 不僅能夠模拟真實物理世界,還擁有豐富想象力,具備多鏡頭生成、時空一緻性高等特點。
Vidu 是自 Sora 發布之後,全球率先取得重大突破的視頻大模型,性能全面對标國際頂尖水平,并在加速叠代提升中。
Vidu 的快速突破源自于團隊在貝葉斯機器學習和多模态大模型的長期積累和多項原創性成果。
其核心技術 U-ViT 架構由團隊于 2022 年 9 月提出,早于 Sora 采用的 DiT 架構,是全球首個 Diffusion 與 Transformer 融合的架構。
2023 年 3 月,團隊開源了全球首個基于 U-ViT 融合架構的多模态擴散模型 UniDiffuser,率先完成了 U-ViT 架構的大規模可擴展性驗證。
IT 之家附上參考地址