通信巨頭入局視頻生成，直接霸榜權威評測：人物跨越多場景依然一緻

視頻生成模型評測權威榜單 VBench，突遭 " 屠榜 "。

這個突然殺出來的模型，就是中國電信人工智能研究院（TeleAI）剛剛發布的視頻大模型（VBench 上的代号爲 TeleAI-VAST）。

而且 16 項子指标有 9 項都是第一，大幅領先第二名。

其中更是有 5 項得分超過 99%，并在物體分類和人體動作兩項拿了滿分 100%。

來看一段樣片：

這段短片中，四位女主角爲尋找寶石，分别踏上了各自的冒險之旅。

具體細節不展開太多，但關鍵之處在于，每個人物在各自的分鏡中，形象都和開頭的合影保持了一緻。

要知道對于視頻生成來說，保持單個人物的前後一緻就已經不是一件容易的事，TeleAI 視頻生成大模型卻一下處理了四個。

人物動作精準控制，還有音畫同步

除了開頭三分鍾的宣傳片，TeleAI 展示了另外幾段作品。

第一段視頻中，女主角先後出現在公交車、馬路、酒吧吧台和座位四個不同的場景。

在這四個場景中，人物的外貌、發型、衣着全都保持了一緻，畫面整體的色調風格也很統一。

這說明，TeleAI 視頻生成大模型已經實現了不同的場景變化下主體的時空一緻性。

接下來的這段畫面裏，兩隻猴王展開了一場近距離對戰，期間的人物動作、鏡頭跟随，都已經呈現出了電影級的水準。

如果細節再繼續打磨優化，拿來拍電影指日可待。

人物特征、時空一緻性和動作精準性都有了，還能再做些什麽呢？

目前的視頻生成模型大多生成的都是默片，這次 TeleAI 把聲音也加進來了。

先看視頻：

從視頻中可以看到，TeleAI 視頻生成大模型生成的聲音，不是單純地來上一段音樂那麽簡單。

仔細聽會發現，艦船的鳴笛聲、飛機起飛的轟鳴聲、潛水艇的水聲，以及最後火箭沖出水面的聲音，都與畫面中看到的内容做到了同步。

也就是說，TeleAI 視頻生成大模型作品中體現的一緻性，已經跨越模态了。

獨創兩階段生成架構

不僅效果和成績優秀，TeleAI 視頻生成大模型的技術架構也十分獨特。

它沒有采用傳統的路徑，而是全自研了一個 " 二階段視頻生成技術 " ——VAST（Video As Storyboard from Text）。

TeleAI 團隊沒有選擇一步到位，而是将視頻的生成分解成了兩個過程。

在第一階段，采用多模态大型模型根據文本輸入生成中間素材，包括姿勢、分割圖和深度信息。

TeleAI 團隊把這些中間表示稱作 " 故事闆 "，是模型能夠體現場景語義和結構本質的關鍵。

第二階段，才是真正的視頻生成。

利用基于 DiT 架構的擴散模型，TeleAI 以這些表示爲條件，結合目标對象的文本描述和外觀信息，生成最終的視頻。

這種分段式的方式，使得生成視頻時能夠精确控制主體的位置、運動和視覺外觀。

而且，TeleAI 視頻生成大模型不僅能在模型上分 " 階段 "，還可以把視頻按場景分成 " 片段 "。

當創作者想要生成一段長視頻時，視頻生成工具可以先設計具體的分鏡頭，開頭 3 分鍾的視頻就是用這種方法創作出來的。

針對每一個分鏡，生成具有一緻性的生成中間素材，這些中間素材不僅作用于模型内部，對創作者也是可見的，甚至還能進行調整修改。

因爲對片段進行了劃分，所以，隻要在每個片段中都能保持人物一緻性，可以生成的視頻長度将是無限長。

中國電信介紹，本次發布的視頻生成大模型将于明年開啓公測，可以期待一波新鮮的 AI 大片了。

各種模态全都有，還要做智能體

此次亮相的視頻生成大模型，是 TeleAI 整個大模型布局中的一個環節。

此前，TeleAI 已經自主了研發覆蓋語義、語音、視覺、多模态的 " 星辰 " 大模型能力體系。

星辰大模型在央企中唯一開源，還完成首個全國産化萬卡萬參大模型訓練，并打造業界首個支持 40 種方言自由混說的語音識别大模型。

基礎模型之外，TeleAI 還面向工業、教育等領域推出 50 多個場景大模型，并構建了 " 星海 " 數據智能中台，形成了 9 萬億 Tokens 高質量數據集。

在使用方式上也另辟蹊徑，甚至推出了發短信和大模型對話的功能。

除了模态、場景、數據和使用方式，TeleAI 也全新推出了大模型智能體平台，與視頻生成大模型一同登上 TeleAI 開發者大會。

可以期待一下 TeleAI 下一波的 AI 産品了。