8 款工具迎戰,6 大難關決出終極王者。
距離 OpenAI 發布 Sora 已經十幾天了," 中國版 Sora" 表現如何?
智東西 3 月 1 日報道,本周,我們深度體驗了字節的 CapCut AI Video、騰訊的 VideoCrafter2、愛詩科技的 PixVerse 等8 款國産的 AI 視頻生成工具,設置6 道關卡,将其生成視頻效果與 Sora 進行橫向測評。
▲ 8 款工具生成結果對比,提示詞爲:一位 20 多歲的年輕人坐在天空的雲朵上看書
縱觀國内玩家,已有超 15 家企業推出了視頻生成工具,既包括百度、阿裏、騰訊、字節等6 家巨頭,也包括愛詩科技、生數科技、智象未來等9 家創企。這些企業相比 OpenAI 做得怎麽樣?本文在第一部分做了全景式的解讀。
綜合産品易得性、視頻生成速度等因素,智東西本次選取字節的 CapCut AI Video、騰訊的 VideoCrafter2、右腦科技的 Vega AI、愛詩科技的 PixVerse、MewXAI 的藝映 AI、智象未來的 Pixeling,以及 NeverEnds 和 Morph Studio 的同名産品 8 款工具進行對比,并從個人體驗的角度,嘗試從語義理解、運動平滑度、運動程度以及成像質量方面打分。
▲八款文生視頻工具總體得分對比(智東西制表)
通過體驗,我們整體感覺字節短暫上線的 CapCut AI Video 功能最佳,尤其勝在運動平滑度和成像質量上。
Morph Studio、NeverEnds 在創企中領跑,且穩定性較高,在體驗過程中沒有出現大翻車的情況。
VideoCrafter2、Pixeling 生成質量不夠穩定,出現了幾次大翻車的情況;PixVerse、Vega AI 也出現了不同程度的翻車。
對比 Sora 如何?總體來講,智東西有以下幾點發現:
1、字節、Morph Studio分别領跑大廠和創企,穩定性和成像質量表現優秀。
2、大部分産品仍處于測試階段,臨時下線、長時間排隊、無獨立站點成爲家常便飯。
3、生成 2-4 秒視頻等待時間多爲 3-5 分鍾甚至更久,效率較低。
4、運動程度整體較低,多爲平移式運動或鏡頭運動。
5、人手、動物等仍是重災區,非現實場景大模型難以理解。
不過,Sora 目前仍未面向大衆測試,雖然官方公布的視頻效果震撼,但産品玩起來如何仍有待實際體驗。本文文末附有 8 款工具的試用鏈接,感興趣的讀者朋友可以自行體驗,歡迎在評論區分享體驗感受和新發現 ~
01.9 家創企、6 路大廠圍攻 Sora,八名選手參賽
據智東西不完全統計,目前已發布類 Sora 産品的國内創業公司有以下 9 家,分别是 Morph Studio、HiDream.ai(智象未來)、愛詩科技、MewXAI、NeverEnds、右腦科技、李白 AI 實驗室、Möbius 以及生數科技。
它們的産品發布時間均早于 Sora,且大多都同時支持文生視頻和圖生視頻。
▲國内創業公司發布的 Sora 類産品 / 模型(智東西統計制表,數據截至 3 月 1 日)
與創企相比,國内大廠在産品落地方面推進更加謹慎。截至發文,隻有字節在海外版剪映 CapCut 中推出了有獨立主頁的 AI 視頻生成功能,但短暫釋出後便下線了,目前尚不清楚其是否基于字節 1 月發布的 MagicVideo-V2 模型。
此外,阿裏、騰訊的部分模型雖然托管在開源社區,但實際體驗過程中生成等待時間過長,有的甚至超過 1 個小時,因此不在本次對比範圍内。
▲國内大廠發布的 Sora 類産品 / 模型(智東西統計制表,數據截至 2 月 27 日)
本次出戰文生視頻大賽的 8 名玩家其各自支持生成的視頻時長、擴展功能,以及生成視頻的分辨率和幀率如下表所示(按産品名首字母排序)。
▲可試用的文生視頻工具參數對比(智東西制表)
02. 六大關卡覆蓋三類場景,第六關遇培養皿全員翻車?
爲了與 Sora 的對比更直觀,智東西将 Sora 官方示範視頻給出的英文提示詞輸入這些生成器。公平起見,其他擴展功能如鏡頭運動、反向提示詞等保持默認設置,且均選取第一次生成的視頻。
下面讓我們具體來看一下各位參賽選手在不同關卡的表現情況。
1、人物場景:步行變 " 漂移 ",人手依然是重災區
提示詞 1:一個時髦的女人走在東京的街道上,到處都是溫暖的霓虹燈和生動的城市标志。她穿着黑色皮夾克、紅色長裙、黑色靴子,拿着一個黑色錢包。她戴着太陽鏡,塗着紅色的口紅。她走起路來自信而随意。街道是潮濕和反光的,創造了一個彩色燈光的鏡子效果。許多行人走來走去。
首先來看一下 Sora 放出的 Demo,不僅長達 1 分鍾,且完美體現了每一處細節,還進行了景别切換,整體畫面十分驚豔。
在參賽選手這邊,首先在整體效果上,8 款工具基本都呈現了一個女人走在街道上的畫面,并且對霓虹燈、城市标志的理解也較爲準确。
但細看之下,隻有 Pixeling、Morph Studio 和 CapCut 較好地描繪了黑色皮夾克、紅色長裙、黑色靴子和太陽鏡,Morph Studio 生成了錢包但錯将黑色錢包變成了紅色。 另外 5 位選手則對人物細節的生成不太準确,其中 VideoCrafter2 的看起來甚至不太像人臉。
場景方面,各位選手的表現大同小異,其中 CapCut、Morph Studio、Vega AI 及 NeverEnds 生成畫面比較精緻,但 Morph Studio 忽略了 " 潮濕 " 這個細節。
這道題難度較大,有很多細節上的描述,對女子的穿着、随身物品、風格等進行了詳細的要求,稍不注意就會出現失誤。背景上,潮濕的地面和霓虹燈反光也是一大難點。
提示詞 2:一位 20 多歲的年輕人坐在天空的雲朵上看書。
Sora 的 Demo 視頻展現了年輕人坐在雲朵上讀書的畫面,并且有翻書的細節。
這一關基本沒有難倒參賽選手,8 款工具都生成了一個年輕人坐着讀書的畫面,不過 PixVerse、Vega AI 沒能讓人物坐在雲上,NeverEnds 則把雲拽到了地面。 VideoCrafter2、藝映 AI 沒有拍到人物的屁股具體在哪兒,但從其背景能夠看出大概率并不是雲。
不出意外的,人手又成了大模型跌倒的重災區,幾乎都糊作一團,有的還出現了第三隻手。 另外,Pixeling 生成的人臉五官有些 " 抽象 "。
從畫面風格上來看,PixVerse、藝映 AI 有點像三維動畫風格,整體畫面比較精緻;Vega AI 生成的人物最真實,但整個畫面隻有背景的雲在運動。
這道題的難度中等,不同于前一個提示詞,它十分簡短并且創造了一個現實生活中不可能出現的場景,主要考驗大模型的 " 想象力 " 以及對不同主體之間關系的理解能力。
2、動物場景:柯基變面包,稀有物種難以描繪
提示詞 3:一隻柯基犬在熱帶毛伊島拍攝自己的 Vlog。
這個提示詞的難點在于,如 何表現柯基 " 拍攝自己 "。 Sora 的演示雖然表現了這個細節,但也有些經不起推敲,自拍杆看起來像長在柯基身體上一樣怪異。 不過瑕不掩瑜,視頻整體效果很精緻,柯基表情靈動,還戴上了和熱帶環境相符的墨鏡。
CapCut 生成的柯基非常可愛,雖然眼球有些飄逸現象,但不算明顯。遺憾的是它沒有表現 " 自拍 " 這個關鍵詞。
Morph Studio 的效果也不錯,還給柯基挂上了一台攝像機。
NeverEnds 描繪的柯基有點像人,不僅自己上手調試相機,嘴型看起來還像在說話——說好的建國後不準成精呢?另外,NeverEnds 生成的柯基似乎長了六條腿,和 Sora 把螞蟻畫成四條腿有點雙向奔赴了。
Pixeling 沒能通過這條測試,直接生成了一段 " 鬼畜 " 視頻。
開頭可愛的狗狗特寫反複變形,讓我聯想到機器學習中一個很有意思的梗——如何分辨柴犬與面包。看來,Pixeling 漏掉了這節課。
PixVerse 理解了 " 拍攝 ",但搞錯了主體,生成了一隻人手來拍攝柯基犬,這隻手也有些 " 詭異 ",AI 還是一如既往地在人手上栽了跟頭。此外,視頻開頭處柯基的嘴巴歪得也有些離譜。
Vega AI 生成的視頻一開始比較正常,但最後 1 秒可愛的柯基突然變形,最後表演了一個 " 頭部消失術 "。此外,它通過椰子樹表現了 " 熱帶 ",但似乎漏掉了 " 毛伊島 " 這一點。
VideoCrafter2 似乎隻記住了 " 柯基 " 這一個關鍵詞,其他的提示詞都被它忽略了。它還給畫面加了一個神奇的光影,看起來像是夕陽餘晖。
藝映 AI 生成的狗子畫風較爲真實,整體畫面流暢,不過也沒體現 " 自拍 " 的細節。
這道題難度中等,整體來看,對提示詞理解較好的是 Morph Studio 和 NeverEnds,PixVerse 則算是勉強及格。從畫面效果上看,CapCut、Morph Studio、VideoCrafter2 和藝映 AI 穩定性較好,畫面更加流暢。
提示詞 4:這個維多利亞鳳冠鸠(Victoria crowned pigeon)的特寫展示了它引人注目的藍色羽毛和紅色胸部。它的羽冠是由精緻的花邊羽毛制成的,而它的眼睛是醒目的紅色。鳥的頭微微向一側傾斜,給人一種帝王和威嚴的印象。背景是模糊的,吸引人們注意到這隻鳥引人注目的外表。
Sora 演示視頻中的鳳冠鸠全方位地展示了自己的羽冠,正面、側面、背面都不在話下,羽毛也随着頭的轉動搖搖晃晃。
如果隻看畫面,除了藝映 AI 幾乎是甩了張靜态圖出來,其他 7 位選手的畫面效果都還算流暢。
CapCut、Morph Studio、NeverEnds 和 Pixeling 生成的鳳冠鸠基本是同一個角度,沒有大幅度的運動或角度變化,PixVerse、Vega AI 和 VideoCrafter2 則有頭部角度的變化。
從對該物種的特征還原來看,CapCut、VideoCrafter2 表現較好,還原了紅色眼睛、紅色胸部、藍色身體以及藍白色的羽冠,其他 6 位參賽選手的還原度略低。
此外,VideoCrafter2 雖然在使用指南中提到了比例調整的功能,但并沒有成功生成 9:16 的豎屏視頻。
這道題難度中等,主要難點在于對不常見動物特征的準确描繪。下圖是 Sora 生成視頻截圖與動物網站 Fact Animal 上的維多利亞鳳冠鸠照片對比。可以看出,Sora 對該動物的還原程度很高,從身體、眼睛的顔色到喙部、羽冠的形狀基本都與照片一緻。相比之下,8 位參賽選手都沒能準确表現這些特征。
▲ Sora 生成的(左)與真實的(右)維多利亞鳳冠鸠對比
3、" 虛拟現實 " 場景:想象力不足,遇 " 小熊貓培養皿 " 全員翻車
提示詞 5:兩艘海盜船在一杯咖啡中航行時相互争鬥的逼真特寫視頻。
CapCut 成功将海盜船放入了咖啡杯中,但隻放了一艘,自然也沒辦法 " 相互争鬥 "。
Morph Studio 則将兩艘海盜船放進了兩個咖啡杯,還自作主張地添加了海洋背景。
NeverEnds、藝映 AI 也将船放進了咖啡杯,同時在背景繪制了大海和更多海盜船。NeverEnds 還給咖啡加了拉花。
▲ NeverEnds 生成的咖啡杯海盜船
▲ Vega AI 生成的咖啡杯海盜船
不過,能将海盜船準确地生成在咖啡杯裏已經算比較好的了,其他 4 位參賽選手在這條提示詞上各有各的 " 翻車 " 方式。
Pixeling 直接将海盜船印在了杯子上。
PixVerse 分别生成了咖啡杯、海盜船,但穩定性較差,前景中的咖啡杯最後變形成了一艘船。
Vega AI 也犯了同樣的錯誤,并且海洋和沙灘的分界線有些模糊。
VideoCrafter2 則連海盜船都沒能出現,隻有幾個看起來像海盜帽子的小東西搖來搖去。
這道題難度較大,船在咖啡中航行是不可能在現實中出現的場景,因此必然缺乏能完全與之對應的訓練數據,這就很考驗大模型的 " 想象力 "。
提示詞 6:一個培養皿,裏面長着一片竹林,裏面有小熊貓在跑來跑去。
這輪比拼十分精彩,幾乎是全員翻車。 遺憾的是在智東西還沒來得及測試更多提示詞時,CapCut AI Video 就下線了,缺席本輪比賽。
Morph Studio 生成的培養皿看起來像一顆水晶球,小熊貓還玩起了 " 影分身 "。
NeverEnds 是對幾 個關鍵詞描繪最準确的,不過還是錯把竹林畫在了培養皿外面,并且隻有鏡頭運動,畫面上的主體幾乎靜止。
Pixeling 準确描繪了培養皿,但 " 竹林 " 和小熊貓都仿佛變成了水中的倒影,且和動物關中的柯基一樣,小熊貓糊作一團。
PixVerse 的視頻中沒有出現培養皿。
Vega AI 生成了一個帶蓋的 " 培養皿 ",并且搞反了它和竹林之間的包含關系,優點是小熊貓的穩定性較高。
VideoCrafter2 生成的小熊貓神态比較靈動,幾隻小熊貓各自有各自的運動軌迹,但漏掉了培養皿這個關鍵詞。
藝映 AI 在這關翻車比較嚴重,是唯一一個看不出來畫的是什麽動物的選手,穩定性也不高。
這道題的難度也很高,不僅創造了非現實場景,小熊貓 " 跑來跑去 " 這個動線很大的場景也是一大痛點。總的來說,這一關在語義理解上優勝的是 Morph Studio、NeverEnds,在畫面效果上有優勢的是 Vega AI 和 VideoCrafter2。
03. 結語:國内 AI 視頻商業化任重道遠
在智東西體驗這些産品或模型的過程中,遇到了不少令人 " 頭秃 " 的突發情況。如字節的 CapCut AI Video、阿裏的 ModelScope T2V 等待時間過長,生數科技的 PixWeaver、萬興科技的 Filmora 頻頻出現 Bug 等,各種各樣的不确定因素成爲體驗路上的攔路虎。
▲等待時間過長、無法生成等情況出現
從不同場景來看,AI 在生成人物、常見動物等要素時理解能力表現較好,但當遇到稀有動物、非現實場景等元素時常常翻車,這可能與訓練數據量不足有關。
經過一番體驗,智東西對國産 AI 視頻工具的印象也大大改觀。雖然要追趕甚至超越 Sora 還有很長的路要走,但至少能和海外其他明星産品如 Pika、Runway 等一決高下。
近幾年來,國内雖然湧現出很多 AI 視頻玩家,但大部分集中在數字人、AI 剪輯等賽道,真正的文生視頻類産品不多。在 Sora 爆火之後,我們期待國内湧現出更多視頻生成選手,再現 " 百模大戰 " 的壯觀景象。