文|自象限,作者丨羅輯、蘇奕,編輯丨程心
2024 年開年,科技圈沒有什麽比 Sora 的出現更讓人興奮。
如同 ChatGPT 在 2023 年初帶來的 LLM 創業潮,Sora 的發布也同樣将視頻生成模型推到了風口浪尖。
科技巨頭猛推産品,創業公司則乘風而上。
3 月 13 日,AI 視頻大模型公司愛詩科技完成億元級人民币 A1 輪融資;3 月 12 日,生數科技完成數億元 A 輪融資;3 月 1 日,AI 視頻生成 SaaS 服務商「布爾向量」完成近千萬元融資 ...
Sora 首次踐行了 DiT 架構,将過去各自獨立的擴散模型和大模型融合在了一起,也将視頻生成模型的曆史翻開了新的篇章。
毫無疑問,一場新的技術風暴正在到來。一夜之間,國内大大小小的視頻生成大模型争搶 " 中國版 Sora" 的标簽。
爲了探究這個問題的答案,「自象限」通過國内已有的視頻生成産品進行實際體驗,并結合公開信息、第三方檢測機構數據等多個維度,對當下主流的視頻生成模型進行了全面評估。
我們将從産品設計、實測效果和行業分析三個角度,全面探究,究竟誰能成爲 " 中國版 Sora"?
DIT 的創新,誰能複刻?
Sora 的風雖然才剛剛從大洋彼岸吹到了中國,但視頻生成卻不是什麽新鮮的話題。
在此之前,這個賽道已經經曆了 Runway 的 Gen-2、Pika1.0 和谷歌 VideoPoet 的幾波革命浪潮,終于來到了生成效果更好、時間更長、邏輯性更強、更穩定性的 "Sora" 時刻。
「自象限」梳理繪制出了國内視頻大模型公司及産品的基本情況。
▲圖:國内外視頻生成大模型企業一覽,訪問量以 2024 年 2 月計
在國外,谷歌、微軟這類 " 矽谷老錢 " 很早就投入到了多模态視頻生成的研究中。去年,谷歌發布了多模态大模型 Gemini 和 VideoPoet 視頻大模型,讓人從直觀的效果層面看到了多模态生成視頻的可能性。
在國内,多模态技術路徑方向上我們看到了更多的可能性,既有技術積累深厚的大廠百度,也有大模型獨角獸公司智譜,還有像生數科技、智象未來一類以多模态大模型爲目标的創業公司。
擴散模型路線是文生視頻的主流路線,在保證效果生成上發揮着重要的作用,所以即使是驚爲天人的 Sora 在底層架構上也隻是改造,而非全盤颠覆。
無論國内外,在這條道路都最爲擁擠,首先是一手打造和開源擴散模型的 Stability AI 公司,緊跟其後的是猛猛向前沖的 Runway、Pika,然後才是 OpenAI、Meta、英偉達這些巨頭。
回到國内,騰訊、阿裏、字節三個大廠在前期幾乎包攬了視頻生成領域的研究,時不時地抛出一個 demo 小小地驚豔一下。但真的談到落地産品,還是創業公司明顯更快一步,比如愛詩科技、Morph studio、右腦科技等公司已經開始面向用戶開放。
被稱之爲 "Sora 路線 " 的 DiT,全稱爲 Diffusion Transformer,本質是把訓練大模型方法機制融入到了擴散模型之中,從 Sora 技術報告呈現的結果來看,大力出奇迹之下可能會産生世界物理模拟器的效果。
如今,Sora 的底層架構被扒了個遍,訓練的組件和技術也在開源的路上,但這也并不意味着人手一個 Sora 指日可待,技術、數據、算力、訓練規模都是一道道關卡。
近期,Sora 核心團隊負責人在采訪中透露:"Sora 目前還處于反饋獲取階段,還不是一個産品,短期内不會向公衆開放。"
從技術路線上看,國内的愛詩科技是少數從一開始就堅持了 DiT 路線的企業,其創始人王長虎在公開采訪中談到,Sora 的出現驗證了愛詩視頻生成大模型的方向正确性。正因如此,愛詩科技定下了 "3 — 6 個月趕超 Sora" 的目标,抓住機會,奮起直追。
産品實測,用戶 " 跑分 "
在視頻生成模型賽道,目前國内的創業公司大緻可以分爲兩類。
一類是以愛詩科技(PixVerse)、生數科技(PixWeaver)、 Morph Studio 和智象未來(Pixeling)爲代表的自研基礎大模型,聚焦通用場景的視頻生成工具。
另一類則包括右腦科技(Vega AI)、李白 AI 實驗室(神采 promeai)、毛線球科技(6PenArt)、布爾向量(boolv.video)和 MewXAI(藝映 AI)。這一類數量更多,也更加産品化,專注于解決某一類場景下的問題,更像是一個 AIGC 的在線編輯平台。
我們的測試和評比通過三個部分組成,分别是使用門檻,基礎産品功能和内容生成能力。
首先是使用門檻。我們測試的 8 款産品,都已經支持通過網站使用産品(許多創業公司産品隻能通過 Discord 使用),也都可以免費試用。
但其中,僅有愛詩科技的 PixVerse 不限制免費試用次數,其他産品都有三到五次的試用限制,超過試用次數之後就需要開通會員或充值能量使用,價格從幾元到幾百元不等。
除了 PixVerse 之外,其他産品在付費之前基本都有功能限制,比如藝映 AI 和 Pixeling 隻能生成 2s、4s 的視頻,更長的視頻則需要付費。
所以從使用門檻上綜合考慮,PixVerse 對用戶要更加友好,在這一闆塊相對更有優勢。其他産品在使用門檻上則相對平均。
具體情況如下圖:
其次是産品基礎功能。
我們測試的 8 款産品,除了神采 Promeal 和 6PenArt 之外,都同時具備文生視頻和圖生視頻的能力。而神采 Promeal 和 6PenArt 隻具備圖生視頻的能力,不具備直接文生視頻的能力。
除了這兩家之外,其他廠家就比較成熟,但産品功能差異卻比較大。
其中,愛詩科技的 PixVerse 在基礎功能之上還增加了豐富的輔助功能,比如除了正向提示詞,用戶還可以輸入負向提示詞,要求生成畫面中不要出現某些元素。
圖片生成視頻時,用戶也可以撰寫提示詞控制輸出效果。可以選擇視頻風格,可以調節畫面比例等等。
同類産品中,隻有 Pixeling 擁有負向提示詞、圖生視頻提示詞和視頻比例調節,隻有藝映 AI 可以調節視頻風格、畫面比例。
大模型的技術水平決定視頻生成的質量,而産品能力則決定了大模型是否能夠被很好地利用,與應用場景相結合。
對于視頻生成産品而言,功能的豐富程度決定了用戶上手的容易程度,對視頻生成的掌控能力,并最終影響輸出結果和用戶體驗。
所以從産品的完善程度和功能完整度上,PixVerse 整體領先,智象未來的 Pixeling 排名第二,藝映 AI 第三,Vega AI 第四。其中布爾向量相對例外,作爲專注跨境電商的視頻生成工具,其在特定場景下功能更加齊全易用,但在視頻生成方面相對缺乏競争力。
當然,基本功能之外,更核心還是視頻生成效果。所以第三部分是視頻内容生成能力測試。
首先是視頻生成時長。Sora 目前能夠生成 60s 的視頻,但國内創業公司的視頻生成大模型,時長大多集中在 2s~4s 左右,差距并沒有特别大。
其次是依據提示詞的内容表現能力。
Sora 發布時,輸出過這樣一段視頻,其提示詞是:美麗,白雪皚皚的東京街道很繁華。幾個人在附近的小攤上享受着美麗的雪天并購物。美麗的櫻花花瓣和雪花在風中飛舞。
▲ Sora 依據這段提示詞生成的視頻
依據這段提示詞,我們也分别使用愛詩科技的 PixVerse、右腦科技的 Vega AI、MewXAI 和智象未來的 Pixeling 生成了同樣一段視頻。(由于生數科技的 PixWeaver 網頁端暫停試用,故未納入測評)
首先是愛詩科技的 PixVerse。
4s 的内容基本還原了提示詞中提到的所有關鍵詞,同時體現了 " 繁華 " 和 " 小攤 " 的氛圍。鏡頭跟着畫面緩緩推進,視頻整體風格保持一緻,建築、燈光、路旁的樹木、行人都比較真實,畫面沒有明顯卡頓,除了人物行走稍有些不自然之外,沒有出現元素扭曲。
▲ PixVerse 依據這段提示詞生成的視頻
其次是右腦科技的 VegaAI。
同樣 4s 的内容,同樣隻有一個鏡頭,順着人流密集的街道緩緩推進。但與 PixVerse 将場景放到華燈初上的傍晚不同,VegaAI 選擇的是白天。
與愛詩科技的 PixVerse 相比,VegaAI 的人物腳步混亂情況更加嚴重,部分人物在行走過程中從兩隻腳變成三隻腳,然後又消失不見。此外,部分人物的生成也非常模糊,隻有一個人影且在不斷變幻。
▲ Vega AI 依據這段提示詞生成的視頻
然後是藝映 AI。
與 PixVerse 和 VegaAI 有一定的鏡頭運動不同 ,藝映 AI 生成的視頻鏡頭是固定的,也是這幾個視頻中唯一一個選擇了正面視角的視頻。
但選擇正面視角也同樣給藝映 AI 帶來一個問題,即在人物的面部表情沒有辦法很好地處理。視頻中迎面走來的兩個人面部一直沒有穩定下來。此外,藝映 AI 也同樣存在人物移動的問題,但由于生成的視頻隻有 2s,表現得并不明顯。
▲藝映 AI 依據這段提示詞生成的視頻
第四是智象科技的 Pixeling,4s 的視頻,采用固定鏡頭,人物往前運動。類似的畫面,除了同樣存在人物生成、移動等方面的問題之外,Pixeling 對語義的理解明顯更淺。
比如提示詞中的 " 繁華 ",前面的視頻都通過燈光、街道店鋪、人流來進行表現,但 Pixeling 選擇的卻是一個雨天小巷,人流也比較少。整個畫面顯得比較冷清。此外,提示詞中的 " 購物 " 該視頻中也并沒有體現。
▲ Pixeling 依據這段提示詞生成的視頻
最後是 Morph Studio。其官網尚未開放公測,「自象限」通過 Discord 進行測試。
Morph Studio 有趣的地方有兩個,其一是英文提示詞的生成效果要大大好于中文提示詞。「自象限」先是通過中文提示詞生成視頻,得到的結果與提示詞毫不相關,随後「自象限」将提示詞改爲英文,輸出的效果直線提升。
▲圖片:Discord 截圖
從視頻内容上看,Morph Studio 的視頻生成隻有 3s,要比其他産品的時長都要短,清晰度要比其他産品更低一些,但整體畫面内容更加寫實。從細節上看,Morph Studio 生成的視頻仍然存在細節模糊扭曲,人物 " 漂移 "、出現又消失等問題。
在文生視頻之外,剩下兩位隻支持 " 圖生視頻 " 的玩家——神采 Promeal 和 6PenArt。但這兩位,在圖生視頻上的表現也并不好。
其中,神采 Promeal 僅支持單張圖片生成 " 動态圖 ",也沒有提示詞功能。因此生成的視頻人物形象扭曲,沒有實際使用價值。
對比來看,6PenArt 更像一個 AIGC 的内容社區,圖片生成和視頻生成隻是其中一個能力。但 6PenArt 并不支持直接通過提示詞生成視頻,而是需要先在平台通過提示詞生成圖片,然後将圖片轉化成視頻。
「自象限」通過提示句" 一隻正在散步柯基,嘴裏叼着一朵花。"生成了四張圖片。
▲圖片:6PenArt 截圖
然後以這四張圖片爲基礎,用提示詞 " 一隻在春天裏奔跑的小狗。" 生成視頻。
可以看到,這個視頻仍然停留在 " 動态圖片 " 的狀态,與視頻相差甚遠。
除此之外,布爾向量也沒有被納入到這次評比中。
因爲從産品使用體驗上,布爾向量的 boolv.video 更像是一個 AI 編輯器的概念,當我們輸入一段提示詞之後,系統會自動将提示詞拆解成多個腳本、分鏡,然後撰寫文案,分别輸出多段視頻。生成視頻之後,用戶可以對每一個分鏡進行編輯,替換視頻、更換旁白和聲音等等。
但 boolv.video 的視頻生成能力其實很有限,既無法理解深度語義,也不能生成與提示詞準确對應的視頻内容。
在我們以上測試的産品中,嚴格意義上隻有 PixVerse、Morph Studio 是專注于視頻生成的大模型,其他産品都是由早期文生圖、圖生圖的 AIGC 應用演變而來。
▲圖片:測試産品是否專注于視頻生成
回過頭來,我們依據多次測試,針對以上提到的産品進行了整理。
從對提示詞的理解能力、畫面的邏輯表達能力、畫面細節的表現,到視頻生成的質量、畫面的一緻性、穩定性和流暢性等角度。
在測試的 8 個産品後,綜合對比下來,愛詩科技旗下的 PixVerse 和 Morph Studio 綜合能力相對較好,右腦科技的 VegaAI 排名第二,藝映 AI 第三,Pixeling 第四。
最後,從整個測評從使用門檻,到産品功能,再到内容生成能力,中國創業公司的各類産品各有千秋。但整體來看,在中國創業公司中,愛詩科技的 PixVerse 整體能力略高一籌,是中國最具備 Sora 氣質的産品。其次是 Morph Studio,這兩者構成中國視頻生成模型的第一梯隊。
其次包括 VegaAI、藝映 AI、Pixeling 則共同處在第二梯隊(生數科技因産品暫停使用,未納入測評),最後神采 Promeai、6PenArt 和 boolv.video 則在第三梯隊。
以下是「自象限」測評總表:
用生産工具,形成數據飛輪
事實上,對比了國内科技巨頭和創業公司到目前爲止的落地産品後的情況我們會發現,大公司更慢,反而是創業公司的産品和用戶規模跑地更快。
李彥宏也曾經提到:大公司做小創新,小公司才能做大改變。
而想要真正在激烈的角逐中突圍,目前來看,除了技術路線選擇和産品本身的能力外,産品的使用場景、用戶體驗、行業應用等等綜合維度,仍然是視頻生成模型比拼的關鍵。
産品使用場景方面,如前文所言,一類公司在埋頭做新工具而另一類公司則将技術嵌入在某些成熟的産品中,這是兩條完全不同的路線。
對于工具類的産品,産品力的一個核心體現在于:能否成爲生産力工具。
讓我們簡單回顧一下 Midjourney 的發展曆程就會發現,Midjourney V5 版本是文生圖曆史上的一個關鍵臨界點,無論是從效果、準确性和速度等多方面的因素來看,V5 正式從 " 玩具 " 蛻變成了生産力工具,而這一次産品能力的突破,帶來的是用戶大規模湧入,數據飛輪開始轉動,效果日新月異。
▲圖:網友制作的 V1-V6 的生成效果對比圖,來源 X
對比 "V5 時刻 " 我們發現,視頻生成模型也即将迎來奇點。
通過真實的測評我們發現,PixVerse 生成的視頻在主體一緻性、運動平滑度、運動幅度、清晰度等方面都更具備使用價值。
在生産力工具的前提下,也分爲兩條産品路線,一類是如 Adobe 公司踐行的走專業工具的路線,讓專業的人更專業,另一類則是如 Word 一般,讓普通人也能成爲生産力。
在這個問題上,Pika 創始人郭文景在采訪時表示 Pika 并不是電影制作工具,而是爲日常消費打造的産品。
PixVerse 的思路則更加明确,相比于 Pika 分層訂閱的商業模式,PixVerse 在用戶量和視頻效果都處于全球第一梯隊的前提下,仍在持續向世界各地免費開放,這是目前其它視頻生成産品都難以企及的。
也正是由于用戶友好的态度和領先的視頻生成效果,讓 PixVerse 的飛輪先轉了起來。根據第三方數據監測平台顯示,目前 PixVerse 的用戶規模與 Pika 處于同等量級,其訪問量也遠超國内其他主流視頻生成産品。(數據來源:similarweb.com)
▲ PixVerse,與 Pika,Runway 産品頁面 2024 年 2 月數據對比
▲國内主要文生視頻産品 2 月數據對比
▲國内主要文生視頻産品數據走勢
通過調研我們發現,愛詩科技還積極在國内外贊助 / 舉辦各類 AI 大賽,推動技術加快落地的同時,也在加速實現技術普惠。這個過程中,也有越來越多的用戶感受到其産品 PixVerse 的優勢。
除此之外,愛詩科技的用戶生态做得非常突出,X 上每天都會湧現大量使用 PixVerse 創作的視頻内容,覆蓋英語、漢語、日語、西班牙語等多地區。這是其它國内品牌完全不具備的優勢,也一定程度上反映了市場的選擇。
"PixVerse 第一個優點是免費、免費、免費;第二個優點是操作簡便且有效,我隻需要把圖片放進去,不寫任何 prompt,讓 PixVerse 自己決定畫面運動 , 往往都能得到滿意的結果。期待 PixVerse 可以實現更大幅度的運動以及更長更穩定的視頻。" 2024 MIT AI 電影黑客松最佳影片提名獎獲得者反饋到。
自象限認爲,免費并不意味着放棄商業化,而是在産品打磨的初期,通過這樣的方式獲得真實的用戶使用體驗和用戶生成後的高質量視頻數據,再反哺給視頻生成模型,将叠代的速度加快,形成數據—訓練的飛輪。
結語
綜合來看,目前國内整個視頻生成模型的技術仍然在效仿國外,但以愛詩科技爲首的創業公司已經找到了自己的發展節奏和模式,正通過産品設計、用戶規模、運營策略等綜合能力進行全面趕超。
相比之下,Sora 目前并未開放,能否承受住大規模用戶同時在線尚未可知,能否能每次都做到準确、一緻的 1 分鍾視頻生成仍有待檢驗。
所以,并不一定非要找到中國版 Sora,以愛詩科技爲代表的中國視頻大模型公司,已經走出了新的、獨立的上升曲線。