文|幸芙
編輯|鄭玄
又一個國内的重要玩家,殺入「文生視頻」這個今年最火的大模型風口。
幾天前,MiniMax 發布了全新的視頻模型 abab-video-1。用戶可登錄其産品「海螺 AI」的網頁版,體驗文生視頻的功能。
盡管是一個晚入局者——繼年初 OpenAI 發布 Sora 後,國内的科技公司紛紛跟進。包括大廠,比如快手的「可靈」、字節的「即夢」等;包括垂直的創業公司,比如生數科技、愛詩科技、智象未來等;也包括模型公司,比如智譜幾個月前就嵌入了文生視頻功能。但 MiniMax 很有信心,「這可能是目前國内最好的視頻大模型。」創始人闫俊傑說。
極客公園一手體驗了 MiniMax 的文生視頻功能,在給定的一系列随機提示詞下,MiniMax 的生成效果令人眼前一亮。而在海外社交平台 X 上,也有越來越多用戶用其生成出驚豔的視頻、并進行了分享。而在 MiniMax 自己釋放出的樣片裏,可以看到這些視頻已經逼近真實的商拍、乃至電影質感。
這正是 MiniMax 更晚推出該功能的原因,爲了在技術上形成數倍、而不隻是百分點的提升。作爲一家技術導向型的公司,MiniMax 相信技術決定産品體驗,這也是它們不着急的原因。
如果說 Sora 到目前還沒有開放使用的機會,那目前 MiniMax 該功能已經完全對用戶開放。當很多國内已經公司針對這項功能收費,MiniMax 仍在免費階段。也就是說,用戶可以免費、且一手體驗這款最接近 Sora 的産品。
在年初與極客公園的一次交流中,MiniMax 創始人闫俊傑表示,Sora 對大模型公司來說是一道「選答題」。因其存在着 PGC、UGC 等不同用法,AI 公司不一定要跟上。不過似乎現在他認爲,這是一道「必答題」——還是出于提高用戶滲透率的考慮。
在年初的訪問中,他提到随着大模型每次拓展模态,用戶滲透率就會提升,因爲文字隻是人類信息交互中的極小一部分,聲音、圖片、視頻等模态也同等重要。MiniMax 的願景是讓 AI 爲普通人所用,提高用戶滲透率是他最看重的事情。在這道「必答題」上,MiniMax 看起來交出了一份不錯的答卷。
在不同的 prompt 評測中,MiniMax 文生視頻功能都保持領先
打開 MiniMax 文生視頻産品的官網,會發現它出奇的簡單。如果說其他産品都給用戶提供了許多選項,比如視頻時長、視頻比例、模式選擇、運鏡方式、情感氛圍等。但 MiniMax 的産品非常簡單:輸入一段文字(prompt),直接生成視頻。
筆者直接嘗試了一段 prompt:「兩位都市白領手裏拿着星巴克咖啡,走在日光沐浴下的街道,她們本來表情平靜地聊着天,突然一起笑了起來。」在這段 prompt 裏,我既要求了人物的細節動作,比如手拿咖啡;也要求了場景的表現力,比如日光沐浴的街道;還有人物的表情,比如平靜和微笑。這都是目前文生視頻産品的技術難點。
僅就這段 prompt 的表現來看,MiniMax 的文生視頻功能幾乎完勝:兩位人物無論是微笑的表情、還是拿咖啡的手部動作,都非常自然、沒有變形,它還原了日光沐浴的場景,同時也還原了「星巴克」标識。
但再看其他産品:某熱門産品生成的咖啡杯是變形的、人物的表情也是變形的;某産品雖生成很自然,但漏掉了「星巴克」标識;另外某産品也是人物完全變形、咖啡杯完全變形;某産品人物稍微變形,漏掉了「星巴克」标識;某産品生成的視頻毫無穩定性,也沒有清晰度可言。
在筆者的指令下,最上爲 MiniMax 的文生視頻效果;下面兩張爲其他國内熱門文生視頻産品的效果 | 圖片來源:極客公園
此外,筆者又嘗試了其他不同的 prompt,包括神情愉悅地打字的女孩等,最終 MiniMax 的文生視頻功能都表現更爲出色。如果說文生視頻最重要的是對現實世界的模拟,那麽可以看到,它對于真實世界的模拟會更好,同時也能輸出更逼近真實的視頻效果。
在 X 社交平台上,不少海外用戶使用完 MiniMax 的文生視頻産品後也評價很高。比如用戶 @ryan_morrison 提到,「它的手部動作是我見過的最自然的。」用戶 @hortega_andre 提到,「它的手部動作和面部表情是我見過的最自然的。」
專門探索用 AI 制作電影的用戶 @Machine Mythos,則用 MiniMax 文生視頻制作了一則名爲《地獄之地》的微影片。該視頻時長 2 分 20 秒,講述了一個男子開車行駛的過程中,發現曾經人流交織的街道,現在已經被僵屍占據。「我的上一部電影是我迄今爲止最現實的電影,我沒想到它會這麽快就被超越。」Mythos 這麽評價道。
@Machine Mythos 制作的《地獄之地》微電影 | 圖片來源:X
筆者注意到,它上一部電影發布于一個月前,是用國外領先的視頻模型 Runway 的 Gen3 版本生成。但就影片真實效果而言,MiniMax 更勝一籌。
「我們内部評測,包括跑一些分,應該比國外 Runway 有更好的效果。」闫俊傑說。
三大核心技術指标:文本響應好、壓縮率高、風格多樣
在表層的用戶體驗之下,MiniMax 将其文生視頻的優勢總結爲:一、壓縮率高;二、文本響應好;三、風格多樣;四、可以生成原生高分辨率、高幀率視頻,也就是接近電影大片質感。
關于文本響應好,它指的是産品的指令遵循更好。比如筆者在 prompt 中強調了星巴克,幾乎隻有 MiniMax 的視頻模型把這個标識體現出來了。MiniMax 稱,這主要得益于其模型在文本上的不斷積累。
關于壓縮率高,它指的是對高動态、變化多的信息有較好的表現力。比如 @JingXiangZ 給的指示是:「廣角鏡頭中,一個長着猴頭的肌肉男,赤裸上身,騎着電動滑闆車穿過城市街道,然後飛上天空。」在最終的效果裏,猴頭、肌肉男、赤裸上身、以及迅速穿梭于城市的街景變化都得到了展現。
關于風格多樣,指的是無論電影大片場景、動畫,無論是中式風格還是科幻、美漫等,它都可以駕馭。比如 AI 藝術家 @vladimircherner 生成的視頻裏,既有卡通動畫、也有真實走秀、還有寫實電影、甚至科幻電影等。
用戶 @vladimircherner 用 MiniMax 生成的視頻 | 圖片來源:X
最重要的一點是能生成原生高分辨率、高幀率視頻,這意味着視頻能接近電影大片質感。目前,MiniMax 已經釋放出一些通過 prompt 做出來的電影、廣告片,效果令人驚豔。
比如有一段是星際大戰的預告片、有一段是宣傳沙發像雲朵一樣柔軟的廣告片、有一段是高速俯拍街道的電影片段、有一段是雪崩救援的記錄片、還有一段是名爲《魔法硬币》的科幻片——它講述了一個小男孩通過一枚寫着 MiniMax 的硬币,在不同時空進行穿梭的過程。無論是加勒比海盜的船上、還是多元宇宙、還是萬裏長城、還是北極熊身上、又或者是森林的豹子身上,所有的場景都非常逼真。
看完這些視頻,一個很直接的感受是,已經不太能看得出它們是 AI 做出來的。這意味着在視頻生成效果上,MiniMax 取得了關鍵性的突破。
極緻的技術,才有極緻的用戶交互
闫俊傑介紹,MiniMax 之所以在文生視頻賽道更晚入場,原因是公司希望在技術上形成絕對優勢。在他看來,不管是視頻、文本、聲音,核心不是在算法上提升 5%、10%,而是要看能不能提升幾倍。「如果能提升幾倍就一定要做出來,如果隻提升 5% 就不太值得做。這是我們做研發的思路。」他說。
在他看來,在文生視頻這件事上,技術能提升幾倍的核心關鍵是,提高壓縮率的問題。訓練視頻生成能力時,模型需要先把視頻變成 token,但這個 token 會非常長,導緻複雜度很高。因此,MiniMax 團隊在算法上主要解決的是,怎麽把壓縮率變得更高、把 token 的複雜度降低。這花了他們很多的精力,因此比同行晚了近一兩個月。
團隊發現,當算法變得更強的時候,産品的效果确實好了很多。在文生視頻這件事情上,再次印證了闫俊傑所說的,技術決定産品。
MiniMax 的文生視頻功能 | 圖片來源:MiniMax
對于 MiniMax 而言,對技術重要性的認識是不斷提升的。當技術水平提高時,用戶的活躍度會增加;當技術出現失誤,用戶活躍度在降低。「當技術做不好的時候,所有東西都是問題。當技術做好了,所有問題都被掩蓋了。」闫俊傑說。這兩年時間,他已經意識到技術是科技公司最核心的要素。
他認爲,創業公司相較于大廠而言最重要的優勢隻有兩點:一是技術的提升,二是與用戶的交互,而這兩者互爲表裏,所謂「産模一體」,技術服務産品,産品也會反哺技術。
MiniMax 在全球擁有多元化的用戶分布。據 MiniMax 介紹,其每日與全球用戶進行超 30 億次交互,處理超 3 萬億文本 token、2000 萬張圖片和 7 萬小時語音,大模型日處理交互量居國内AI公司首位。
目前 MiniMax 公布的文生視頻功能隻是第一版,接下來它在産品功能上還會有更多的更新。比如現在隻提供了文生視頻功能,接下來還會有圖生視頻、文 + 圖生成視頻、可編輯的可控性等等。而等新的東西出來,以及到達更滿意的狀态之後,MiniMax 可能會考慮一些商業化動作。
作爲國内幾乎最早成立的大模型公司之一,MiniMax 從成立起就确定了要将 AI 普及普通人的目标。爲此,這家公司沿着文本、音頻、音樂、視頻等不同模态拓展,用技術突破帶來更好的用戶體驗。而如今,它推出驚豔的文生視頻功能,也意味着它在這條路上又踏上了一個新的台階。