人類離電影《黑客帝國》的場景,似乎又近了一步。
因爲就在剛剛,一個與電影同名的、首個 AI 基礎世界模拟器——The Matrix問世。
它已經可以實現生成無限長、高保真720p真實場景視頻,而且還是可以實時交互的那種!
話不多說,直接來看一個長達14 分鍾的效果:
而這個時長還隻是 demo 展示的長度,The Matrix 可以做到在長達 1 個小時的時間裏,穿梭沙漠、草原、水體和城市等景觀。
在此期間,還可以通過按鍵 W(前)、S(後)、A(左)和 D(右)來實時控制——
每秒 16 幀,幀幀可控。
The Matrix 項目是由全華人團隊打造,作者分别來自阿裏巴巴、香港大學、滑鐵盧大學和加拿大 AI 研究機構 Vector Insititute。
而之所以團隊将研究取名爲 The Matrix,是因爲其效果和内容與電影《黑客帝國》中的一句話類似:
這是你熟悉的世界;這是 20 世紀末的世界。它現在隻存在于我們稱之爲 Matrix 的神經交互模拟系統中。
This is the world that you know; the world as it was at the end of the 20th century. It exists now only as part of a neural-interactive simulation that we call the Matrix.
網友們看罷,評論區已經一片 "crazy"、"amazing" 的聲音:
但除了無限生成、效果逼真和實時可控之外,The Matrix 還解鎖了一項能力。
零樣本,就可以直接泛化
The Matrix 的訓練數據主要由兩部分組成。
首先是通過像《極限競速:地平線》和《賽博朋克 2077》這樣的 3A 遊戲的監督數據來進行訓練;其次再輔以大量的現實世界場景(如東京街頭)的無監督視頻。
而與以往研究不同的是,The Matrix 可以在沒有上述數據學習的情況下(零樣本),可以理解和預測不同環境中物體的行爲和交互。
例如下面這個" 寶馬 X3 在辦公環境中行駛 "的場景,這是在遊戲數據和現實世界數據中都未出現過的環境:
再如" 車在水裏遊泳 ":
The Matrix 還支持以第一視角的方式來看世界:
就連真實世界中的物體,甚至人物,都是可控的:
從實驗結果上來看,與近期主流的遊戲仿真生成模型比較,不論是時長還是效果等,The Matrix 都已經達到了領先的效果:
怎麽做到的?
從技術角度來看,The Matrix 的核心由三大模塊組成。
首先是交互模塊 (Interactive Module)。
這個模塊用于理解用戶的輸入(如鍵盤輸入)并将其整合到視頻生成中,實現幀級别的精确控制。
爲了增強模型的交互性,研究人員對一個預訓練的 Diffusion Transformer ( DiT ) 模型進行調優,使得交互模塊不僅能夠應對已知數據,還能泛化到無标簽的數據。
其次是移窗去噪過程模型 (Shift-Window Denoising Process Model, Swin-DPM)。
這個新穎的擴散模型通過使用滑動的時間窗口來處理長時間依賴關系,從而實現無限長視頻的生成。
該模型能夠以連續、平滑的方式生成視頻,解決了傳統模型在長序列生成時遇到的記憶瓶頸。
最後是流一緻性模型 (Stream Consistency Model, SCM)。
爲了實現實時生成,The Matrix 集成了一種名爲流一緻性模型的技術,使得推理速度加快 10-20 倍,最終實現 8-16 FPS 的實時生成速度。
此外,研究人員還開發了一個名爲GameData的平台,用于自動捕獲遊戲中的狀态數據和視頻幀,并生成标注的動作幀數據集。
這個數據集結合了真實世界的視頻數據,既幫助模型學習具體動作控制,又增強了模型的視覺質量和域泛化能力。
團隊介紹
正如我們剛才提到的,The Matrix 的作者均爲華人。
其中,項目負責人主要是兩位,分别是 Hongyang Zhang 和 Ruili Feng。
Hongyang Zhang 目前是滑鐵盧大學的助理教授,帶領 SafeAI Lab;其主要研究方向包括基礎模型的研究。
另一位則是來自阿裏巴巴的 Ruili Feng。
若是大家對研究感興趣,可戳下方鏈接查看詳情。
參考鏈接:
[ 1 ] https://thematrix1999.github.io/
[ 2 ] https://thematrix1999.github.io/article/the_matrix.pdf
[ 3 ] https://x.com/hongyangzh/status/1859288829825515810
[ 4 ] https://x.com/SmokeAwayyy/status/1859369842647892325