緊跟Sora，谷歌推出Genie，AI戰火燒到了“世界模拟器”

圖片來源：視覺中國

2 月 26 日，谷歌 Deep Mind 團隊發布基礎世界模型 Genie，一個虛拟生成的可交互環境，110 億參數，通過給模型投喂視頻數據進行訓練，生成照片、草圖甚至可以操控的虛拟世界。

Genie 是在沒有任何動作标簽的情況下進行訓練的，而傳統 AI 是需要人給圖片打标簽來訓練 AI 識别圖片。這意味着 Genie 需要從視頻中自行識别不同動作的特征和模式。

Genie 生成的視頻。圖片來源：Google Genie 官網

谷歌表示："Genie 的獨特之處在于它能夠專門從互聯網視頻中學習細顆粒度的控制。這是一個挑戰，因爲互聯網視頻通常不會标注其正在執行哪個動作、應該控制圖像中的哪一部分。Genie 不僅了解觀察的哪些部分是可控制的，而且能根據生成的環境來推測出多種潛在的動作。請注意相同的潛在操作如何在不同的提示圖像下産生相似的行爲。"

根據藍鲸财經記者觀察，這是指當給 Genie 提供不同的圖像（類似不同版本的馬裏奧通關環境）時，圖像中的小人能在遇到障礙時表現出同樣的彈跳、躲避障礙的動作，且符合物理規律。

從谷歌 Genie 目前展示的案例來看，這些視頻非常卡通化。官網也表示：" 我們專注于 2D 平台遊戲和機器人技術的視頻，但我們的方法是通用的，應該适用于任何類型的領域，并且可以擴展到更大的互聯網數據集。"

Genie 生成的機械臂視頻。圖片來源：Google Genie 官網

在官網上，Genie 也生成了模拟機器人動作的視頻。Genie 團隊訓練了一個較小的 2.5B 模型，與遊戲平台的情況一樣，具有相同潛在動作序列的軌迹通常會表現出相似的行爲。這表明 Genie 能夠學習符合一貫規律的動作空間，可能适合訓練多面手智能體（機械臂）。Genie 還可以模拟可以變形的物體。

與競争對手 OpenAI 兩周前火遍全球的文生視頻模型 Sora 相同，Genie 同樣是一個 " 物理世界模拟器 "，能夠在虛拟世界中做物理世界的實驗。不同的是，Sora 是直接從文字生成視頻，這更加 " 大力出奇迹 "，且生成視頻長度可達一分鍾；而 Genie 從目前官網披露的情況看，大部分情況下需要先用文生圖模型來生成起始幀圖片，再用 Genie 生成視頻，且視頻在一兩秒左右，更像是動圖。

如果隻把 Sora、Genie 當做生成視頻的影視工具，就大材小用了。實際上，OpenAI 對于 Sora 的定位是作爲 " 世界模拟器的視頻生成模型 "，谷歌對 Genie 的定義是基礎世界模型，能夠合成可操控的虛拟世界。

那麽 " 世界模拟器 " 到底是什麽？OpenAI 官方早在 2016 年就作了诠釋：

" 我們常常會忽略自己對世界的深刻理解：比如，你知道這個世界由三維空間構成，裏面的物體能夠移動、相撞、互動；人們可以行走、交談、思考；動物能夠覓食、飛翔、奔跑或吠叫；顯示屏上能展示用語言編碼的信息，比如天氣狀況、籃球比賽的勝者，或者 1970 年發生的事件。這樣龐大的信息量就擺在那裏，而且很大程度上容易獲得——不論是在由原子構成的物理世界，還是由數字構成的虛拟世界。挑戰在于，我們需要開發出能夠分析并理解這些海量數據的模型和算法。生成模型是朝向這個目标邁進的最有希望的方法之一。要訓練一個生成模型，我們首先會在某個領域收集大量的數據（想象一下，數以百萬計的圖片、文本或聲音等），然後訓練這個模型去創造類似的數據。這個方法的靈感來自于理查德 · 費曼的一句名言：" 我所無法創造的，我也不能理解。"（即：要真正理解一個事物，你需要去創造它）這個方法的妙處在于，我們使用的神經網絡作爲生成模型，其參數的數量遠遠少于訓練它們的數據量，這迫使模型必須發現并有效地吸收數據的精髓，以便能夠創造出新的數據。

Sora 生成的一個視頻中，跑步機倒着跑。圖片來源：OpenAI Sora 官網

Sora、Genie 的本質是 " 世界模拟器 "，讓虛拟世界模仿現實物理世界的各種屬性（重力、摩擦力、動能、光、聲、電、材料、生物等等），在虛拟世界中操控物體動作，在仿真的物理條件下來做實驗。

Sora 此前發布視頻中的金毛犬、吹蠟燭的老太太、冰川上的猛犸象等，都是 Sora 通過視頻數據集來 " 理解 " 現實世界是如何構成的、有什麽物理規律、人類有怎樣的行爲，來模拟生成的。所以，Sora 自行理解提煉的模拟世界中的規律也可能不符合現實物理世界，比如老太太吹不滅蠟燭、人在跑步機上倒着走、籃球直接穿籃而過等等。

世界模型的一個好處或許在于，人類可以把需要試錯的部分放在虛拟世界中進行。

在谷歌發布的 Genie 之前，有不少視頻生成模型在全球火爆。2023 年 12 月底，Pika Labs 推出 Pika 1.0，生成視頻長度在 3 秒左右，以單鏡頭爲主。Runway 視頻模型于 2023 年 2 月發布，支持最多 18s 視頻生成，鏡頭相對固定。2024 年 2 月 16 日，全球明星 AI 創業公司 OpenAI 發布文生視頻模型 Sora，有精細的畫質、多鏡頭拍攝、多角度運鏡，對于真實人類世界的模拟度極高。