圖片來源:視覺中國
2 月 26 日,谷歌 Deep Mind 團隊發布基礎世界模型 Genie,一個虛拟生成的可交互環境,110 億參數,通過給模型投喂視頻數據進行訓練,生成照片、草圖甚至可以操控的虛拟世界。
Genie 是在沒有任何動作标簽的情況下進行訓練的,而傳統 AI 是需要人給圖片打标簽來訓練 AI 識别圖片。這意味着 Genie 需要從視頻中自行識别不同動作的特征和模式。
Genie 生成的視頻。圖片來源:Google Genie 官網
谷歌表示:"Genie 的獨特之處在于它能夠專門從互聯網視頻中學習細顆粒度的控制。這是一個挑戰,因爲互聯網視頻通常不會标注其正在執行哪個動作、應該控制圖像中的哪一部分。Genie 不僅了解觀察的哪些部分是可控制的,而且能根據生成的環境來推測出多種潛在的動作。請注意相同的潛在操作如何在不同的提示圖像下産生相似的行爲。"
根據藍鲸财經記者觀察,這是指當給 Genie 提供不同的圖像(類似不同版本的馬裏奧通關環境)時,圖像中的小人能在遇到障礙時表現出同樣的彈跳、躲避障礙的動作,且符合物理規律。
從谷歌 Genie 目前展示的案例來看,這些視頻非常卡通化。官網也表示:" 我們專注于 2D 平台遊戲和機器人技術的視頻,但我們的方法是通用的,應該适用于任何類型的領域,并且可以擴展到更大的互聯網數據集。"
Genie 生成的機械臂視頻。圖片來源:Google Genie 官網
在官網上,Genie 也生成了模拟機器人動作的視頻。Genie 團隊訓練了一個較小的 2.5B 模型,與遊戲平台的情況一樣,具有相同潛在動作序列的軌迹通常會表現出相似的行爲。這表明 Genie 能夠學習符合一貫規律的動作空間,可能适合訓練多面手智能體(機械臂)。Genie 還可以模拟可以變形的物體。
與競争對手 OpenAI 兩周前火遍全球的文生視頻模型 Sora 相同,Genie 同樣是一個 " 物理世界模拟器 ",能夠在虛拟世界中做物理世界的實驗。不同的是,Sora 是直接從文字生成視頻,這更加 " 大力出奇迹 ",且生成視頻長度可達一分鍾;而 Genie 從目前官網披露的情況看,大部分情況下需要先用文生圖模型來生成起始幀圖片,再用 Genie 生成視頻,且視頻在一兩秒左右,更像是動圖。
如果隻把 Sora、Genie 當做生成視頻的影視工具,就大材小用了。實際上,OpenAI 對于 Sora 的定位是作爲 " 世界模拟器的視頻生成模型 ",谷歌對 Genie 的定義是基礎世界模型,能夠合成可操控的虛拟世界。
那麽 " 世界模拟器 " 到底是什麽?OpenAI 官方早在 2016 年就作了诠釋:
" 我們常常會忽略自己對世界的深刻理解:比如,你知道這個世界由三維空間構成,裏面的物體能夠移動、相撞、互動;人們可以行走、交談、思考;動物能夠覓食、飛翔、奔跑或吠叫;顯示屏上能展示用語言編碼的信息,比如天氣狀況、籃球比賽的勝者,或者 1970 年發生的事件。這樣龐大的信息量就擺在那裏,而且很大程度上容易獲得——不論是在由原子構成的物理世界,還是由數字構成的虛拟世界。挑戰在于,我們需要開發出能夠分析并理解這些海量數據的模型和算法。生成模型是朝向這個目标邁進的最有希望的方法之一。要訓練一個生成模型,我們首先會在某個領域收集大量的數據(想象一下,數以百萬計的圖片、文本或聲音等),然後訓練這個模型去創造類似的數據。這個方法的靈感來自于理查德 · 費曼的一句名言:" 我所無法創造的,我也不能理解。"(即:要真正理解一個事物,你需要去創造它)這個方法的妙處在于,我們使用的神經網絡作爲生成模型,其參數的數量遠遠少于訓練它們的數據量,這迫使模型必須發現并有效地吸收數據的精髓,以便能夠創造出新的數據。
Sora 生成的一個視頻中,跑步機倒着跑。圖片來源:OpenAI Sora 官網
Sora、Genie 的本質是 " 世界模拟器 ",讓虛拟世界模仿現實物理世界的各種屬性(重力、摩擦力、動能、光、聲、電、材料、生物等等),在虛拟世界中操控物體動作,在仿真的物理條件下來做實驗。
Sora 此前發布視頻中的金毛犬、吹蠟燭的老太太、冰川上的猛犸象等,都是 Sora 通過視頻數據集來 " 理解 " 現實世界是如何構成的、有什麽物理規律、人類有怎樣的行爲,來模拟生成的。所以,Sora 自行理解提煉的模拟世界中的規律也可能不符合現實物理世界,比如老太太吹不滅蠟燭、人在跑步機上倒着走、籃球直接穿籃而過等等。
世界模型的一個好處或許在于,人類可以把需要試錯的部分放在虛拟世界中進行。
在谷歌發布的 Genie 之前,有不少視頻生成模型在全球火爆。2023 年 12 月底,Pika Labs 推出 Pika 1.0,生成視頻長度在 3 秒左右,以單鏡頭爲主。Runway 視頻模型于 2023 年 2 月發布,支持最多 18s 視頻生成,鏡頭相對固定。2024 年 2 月 16 日,全球明星 AI 創業公司 OpenAI 發布文生視頻模型 Sora,有精細的畫質、多鏡頭拍攝、多角度運鏡,對于真實人類世界的模拟度極高。