下一代世界模型炸場,一張圖生成無限多樣的 3D 遊戲世界。
谷歌推出Genie 2,可響應鍵鼠操作,可玩、可控制。
與此前研究相比,Genie 2 擁有長期記憶,即使玩家把視角轉開,再回來時也可穩定渲染世界中已存在的部分。
遊戲世界中還可以有其他 AI NPC 存在,與玩家控制的角色進行複雜交互。
這意味着任何人都可以用文字描述他們想要的世界,選擇最喜歡的呈現方式,然後進入這個世界并與之互動!
這下,沉迷《暗黑破壞神 4》的馬斯克都覺得很酷,随後 DeepMind 創始人Hassabis邀請他一起做個 AI 遊戲。
關鍵馬部長他還真答應了~
結合馬斯克此前聲稱,xAI 将開辦一家 AI 遊戲工作室,兩者聯手的可能性還真不低。
不過谷歌 DeepMind 搞這項研究,可不光是爲了給人類玩遊戲的——
AI 具身智能體,邁向 AGI 的途徑
Genie 2 可用于訓練和評估具身智能體,通過創建豐富多樣的環境,可以生成 AI 在訓練期間沒見過的評估任務。
比如通過文字指令,訓練智能體打開正确的門。
谷歌表示盡管這項研究仍處于早期階段,在智能體和環境生成能力方面仍有大量改進空間……
但我們相信 Genie 2 是解決在安全訓練具身智能體的同時,滿足實現通往通用人工智能(AGI)所需的廣度和通用性要求。
此前,世界模型研究在很大程度上僅限于建模一個狹窄的領域,比如。
Genie 2 則完成了向生成豐富 3D 世界的飛躍,展示了世界模型的湧現能力,包括對象交互、複雜的角色動畫、物理模拟,以及建模并預測其他智能體行爲的能力。
從同一幀出發,但玩家的操作不同,可以生成不同的運動軌迹。
這意味着可以模拟反事實體驗(counterfactual experiences)用于訓練智能體,也就是從 " 假如當時采取另一種行動會怎樣 " 中獲得經驗。
智能體還可以在 3D 世界中學會與其他對象交互,如氣球挨打就會爆。
實現這一切,靠的依然是擴散模型。
Genie 2 是一種自回歸潛空間擴散模型,在大型視頻數據集上訓練。
(是誰擁有 Youtube 裏上億小時的遊戲視頻數據,我不說)
經過自編碼器處理後,視頻的 Lantent frames 被傳遞到一個大型 Transformer 動力學模型,該模型使用與大型語言模型類似的因果掩碼進行訓練。
在推理時,Genie 2 可以自回歸方式采樣,對單個操作和過去的幀逐幀執行,使用 classifier-free guidance 來提高操作可控性。
此外,谷歌還透露,現在給出的視頻示例都是由爲蒸餾的模型生成,以展示可能性。
蒸餾模型可以做到實時控制,但會降低輸出質量。
One More Thing
就在 2 天前,
這個大佬們都在押注的方向,真的要火了~
參考鏈接:
[ 1 ] https://x.com/elonmusk/status/1864388977866006639
[ 2 ] https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/