美國當地時間周三,谷歌旗下人工智能研究機構 DeepMind 推出了一款新模型 Genie 2。作爲今年初推出的 Genie 模型的升級版,Genie 2 标志着人工智能在虛拟世界生成領域的一次重大突破。
作爲一種基礎世界生成模型,Genie 2 能夠憑借一張圖生成無限多樣的、可操控且可玩的 3D 環境,用于訓練和評估具身智能體。
DeepMind 宣稱,Genie 2 能夠生成 " 豐富多樣的 3D 世界 ",用戶可通過鼠标或鍵盤在這些世界中自由跳躍、遊泳等。經過視頻訓練,該模型能夠精準模拟物體的交互、動畫效果、照明、物理現象、反射效果以及 "NPC"(非玩家角色)的行爲。
DeepMind 發布的演示視頻,就生動展示了用戶與 Genie 2 的互動過程。
首先,系統使用 Imagen 3 根據文字描述生成初始圖片。然後,Genie 2 就能基于這張圖片創造出一個完整的互動世界。最後,用戶可以用鍵盤鼠标在這個世界裏自由探索,而 Genie 2 會實時模拟生成你看到的每一幀畫面。
更重要的是,DeepMind 透露,Genie 2 具備從不同視角(如第一人稱視角與等距視角)生成連貫世界的能力,這些生成的世界可持續時間長達一分鍾,盡管多數情況下維持在 10 到 20 秒之間。
事實上,谷歌對世界模型研究的投入正在持續擴大。今年 10 月,DeepMind 聘請了 OpenAI 前視頻生成項目負責人 Tim Brooks,同時兩年前從 Meta 挖來了以開放式實驗聞名的 Tim Rockt ä schel。