谷歌發布Genie 2，單圖生成1分鍾3D遊戲世界，不敵OpenAI聖誕狂歡？

進入本年度最後一個月，AI 模型領域也變得熱鬧起來。繼 Sora 疑似洩露、李飛飛團隊發布空間智能模型 Demo 之後，Google DeepMind 也緊随其後，于今日淩晨推出新一代大規模基礎世界模型 Genie 2。

Genie 2 能從單張圖像生成一個高度多樣化、邏輯嚴謹且連貫一緻的 3D 世界。這些世界不僅視覺效果豐富，還支持人類或 AI 智能體通過鍵盤和鼠标進行長達一分鍾的持續互動。

不過就在不過就在領導 Genie 2 項目的 DeepMind 研究科學家 Jack Parker-Holder 剛剛發推公布沒多久，擅長跟谷歌搶風頭的 Sam Altman 就又跳出來了。

他說從明天上午 10 點開始将開啓OpenAI 的 12 天活動。每個工作日都會進行一場直播，帶來發布會或演示，其中既有重磅内容，也有一些 " 小彩蛋 "。

" 我們準備了很多精彩的東西，希望你們喜歡！聖誕快樂！"

咱就是說…多少次了，說你奧特曼不是誠心的我都不信了。

在 OpenAI 配合發出的官推下，跳到谷歌負責開發者關系的 Lorgan Kilpatrick 前排留言：" 真的麽 "，也是很意味深長。

Genie 2: 單圖一鍵生成 3D 可玩世界

DeepMind 的上一代基礎世界模型 Genie 于今年 2 月發布，當時僅專注于生成 2D 世界，玩家互動也受限于幀率，體驗相對簡單。而 Genie 2 則将能力擴展至多樣化的 3D 遊戲環境，在交互時長和複雜性上都有了大幅躍升。

它能夠模拟虛拟世界中諸如跳躍和遊泳等多種行爲結果。基于大規模視頻數據集訓練，展現出多種湧現能力，包括物體交互、複雜角色動畫、物理效果，以及對其他智能體行爲的建模與預測等。

其生成過程依托 Imagen 3 提供的提示圖像。用戶隻需用文本描述想要的世界，選擇渲染效果，即可創建并進入一個全新的虛拟世界與之互動。

在交互過程中，人類或智能體通過鍵盤和鼠标輸入動作，Genie 2 會即時模拟并生成下一步的觀察結果，并在 1 分鍾内完成一個一緻的虛拟世界構建。

具體能做什麽？看示例：

動作控制

Genie 2 能智能響應通過鍵盤輸入的動作，識别角色并正确完成向前後左右的移動。

生成不同軌迹場景

從同一起始幀出發， Genie 2 能讓用戶嘗試不同的操作選擇，創造出完全不同的遊戲過程。例如下方控制汽艇走左右河道。這個功能讓 AI 在訓練時可以學習到各種選擇帶來的不同結果。

長時記憶

Genie 2 能夠記住不在當前視野中的世界部分，并在它們再次可見時準确地渲染。

長視頻生成與新内容生成

可實時生成新的合理内容，并在長達 1 分鍾内保持一緻的世界。

多樣化環境

創建不同的視角，如第一人稱視角、等距視角或第三人稱駕駛視頻。

3D 結構

能創建複雜的 3D 視覺場景。

物體的可操作性和交互

Genie 2 能夠建模與各種模拟物體交互，例如氣球爆破、開門或射擊爆炸桶等。

角色動畫

可以爲各種類型的角色制作不同活動的動畫。像是玩家忽然靈機一動，想要爬梯子，也難不倒它。

非玩家角色

Genie 2 能夠建模其他智能體 NPC，甚至實現與它們的複雜交互。比如下面這個粉色胖乎乎的家夥。

另外，Genie 2 還能準确體現水花、煙霧、重力、光照和反射等物理效果。除了借助 Imagen 3 生成圖像， Genie 2 也能使用現實世界圖像進行提示。

目的是加速 AI 智能體訓練

Genie 2 設計的主要目是爲通用智能體提供無限多樣的動态場景，用于訓練和評估，進而推動機器人技術和虛拟助手等領域的發展。

在以下示例中，團隊利用 Imagen 3 生成不同的圖像提示，指導 Genie 2 模拟紙飛機、飛龍、鷹或降落傘的操控場景，測試了其在動畫化不同角色以及多樣化動态建模方面的靈活性。

對于藝術家和設計師，Genie 2 同樣具有革命性意義。概念藝術和草圖可以直接轉化爲完全可交互的虛拟環境，使創作者能夠快速完成原型設計，大幅提升創意流程的效率，極大地優化了環境設計的整體過程。

聚焦到智能體訓練來說，借助 Genie 2 的能力，可以生成豐富多樣的虛拟環境，包括智能體從未見過的全新任務場景。

例如在 Genie 2 創建的 3D 環境中，遊戲智能體 SIMA 可以使用鍵盤和鼠标控制角色，打開藍色門和紅色門。由 Genie 2 實時生成遊戲畫面，爲智能體提供動态反饋。

當指示 SIMA 探索房子後方區域時，也可以反過來測試 Genie 2 是否能夠生成一緻性和連貫性的虛拟環境，以此驗證其技術表現。總體來看，Genie 2 爲智能體的任務執行和環境适應能力提供了重要的測試場景。

但團隊也坦白，Genie 2 還在不斷完善中，偶爾也有 " 演砸 " 的時候，并大方放出了幾個翻車瞬間。比如莫名出現在花園中的人影 " 幽靈 "、角色甩開了滑雪闆選擇跑酷、手裏的火焰失控爆炸等等。

模型架構：擴散世界模型

Genie 2 是一個自回歸的潛在擴散模型。它基于大量視頻數據進行訓練，先通過一個自動編碼器将視頻幀轉換爲 " 潛在幀 "（即壓縮後的核心信息），然後将這些潛在幀傳遞給一個大規模 Transformer 動态模型，該模型通過與大語言模型類似的因果掩碼學習來預測下一步會發生什麽。

在推理階段，Genie 2 可以以自回歸的方式進行采樣，像接力一樣逐幀生成畫面，并根據之前的動作和畫面來決定接下來的内容。團隊還通過一種叫做無分類器引導的方法，增強了模型對動作的控制能力，讓生成的畫面和操作更符合預期。

需要注意的是，博客中的示例是使用未經蒸餾的原始模型生成的，目的是展示模型的最大潛力。如果使用蒸餾版本，雖然畫面質量可能略有下降，但仍可以做到實時運行。

Sam Altman 掐點截胡，大模型狂歡聖誕月來了？

不得不說，DeepMind 這波 Genie 2 屬實挺意義重大的。

一經官宣，評論區也振奮不已。大家紛紛表示 " 這是絕對瘋狂的影響，将讓所有人都能創造屬于自己的世界 "，" 不久後，一些充滿幹勁的獨立遊戲開發者就能從卧室裏颠覆整個遊戲産業 "，" 很快我們就能看到那些值得出續作卻從未獲得機會的遊戲續集 " … .

不過，今天 Genie 2 刮起的旋風雖不至于又一次淪爲 OpenAI 的 " 助演 "，但奧特曼放出的 " 新品直播 " 消息确實也賺足了眼球。潛台詞似乎是，接下來 12 天就沒你們别人什麽事兒了。

甚至有好多人做出了 12 天發布預測。包括文生視頻模型 Sora、向免費用戶開放 o1-preview、新版 DALL · E 和開發者工具、爲 ChatGPT 添加聖誕老人風格聲音以增加節日氛圍、新一代具有更大上下文窗口的 GPT-NEXT 模型、高級語音模式加入視覺功能增強等等。

不管怎麽說，AI 新品紮堆，對用戶和開發者來說當然不是件壞事。

接下來 OpenAI 是帶來真正的驚喜還是虛晃一槍，其它大模型廠商又有無新動作。或者更近的，明天直播會發布什麽？搬起小闆凳，拭目以待吧 ~

（歡迎在評論區告訴我們你的猜想！）