谷歌 110 億參數 Genie,用來打造交互虛拟世界,它來了!
劃重點:不受視頻監督訓練;隻用給它單張圖像,就能提示生成可玩的 2D 虛拟世界;這個交互式的虛拟世界還自主可控。
但令人撇嘴的點,就是 Genie 最後出的效果,畫質太糊了。
像這樣:
或者這樣:
團隊也站出來承認,Genie 目前确實還有限制,現在隻能以 1FPS 制作遊戲。
看得網友忍不住吐槽,不說和 Sora 的效果比了,就算和别的文生視頻或者文生圖相比,都是 "2K" 和 "480p" 的差距。
看起來挺令人興奮的,但 emmm 怎麽說呢,畫質和風格都像個上世紀 80 年代的遊戲。
但也有人站出來爲 Genie 說話。
比如英偉達科學家 Jim Fan,就明确表達:
與 Sora 不同,Genie 實際上是個能推斷動作、用正确動作驅動世界模型。
Genie 團隊負責人 Tim Rockt ä schel 激情開麥,稱認爲這(Genie)是邁向 AGI 通用世界模型的充滿希望的一步。
他援引了世界模型第一推崇者 Yann LeCun 的推特,稱:
" 誠然, OpenAI 的 Sora 驚豔世界,但正如楊立昆所說,世界模型一定需要動作。"
畫質就一個字,糊
書歸正傳。
咱們從視覺上來感受一下 Genie 的神奇魔法,直接上效果圖。
這是官方給出的例子——
現實世界的照片,喂給 Genie,就能動起來,變成無限的虛拟世界。
Like this,小黃狗逛公園:
還有古堡武士向前沖:
Genie 團隊用 Imagen2 生成圖像,然後把圖像喂給 Genie。Genie 把圖像作爲起始幀,生成以下效果。
團隊表示,Genie 不僅僅能用 AI 繪畫來作爲驅動的起始幀,随便拿張人類大作,也可以達到同樣的效果。
比如這是個小朋友的畫作:
丢給 Genie 後,能得到老鷹起飛的效果:
這也是一張小朋友塗鴉,經由 Genie 處理後得到的:
可以明顯看到,上面給出的這些官方效果,明顯畫質參差不齊。
難怪有的網友稱,這些 demo 看上去有一種 700 度近視眼摘掉眼鏡看世界的美
不少人提問爲什麽不用超高清分辨率輸出,目前還沒得到回應。
除了畫質太糊,Genie 的另一個點,就是網友們覺得 demo 都太短太短了。
平均每個時長不到 2s。
好多人都急了:
能不能放出來 1 分鍾時長的 demo 啊???或者至少讓咱看看,超過 3 秒鍾,會是啥樣子吧。
然而,雖然肉眼可見的畫質糊、時長短,Genie 仍然是令人驚呼的新研究。
畢竟,任何人,包括幼兒園階段的小朋友,都可以繪出一個世界,然後加入其中,開始探索。
有小夥伴已經在暢想,日後能用 Genie 制造 " 一個讓每個人都感到滿足和滿足、永無止境的生成世界 "。
眨眼間,AI 就從生成下一個 word 發展到了生成下一個 world。
Genie,一種通用方法
令人欣慰,谷歌 DeepMind 放出了關于 Genie 的論文,《Genie: Generative Interactive Environments》。
論文顯示,Genie 是一個11B 參數的交互式環境生成模型,能夠從互聯網視頻中無監督地學習并生成可交互的虛拟世界。
并且,Genie 可以通過文本、圖像、照片甚至手繪草圖生成最終的交互式虛拟世界。
整個 Genie 包含三個關鍵組件:
潛在動作模型(Latent Action Model ,LAM);
視頻分詞器(Tokenizer);
潛在動态模型(Dynamics Model)。
其中,潛在動作模型用于推理每對幀之間的潛在動作。
爲了讓視頻生成可控,谷歌 DeepMind 用前一幀所采取的動作來預測未來幀。
由于此類動作标簽在互聯網視頻中可用的很少,同時獲取動作注釋的成本超級高,因此,團隊以完全無監督的方式學習潛在動作。
也就是說,Genie 的訓練使用了大量公開的互聯網視頻數據集,而沒有使用任何動作标簽數據。
視頻分詞器的作用則是把原始視頻幀轉換爲離散 token。
三組件之中的第三樣,潛在動态模型,作用是給定潛在動作和過去幀的 token,用來預測視頻的下一幀。
論文介紹,在訓練過程中,使用超 200000 小時的互聯網遊戲視頻,作爲其訓練數據。
這些數據集經過篩選,且包含了 2D 平台遊戲的視頻片段。
最終,其推理過程如下:
值得引起注意的是,Genie 允許用戶通過潛在動作在生成的環境中進行交互。
這些動作是通過一個因果動作模型學習得到的,這個模型允許用戶通過指定潛在動作來控制視頻的生成過程。
用戶通過潛在動作與生成的環境進行交互,從而創造出新的、動态的視頻内容。
這也是谷歌認爲 Genie 是實現通用 Agent 的基石之作的原因之一。
此前研究表明,遊戲環境可以成爲開發 AI Agent 的有效測試平台,但實際情況中常常受到可用遊戲數量的限制。
借助 Genie,未來的 AI Agent 可以在新生成的世界中,進行永無休止的訓練。
多說一句,論文中進行了一個概念證明,即 "Genie 學到的潛在動作可以轉移到真實的人類環境中 ",不過,這都是未來可能發生的事情了。
谷歌還明确表達了自己的态度:Genie 是一種通用方法。
也就是說,雖然 Genie 的訓練數據多是 2D 的遊戲視頻 or 機器人視頻,但不需要任何額外的領域知識,Genie 就可以在多個領域中應用。
爲了驗證這個觀點,谷歌在 RT1 的無動作視頻上訓練了一個較小的模型,隻有 2.5B。
結果發現,具有相同潛在動作序列的軌迹通常會表現出相似的行爲,也就是說,Genie 能夠學習一緻的動作空間。
這對訓練機器人甚至具身智能來說,都是大大的利好消息。
最後來看一眼 Genie 的研究團隊~
團隊人員不老少,共同一作就有六位,分别是 Jake Bruce,Michael Dennis,Ashley Edwards,Jack Parker-Holder,Yuge( Jimmy) Shi,以及 Tim Rockt ä schel。
Yuge(Jimmy)Shi是華人,本科畢業于澳大利亞國立大學,2023 年在牛津大學拿下機器學習博士學位。
她在 2023 年 3 月加入谷歌 DeepMind,此前還在 Meta AI 實習過。
此外,研究團隊不少人都是谷歌 DeepMind 的開放性團隊(Open-Endedness Team)成員。
研究團隊中,有位不列颠哥倫比亞大學的計算機科學副教授,他同時是谷歌 DeeoMind 的高級研究顧問。
他在推特上敲了敲小黑闆,稱:
咳咳,注意了,現在看到的 Genie 是最糟糕的情況!
相信用不了多久它就會變完美。
參考鏈接:
[ 1 ] https://sites.google.com/view/genie-2024/home
[ 2 ] https://arxiv.org/pdf/2402.15391.pdf
— 聯系作者 —