今天淩晨,AI 教母李飛飛創立的 World Labs 推出第一個重磅成果:世界模型,一張單個圖像便可生成 3D 世界。
此消息一出,業界炸開了鍋。李飛飛也第一時間在 X 上宣傳:
在大家還在 2D 視頻生成賽道卷生卷死的時候,World Labs 已經進入 Next Level,AI 生成 3D 世界。
據 World Labs 官方介紹,目前大多數 GenAI 工具都制作圖像或視頻等 2D 内容,存在缺乏控制和一緻性的問題,而 3D 生成則可以提高控制和一緻性,其模型可以預測 3D 幾何圖形,填充場景中看不到的部分。這将改變我們制作電影、遊戲、模拟器和物理世界的其他數字表現形式的方式。
一、一張圖生成一個世界
輸入任意一張圖,World Labs 還你一個世界。
比如,丢給 World Labs 一張左邊的圖片,它能給你一個這樣的 3D 世界:
你可以通過 WASD 建控制 3D 世界得上下左右視角,還可以拖動鼠标逛這個世界的每一個角落。
同時,官方也給了很多玩法。
相機效果
生成場景後,我們可以使用虛拟攝像機進行實時渲染。通過精确控制虛拟攝像機的各項參數,可以實現各種藝術攝影效果。
例如,我們可以模拟淺景深效果,使得隻有距離攝像機一定距離的物體才清晰對焦,從而突出主體并增強畫面的層次感。
此外,還可以模拟推移變焦效果,即同時調整攝像機的位置和視野,創造出獨特的視覺沖擊力和動态感。
3D 效果
World Labs 官方介紹,大多數生成模型是預測像素。而生成 3D 場景則不僅限于像素層面的表現,其優勢更多地體現在:
持久的現實:一旦生成了一個世界,它就會一直存在。如果你把視線移開并回來,場景不會在你的背後改變。
實時控制:生成場景後,可以實時移動場景。可以徜徉于花朵的細節,或者偷看角落看看揭示了什麽。
符合物理規則:生成的世界遵循現實世界的基本物理規則。它們具有堅實感和深度感,與某些 AI 生成的視頻的夢幻般的性質形成鮮明對比。
World Labs 生成的 3D 場景通過深度貼圖技術,使得其中每個像素都按其與相機的距離着色,更具空間感。
不僅如此,World Labs 還可以添加各種動效,比如聲效、燈光等,構建 3D 場景的交互式效果,瞬間進入 " 真賽博空間 "。
在大家還在 2D 視頻生成賽道卷生卷死的時候,World Labs 已經進入 Next Level,AI 生成 3D 世界。
據 World Labs 官方介紹,目前大多數 GenAI 工具都制作圖像或視頻等 2D 内容,存在缺乏控制和一緻性的問題,而 3D 生成則可以提高控制和一緻性,其模型可以預測 3D 幾何圖形,填充場景中看不到的部分。這将改變我們制作電影、遊戲、模拟器和物理世界的其他數字表現形式的方式。
一、一張圖生成一個世界
輸入任意一張圖,World Labs 還你一個世界。
比如,丢給 World Labs 一張左邊的圖片,它能給你一個這樣的 3D 世界:
你可以通過 WASD 建控制 3D 世界得上下左右視角,還可以拖動鼠标逛這個世界的每一個角落。
同時,官方也給了很多玩法。
相機效果
生成場景後,我們可以使用虛拟攝像機進行實時渲染。通過精确控制虛拟攝像機的各項參數,可以實現各種藝術攝影效果。
例如,我們可以模拟淺景深效果,使得隻有距離攝像機一定距離的物體才清晰對焦,從而突出主體并增強畫面的層次感。
此外,還可以模拟推移變焦效果,即同時調整攝像機的位置和視野,創造出獨特的視覺沖擊力和動态感。
3D 效果
World Labs 官方介紹,大多數生成模型是預測像素。而生成 3D 場景則不僅限于像素層面的表現,其優勢更多地體現在:
持久的現實:一旦生成了一個世界,它就會一直存在。如果你把視線移開并回來,場景不會在你的背後改變。
實時控制:生成場景後,可以實時移動場景。可以徜徉于花朵的細節,或者偷看角落看看揭示了什麽。
符合物理規則:生成的世界遵循現實世界的基本物理規則。它們具有堅實感和深度感,與某些 AI 生成的視頻的夢幻般的性質形成鮮明對比。
World Labs 生成的 3D 場景通過深度貼圖技術,使得其中每個像素都按其與相機的距離着色,更具空間感。
不僅如此,World Labs 還可以添加各種動效,比如聲效、燈光等,構建 3D 場景的交互式效果,瞬間進入 " 真賽博空間 "。
走進繪畫世界
World Labs 團隊還展示了他們從梵高、霍珀、修拉和康定斯基等作品中生成了世界。
創意工作流程
除了以上玩法外,3D 生成還可以與其他 AI 工具組合,比如 Midjourney、Runway、Suno 等,這将極大地改變創作者的工作流程。
例如,可以先使用文生圖模型生成圖像,不同的模型生成的圖像風格不盡相同,而 World Labs 可以繼承這些風格。
比如我們輸入相同的 Prompt,可以得到不同風格得 3D 世界:
一間充滿活力的卡通風格青少年卧室,床上鋪着五顔六色的毯子,雜亂的書桌上放着一台電腦,牆上貼着海報,運動裝備散落。一把吉他靠在牆上,中間是一塊舒适的圖案地毯。窗外的光線爲房間增添了溫暖、年輕的氛圍。
二、3 個月估值 10 億,空間智能時代才剛剛開始
今年 4 月,被稱爲 "AI 教母 " 的斯坦福大學教授李飛飛,帶隊成立 World Labs(空間智能)。這是她 2018 年從谷歌離職重返斯坦福後,第一次直接下場參與的創業項目。
World Labs 是一家專注于打造世界模型進行 3D 世界的感知、生成和互動的 AI 初創公司。
在短短 3 個月的時間裏,World Labs 就進行了兩輪融資,融資總額超過 2.3 億美元,估值突破 10 億美元,投資方包括矽谷知名風投 a16z 和 AI 基金 Radical Ventures。
李飛飛認爲,未來 AI 的核心在于 " 空間智能 ",即讓 AI 具備感知、推理并與 3D 世界交互的能力,這是實現更高級 AI 應用的關鍵。
在她看來,視覺在人類理解和與世界互動中占據核心位置,AI 發展應優先提升視覺能力,超越語言模型的局限,讓 AI 從 " 大語言模型 " 過渡到 " 大世界模型 ",以應對更複雜的 3D 環境感知和交互需求。
也因此,她希望通過 World Labs 推動這一領域的發展,實現更高層次的空間智能。
World Labs 堪稱超級明星團隊,除了李飛飛外,還有李飛飛徒弟,在實時風格轉換和超分辨率領域有突出貢獻的賈斯汀 · 約翰遜、神經輻射場(NeRF)提出者本 · 米爾登霍爾以及 3D 重建專家克裏斯托夫 · 拉斯納。
盡管 World Labs 在技術研發和團隊配置上具有領先優勢,此次發布的最新成果也驚豔衆人,但面臨的挑戰也不少。
首先,從技術角度來看,構建一個具有高精度的 3D 世界理解和生成模型需要大量的數據和計算資源,同時還需要解決實時交互的技術難題。
在 3D 生成賽道,并不是一片藍海,除了 World Labs 外,英偉達、Meta 等多家公司也在積極布局物理 AI 與 3D 世界的相關技術,市場競争激烈。
再有,在商業化路徑上,盡管 LWM 的潛力巨大,但如何找到合适的商業模式,尤其是平衡研發投入與市場回報,是創業公司面臨的共同難題。
如果找不到盈利模式,能活下去的概率很小,畢竟已經不少 AI 領域的明星初創公司賣身大廠了。
不過,不得不承認的是,在潮水的變化面前,空間智能,一切才剛剛開始。