就在剛剛,李飛飛空間智能首個項目突然發布:
僅憑借 1 張圖,就能生成一個 3D 遊戲世界的 AI 系統!
重點在于,生成的 3D 世界具有交互性。
能夠像玩遊戲那樣,自由地移動相機來探索這個 3D 世界,淺景深、希區柯克變焦等操作均可行。
随便輸入一張圖:
除了這張圖本體,可探索的 3D 世界裏,所有東西都是 AI 生成的:
這些場景在浏覽器中實時渲染,配備了可控的攝像機效果和可調節的模拟景深(DoF)。
你甚至可以改變其中物體顔色,動态調整背景光影,在場景中插入其他對象。
此外,之前大多數生成模型預測的是像素,而這個 AI 系統直接預測 3D 場景。
所以場景在你移開視線再回來時不會發生變化,并且遵循基本的 3D 幾何物理規則。
網友們直接炸開鍋,評論區 " 難以置信 " 一詞直接刷屏。
其中不乏 Shopify 創始人 Tobi Lutke 等知名人士點贊:
還有不少網友認爲這直接爲 VR 打開了新世界。
官方則表示 " 這僅僅是 3D 原生生成 AI 未來的一個縮影 ":
我們正在努力盡快将這項技術交到用戶手中!
李飛飛本人也第一時間分享了這項成果并表示:
無論怎麽理論化這個想法,用語言很難描述通過一張照片或一句話生成的 3D 場景互動的體驗,希望大家喜歡。
目前候補名單申請已開啓,有内容創作者已經用上了。
羨慕的口水不争氣地從眼角落了下來。
Beyond the input image 官方博文表示,今天,World labs 邁出了通往空間智能的第一步:
發布一個從單張圖片生成 3D 世界的 AI 系統。
Beyond the input image, all is generated。
而且是輸入任何圖片。
而且是能夠互動的 3D 世界——用戶可以通過 W/A/S/D 鍵來控制上下左右視角,或者用鼠标拖動畫面來逛這個生成的世界。
官網博文中放了很多個可以試玩的 demo。
這次真的推薦大家都去試玩一下,上手體驗和看視頻 or 動圖的感受非常的不一樣。
(直通車按慣例,放在文末)
好,問題來了,這個 AI 系統生成的 3D 世界還有什麽值得探究的細節之處?
攝影機效果
World Labs 表示,一旦生成,這個 3D 世界就會在浏覽器中實時渲染,給人的感覺跟在看一個虛拟攝像頭似的。
而且,用戶能夠精準地控制這個攝像頭。
所謂 " 精準控制 ",有 2 種玩法,
一是能夠模拟景深效果,也就是隻能清晰對焦距離相機一定距離的物體。
二是能模拟滑動變焦(Dolly Zoom),也就是電影拍攝技巧中非常經典的希區柯克變焦。
它的特點是 " 鏡頭中的主體大小不變,而背景大小改變 "。
很多驢友去西藏、新疆玩兒的時候都希望用希區柯克變焦拍視頻,有很強的視覺沖擊力。
在 World Labs 展示中,效果如下(不過在這個玩法裏,沒辦法控制視角):
3D 效果
World Labs 表示,大多數生成模型預測的都是像素,與它們不同,咱這個 AI 預測的是 3D 場景。
官方博文羅列了三點好處:
第一,持久現實。
一旦生成一個世界,它就會一直存在。
不會因爲你看向别的視角,再看回來,原視角的場景就會改變了。
第二,實時控制。
生成場景後,用戶可以通過鍵盤或鼠标控制,實時在這個 3D 世界暢遊移動。
你甚至可以仔細觀察一朵花的細節,或者在某個地方暗中觀察,用上帝視角注意這個世界的一舉一動。
第三,遵循正确的幾何規則。
這個 AI 系統生成的世界,是遵守 3D 集合物理基本規則的。
某些 AI 生成的視頻,雖然效果很夢核,但可沒有咱的這種深度的真實感喲(doge)。
官方博文中還寫道,創造一個可視化 3D 場景,最簡單的辦法是繪制深度圖。
圖中每個像素的顔色,都是由它和攝像頭的距離來決定的。
當然了,用戶可以使用 3D 場景結構來構建互動效果——
單擊就能與場景互了,包括但不限于突然給場景打個聚光燈。
動畫效果?
那也是 so easy 啦。
走進繪畫世界
團隊還玩兒了一把,以 " 全新的方式 " 體驗一些經典的藝術作品。
全新,不僅在于可互動的交互方式,還在于就靠輸入進去的那一張圖,就能補全原畫裏沒有的部分。
然後變成 3D 世界。
這是梵高的《夜晚露天咖啡座》:
這是愛德華 · 霍普的《夜行者》:
創造性的工作流
團隊表示,3D 世界生成可以非常自然地和其它 AI 工具相結合。
這讓創作者們可以用他們已經用順手的工具感受新的工作流體驗。
舉個栗子:
可以先用文生圖模型,從文本世界來到圖像世界。
因爲不同模型有各自擅長的風格特點,3D 世界可以把這些風格遷徙、繼承過來。
在同一 prompt 下,輸入不同風格的文生圖模型生成的圖片,可以誕生不同的 3D 世界:
一個充滿活力的卡通風格青少年卧室,床上鋪着五彩斑斓的毯子,桌子上雜亂地擺放着電腦,牆上挂着海報,散落着運動器材。一把吉他靠在牆上,中間鋪着一塊舒适的花紋地毯。窗戶透進的光線給房間增添了一絲溫暖和青春的氣息。
World Labs 和空間智能
"World Labs" 公司,由斯坦福大學教授、AI 教母李飛飛在今年 4 月創立。
這也是她被曝出的首次創業。
而她的創業方向是一個新概念——空間智能,即:
視覺化爲洞察;看見成爲理解;理解導緻行動。
在李飛飛看來,這是 " 解決人工智能難題的關鍵拼圖 "。
隻用了 3 個月時間,公司就突破了 10 億美元估值,成爲新晉獨角獸。
公開資料顯示,a16z、NEA 和 Radical Ventures 是領投方,Adobe、AMD、Databricks,以及老黃的英偉達也都在投資者之列。
個人投資者中也不乏大佬:Karpathy、Jeff Dean、Hinton ……
今年 5 月,李飛飛有一場公開的 15 分鍾 TED 演講。
她洋洋灑灑,分享了對于空間智能的更多思考,要點包括:
視覺能力被認爲引發了寒武紀大爆發——一個動物物種大量進入化石記錄的時期。最初是被動體驗,簡單讓光線進入的定位,很快變得更加主動,神經系統開始進化……這些變化催生了智能。
多年來,我一直在說拍照和理解不是一回事。今天,我想再補充一點:僅僅看是不夠的。看,是爲了行動和學習。
如果我們想讓 AI 超越當前能力,我們不僅想要能夠看到和說話的 AI,我們還想要能夠行動的 AI。空間智能的最新裏程碑是,教計算機看到、學習、行動,并學習看到和行動得更好。
随着空間智能的加速進步,一個新時代在這個良性循環中正在我們眼前展開。這種循環正在催化機器人學習,這是任何需要理解和與 3D 世界互動的具身智能系統的關鍵組成部分。
據報道,該公司的目标客戶包括視頻遊戲開發商和電影制片廠。除了互動場景之外,World Labs 還計劃開發一些對藝術家、設計師、開發人員、電影制作人和工程師等專業人士有用的工具。
如今伴随着空間智能首個項目的發布,他們要做的事也逐漸具象化了起來。
但 World Labs 表示,目前發布的隻是一個 " 早期預覽 ":
我們正在努力改進我們生成的世界的規模和逼真度,并嘗試新的方式讓用戶與之互動。
參考鏈接:
[ 1 ] https://www.worldlabs.ai/blog
[ 2 ] https://mp.weixin.qq.com/s/3MWUv3Qs7l-Eg9A9_3SnOA?token=965382502&lang=zh_CN
[ 3 ] https://x.com/theworldlabs/status/1863617989549109328