近日,著名 AI 學者、斯坦福大學教授李飛飛團隊 WorldLabs 推出首個「空間智能」模型,僅輸入單張圖片,即可生成一個逼真的 3D 世界,這被認爲是邁向空間智能的第一步。
幾乎同時,國内智源研究院推出了首個利用大規模無标注的互聯網視頻學習的 3D 生成模型See3D— See Video, Get 3D。
△See3D 支持從文本、單視圖和稀疏視圖到 3D 的生成,同時還可支持 3D 編輯與高斯渲染
不同于傳統依賴相機參數(pose-condition)的 3D 生成模型,See3D 采用全新的視覺條件(visual-condition)技術,僅依賴視頻中的視覺線索,生成相機方向可控且幾何一緻的多視角圖像。
這一方法不依賴于昂貴的 3D 或相機标注,能夠高效地從多樣化、易獲取的互聯網視頻中學習 3D 先驗。
See3D 不僅支持零樣本和開放世界的 3D 生成,還無需微調即可執行 3D 編輯、表面重建等任務,展現出在多種 3D 創作應用中的廣泛适用性。
相關的模型、代碼、Demo 均已開源,更多技術細節請參考 See3D 論文。
論文地址 :
https://arxiv.org/abs/2412.06699
項目地址 :
https://vision.baai.ac.cn/see3d
效果展示
1. 解鎖 3D 互動世界:輸入圖片,生成沉浸式可交互 3D 場景,實時探索真實空間結構。
(備注:爲了實現實時交互式渲染,當前對 3D 模型和渲染過程進行了簡化,離線渲染真實效果更佳。)
△實時 3D 交互
2. 基于稀疏圖片的 3D 重建:輸入稀疏的 ( 3-6 張 ) 圖片,模型可生成一個精細化的 3D 場景。
△基于 6 張視圖的 3D 重建
△基于 3 張視圖的 3D 重建
3. 開放世界 3D 生成:根據文本提示,生成一副藝術化的圖片,基于此圖片,模型可生成一個虛拟化的 3D 場景。
△開放世界 3D 生成樣例
4. 基于單視圖的 3D 生成:輸入一張真實場景圖片,模型可生成一個逼真的 3D 場景。
△基于單張圖片的 3D 生成研究動機
3D 數據具有完整的幾何結構和相機信息,能夠提供豐富的多視角信息,是訓練 3D 模型最直接的選擇。然而,現有方法通常依賴人工設計(designed artists)、立體匹配(stereo matching)或運動恢複結構(Structure from Motion, SfM)等技術來收集這些數據。
盡管經過多年發展,當前 3D 數據的積累規模依然有限,例如 DLV3D ( 0.01M ) 、RealEstate10K ( 0.08M ) 、MVImgNet ( 0.22M ) 和 Objaverse ( 0.8M ) 。這些數據的采集過程不僅耗時且成本高昂,還可能難以實施,導緻其數據規模難以擴展,無法滿足大規模應用的需求。
與此不同,人類視覺系統無需依賴特定的 3D 表征,僅通過連續多視角的觀察即可建立對 3D 世界的理解。單幀圖像難以實現這一點,而視頻因其天然包含多視角關聯性和相機運動信息,具備揭示 3D 結構的潛力。
更重要的是,視頻來源廣泛且易于獲取,具有高度的可擴展性。基于此,See3D 提出 "SeeVideo,Get3D" 的理念,旨在通過視頻中的多視圖信息,讓模型像人類一樣,學習并推理物理世界的三維結構,而非直接建模其幾何形态。
方法介紹
爲了實現可擴展的 3D 生成,See3D 提供了一套系統化的解決方案,具體包括:
1)數據集:團隊提出了一個視頻數據篩選流程,自動去除源視頻中多視角不一緻或觀察視角不充分的視頻,構建了一個高質量、多樣化的大規模多視角圖像數據集 WebVi3D。該數據集涵蓋來自 1600 萬個視頻片段的 3.2 億幀圖像,可通過自動化流程随互聯網視頻量的增長而不斷擴充。
△WebVi3D 數據集樣本展示
2)模型:标注大規模視頻數據的相機信息成本極高,且在缺乏顯式 3D 幾何或相機标注的情況下,從視頻中學習通用 3D 先驗是更具挑戰的任務。爲解決這一問題,See3D 引入了一種新的視覺條件——通過向掩碼視頻數據添加時間依賴噪聲,生成一種純粹的 2D 歸納視覺信号。這一視覺信号支持可擴展的多視圖擴散模型(MVD)訓練,避免對相機條件的依賴,實現了 " 僅通過視覺獲得 3D" 的目标,繞過了昂貴的 3D 标注。
△See3D 方法展示
3)3D 生成框架:See3D 學到的 3D 先驗能夠使一系列 3D 創作應用成爲可能,包括基于單視圖的 3D 生成、稀疏視圖重建以及開放世界場景中的 3D 編輯等,支持在物體級與場景級複雜相機軌迹下的長序列視圖的生成。
△基于 See3D 的多視圖生成
優勢
a ) 數據擴展性:模型的訓練數據源自海量互聯網視頻,相較于傳統 3D 數據集,構建的多視圖數據集 ( 16M ) 在規模上實現了數量級的提升。随着互聯網的持續發展,該數據集可持續擴充,進一步增強模型能力的覆蓋範圍。
b ) 相機可控性:模型可支持在任意複雜的相機軌迹下的場景生成,既可以實現場景級别的漫遊,也能聚焦于場景内特定的物體細節,提供靈活多樣的視角操控能力。
c ) 幾何一緻性:模型可支持長序列新視角的生成,保持前後幀視圖的幾何一緻性,并遵循真實三維幾何的物理規則。即使視角軌迹發生變化,返回時場景依然保持高逼真和一緻性。
總結
通過擴大數據集規模,See3D 爲突破 3D 生成的技術瓶頸提供了新的思路,所學習到的 3D 先驗爲一系列 3D 創作應用提供了支持。希望這項工作能夠引發 3D 研究社區對大規模無相機标注數據的關注,避免高昂的 3D 數據采集成本,同時縮小與現有強大閉源 3D 解決方案之間的差距。
* 本文系量子位獲授權刊載,觀點僅爲作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和産品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>