隻需幾分鍾、一張圖或一句話,就能完成時空一緻的 4D 内容生成。
注意看,這些生成的 3D 物體,是帶有動作變化的那種。也就是在 3D 物體的基礎之上,增加了時間維度的運動變化。
這一成果,名爲Diffusion4D,來自多倫多大學、北京交通大學、德克薩斯大學奧斯汀分校和劍橋大學團隊。
具體而言,Diffusion4D 整理篩選了約 81K 個 4D assets,利用 8 卡 GPU 共 16 線程,花費超 30 天渲染得到了約 400 萬張圖片,包括靜态 3D 物體環拍、動态 3D 物體環拍,以及動态 3D 物體前景視頻。
作者表示,該方法是首個利用大規模數據集,訓練視頻生成模型生成 4D 内容的框架,目前項目已經開源所有渲染的 4D 數據集以及渲染腳本。
研究背景
過去的方法采用了 2D、3D 預訓練模型在 4D(動态 3D)内容生成上取得了一定的突破,但這些方法主要依賴于分數蒸餾采樣(SDS)或者生成的僞标簽進行優化,同時利用多個預訓練模型獲得監督不可避免的導緻時空上的不一緻性以及優化速度慢的問題。
4D 内容生成的一緻性包含了時間上和空間上的一緻性,它們分别在視頻生成模型和多視圖生成模型中被探索過。基于這個洞見,Diffusion4D 将時空的一緻性嵌入在一個模型中,并且一次性獲得多時間戳的跨視角監督。
具體來說,使用仔細收集篩選的高質量 4D 數據集,Diffusion4D 訓練了一個可以生成動态 3D 物體環拍視圖的擴散模型,而後利用已有的 4DGS 算法得到顯性的 4D 表征,該方法實現了基于文本、單張圖像、3D 到 4D 内容的生成。
△Text-to-4D4D 數據集
爲了訓練 4D 視頻擴散模型,Diffusion4D 收集篩選了高質量的 4D 數據集。
已開源的 Objaverse-1.0 包含了 42K 運動的 3D 物體,在 Objaverse-xl 中包含 323K 動态 3D 物體。然而這些數據包含着大量低質量的樣本。對此,研究者們設計了運動程度檢測、邊界溢出檢查等篩選方法,選取了共81K 的高質量 4D 資産。
對于每一個 4D 資産,渲染得到了 24 個靜态視角的圖(上圖第一行),24 個動态視角的環拍圖(上圖第二行),以及 24 個正面動态圖(上圖第三行)。總計得到了超過四百萬張圖片,總渲染消耗約300 GPU 天。
其他數據集細節可以參考項目主頁(文末附上),目前所有渲染完的數據集和原始渲染腳本已開源。
方法
有了 4D 數據集之後,Diffusion4D 訓練具有 4D 感知的視頻擴散模型(4D-aware video diffusion model)。
過去的視頻生成模型通常不具備 3D 幾何先驗信息,但近期工作如 SV3D,VideoMV 等探索了利用視頻生成模型得到靜态 3D 物體的多視圖,因此 Diffusion4D 選用了 VideoMV 作爲基礎模型進行微調訓練,使得模型能夠輸出動态環拍視頻。此外設計了如運動強度(motion magnitude)控制模塊、3D-aware classifier-free guidance 等模塊增強運動程度和幾何質量。得益于視頻模态具備更強的連貫性優勢,輸出的結果具有很強的時空一緻性。
輸出得到動态視角環拍視頻後,Diffusion4D 借助已有的 4D 重建算法将視頻建模得到 4D 表達。具體來說采用了 4DGS 的表征形式,以及使用粗粒度、細粒度的兩階段優化策略得到最終的 4D 内容。從生産環拍視頻到重建 4D 内容的兩個步驟僅需花費數分鍾時間,顯著快于過去需要數小時的借助 SDS 的優化式方法。
結果
根據提示信息的模态,Diffusion4D 可以實現從文本、圖像、3D 到 4D 内容的生成,在定量指标和 user study 上顯著優于過往方法。
在生成質量上,Diffusion4D 有着更好的細節,更爲合理的幾何信息以及更豐富的動作。更多可視化結果可以參考項目主頁。
總結
Diffusion4D 是首個利用視頻生成模型來實現 4D 内容生成的框架,通過使用超 81K 的數據集、以及精心設計的模型架構實現了快速且高質量的 4D 内容。未來,如何最大程度發揮 4D 數據集價值,如何生成多物體、複雜場景的 4D 内容仍有很大的探索空間!
項目地址:
https://vita-group.github.io/Diffusion4D/
論文地址:
https://arxiv.org/abs/2405.16645
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~