普通手機 " 随手 " 拍的雕像,一下就變成了精細的三維重建圖。
水杯來回動的動态場景下,細節清晰可見:
靜态場景效果也同樣 nice,狗狗突出的肋骨都被還原了出來:
對比來看其他方法,效果是醬嬸的……
這就是英偉達最新提出的方法BundleSDF。
這是一種可對未知物體的 6D 姿态追蹤和三維重建的方法。
用于從單目 RGBD 視頻序列中跟蹤未知物體的 6 自由度運動,同時進行物體的隐式神經三維重建,方法接近于實時(10Hz)。
這種方法适用于任意剛性物體,即使視覺紋理大部分确實,僅需在第一幀中分割出物體,不需要任何額外的信息,并且不對智能體與物體的交互模式做任何假設。
目前,該方法已被CVPR 2023接收。
(論文具體内容可看下方視頻介紹)
該方法的關鍵是一個神經物體場,它與姿态圖優化過程同時進行,以便将信息穩健地累積到一緻的 3D 表示中,捕捉幾何和外觀。
方法自動維護了一組動态的姿态内存幀,以便這些線程之間進行通信。
它能處理具有大幅度姿态變化、部分和完全遮擋、無紋理表面和高光反射等具有挑戰性的視頻。
作者展示了 HO3D、YCBInEOAT 和 BEHAVE 數據集上的結果,證明了我們的方法顯著優于現有方法。
野外測試
用于 iPhone 12 Pro Max 的效果:
用于 Intel RealSense 的效果:
該方法不僅适用于更具挑戰性的動态場景,還适用于此前經常被考慮的靜态場景(移動相機)。
因此實現了比專門設計用于靜态場景的那些方法更好或相當的結果(即文章開頭展示動圖)。
與 SOTA 對比
HO3D 數據集上三種最具競争力方法的定性比較。
左圖:6 自由度姿态跟蹤可視化,其中輪廓(青色)以估計的姿态渲染。
值得注意的是,如第二列所示,我們的預測姿态有時甚至會糾正 GT 的錯誤。
右圖:每種方法輸出的最終 3D 重建的正面和背面視圖。
由于手部遮擋,視頻中的某些部分永遠不可見。雖然從相同的視角渲染網格,但是 DROID-SLAM 和 BundleTrack 的顯著漂移導緻網格錯誤旋轉。
定量結果對比如下:
問題設置
給定一段單目 RGBD 輸入視頻以及僅在第一幀中目标物體的分割掩碼,該方法能持續追蹤物體的 6-DoF 姿态并重建物體的 3D 模型。
所有處理都是在線自回歸的(沒有假設未來幀可用)。
處理的物體是剛性的,但不依賴其特定豐富的紋理 - 方法适用于無紋理的物體。
此外,不需要物體的實例級 CAD 模型,也不需要物體類别的先驗知識(例如事先對同一物體類别進行預訓練)。
具體框架
首先,在連續的分割圖像之間匹配特征,以獲得粗略的姿态估計(第 3.1 節)。
其中一些帶姿态的幀被存儲在内存池中,以便稍後使用和精化(第 3.2 節)。
從内存池的子集動态創建位姿圖(第 3.3 節);在線優化與當前姿态一起聯合細化圖中的所有姿态。
然後,這些更新的姿态被存儲回内存池中。
最後,内存池中的所有帶姿态的幀用于學習神經物體場(在單獨的線程中),該場建模了物體的幾何和視覺紋理(第 3.4 節),同時調整其先前估計的姿态,使姿态跟蹤更加魯棒。
項目地址:
https://bundlesdf.github.io/