單目深度估計新成果來了!
方法名爲Metric3D v2,是 CVPR 單目深度估計挑戰賽冠軍方案 Metric3D 的加強版。
用一套模型參數,在未知環境中,同時解決帶尺度深度估計和法向估計兩個問題。
可用于生成真實世界的幾何估計:
在密集場景和特殊樣本上也有較好效果:
無需微調和優化,可直接用于無人機感知:
無需調整尺度參數,提供單幀 3D 點雲,其精度可以直接用于 3D 重建:
可部分替代物理深度估計工具,用于增強自動駕駛場景的單目 SLAM:
Metric3D v2 在 16 個單目深度和法向估計基準榜單上拿下 SOTA,涵蓋絕對深度、相對深度和法向估計的域内和域外測試。
不做尺度對齊或微調,在 KITTI 上的單目深度估計相對誤差可低至 5%。
這項工作由來自香港科技大學、阿德萊德大學、西湖大學、英特爾、香港大學、浙江大學的研究人員共同打造,目前已被 AI 頂刊 TPAMI 接收。
單目深度估計受限于尺度二義性
單目深度估計技術在計算機視覺領域具有重要意義。這項技術能從單幅 2D 圖像中推斷出場景的 3D 結構,爲衆多應用提供了關鍵支持。
在傳統領域,單目深度估計廣泛應用于自動駕駛、機器人導航、增強現實等場景,幫助智能系統更好地理解和交互環境。
随着 AIGC 的興起,單目深度估計在這一新興領域也發揮着重要作用。它爲 3D 場景生成、虛拟現實内容制作、圖像編輯等任務提供了深度信息,大大提升了生成内容的真實感和沉浸感。
通過賦予 AI 系統對 3D 世界的理解能力,單目深度估計正在推動 AIGC 應用向更高維度發展。
但單目深度估計一直是一個 " 病态 " 問題,根本原因在于其受到尺度二義性的影響。
對單張圖像而言,尺度二義性來自于兩個方面:
其一是物體大小未知産生的二義性:
爲解決這類問題,早期可泛化的深度估計模型如 midas、leras 等使用混合數據集訓練深度估計網絡,希望模型從大量數據集中學到各個物體在場景中的大小。
然而,不同數據集相機内參有很大差異,這種差異會引起第二種尺度二義性(有時又可視作透視畸變):
同一個物體,使用不同相機在不同距離拍攝出的圖像也大緻可能相同(下圖雕塑完全一緻,但背景産生了畸變),因而對該物體的深度估計會受到影響 .
早期的 midas、leras 等工作,提出估計相對深度來規避相機差異帶來的尺度二義性。
近期基于 stable-diffusion 的工作如 Marigold/Geowizard 或基于數據标注的工作 DepthAnything v1/v2 能夠恢複更高精細度的相對深度,卻無法恢複尺度信息。
爲恢複尺度信息,前人提出将預訓練好的相對深度模型,在特定數據集上過拟合以學習尺度信息,如 ZoeDepth。然而,該方法使得網絡學到的深度分布受限于所 finetune 的數據集,因而尺度誤差較大。
爲緩解相機内參變化引起的尺度二義性,Metric3D 提出在公共相機空間中學習絕對深度。該空間被定義爲一個焦距固定的針孔相機模型空間。
由于網絡不再受相機尺度二義性的影響,學習難度被大大降低了。
在符合透視投影幾何的前提下,論文提出兩種将數據從真實焦距轉換到公共焦距的方法。
圖像變換法(CSTM_image):通過縮放圖像改變焦距的方法。
标簽變換法(CSTM_label): 拉伸或壓縮整個場景 z 軸深度的方法。
憑借公共相機空間的設計,Metric3D僅僅依靠卷積模型就在 CVPR 單目深度估計挑戰賽上獲得冠軍。
△算法框架:無須微調的有尺度深度估計;無須大量額外人工稠密重建的法向學習。單目法向估計受限于數據質量
深度圖可以直接由 RGB-D 相機,激光雷達等測距傳感器獲得。
然而,法向圖真值需要稠密重建點雲的渲染,稠密重建本身需要大量工程和人工成本(如 Omnidata)。同時,室外場景的法向數據尤其難以獲得。
在 Metric3D v2 這項研究中,引入了一種聯合深度 - 法線優化框架,利用大規模深度标注的知識,克服戶外法線數據标簽稀缺的問題。
在聯合優化中,法向的知識來源有三:真實法向标注、叠代優化中深度和法向特征的前向交互 、稠密深度預測提供的僞法向标注
具體來說算法流程爲:
真實世界 -> 公共空間:将圖像和深度标簽從真實世界轉換到公共空間,使得圖像和深度圖滿足公共空間焦距的透視投影關系。
公共空間中估計幾何:網絡在公共空間預測初始深度圖和法向圖,并通過 raft 風格的叠代優化輸出最終深度圖和法向圖。訓練過程中,使用公共空間的深度圖真值監督深度估計。
公共空間 -> 真實世界:将估計的深度圖轉回到真實世界,使之滿足實際投影關系。訓練時,當法向标注不可得時,使用預測出的深度圖求梯度得到僞法向真值,以提供弱監督。
爲增強模型魯棒性,Metric3D v2 在 16 個公開數據集共計 16M 張圖像上進行訓練。這些數據集由超過 10000 種相機内參采集,涵蓋室内、室外、自動駕駛等多種場景。
然而,其所需的數據量仍遠遠小于訓練 DepthAnything v1/v2 所需的 62M。
Metric3D v2 實驗結果
常規有尺度深度和法相估計的基準測試,Metric3D v2 超越 DepthAnything 和 OmniData(v2):
相對深度估計基準測試,量化指标優于最近在 CVPR2024 大放異彩的 Marigold:
再來看定量比較。
1、多場景深度與法向估計
盡管 Metric3D v2 是判别式模型,但在一些場景下,其細粒度也可以和基于生成模型的 Marigold 平分秋色。
同時,由網絡預測出的法向圖比深度直接轉換所得的更加平滑。
對比其它基線方法 ZoeDepth 和 OmniData(v2),Metric3D v2 能給出更高細粒度的帶尺度深度和法向。
2、單目場景三維重建
即使像 Marigold、DepthAnything v2 這樣的高精度相對深度模型,也需要在特定數據上拟合、或手動挑選出一組合适的仿射參數後,才能得到三維點雲。
3、單幀直接測距
Metric3Dv2 模型具有更高精度的測距功能:
總的來說,Metric3D v2 是一種用于零樣本單目有尺度深度和表面法線估計的幾何基礎模型。
論文針對真實尺度下幾何估計中的各種挑戰,分别提出了解決方案。Metric3Dv2 框架整合超過 10000 台相機捕捉的上千萬數據樣本,訓練一個統一的有尺度深度和表面法向模型。
零樣本評估實驗展示了方法的有效性和魯棒性。對于下遊應用,Metric3Dv2 能夠從單一視角重建有尺度的三維結構,實現對随機采集的互聯網圖像的測距和單幀稠密建圖。
憑借其精度、泛化能力和多功能性,Metric3D v2 模型可作爲單目幾何感知的基礎模型。
在線試用 :
https://huggingface.co/spaces/JUGGHM/Metric3D
論文鏈接:https://arxiv.org/abs/2404.15506.pdf
項目主頁:https://jugghm.github.io/Metric3Dv2
代碼倉庫:https://github.com/YvanYin/Metric3D
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>