隻要極少量的标注樣本,就能讓模型精準分割 3D 場景?
來自哥本哈根大學、蘇黎世聯邦理工學院等機構的研究人員,提出了一個全新的多模态 Few-shot 3D 分割設定和創新方法。
無需額外标注成本,該方法就可以融合文本、2D 和 3D 信息,讓模型迅速掌握新類别。

△3D Few-shot 分割結果示例
人形機器人、VR/AR,以及自動駕駛汽車,都依賴于對 3D 場景的精确理解。
然而,這種精準的 3D 理解往往需要大量詳細标注的 3D 數據,極大推高了時間成本和資源消耗。
Few-shot 學習是一種有效的解決思路,但當前研究都局限于單模态點雲數據,忽略了多模态信息的潛在價值。
對此,這項新研究填補了這一空白,文章已被 ICLR 2025 接收爲 Spotlight 論文。

整合多模态信息,理解 3D 場景
3D 場景理解在具身智能、VR/AR 等領域至關重要,幫助設備準确感知和解讀三維世界。
然而,傳統全監督模型雖在特定類别上表現出色,但其能力局限于預定義類别。
每當需要識别新類别時,必須重新收集并标注大量 3D 數據以及重新訓練模型,這一過程既耗時又昂貴,極大地制約了模型的應用廣度。
3D Few-shot 學習旨在利用極少量的示例樣本以适應模型來有效的識别任意的全新類别,大大降低了新類适應的開銷,使得傳統的 3D 場景理解模型不再局限于訓練集中有限的類别标簽,對廣泛的應用場景有重要的價值。
具體而言,對于 Few-shot 3D 點雲語義分割(FS-PCS)任務,模型的輸入包括少量支持樣本(包含點雲及對應新類标簽)和查詢點雲。
模型需要通過利用支持樣本獲得關于新類别的知識并應用于分割查詢點雲,預測出查詢點雲中關于新類别的标簽。
在模型訓練和測試時使用的目标類别無重合,以保證測試時使用的類均爲新類,未被模型在訓練時見過。
目前,該領域湧現出的工作都隻利用點雲單模态的輸入,忽略了利用多模态信息的潛在的益處。
對此,這篇文章提出一個全新的多模态 Few-shot 3D 分割設定,利用了文本和 2D 模态且沒有引入額外的标注開銷。
在這一設定下,他們推出了創新模型——MultiModal Few-Shot SegNet ( MM-FSS ) 。
該模型通過充分整合多模态信息,有效提升小樣本上新類别的學習與泛化能力,證明了利用普遍被忽略的多模态信息對于實現更好的小樣本新類泛化的重要性。
多模态 FS-PCS vs 傳統設定

△傳統和多模态 FS-PCS 設定對比
(爲便于讨論,以下都将 Few-shot 3D 點雲語義分割簡稱爲 FS-PCS。)
傳統的 FS-PCS 任務中,模型的輸入包含少量的支持點雲以及對應的新類别的标注(support point cloud & support mask)。
此外,輸入還包括查詢點雲(query point cloud)。模型需借助 support 樣本中關于新類别的知識,在 query 點雲中完成新類别分割。
而作者引入的多模态 FS-PCS 包括了除 3D 點雲之外的兩個額外模态——文本和 2D。
文本模态相應于支持樣本中的目标類别 / 新類的名稱。2D 模态相應于 2D 圖片,往往伴随 3D 場景采集同步獲得。
值得注意的是,2D 模态僅用于模型預訓練,不要求在 meta-learning 和測試時作爲輸入,保證了其 Few-shot 輸入形式與傳統 FS-PCS 對齊,僅需要相同的數據且無需額外标注。
引入特征分支和有效的跨模态融合
MM-FSS 在 Backbone 後引入了兩個特征提取分支:
Intermodal Feature ( IF ) Head(跨模态特征頭),學習與 2D 視覺特征對齊的 3D 點雲特征。
Unimodal Feature ( UF ) Head(單模态特征頭),提取 3D 點雲本身的特征。

△MM-FSS 模型架構
在預訓練階段,MM-FSS 先進行跨模态對齊預訓練,通過利用 3D 點雲和 2D 圖片數據對,使用 2D 視覺 - 語言模型(VLM)輸出的 2D 特征監督 IF head 輸出的 3D 特征,使得 IF Head 學習到與 2D 視覺 - 語言模型對齊的 3D 特征。
這一階段完成後,Backbone 和 IF Head 保持凍結,确保模型在 Few-shot 學習時能利用其預訓練學到的 Intermodal 特征。這樣,在 Few-shot 任務中無需額外的 2D 輸入,僅依賴 Intermodal 特征即可獲益于多模态信息。
此外,該特征也隐式對齊了 VLM 的文本特征,爲後續階段利用重要的文本引導奠定基礎。
而在 Few-shot 訓練(稱爲 meta-learning)時,給定輸入的 support 和 query 點雲,MM-FSS 分别将 IF Head 和 UF Head 輸出的兩套特征計算出對應的兩套 correlations(correlations 表示每個 query 點和目标類别 prototypes 之間的特征相似度)。
兩套 correlations 會通過 Multimodal Correlation Fusion ( MCF ) 進行融合,生成初始多模态 correlations,包含了 2D 和 3D 的視覺信息。
這個過程可以表示爲:

其中 Ci 和 Cu 分别表示用 IF Head 和 UF Head 特征算得的 correlations。C0 爲 MCF 輸出的初始多模态 correlations。
當前獲得的多模态 correlations 融合了不同的視覺信息源,但文本模态中的語義信息尚未被利用,因此設計了 Multimodal Semantic Fusion ( MSF ) 模塊,進一步利用文本模态特征作爲語義引導,提升多模态 correlations:

其中 Gq 爲文本模态的語義引導,Wq 爲文本和視覺模态間的權重(會動态變化以考慮不同模态間變化的相對重要性),Ck 爲多模态 correlations。
到測試階段,爲緩解 Few-shot 模型對于訓練類别的 training bias(易被測試場景中存在的訓練類别幹擾,影響新類分割),MM-FSS 在測試時引入 Test-time Adaptive Cross-modal Calibration ( TACC ) 。
TAAC 利用跨模态的語義引導(由 IF Head 生成)适應性地修正預測結果,實現更好的泛化。
跨模态的語義引導未經 meta-learning 訓練,有更少的 training bias。
爲了有效的執行測試時修正,作者提出基于支持樣本及其标簽估算可靠性指标,用于自動調整修正程度(當該語義引導可靠性更高時,分配更大的修正權重,否則分配更小的權重):

其中 Pq 爲模型的預測,Gq 爲跨模态語義引導,γ 爲适應性指标。
通過借助支持點雲以及可用的支持點雲标簽可以如下計算 γ 作爲修正可靠成都的估計:

實現 few-shot 任務最佳性能
實驗在兩個标準的 FS-PCS 數據集上進行,證明了 MM-FSS 在各類 few-shot 任務中都實現了最佳性能。

可視化也清楚表明了模型能夠實現更優的新類分割,展示了更強的新類泛化能力。更多詳細實驗和分析内容請參見論文。

總之,這項工作首次提出了全新的多模态 FS-PCS 設定,無額外開銷地融合文本和 2D 模态。在該設定下,作者提出首個多模态 FS-PCS 模型 MM-FSS。
MM-FSS 包含了 MCF 和 MSF 來有效的從視覺線索和語義信息雙重角度高效聚合多模态知識,增強對新類概念的全面理解。
同時,MM-FSS 也揭示了過往被普遍忽略的 " 免費 " 多模态信息對于小樣本适應的重要性,爲未來的研究提供了寶貴的新視野且開放了更多有趣的潛在方向。
可參考的方向包括性能的提升、訓練和推理效率的優化,更深入的模态信息利用等。
作者簡介
該文章的第一作者安照崇,目前在哥本哈根大學攻讀博士學位,導師爲 Serge Belongie。
他碩士畢業于蘇黎世聯邦理工學院(ETH Zurich),在碩士期間跟随導師 Luc Van Gool 進行了多個研究項目。
他的主要研究方向包括 3D/ 視頻理解、小樣本學習以及多模态學習。
文章的通訊作者是蘇黎世聯邦理工的孫國磊博士和南開大學的劉雲教授。
歡迎關注論文和代碼,了解更多細節!
論文:
https://arxiv.org/abs/2410.22489
代碼:
https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你

一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!