3D 模型分割現在也解放雙手了!
香港大學和字節夢幻聯動,搞出了個新方法:
不需要人工标注,隻需要一次訓練,就能讓 3D 模型理解語言并識别未标注過的類别。
比如看下面這個例子,未标注的(unannotated)黑闆和顯示器,3D 模型經過這個方法訓練之後,就能很快 " 抓準 " 目标進行劃分。
再比如,給它分别輸入 sofa、cough 這類同義詞刁難一下,也是輕松拿下。
甚至連浴室(bathroom)這類抽象分類也能搞定。
這個新方法名叫PLA (Point-Language Assocation),是一種結合點雲(目标表面特性的海量點集合)和⾃然語⾔的方法。
目前,該論文已經被 CVPR 2023 接收。
不過話說回來,不需要⼈⼯标注,隻進行⼀次訓練,同義詞抽象分類也能識别……這可是重重 buff 疊加。
要知道一般方法使用的 3D 數據和⾃然語⾔并不能夠直接從⽹上免費獲取,往往需要昂貴的⼈⼯标注,而且一般方法也⽆法根據單詞之間的語義聯系識别新類别。
那 PLA 又是如何做到的呢?一起來看~
具體原理
其實說白了,要成功實現 3D 模型劃分,最重要的一步就是讓 3D 數據也能理解⾃然語⾔。
專業點來說,就是要給3D 點雲引⼊⾃然語⾔的描述。
那怎麽引入?
鑒于目前 2D 圖像的劃分已經有比較成功的方法,研究團隊決定從 2D 圖像入手。
首先,把 3D 點雲轉換爲對應的 2D 圖像,然後作爲 2D 多模态⼤模型的輸⼊,并從中提取對于圖像的語⾔描述。
緊接着,利⽤圖⽚和點雲之間的投影關系,圖⽚的語言描述也就自然能夠關聯到3D 點雲數據了。
并且,爲了兼容不同粒度的 3D 物體,PLA 還提出了多粒度的 3D 點雲 - ⾃然語⾔關聯方法。
對于整個 3D 場景⽽⾔,PLA 将場景對應所有圖⽚提取的語⾔描述進⾏總結,并⽤這個總結後的語⾔關聯整個 3D 場景。
對于每個圖像視⻆對應的部分 3D 場景⽽⾔,PLA 直接利⽤圖像作爲橋梁來關聯對應的 3D 點雲和語⾔。
對于更加細粒度的 3D 物體⽽⾔,PLA 通過⽐較不同圖像對應點雲之間的交集和并集,以及語⾔描述部分的交集和并集,提供了⼀種更加細粒度的 3D- 語⾔關聯⽅式。
這樣一來,研究團隊就能夠得到成對的3D 點雲 - ⾃然語⾔,這一把直接解決了人工标注的問題。
PLA 用得到的 "3D 點雲 - ⾃然語⾔ " 對和已有的數據集監督來讓 3D 模型理解檢測和分割問題定義。
具體來說,就是利⽤對⽐學習來拉近每對 3D 點雲 - ⾃然語⾔在特征空間的距離,并推遠不匹配的 3D 點雲和⾃然語⾔描述。
講了這麽多原理,那 PLA 在具體分割任務中表現到底如何?
語義分割任務超越基準 65%
研究⼈員通過測試 3D 開放世界模型在未标注類别的性能作爲主要衡量标準。
先是在 ScanNet 和 S3DIS 的語義分割任務上,PLA 超過以前的基線⽅法 35%~65%。
在實例分割任務中,PLA 也有提升,對比之前的方法,PLA 提升幅度 15%~50% 不等。
研究團隊
這個項目的研究團隊來自香港大學的 CVMI Lab 和字節跳動。
CVMI Lab是香港大學的一個人工智能實驗室,實驗室 2020 年 2 月 1 日成立。
研究範圍涵蓋了計算機視覺與模式識别,機器學習 / 深度學習,圖像 / 視頻内容分析以及基于機器智能的工業大數據分析。
論⽂地址 :
https://arxiv.org/pdf/2211.16312.pdf
項⽬主⻚ :
https://github.com/CVMI-Lab/PLA