現在,随便丢給機械手一個陌生物體,它都可以像人類一樣輕松拿捏了——
除了蘋果,罐頭、樂高積木、大象玩偶、骰子,都不在話下:
這就是來自Meta FAIR團隊最新的NeuralFeels技術,通過融合觸覺和視覺,機械手可以更精确地操作未知物體,精度最高提升了 94%!
這項研究還登上了Science Robotics的封面,團隊同時也公開了包含 70 個實驗的新測試基準FeelSight。
如何讓機械手精确操作未知物體?
讓機械手拿取常見的魔方、水果等早已是基操,但如何讓機器人更好地操作未知物體一直是一個研究難題。
一個重要原因是目前的機械手訓練都太過于依靠視覺,并且僅限于操作已知的先驗物體,而現實中很多時候物體都會受到視覺遮擋,導緻訓練往往進步緩慢。
對此,團隊研發出一種名爲 NeuralFeels 的創新技術,爲機器人在複雜環境中的物體感知與操作帶來了新的突破。
這究竟是怎麽做到的呢?讓我們來一起看一下技術細節——
融合了觸覺的多模态感知
NeuralFeels 技術的創新之處在于結合了視覺和觸覺,通過多模态融合的方式,讓機器手能夠對未知物體持續進行 3D 建模,更精确地估計手持操作中物體的姿态和形狀。
具體的處理流程如下圖所示,前端實現了視覺和觸覺的魯棒分割和深度預測,而後端将此信息結合成一個神經場,同時通過體積采樣進一步優化姿态。
而在遮擋視角下,視覺與觸覺融合有助于提高跟蹤性能,還可以從無遮擋的局部視角進行跟蹤。團隊在攝像機視角的球面上量化了這些收益。
從下圖中可以觀察到,當視覺嚴重遮擋時,觸覺的作用更大,而在幾乎沒有遮擋時,觸覺會發揮微調作用。
前端深度學習策略
首先來看看 NeuralFeels 技術的前端(Front end),它采用了基于深度學習的分割策略和觸覺 Transformer,可以精确提取目标對象深度。
用運動學分割一切
神經優化非常依賴分割對象的輸入深度,所以團隊将前端設計成能夠從視覺中魯棒地提取對象深度的形式。深度在 RGB-D 相機中是現成的,但爲了應對嚴重遮擋的問題,團隊還引入了一種基于強大視覺基礎模型的動力學感知分割策略。
觸覺 Transformer
最近有研究表明,在自然圖像中使用 ViT 進行密集深度預測更有效,于是團隊提出了一種觸覺 Transformer,用于通過視覺觸覺預測接觸深度,這個 Transformer 完全在模拟中訓練,可在多個真實世界的 DIGIT 傳感器上通用。機械手可以用嵌入式攝像頭直接感知發光的膠墊,通過監督學習獲得接觸深度。
後端姿勢優化
NeuralFeels 的後端(Back end)部分通過使用 Theseus 中的自定義測量因子,将前端的中間輸出轉化爲非線性最小二乘問題進行優化。
形狀和姿态優化器
後端模塊從前端模塊得到中間輸出,并在線構對象模型。這個過程将交替使用來自視覺 - 觸覺深度流的樣本進行地圖和姿态優化步驟。在本研究的地圖優化器中,即時 NGP 模型的權重可以完全描述物體的 3D 幾何結構。
神經 SLAM
在現實世界和模拟中,團隊構建了一個不斷演進的神經 SDF,它整合了視覺和觸覺,并可以同時跟蹤物體。下圖展示了對應的 RGB-D 和觸覺圖像的輸入流,以及相應的姿态重建。
神經跟蹤:給定形狀的對象姿态估計
當目标對象存在對應的 CAD 模型時,NeuralFeels 可以實現優秀的多模态姿态跟蹤能力。此時目标對象的 SDF 模型是預先計算的,NeuralFeels 會凍結神經場的權重,僅使用前端估計進行視覺 - 觸覺跟蹤。
NeuralFeels 大大提升了機械手性能
爲了評估 NeuralFeels 技術的性能,研究團隊在模拟和真實世界環境中進行了多次實驗,涉及 14 種不同物體,相關測試集 FeelSight 也已發布!
實驗中使用了多種評估指标,包括用于評估姿勢跟蹤誤差的對稱平均歐幾裏得距離(ADD-S),以及用于衡量形狀重建精度和完整性的 F 分數等。
結果非常令人驚喜,NeuralFeels 技術在以下 3 個方面都有非常出色的表現:
1. 物體重建精度大幅提升
在物體重建方面,研究發現結合觸覺信息後,表面重建精度在模拟環境中平均提高了 15.3%,在真實世界中提高了 14.6%。
最終重建結果在模拟環境中的中位誤差爲 2.1 毫米,真實世界中爲 3.9 毫米。這表明 NeuralFeels 技術能夠有效地利用觸覺信息補充視覺信息,更準确地重建物體形狀。
2. 物體姿态跟蹤更加精準
在物體姿态跟蹤方面,NeuralFeels 技術相比僅使用視覺信息的基線方法有顯著改進。
在模拟環境中,姿态跟蹤精度提高了 21.3%,真實世界中提高了 26.6%。
在已知物體形狀的姿态跟蹤實驗中,即使存在不精确的視覺分割和稀疏的觸摸信号,該技術也能實現低誤差的姿态跟蹤,平均姿态誤差可降至 2 毫米左右。
并且,觸覺信息在降低平均姿态誤差方面發揮了重要作用,在模拟環境中可使誤差降低 22.29%,在真實世界中降低 3.9%。
3. 應對複雜場景表現出色
在面對嚴重遮擋和視覺深度噪聲等具有挑戰性的場景時,NeuralFeels 技術同樣表現非常出色。
在模拟的 200 個不同相機視角的遮擋實驗中,平均跟蹤性能提升 21.2%,在嚴重遮擋情況下提升幅度可達94.1%!
在視覺深度噪聲模拟實驗中,随着噪聲增加,融合觸覺信息能有效降低誤差分布,使機器人在視覺信息不理想的情況下仍能準确跟蹤物體姿态。
研究意義
NeuralFeels 技術的創新之處在于它融合了多模态數據、并結合了在線神經場,這些技術讓機器人能夠在操作未知物體時實現更準确的姿态跟蹤和形狀重建。
而且,與複雜的傳感器相比,團隊使用空間感知組合所需的硬件更少,也比端到端感知方法更容易解釋。
盡管目前在一些方面仍存在改進空間,如在長期跟蹤中由于缺乏閉環檢測可能導緻小誤差累積,但對于提升機械手操作精度的效果非常顯著,
未來,研究人員計劃進一步優化技術,例如通過基于特征的前端獲取更粗略的初始化,加入長期閉環檢測以減少姿态誤差的累積,通過控制神經 SLAM 的輸出進行通用靈巧性研究等。
這樣一來,家庭、倉庫和制造業等複雜環境中作業的機器人的性能都有可能得到極大的提升了!
參考資料:
[ 1 ] https://www.science.org/doi/10.1126/scirobotics.adl0628
[ 2 ] https://suddhu.github.io/neural-feels/