MIT推出拾物機器人「最強輔助」，少量訓練樣本即可實現自然語言控制

MIT 的這項新成果，讓取物機器人變得更聰明了！

不僅能理解自然語言指令，還可以拾取沒見過的物體。

麻麻再也不用擔心我找不到東西了！

研究人員将 2D 特征嵌入了三維空間，構建出了用于控制機器人的特征場（F3RM）。

這樣一來，在 2D 圖像中構建的圖像特征和語義數據，就能被三維的機器人理解并使用了。

不僅操作簡單，訓練過程中需要的樣本量也很小。

低訓練樣本實現輕松取物

我們可以看到，在 F3RM 的幫助下，機器人可以娴熟地拾取目标物體。

哪怕要找出機器人沒遇見過的物體，同樣不是問題。

比如……大白（玩偶）。

對于場景中的同種物品，可以根據顔色等信息進行區别。

比如分别拾取同一場景中藍色和紅色兩種不同的螺絲刀。

不僅如此，還可以要求機器人抓取物體的特定位置。

比如這個杯子，我們可以指定機器人抓住杯身或者杯把。

除了拾取問題，還可以讓機器人把拾到的東西放到指定位置。

比如把杯子分别放到木制和透明的支架上。

團隊提供了完整的，沒有經過篩選的實驗結果。他們在實驗室周邊随機選取了 out-of-distribution （訓練集外）測試樣本。

其中使用 CLIP ResNet 特征的特征場在三成以上的測試樣本中（78%）成功抓取和放置。在基于開放性人工語言指令的任務上，成功率在 60%。該結果沒有經過人工選擇（cherry-picking），因此對特征場在零微調情境下的表現有客觀的描述。

那麽，如何利用 F3RM 幫助機器人工作呢？

将 2D 特征投射到三維空間

下面這張圖大緻描述了利用 F3RM 幫助機器人拾取物品工作流程。

F3RM 是一個特征場，要想讓它發揮作用，首先要得到有關數據。

下圖中的前兩個環節就是在獲取 F3RM 信息。

首先，機器人通過攝像頭對場景進行掃描。

掃描過程會得到多個角度的 RGB 圖像，同時得到圖像特征。

利用 NeRF 技術，對這些圖像做 2D 密度信息提取，并投射到三維空間。

圖像和密度特征的提取使用了如下的算法：

這樣就得到了這一場景的 3D 特征場，可供機器人使用。

得到特征場之後，機器人還需要知道對不同的物體需要如何操作才能拾取。

這一過程當中，機器人會學習相對應的六個自由度的手臂動作信息。

如果遇到陌生場景，則會計算與已知數據的相似度。

然後通過對動作進行優化，使相似度達到最大化，以實現未知環境的操作。

自然語言控制的過程與上一步驟十分相似。

首先會根據指令從 CLIP 數據集中找到特征信息，并在機器的知識庫檢索相似度最高的 DEMO。

然後同樣是對預測的姿勢進行優化，以達到最高的相似度。

優化完畢之後，執行相應的動作就可以把物體拾起來了。

經過這樣的過程，就得到了低樣本量的語言控制取物機器人。

團隊簡介

研究團隊成員全部來自 MIT 的 CSAIL 實驗室（計算機科學與人工智能實驗室）。

該實驗室是 MIT 最大的實驗室，2003 年由 CS 和 AI 兩個實驗室合并而成。

共同一作是華裔博士生 William Shen，和華人博後楊歌，由 Phillip Isola 和 Leslie Kaelbling 監督指導。他們來自于 MIT CSAIL（計算機和人工智能實驗室）和 IAIFI（人工智能和基礎相互作用研究院）。其中楊歌是 2023 年 CSAIL 具身智能研讨會 ( Embodied Intelligence Seminar ) 的共同籌辦人 .

左：William Shen，右：楊歌

論文地址：

https://arxiv.org/abs/2308.07931

項目主頁：

https://f3rm.github.io

MIT 具身智能團隊

https://ei.csail.mit.edu/people.html

具身智能研讨會

https://www.youtube.com/channel/UCnXGbvgu9071i3koFooncAw