注意看,這個機器人用手中的鉗子輕松剪斷了一根金屬絲。
蓋上的鐵盒子,也三下五除二就打開了。
除此之外,物體抓取等任務更是能輕松完成。
這個機器人的背後,是紐約大學聯合 Meta AI 實驗室推出的最新具身智能成果。
研究人員提出了一種名爲 TAVI 的新訓練方法,将視覺與觸覺相結合,把機器人執行任務的效果提高一倍以上。
目前,研究團隊的論文已經公開發表,相關代碼也已經開源。
看到這個機器人的表現,Meta 首席科學家 LeCun 也不禁感歎這是一項驚人的進展。
那麽用這種方法訓練出的機器人,還能做些什麽呢?
取物置物易如反掌
它可以把摞在一起的兩隻碗分開,然後拿取上面的一個。
仔細觀察可以發現,在分開的過程當中,機器人的手部做出了攆的動作,讓黃色的碗沿着綠色碗的内壁滑動。
這個機器人不僅能 " 分 ",還能 " 合 "。
将紅色的物塊拿起之後,機器人将它精準地放入了紫色的蓋子當中。
或者,給橡皮翻個身。
隻見它将一大塊橡皮拿起,然後利用下面的盒子調整角度。
雖然不知道爲什麽不多用幾根手指,但畢竟也是學會了借助工具。
總之,用 TAVI 方式訓練出的具身智能機器人,動作已經和人類有了幾分相似。
數據上,TAVI 方式在 6 項典型任務中明顯優于隻用觸覺或視覺反饋的方法。
和不使用觸覺信息的 AVI 方式相比,TAVI 的平均成功率提高了 135%,和圖像 + 觸覺獎勵模型的方式相比也翻了倍。
而同樣采用視覺觸覺混合模式的 T-DEX 訓練方式,成功率還不到 TAVI 的四分之一。
TAVI 訓練的機器人還有很強的泛化能力——對于未曾見過的物體,機器人也可以完成任務。
在 " 拿碗 " 和 " 裝盒 " 兩項任務中,機器人面對未知物體的成功率均超過了半數。
此外,TAVI 方法訓練出的機器人不僅能出色完成各項任務,還能按順序依次執行多項子任務。
魯棒性方面,研究團隊通過調整相機角度進行了測試,結果機器人依舊保持了高成功率。
那麽,TAVI 方法是如何實現這樣的效果的呢?
用視覺信息評價機器人表現
TAVI 的核心是使用視覺上的反饋來訓練機器人,工作主要分爲三個步驟。
首先是從視覺和觸覺兩個維度收集人類給出的演示信息。
收集到的視覺信息會被用于建立獎勵函數,以供後續學習過程中使用。
這一過程中,系統通過對比學習的方式來獲取對完成任務有用的視覺特征,對機器人動作完成度進行評價。
然後結合觸覺信息和視覺反饋,通過強化學習方式進行訓練,讓機器人反複嘗試,直到獲得較高的完成度評分。
而 TAVI 的學習是一個循序漸進的過程,随着學習步驟的增加,獎勵函數越來越完善,機器人的動作也越來越精準。
而爲了提高 TAVI 的靈活性,研究團隊還引入了一種殘差策略。
遇到與基礎策略出現差别時,隻需要對有差别的部分進行學習,而不必從頭開始。
消融實驗結果表明,如果沒有殘差策略,而是每次都從頭學起,機器人完成任務的成功率将有所降低。
如果對具身智能有興趣,可以閱讀研究團隊的論文了解更多詳情。
論文地址:
https://arxiv.org/abs/2309.12300
GitHub 項目頁:
https://github.com/irmakguzey/see-to-touch