平價顯卡即可實現實時交互。
新方法結合擴散模型和強化學習,将抓取問題分解爲「如何抓」以及「何時抓」,平價顯卡即可實現實時交互。
手是人類與世界交互的重要部分,手的缺失(如上肢殘障)會大大影響人類的正常生活。
北京大學董豪團隊通過将擴散模型和強化學習結合,使機械手能根據人手腕部的移動軌迹,自适應的抓取物體的不同部位,滿足人類多樣化的抓取需求,目前該工作已被 NeurIPS 2023 接收。
有了這個機械手,隻要動動手腕,機械手就能按照人類想要的方式抓起物體,比如抓取杯身和杯壁。
由于人類行爲的複雜與多變性和真實世界物體的多樣性,僅僅根據人手腕部的移動軌迹來不斷預測人類想法是一件非常困難的事情。
新方法真正實現了靈巧的抓取,能在真實世界中對于不同的物體,不同的抓取姿态,不同的抓取軌迹進行泛化。
01 機械手如何明白人類的想法?
北大董豪團隊提出将人類的想法分解成兩個部分:
1. 如何抓 : 考慮到人類和物體當前的相對姿勢,機械手應該如何抓取物體?
2. 何時抓 : 機械手應該根據用戶曆史運動軌在何時、以什麽速度執行抓取動作?
如何抓?
首先,如上圖所示,新方法将學習人類想要「如何抓取物體」,定義爲從一個包含各種抓取姿态的數據集中,學習抓取梯度場 Grasping Gradient Field(GraspGF)。
基于當前人手腕部和物體的相對關系,GraspGF 會輸出一個梯度,這個梯度代表最快提高「抓取可能性」的方向。這個梯度可以轉化爲對每個手指關節的原始控制,使手指能夠通過不斷叠代達到适當的抓取姿态。
這樣的梯度場可以随着人手腕部和物體的關系的變化,而不斷的輸出新的梯度指示當前人類的抓取意圖,即意向抓取的物體區域及抓取姿态。
GraspGF 随着手腕的旋轉,不斷調整抓取姿态
何時抓?
GraspGF 的動作會導緻提前合攏
然而,隻知道「如何抓」并不夠完備,如果不知道要「何時抓」(如上圖所示),雖然最終的抓取姿态是合理的,但是在達到抓取姿态的過程中會和物體發生碰撞。
如上所示,爲了解決「何時抓取」的問題,新方法還訓練了一個基于強化學習的殘差策略,它首先會輸出一個「縮放動作」,根據手腕軌迹的曆史,決定手指關節應該以多快的速度沿着原始動作的方向移動。
此外,因爲原始策略是基于最終抓取姿态數據集離線訓練得到的,原始策略并不了解環境的物理約束 ,殘差策略還會輸出一個「殘差動作」來進一步校正原始動作。
通過結合殘差策略,模型能夠通過殘差策略學習到的「何時抓」更好地實現原始策略學習到的「如何抓」。
簡單的獎勵函數
該方法在獎勵函數的設置上不需要過多的 human design,因爲原始動作已經提供了一個比較好的「如何抓」的引導,在訓練強化學習模型時,除了給定成功抓取和抓取後的高度變化獎勵,僅僅隻需要一個獎勵函數去鼓勵機械手跟随原始動作即可。
該方法的優勢
該方法僅需要成功抓取的抓取姿态數據集用于訓練,與需要專家演示的方法相比,不需要大量的人工标注或者工程工作。
GraspGF 借助了擴散模型強大的條件生成建模能力,這使它能夠根據新穎的用戶意圖輸出有效的原始動作。
殘差學習的設計改善了強化學習探索效率低下的問題,提升了強化學習模型在未見過物體和軌迹上的泛化能力。
02 結果
最終在 4900 多個物體,200 條不同的人類移動軌迹上,新方法都優于基準。
該方法的最終的抓取姿态相比于基線更符合人類的抓取意圖。
此外,該方法在抓取過程中對物體造成的擾動要小于其他基準。
經過測試,該模型在 GTX1650 的顯卡上,能達到 150fps 的推斷速度,能做到與人類的實時交互,也許未來能真正用于輔助手部缺失的人更好地進行日常生活。