投籃、運球、手指轉球…這個物理模拟人形機器人會打球:
會的招數還不少:
一通秀技下來,原來都是跟人學的,每個動作細節都精确複制:
這就是最近一項名爲PhysHOI的新研究,能夠讓物理模拟的人形機器人通過觀看人與物體交互(HOI)的演示,學習并模仿這些動作和技巧。
重點是,PhysHOI無需爲每個特定任務設定具體的獎勵機制,機器人可以自主學習和适應。
而且機器人的身上總共有 51x3 個獨立控制點,所以模仿起來能做到高度逼真。
一起來看具體是如何實現的。
模拟人形機器人變身「灌籃高手」
這項工作由來自北京大學、IDEA 研究院、清華大學、卡内基梅隆大學的研究人員共同提出。
經研究人員介紹,此前大多數類似工作,存在模仿動作孤立、需特定任務的獎勵、未涉及靈巧的全身運動等局限。
而他們提出的 PhysHOI,應用動作捕捉技術提取 HOI 數據,然後使用模仿學習來學習人體運動和物體控制,解決了這些問題。
其中,HOI 數據重要組成部分之一是涵蓋了人體運動、物體運動、相對運動的運動學數據(Kinematic Data),記錄了位置、速度、角度等信息。
另外,動态數據(Dynamic Data)反映了運動過程中的實時變動和更新,也很重要。
爲了彌補 HOI 數據中動态信息的不足,研究人員引入了接觸圖(contact graph,CG)。
CG 的節點由機器人的肢體部件和物體組成;每條邊則是一個二進制接觸标簽,隻表達 " 接觸 " 或 " 不接觸 " 兩種狀态。
此外,還可以将多個肢體部件放到一個節點中,形成一個聚合 CG(Aggregated CG)。
具體來說,PhysHOI 方法是:
首先通過運動捕捉獲取參考 HOI 狀态序列,包含人體運動、物體運動、交互圖和接觸圖。
然後用第一幀的信息初始化物理模拟環境,構建包含當前模拟狀态和下一個參考狀态的系統狀态。
接下來輸入策略網絡生成的動作控制人形機器人,物理模拟器根據動作更新場景中人體和物體的狀态,計算包含運動匹配、接觸圖等多個方面的獎勵。
利用獎勵、狀态和動作樣本優化策略網絡,采用更新後的策略網絡開始新一輪的模拟過程,如此循環直至網絡收斂,最終獲得能夠重現參考 HOI 技能的控制策略。
值得一提的是,研究人員在這當中設計了一個與任務無關的 HOI 模仿獎勵,無需針對不同任務自定義獎勵函數,包括體現運動匹配度的身體和物體獎勵、反映接觸正确性的接觸圖獎勵,避免了使用錯誤身體部位接觸物體等局部最優解。
接觸圖獎勵是關鍵
研究人員在兩個 HOI 數據集上測試了 PhysHOI。
其中引入了 BallPlay 數據集,包含多種全身籃球技能。
他們在 GRAB 數據集的 S8 子集中選擇了 5 個抓取案例,以及 BallPlay 數據集的 8 個籃球技能。
以此前的 DeepMimic、AMP 等方法作爲基線,爲公平比較,研究人員将其做了修改,以适應 HOI 模仿任務。
結果顯示,以往隻使用運動學獎勵的方法無法準确複現交互,球會掉落或抓握失敗。
而在接觸圖的指導下,PhysHOI 成功進行了 HOI 模仿。
PhysHOI 在兩個數據集上都獲得最高的成功率,分别爲 95.4% 和 82.4%,同時也取得最低的運動誤差,顯著優于其它方法。
消融研究表明,接觸圖獎勵能有效避免隻使用運動信息的方法陷入局部最優,指導機器人實現正确接觸。
如果沒有接觸圖獎勵,人形機器人可能無法控制球,或者錯誤地使用身體其它部位控制球: