講真,機器狗的花活見得多了——
但今天還是有被驚豔到。
來自 CMU 的最新成果,直接讓狗子學會了:
兩倍身長的跳高、跳遠、倒立撒歡兒甚至倒立下樓梯
話不多說,直接放圖感受一波:
△ 這是跳遠
△ 這是跳高
△ 倒立撒歡兒
△ 倒立下樓梯
不得不說,尤其跳高那段中的 " 掙紮 " 顯得狗子特别靈魂。
除了這些 s 操作,CMU 也公布了幾段跑酷視頻,完全自主的那種。
上坎兒、過縫隙、跨斜坡,那叫一個溜。
中間即使有 " 失誤 ",也絲毫不影響它立即前進。
笑鼠,甚至還給安排了一段壓力測試,結果當然是 " 通過 "~
最厲害的是,據 CMU 介紹,以上這些極限操作,全部靠單個神經網絡完成。
LeCun 大佬聽了,都得反手一個贊。
如此靈魂,如何煉成?
在推文中,作者對這隻狗子的技術進行了挨個解析。
首先,比起基于視覺的端到端行走,2 倍身長跳高跳遠這種極限操作可謂完全不屬同一個 level。
畢竟,任何一個失誤都可能是 " 緻命的 "。
對此,CMU 采用sim2real來實現精準的足部控制和挑戰,最大限度地發揮機械優勢。
其中,模拟器用的是 Gym。
其次,倒立。用兩條腿行走顯然比用四條腿要困難得多。
但 CMU 的機器狗使用相同的基本方法同時實現了這兩種任務,甚至還可以一邊倒立一邊下樓梯。
第三,對于跑酷操作來說(本研究重點),機器狗必須通過精确的 " 眼部肌肉 " 協調來自己決定前進方向,而非聽從人類指揮。
比如連續過兩個斜坡時,它需要以一個非常特定的角度跳上坡道,然後立即改變方向。
爲了學會這些正确的方向,CMU 使用MTS(Mixed Teacher Student)系統來教會機器狗。
其中,僅當預測方向接近真實值時才會被系統采納。
具體而言,該系統分爲兩個階段:
第一階段,先利用 RL 學習一種移動策略,該過程可以訪問一些特權信息,除了環境參數和掃描點(scandots)以外,CMU 還爲機器狗适當提供了一些标志點(waypoints),目的是引導大體方向。
然後,使用正則化在線自适應(Regularized Online Adaptation ,ROA)來訓練評估器,以便從觀察曆史中恢複環境信息。
第二階段,從掃描點(scandots)中提取策略,系統将根據該策略和深度信息自主決定如何前進,從而敏捷地輸出電機命令。
整個過程就像 " 老師教,學生舉一反三學習 "。
除了這個系統之外,由于跑酷需要用上各種不同動作穿越障礙,因此爲每一個障礙設計特定獎勵函數也是一件頭疼的事兒。
在此,作者選擇爲所有任務制定了一個統一且簡單的内積獎勵函數。
它可以自動産生不同的獎勵,并完全适應不同的地形形狀。
沒有它,狗子的表現就是這樣的:
最後,CMU 還提出了一種全新的雙重蒸餾(dual distillation)方法,用于從深度圖像中提取敏捷的運動指令和快速波動的前進方向。
同樣,沒有它,狗子的表現也跟個 " 醉漢 " 似的:
經過如上一番操作,這隻狗子終于學會了全新的自主跑酷,并穿插高難度動作。
是不是很心動?别急:
以上這些成果,CMU已全部開源(瞧這日期,還是熱乎的呢)。
同時,論文也上線了。大家可以在結尾獲取。
作者介紹
本研究全部由 CMU 完成,一共四位作者。
其中兩位共同一作,且都是華人:
一位叫 Xuxin Cheng,這項工作是他在 CMU 讀研時完成的,他現在是加州大學聖地亞哥分校(UCSD)的博士生,導師爲王小龍;
另一位叫石可心,CMU 機器人研究所的訪問學者。她本科畢業于西安交大。
項目主頁(包含論文、代碼等鏈接):
https://extreme-parkour.github.io/