斯坦福年初剛教完機器人炒菜,現在又教機器人系鞋帶!
他們還發布了全球首個機器人自主系鞋帶演示視頻:
與之前的炒菜版 1.0 相比,這個版本的它可以執行更加輕巧、複雜的任務。
評論區的網友也是一片誇誇:
網友一:小手怪巧的,我系鞋帶都沒他系的好!
網友二:OMG!是個好東西!量産!
網友三:可愛捏!它甚至會打蝴蝶結!
小手怪巧的
除了系鞋帶,視頻中的 Aloha 2 機器人還會挂衣服、擰齒輪、收拾廚房,甚至是給 " 同事 " 換不同用途的配件。
咱們一起來看一下它的表現 ~
先是挂衣服。演示視頻中,Aloha 2 先是乖乖的把衣服擺好,然後一氣呵成地就把衣服套在了衣架上(它甚至知道抵一下防止衣服掉落)。
數據庫中的沒有的衣服類型也可以挂。
在擰齒輪的測試中,它的表現也不錯。成功地把三個塑料齒輪插進了一個帶摩擦力的插座,完美咬合。
" 收拾廚房 "的環節:Aloha 2 乖乖地把桌面散落的餐具規整到一起,擺放整齊。
到了給 " 同事 " 換配件的時候,也是一氣呵成。先摘下舊的,再拿起新的對準後安上!
怎麽學會的
爲了訓練 Aloha 2 機器人,研究團隊使用擴散策略進行大規模訓練,共在5 個任務中收集2.6 萬個示範數據。
值得一提的是,他們的訓練僅僅是基于模仿學習的方法,并不涉及強化學習。
而 Aloha 2 機器人的神經網絡架構則是參考了 ACT 模型,沒有用到條件 VAE 編碼器(變分自動編碼器)。
他們具體是這麽做的:
研究人員給嵌入加了個位置嵌入,然後喂了一個 8500 萬的 Transformer 編碼器,之後用雙向注意力進行解碼,就得到了觀察結果的潛在嵌入。
這些潛在的東西再傳給一個 5500 萬參數且帶雙向注意力的 Transformer 編碼器。
解碼器的輸入是個 50x14 的張量,就是一個帶位置信息的噪聲動作塊。這些嵌入跟觀察編碼器的潛在嵌入和時間步(用獨熱向量表示)進行交叉注意力。
解碼器最後輸出一個 50x512 的維度,然後用線性層映射成 50x14,這就是對接下來 50 個動作的預測噪聲。
基礎模型總共有 2.17 億個可學習的參數。小模型的話,研究人員用 1700 萬的編碼器和 3700 萬的解碼器,總共 1.5 億參數。
訓練時,研究人員基于 JAX 框架,在 64 個 TPUv5e 上并行訓練,批量大小 256,總共進行了 200 萬步的訓練。
并且使用帶權重衰減的 Adam 優化器,權重衰減是 0.001,線性學習率預熱 5000 步,之後保持恒定速率爲1e-4
最終結果如下:
研究人員對最終的結果很滿意,發文感歎:
實驗的總體成功率很高!模仿學習可能是實現 99% 成功率的有效途徑!
One more thing
Aloha 2 的研究團隊主要由 DeepMind 和斯坦福研究小組組成。
Aloha 2 是對原始 Aloha 系統的增強版本,爲了更加支持雙手的遠程操作。
與之前的版本相比 Aloha 2 在硬件方面進行了多項改進,使其能夠執行更複雜和細緻的操作任務,
目前研究團隊已經開源了 Aloha 2 的所有硬件設計,并提供詳細的教程和模拟模型,以便于研究人員和開發者進行大規模的雙手操作研究。
論文地址:https://openreview.net/pdf?id=gvdXE7ikHI
項目地址:https://aloha-unleashed.github.io/