作者|楊逍
編輯|蘇建勳
近日,斯坦福華人團隊的 Mobile ALOHA" 全能家務機器人 " 在網上爆火,它展示了做飯、鋪床、澆花等多種家務技能,可謂是全複合 " 保姆人才 "。
它能夠煮蝦,可以擦拭桌子上的紅酒,能洗盤子,還可以自動打開電梯。
還可以打開窗簾爲窗台上的花澆水,将衣服放到洗衣機裏、撒上洗衣液洗衣。這讓網友直呼機器人時代已來,它難能可貴在 " 眼裏有活兒 "。
不過,Mobile ALOHA 所展示的複雜技能,其實是背後由人遙控操作的。
1 月 6 日清晨,發現網友爲 Mobile ALOHA 所呈現的自主化、智能化能力傾倒後,Mobile ALOHA 的兩位研發人員連忙 " 辟謠 ",稱部分動作是機器人自主展示的,部分則由人遙控完成。
爲了如實呈現機器人的能力,他們還專門放出了 Mobile ALOHA 在全自動狀态下的 " 蠢笨 " 動作合集,稱 " 機器人尚未準備好接管世界 "。
當你以爲機器人能絲滑優雅地舉起一杯紅酒時,它隻能顫顫巍巍地握住杯子,看着酒杯傾倒碎在地上,将紅酒灑滿桌;
紅酒灑滿桌
表現頗佳時,機器人能熟悉地端起左手颠鍋、右手拿鏟,完成一道菜肴的制作;但多是幾次,原本揮灑自如的鍋鏟就不是對着鐵鍋底部一頓操作,就是在鍋中揮舞但碰不到菜。
失敗的炒菜案例
全自動狀态下,它無法有力地控制住一把平底鍋,将鍋端起後,整個平鍋便不可避免地掉落,爲了拯救翻到的鐵鍋,守在旁邊的研究人員還被燙傷了;
倒菜失敗
甚至一根紅色圓珠筆,Mobile ALOHA 也無法拾起。
拿記号筆
現實和理想還有差距,但 Mobile ALOHA 所呈現出的完成精細和複雜的任務的運動操作能力,仍值得關注,這讓未來機器人更具有想象空間。
遙控的疊被子、做菜、洗衣技能
Mobile ALOHA 到底可以做到什麽?
經過 20~50 輪演示和模仿學習,機器人可以自主完成一些複雜的移動操控任務。
它能夠按照人類做菜的順序,将油倒入鍋中,再放入一粒蝦仁,并翻轉鍋鏟将其炒熟,并拿起鍋,轉身将蝦倒入背後已備好的盤子裏。
炒蝦
它可以自動按下電梯按鈕,并成功進入電梯中;
自動開電梯
還可以精準打開一扇兩門櫃子,并擡手将一個 3 磅重的鍋放入櫃子中,再關上櫃門。
将鍋放入櫃門
還可以在與人相遇後伸出 " 手 " 擊掌。
與人擊掌
目前,機器人可以連續 9 次完成端起酒杯擦桌子的動作;連續 5 次自主呼叫電梯,具有學會技能的能力。
但這個技能并非 100% 精準、智能,會出現錯誤,呈現出前文所展示的 " 失敗狀态 "。
對于一款想要進入家庭場景的機器人而言,比起技能豐富度,安全是更重要的前提。一款身體笨重、由鋼鐵材料制成的機器人,會給家帶來遠超狗等寵物的殺傷力。
機器人尚未做好準備接管世界,但擁有潛力。
爲了探索 Mobile ALOHA 的潛力,符博士将機器人帶回家中,并遙控機器人完成了一些複雜動作。
它能完成做滑蛋蝦仁、幹貝燒雞、蚝油生菜廚藝,這裏面涉及到了切蒜、洗生菜、打雞蛋等細緻動作。
做幹貝燒雞
在遙控狀态下,它能拉開窗簾布、打開窗子,握着水壺澆水;
澆水
可以握着戴森吸塵機,進行全屋清潔;
用吸塵器打掃房間
它能在主人站着不動的情況下,捏着圓形的剃須刀完成整個刮胡子動作。
剃胡子
可以将衣服賽道洗衣機裏,并轉動洗衣液的圓形瓶蓋,将洗衣液倒入洗衣機,再操作完成洗衣動作。
洗衣服
也能從抽紙盒中抽出一張紙,并揉成一團,再擦去玻璃上的灰,且控制機械與玻璃接觸時,不傷害玻璃表面。
拿紙擦玻璃
雖然上述家務能力是由人遙控操作完成的,但機器人呈現的完成複雜、精細動作的物理可能,是一個巨大的進步。
它還解決了人形機器人領域的一大技術難題——面對布料這種柔軟又單薄的材質,機器人要如何完成疊被子、疊衣服等人手可以簡單完成的動作。
在遙控狀态下,它可以完成鋪平床單、爲枕頭套上枕套的動作,且機器人鋪平的床可謂一絲不苟,遠超當代年輕人的床物收納能力範疇。
換床單
它還可以将一件衣服展開,捏着拉鏈頭,拉上衣服拉鏈,再用衣服撐将其撐起,并放入衣櫃中。
收納衣服
在機器人世界,人手能簡單完成的動作,對機器便越難。機器人還做不到 " 眼中有活 ",但手能幹細緻活。
Mobile ALOHA 的聯合研發者 Tony Z.Zhao 還引用了 2015 年的 DARPA 機器人挑戰大賽上的失敗彙集,戲谑稱希望特斯拉機器人的摔倒視頻。
對于 Mobile ALOHA 的失敗集錦,網友也格外寬容,稱他們 " 愚蠢又可愛 ",也有人稱 " 比起遠程操控,自主果然困難很多 "。
軟硬件開源,全套機器人僅需 3.2 萬美元
Mobile ALOHA 的最大價值是物理操作能力的進步,它展示了機器人做重複性精細操作任務的潛力。
爲了實現雙手操作技巧,符博士團隊基于谷歌 Deepmind 的 ALOHA 遙操作系統生成,設計出了一款低成本的全身遠程操作系統 "Mobile ALOHA"。
Mobile ALOHA 是一個開源的操作系統,其學習原理是遙操作和模仿學習,即通過對人類重複動作的學習掌握技能,它是一種全身遠程操作的雙手移動操作系統。
谷歌的 ALOHA 遙操作系統更多是在桌面上進行思考,Mobile ALOHA 在底部上增加了移動底盤,增加了對機器人移動性和靈活性的訓練。
借助集成的移動底座和全身遠程操作界面,Mobile ALOHA 可以收集更多的機器人與現實世界交互的數據,并在交互過程中學習、模仿人類動作。
研究團隊發現,隻需對每項任務進行 50 次演示,Mobile ALOHA 學會動作的成功率能高達 90%,如可以實現連續 9 次擦紅酒,連續 5 次成功使用電梯。
據符博士表示,之所以能在 50 個演示之内便實現上述效果,是因爲Mobile-ALOHA 将模仿學習和靜态操作數據結合協同訓練。
協同訓練效果
通過這種聯合訓練方式,機器人訓練成功率可以顯著提高,尤其是在執行需要精确操作的任務時。如在擦拭紅酒任務中,舉起酒杯和擦拭是最重要的子動作,在沒有聯合訓練時,其成功率隻有 58%,但聯合訓練後,成功率可以提高到 95%。
訓練效果差别 1
這種聯合數據訓練的方式,在 VINN、擴散策略和 ACT 等不同的模拟學習方法上都有着不錯的效果。如擴散策略下,整個任務的成功率原本隻有 35%,但經過聯合訓練後,可以提高到 65%。
訓練效果差别 2
此外,協同訓練在不同數據組合情況下,魯棒性、穩定性在不同維度上都得到了提高。
訓練效果差别 3
在硬件上,它的外在形象并非最火的人形機器人形态,整個身體由一個移動底盤、一個操作界面,兩個機械臂,反饋驅動,兩個腕部相機及 1 個頂部相機構成。整個機器采用反向驅動結構的設計,控制者能通過操作台控制機械臂,指導 Mobile ALOHA 完成動作。它的底部安裝有電池包,可斷電使用。
Mobile ALOHA 的硬件設計
這款機器人和操作系統由斯坦福的三人團隊研究而成——計算機科學博士生 Zipeng Fu 和 Tony Z.Zhao,和二人的指導老師是 Chelsea Finn。
他們在軟硬件上都進行了開源,公布了代碼、硬件結構和數據,團隊還專門列出了具體的硬件清單,包括整套機器人下來成本隻需要 3.2 萬美元,即 22.7 萬人民币。
這意味着,隻要有興趣,任何人都可以基于他們的研究成果,對機器人進行試驗,去訓練自己想實現的動作。
該硬件的運動底盤廠家松靈機器人已在官網表示,可以定制同款斯坦福 Mobile Aloha 機器人。
Mobile Aloha 機器人
2024 年被認爲是人形機器人元年,無論是特斯拉、波士頓動力等具身智能玩家,還是如谷歌的 AutoRT 控制系統,又或 RT-2 機器人大模型,都在從不同維度推動人形機器人發展。在最長遠的想象力,進入家庭的人形機器人将會帶來巨大的市場空間。
原本以特斯拉、智元機器人等人形機器人都将 to B 場景看作最先落地的未來,To C 家庭場景則更具有難度,但 Mobile ALOHA 的機器人讓 To C 場景看到曙光。
全自動的機器人時代雖尚未來到,但 Mobile ALOHA 僅通過兩指夾具,便完成了洗衣、做飯等高難度動作,這讓家務機器人、人形機器人有了更加具象的想象空間。