斯坦福家務機器人，看似全能，實際靠遙控

作者｜楊逍

編輯｜蘇建勳

近日，斯坦福華人團隊的 Mobile ALOHA" 全能家務機器人 " 在網上爆火，它展示了做飯、鋪床、澆花等多種家務技能，可謂是全複合 " 保姆人才 "。

它能夠煮蝦，可以擦拭桌子上的紅酒，能洗盤子，還可以自動打開電梯。

還可以打開窗簾爲窗台上的花澆水，将衣服放到洗衣機裏、撒上洗衣液洗衣。這讓網友直呼機器人時代已來，它難能可貴在 " 眼裏有活兒 "。

不過，Mobile ALOHA 所展示的複雜技能，其實是背後由人遙控操作的。

1 月 6 日清晨，發現網友爲 Mobile ALOHA 所呈現的自主化、智能化能力傾倒後，Mobile ALOHA 的兩位研發人員連忙 " 辟謠 "，稱部分動作是機器人自主展示的，部分則由人遙控完成。

爲了如實呈現機器人的能力，他們還專門放出了 Mobile ALOHA 在全自動狀态下的 " 蠢笨 " 動作合集，稱 " 機器人尚未準備好接管世界 "。

當你以爲機器人能絲滑優雅地舉起一杯紅酒時，它隻能顫顫巍巍地握住杯子，看着酒杯傾倒碎在地上，将紅酒灑滿桌；

紅酒灑滿桌

表現頗佳時，機器人能熟悉地端起左手颠鍋、右手拿鏟，完成一道菜肴的制作；但多是幾次，原本揮灑自如的鍋鏟就不是對着鐵鍋底部一頓操作，就是在鍋中揮舞但碰不到菜。

失敗的炒菜案例

全自動狀态下，它無法有力地控制住一把平底鍋，将鍋端起後，整個平鍋便不可避免地掉落，爲了拯救翻到的鐵鍋，守在旁邊的研究人員還被燙傷了；

倒菜失敗

甚至一根紅色圓珠筆，Mobile ALOHA 也無法拾起。

拿記号筆

現實和理想還有差距，但 Mobile ALOHA 所呈現出的完成精細和複雜的任務的運動操作能力，仍值得關注，這讓未來機器人更具有想象空間。

遙控的疊被子、做菜、洗衣技能

Mobile ALOHA 到底可以做到什麽？

經過 20～50 輪演示和模仿學習，機器人可以自主完成一些複雜的移動操控任務。

它能夠按照人類做菜的順序，将油倒入鍋中，再放入一粒蝦仁，并翻轉鍋鏟将其炒熟，并拿起鍋，轉身将蝦倒入背後已備好的盤子裏。

炒蝦

它可以自動按下電梯按鈕，并成功進入電梯中；

自動開電梯

還可以精準打開一扇兩門櫃子，并擡手将一個 3 磅重的鍋放入櫃子中，再關上櫃門。

将鍋放入櫃門

還可以在與人相遇後伸出 " 手 " 擊掌。

與人擊掌

目前，機器人可以連續 9 次完成端起酒杯擦桌子的動作；連續 5 次自主呼叫電梯，具有學會技能的能力。

但這個技能并非 100% 精準、智能，會出現錯誤，呈現出前文所展示的 " 失敗狀态 "。

對于一款想要進入家庭場景的機器人而言，比起技能豐富度，安全是更重要的前提。一款身體笨重、由鋼鐵材料制成的機器人，會給家帶來遠超狗等寵物的殺傷力。

機器人尚未做好準備接管世界，但擁有潛力。

爲了探索 Mobile ALOHA 的潛力，符博士将機器人帶回家中，并遙控機器人完成了一些複雜動作。

它能完成做滑蛋蝦仁、幹貝燒雞、蚝油生菜廚藝，這裏面涉及到了切蒜、洗生菜、打雞蛋等細緻動作。

做幹貝燒雞

在遙控狀态下，它能拉開窗簾布、打開窗子，握着水壺澆水；

澆水

可以握着戴森吸塵機，進行全屋清潔；

用吸塵器打掃房間

它能在主人站着不動的情況下，捏着圓形的剃須刀完成整個刮胡子動作。

剃胡子

可以将衣服賽道洗衣機裏，并轉動洗衣液的圓形瓶蓋，将洗衣液倒入洗衣機，再操作完成洗衣動作。

洗衣服

也能從抽紙盒中抽出一張紙，并揉成一團，再擦去玻璃上的灰，且控制機械與玻璃接觸時，不傷害玻璃表面。

拿紙擦玻璃

雖然上述家務能力是由人遙控操作完成的，但機器人呈現的完成複雜、精細動作的物理可能，是一個巨大的進步。

它還解決了人形機器人領域的一大技術難題——面對布料這種柔軟又單薄的材質，機器人要如何完成疊被子、疊衣服等人手可以簡單完成的動作。

在遙控狀态下，它可以完成鋪平床單、爲枕頭套上枕套的動作，且機器人鋪平的床可謂一絲不苟，遠超當代年輕人的床物收納能力範疇。

換床單

它還可以将一件衣服展開，捏着拉鏈頭，拉上衣服拉鏈，再用衣服撐将其撐起，并放入衣櫃中。

收納衣服

在機器人世界，人手能簡單完成的動作，對機器便越難。機器人還做不到 " 眼中有活 "，但手能幹細緻活。

Mobile ALOHA 的聯合研發者 Tony Z.Zhao 還引用了 2015 年的 DARPA 機器人挑戰大賽上的失敗彙集，戲谑稱希望特斯拉機器人的摔倒視頻。

對于 Mobile ALOHA 的失敗集錦，網友也格外寬容，稱他們 " 愚蠢又可愛 "，也有人稱 " 比起遠程操控，自主果然困難很多 "。

軟硬件開源，全套機器人僅需 3.2 萬美元

Mobile ALOHA 的最大價值是物理操作能力的進步，它展示了機器人做重複性精細操作任務的潛力。

爲了實現雙手操作技巧，符博士團隊基于谷歌 Deepmind 的 ALOHA 遙操作系統生成，設計出了一款低成本的全身遠程操作系統 "Mobile ALOHA"。

Mobile ALOHA 是一個開源的操作系統，其學習原理是遙操作和模仿學習，即通過對人類重複動作的學習掌握技能，它是一種全身遠程操作的雙手移動操作系統。

谷歌的 ALOHA 遙操作系統更多是在桌面上進行思考，Mobile ALOHA 在底部上增加了移動底盤，增加了對機器人移動性和靈活性的訓練。

借助集成的移動底座和全身遠程操作界面，Mobile ALOHA 可以收集更多的機器人與現實世界交互的數據，并在交互過程中學習、模仿人類動作。

研究團隊發現，隻需對每項任務進行 50 次演示，Mobile ALOHA 學會動作的成功率能高達 90%，如可以實現連續 9 次擦紅酒，連續 5 次成功使用電梯。

據符博士表示，之所以能在 50 個演示之内便實現上述效果，是因爲Mobile-ALOHA 将模仿學習和靜态操作數據結合協同訓練。

協同訓練效果

通過這種聯合訓練方式，機器人訓練成功率可以顯著提高，尤其是在執行需要精确操作的任務時。如在擦拭紅酒任務中，舉起酒杯和擦拭是最重要的子動作，在沒有聯合訓練時，其成功率隻有 58%，但聯合訓練後，成功率可以提高到 95%。

訓練效果差别 1

這種聯合數據訓練的方式，在 VINN、擴散策略和 ACT 等不同的模拟學習方法上都有着不錯的效果。如擴散策略下，整個任務的成功率原本隻有 35%，但經過聯合訓練後，可以提高到 65%。

訓練效果差别 2

此外，協同訓練在不同數據組合情況下，魯棒性、穩定性在不同維度上都得到了提高。

訓練效果差别 3

在硬件上，它的外在形象并非最火的人形機器人形态，整個身體由一個移動底盤、一個操作界面，兩個機械臂，反饋驅動，兩個腕部相機及 1 個頂部相機構成。整個機器采用反向驅動結構的設計，控制者能通過操作台控制機械臂，指導 Mobile ALOHA 完成動作。它的底部安裝有電池包，可斷電使用。

Mobile ALOHA 的硬件設計

這款機器人和操作系統由斯坦福的三人團隊研究而成——計算機科學博士生 Zipeng Fu 和 Tony Z.Zhao，和二人的指導老師是 Chelsea Finn。

他們在軟硬件上都進行了開源，公布了代碼、硬件結構和數據，團隊還專門列出了具體的硬件清單，包括整套機器人下來成本隻需要 3.2 萬美元，即 22.7 萬人民币。

這意味着，隻要有興趣，任何人都可以基于他們的研究成果，對機器人進行試驗，去訓練自己想實現的動作。

該硬件的運動底盤廠家松靈機器人已在官網表示，可以定制同款斯坦福 Mobile Aloha 機器人。

Mobile Aloha 機器人

2024 年被認爲是人形機器人元年，無論是特斯拉、波士頓動力等具身智能玩家，還是如谷歌的 AutoRT 控制系統，又或 RT-2 機器人大模型，都在從不同維度推動人形機器人發展。在最長遠的想象力，進入家庭的人形機器人将會帶來巨大的市場空間。

原本以特斯拉、智元機器人等人形機器人都将 to B 場景看作最先落地的未來，To C 家庭場景則更具有難度，但 Mobile ALOHA 的機器人讓 To C 場景看到曙光。

全自動的機器人時代雖尚未來到，但 Mobile ALOHA 僅通過兩指夾具，便完成了洗衣、做飯等高難度動作，這讓家務機器人、人形機器人有了更加具象的想象空間。