對話斯坦福Mobile ALOHA機器人團隊趙子豪：驚豔和不完美都隻是開始

從英偉達要 " 一次解決所有模型問題 " 的 GEAR，到成立兩年就估值破 25 億美元的機器人 OpenAI Figure，2024 年才剛開局機器人領域已經變得瘋狂。今年已經被很多人預言爲 " 機器人元年 "。而華語圈刷屏最多的，還是不久前因一段 50 秒演示視頻風靡全網的斯坦福「Mobile ALOHA」全能家務機器人。

視頻中，這個帶輪子的雙臂機器人能自主按電梯、擦拭紅酒杯、與人類擊掌、把淩亂的椅子歸位，還能像廚師一樣倒油翻面煎炸蝦仁，然後再順帶把鍋給洗了放櫃裏。聰明能幹程度讓大家看後驚呼，也許從此就可以解放雙手耍廢，妥妥一個通用智能管家。

它還能借助遠程操控系統，由用戶同時控制底座和兩個機器手臂來完成更多樣的任務。像是澆花、地毯吸塵、使用咖啡機、丢垃圾、洗衣服、疊被鋪床套枕套、從冰箱取出番茄醬并擠好在盤裏、甚至幫助剃須和逗貓。雖然是遙控操作，但呈現出的動作順暢和精細程度仍令人印象深刻。

用 Transformer 的思路解機器人題

根據項目團隊介紹，「Mobile ALOHA」實際是他們在去年 3 月發布的 ALOHA 系統基礎上做的移動性和遠程界面強化。主要技術原理就是通過模仿學習和團隊基于神經網絡模型 Transformer 開發的動作分塊算法 ACT（Action Chunking with Transformers），來執行複雜的移動操作任務。

正如自然語言處理技術的變革，讓大模型通過海量的互聯網數據學習來直接推理預測回複，團隊也思考着如何把這一全新範式應用到機器人技術環境中。ACT 算法的本質正是這樣一個端到端的策略：直接把現實世界的 RGB 圖像映射到動作，讓機器人從視覺輸入中學習和模仿執行特定的動作，而無需額外人工編碼的中間表示。同時采用動作分塊方法（Chunking），預測在當前觀察下人類操作員會執行的動作序列，集成準确而平滑的動作軌迹。

不過和語言模型不同的是，對 LLM 來說，曆史信息至關重要。ChatGPT 和 Gemini 都需要從上下文裏推斷合适的答案。而機器人環境中的訓練數據有限，對動作的學習模仿更像是一種本能，因此團隊目前選取的任務并不需要理解曆史背景。

這也能解釋演示視頻中話題度最熱的 " 自主炒蝦 " 環節。一次線下分享中，觀衆提問 Mobile ALOHA 是 " 如何判斷什麽時候該翻面，什麽時候蝦熟了 "，簡言之，它怎麽控制烹饪時間？

而團隊成員趙子豪則透露了這樣一個小秘密，" 爲什麽用蝦仁做食材呢？因爲蝦在烹饪時會變色，這就是我們想要利用的一個視覺提示。這種選擇是基于當前算法可以識别和處理的任務，而不必依賴于廣泛的上下文數據。"

同時他也認爲，像 OpenAI 的 Sora 模型或任何形式的大規模預訓練，都會有益于機器人技術。他舉例說在一個對象是透明杯子的任務中，把杯子換成藍色可能就無法成功了。然而将互聯網預訓練與機器人數據集結合起來，或許就能得到改善。

" 世界模型中捕獲的一些通用知識可能會告訴機器人，無論杯子是藍的、紅的還是透明的，操縱方法都一樣。我們期待從像 Sora 這樣的世界模型中獲得泛化能力的提升。"

趙子豪 ( Tony Z. Zhao ) 在線下 AI 活動做分享

項目的另一個亮點是協同訓練（co-training），即使用現有的靜态 ALOHA 數據集（包括從黑色桌面上收集的 825 個演示）和 Mobile ALOHA 項目中新采集的移動示教數據來共同訓練機器人。

在協同訓練下，每項任務隻需要觀看 50 次人類演示，就能将成功率提高到 90%，顯著提升了機器人執行複雜雙手移動任務的技能和學習效率。

複雜的機器人不用非得貴，開源一切給大家 " 再創造 "

除此之外令人驚喜的是，一台 Mobile ALOHA 機器人的成本僅需 3.2 萬美元（約 22 萬人民币）。并且軟硬件包括深度學習代碼全部開源，人人都可以依照教程，使用現成機器人零件和 3D 打印件自己搭建系統。這也正是 ALOHA 給自己「A Low-cost Open-source Hardware System（低成本開源硬件系統）」名字的定義。

操作過程學起來也很簡單。團隊找來 8 名志願者做測試，結果證明共計 20 分鍾的五次嘗試後，普通用戶演示任務的時間就能與團隊專家持平。

由斯坦福兩名華人博士符梓鵬和趙子豪、以及導師 Chelsea Finn 組成的三人研發團隊。項目頁面地址：https://mobile-aloha.github.io/cn.html

趙子豪說，把 ALOHA 和 Mobile ALOHA 項目開源，就是因爲做一個研究機器人學的博士生實在有點兒 " 痛 "，市面上好用的機器人解決方案太少也太難，對許多任務來說也不夠靈活。團隊的初衷是構建一個可信賴的、适應更多通用任務的開發和研究平台，讓人們 " 在我們工作的基礎上創造更多東西出來 "。

" 我們離成爲産品還相當遙遠 "

Mobile ALOHA 展現出的驚豔效果令不少人呐喊 " 機器人商業化近在眼前 "，可團隊卻緊接着給這股群情興奮 " 潑了點兒冷水 "，在社交媒體大方 po 出一則「ALOHA 翻車合輯」：面對平放的記号筆抓瞎，握不緊杯子灑了一桌子紅酒，拿不起炒鍋還把油和蝦仁直接倒在島台上…

按照他們自己的說法，是希望公衆先不要産生過于超前的預期，雖然可以通過遙操作讓機器人自動去做很多任務，但它是否可以不犯錯，和人比仍然有較大差距。" 我們專門把過去 1 到 2 個月錯誤合成給大家看，這裏還有很多未解決的挑戰，希望更多研究者進入領域，讓錯誤消失。也想表明研究過程不是一帆風順的，要經曆很多失誤，修改代碼、修改數據和模型，才能達到論文中的 80% 到 90% 的準确率。"

團隊的坦誠反倒讓網友稱贊有加，有人表示 " 謝謝你們展示失敗，讓我保持清醒并認識到機器人真正到了哪一步。" 也有人鼓勵說 " 你們正爲改變世界做自己的嘗試，期待 ALOHA 的未來！"

研究論文中也透露了項目存在的一些局限性，例如底輪占地面積無法通過一些狹窄路徑、機械臂動作自由度有限。以及至今嘗試卻無法成功完成的兩個挑戰性任務：剝開緊緊包裹的糖果包裝，和打開封口閉合的塑料自封袋。在技術上也需要找到更可擴展的數據收集方法。

" 我們離商業化實際上還相當遙遠 "，趙子豪在分享活動上說，" 特别是如果要成爲消費産品，你不可能隻滿足于 80% 的成功率，它需要更高得多。另一個重要的點是它需要更好的泛化能力——你買了一個新機器人，肯定不想重新收集所有任務演示，對吧？因此距離真正可靠和強大的家用機器人我們還很遠，絕對是。"

Mobile ALOHA 機器人在發布後曾引發廣泛關注，以其流暢精準地執行複雜任務掀起了極高的話題度。之後主動呈現瑕疵又讓人們說它看上去 " 愚蠢又可愛 "。而這一研究本身的重要性尚未被充分讨論。

因此，我們最近跟項目作者之一的趙子豪在矽谷做了一次交流，針對更多層次進行了探讨。

趙子豪目前是斯坦福大學博士生和 Google DeepMind 兼職研究員，研究重點是端到端的精細機器人操控。他也曾在特斯拉實習期間擔任機器學習科學家。

以下是他和矽星人的對話實錄：

矽星人：爲什麽最近機器人領域突然火熱了起來，GEAR，Figure 都是大事件，包括 Mobile ALOHA，從業内人士來看，是因爲哪些具體的技術能力出現了突破麽？這些突破是如何發生的？還是更多因爲 AI 的熱潮溢出到了機器人領域？

趙子豪：現階段 manipulation 一個很大的突破在模仿學習。去年的 Diffusion Policy、ALOHA/ACT 是比較有代表性的成果。突破點在于（1）學界有了收集高質量數據的方法。（2）發現生成建模技術在機器人領域能運用的很好。同時在機器人運動控制領域 sim2real （仿真到現實）也有了非常大的進展。總的來說我會覺得 AI 的進步啓發了機器人的進步。

矽星人：AI 領域目前有 LLM 和世界模型的路線之争，有 Transformer 和 Diffusion 潛在的争奪與融合，在機器人領域有哪些主流的技術路線和方案？你更傾向哪一條路線？

趙子豪：在機器人領域有傳統的感知 + 規劃方法，也有比較激進的端到端學習方法。舉個例子，特斯拉 FSD v12 之前采用的是傳統方法，之後改爲了端到端學習。我傾向于将端到端的模仿學習用于操作，将端到端的強化學習、模拟到真實用于運動控制。

矽星人：有人形容 AI 越來越像是一個 " 用不同新名詞描述同一個舊概念 " 的遊戲，機器人領域似乎也有這樣的現象，" 具身智能 "、" 通用智能體 " 等時髦的概念出現，但機器人技術的演進是有自己的曆史和基礎理論的，這是否會帶來影響？事實上今天機器人技術主要在解決和攻克哪些問題？

趙子豪：其實這些都不是新名詞，一直有人在用。我覺得有意思的點是這些名詞更突出 " 智能 "，而不是 " 機器 "。這其實是機器人社區一個觀念上的轉變，大家意識到 intelligence 可能比 " 去爲特定任務設計一個末端執行器 " 更加重要。

矽星人：看到你的個人簡介裏寫着對 start up 感興趣，而你同時也在谷歌和特斯拉這樣的大廠工作過，你認爲機器人領域還會有自己的 "OpenAI" 麽，還是最終會由大廠主導？尤其是最近從英偉達到 Figure 都體現出來明顯的資源和資本的聚攏，初創公司還有機會麽？

趙子豪：我相信任何領域永遠都有創業公司的機會。 Startups can be nimble, focused, and fast-executing.

矽星人：Mobile ALOHA 最重要的意義是低成本，還是它體現出來的處理現實世界數據的雛形，還是一個可以适配不同的模仿學習算法的底層系統平台？

趙子豪：Mobile ALOHA 是一個驗證概念性的家用機器人 , 設計初衷是研究平台。對我來說它的意義在于 ( 1 ) 證明模仿學習在移動操作中的可行性。 ( 2 ) 開源軟硬件促進接下來的算法研究。

矽星人：Mobile ALOHA 的相關研究都給我一種感覺，就是你們追求盡可能的簡潔。這是因爲現在機器人的相關技術到了收斂的階段，還是你們想要先提供一個更簡潔的樣本給技術社區？

趙子豪：我非常信奉 Elon 的 "The best part is no part." 和 Richard Sutton 的 bitter lesson，最能利用數據和計算的算法往往是簡潔的。語言建模中的 " 下一個标記預測 " 技術就是一個很好的例子。當然，去真正産品化 Mobile ALOHA 還是會需要很多工程細節。這篇 paper 隻是一個雛形。

矽星人：從 Mobile ALOHA 來看，機器人的數據收集和動作訓練學習，以及動作執行是不是基本上同時進行的？你提到訓練數據現在是個難題，過往自動駕駛使用大量模拟數據，今天各種大模型訓練裏也開始讨論合成數據的可行性，這些對解決機器人的訓練數據問題有什麽啓發？

趙子豪：從數據收集到部署需要幾個小時的模型訓練時間。模拟器仿真到現實（sim2real）對于運動控制已經有了很大的幫助，但對于模拟接觸豐富、可變形物體的操作仍然需要模拟器上的進步。

矽星人：接下來你最期待的機器人領域或者泛人工智能領域的技術突破是什麽？

趙子豪：期待一個和 state-of-the-art 相似的開源視覺語言模型。這對于學界機器人研究會有很大幫助。

矽星人：你自己接下來有什麽計劃，有什麽可以提前劇透的麽？

趙子豪：模仿學習在靈巧性的上限非常高，請期待接下來更多在 ALOHA 上的工作！

一切剛剛開始

上個月，趙子豪 / 符梓鵬領導的斯坦福項目團隊聯合 Google DeepMind 和 Hoku Labs，推出了升級版本的 ALOHA 2。與上一代相比，二代顯著提高了耐用性️，能夠在更複雜的任務上實現大規模數據收集，性能也更強，能完成拉起可樂拉環這樣的精細動作。成本低于 20 萬元人民币，而且繼續開源。

趙子豪也在活動上分享，在接下來幾個月，也許很快，大家就會看到新的項目成果。我們有理由推測，它會設計更精巧、更用戶友好，被訓練的更爲靈活，也能完成更多意想不到的高難度任務。

兩位年輕的研究者欣喜地看到，随着 AI 技術發展，機器人行業正越來越多地将模仿學習作爲底層原則。初代 Mobile ALOHA 機器人也許并不完美，但它一直在算法、技術和工程上努力嘗試，并且已經實現諸多令人驚喜的突破。

模仿學習靈巧性的上限是什麽，機器人能力的邊界在哪裏？他們希望 ALOHA 能成爲專業研發人員共同探索的開源平台，沿着這個方向，就會有更多可能被創造出來。