十問Mobile ALOHA趙子豪：大模型究竟在如何“滲透”機器人

Mobile ALOHA 可能是很多人今天提到機器人時候，腦海中會立刻浮現出的那個産品。

不久前這個機器人翻炒大蝦、擦酒杯、收拾竈台的視頻，在中外社交平台上被廣泛轉發，出圈效果明顯，普通人似乎一下子看到了機器人直接進入自己日常生活的樣子。

這也帶來一些誤解，人們以爲這代表着機器人已經能 " 自主 " 完成這些任務，事實上，它是基于一種 " 模仿學習 " 的技術方案，也就是人類先遙控操作，機器人快速學習後再學會自主完成任務。

其實 Mobile ALOHA 是一個長期進行中的研究項目的一部分，它的基礎 ALOHA 全稱 "A Low-cost Open-source Hardware System（低成本開源硬件系統）"，而 Mobile ALOHA 是增加了移動能力的進化版本。

在團隊發布的論文中，除了對更低成本的硬件方案的探索，更重要是對模仿學習的不同策略做了研究，其中提出了基于 Transformer 的動作分塊算法 ACT（Action Chunking with Transformers）。它本質是一個端到端的策略：直接把現實世界的 RGB 圖像映射到動作，讓機器人從視覺輸入中學習和模仿，無需額外人工編碼的中間表示，并以動作分塊（Chunking）爲單元，預測并集成準确而平滑的動作軌迹。

這是一個大模型技術和思想 " 滲透 " 進機器人領域的典型代表。

而這種 " 滲透 " 正是今年機器人領域火熱的重要原因——從英偉達要 " 一次解決所有機器人模型問題 " 的 GEAR，到成立兩年就估值破 25 億美元的 " 機器人 OpenAI" Figure，機器人領域一個個大事件迅速發生。

今天回頭看，Mobile ALOHA 就像是這一切的一個預告。

在這個關鍵節點，我們和 Mobile ALOHA 背後的作者趙子豪做了一次對話，向他提了 10 個問題，想了解熱鬧之下 Mobile ALOHA 真正重要的意義和機器人今天所處的現狀。

趙子豪目前是斯坦福大學博士生和 Google DeepMind 兼職研究員，研究重點是端到端的精細機器人操控。他也曾在特斯拉自動駕駛部門和 Google X 實習。

以下。

爲什麽最近機器人領域突然火熱了起來，GEAR，Figure，都是大事件，包括 Mobile ALOHA，從業内人士來看，是因爲哪些具體的技術能力出現了突破麽？比如你分享中提到的通用可解釋的表示上的突破？這些突破如何發生的？還是更多是因爲 AI 的熱潮溢出到了機器人領域？趙子豪：現階段 manipulation 一個很大的突破在模仿學習 - 去年的 Diffusion Policy, ALOHA/ACT 是比較有代表性的工作。突破點在于（1）學界有了收集高質量數據的方法（2）發現 generative modeling techniques 在機器人領域能 work 的很好。同時在 locomotion 領域 sim2real 也有了非常大的進展。總的來說我會覺得 AI 的進步啓發了機器人的進步。

在 AI 領域目前還有 LLM 和世界模型的路線之争，有 Transformer 和 Diffusion 的潛在的争奪與融合，在機器人領域有哪些主流的技術路線和方案？你更傾向哪一條路線？趙子豪：機器人領域有比較傳統的感知 + 規劃 , 也有比較激進的 end-to-end learning。舉個例子特斯拉 FSD v12 之前是傳統做法，之後是 end-to-end。我傾向 end-to-end imitation for manipulation, end-to-end RL sim2real for locomotion。

很多人形容 AI 越來越像是一個 " 用不同新名詞描述同一個舊概念 " 的遊戲，機器人領域似乎也有這樣的現象，" 具身智能 "，" 通用智能體 "，" 基礎智能體 " 等時髦的概念出現，但機器人技術的演進是有自己的曆史和基礎理論的，這是否會帶來影響？事實上今天機器人技術主要在解決和攻克哪些問題？趙子豪：其實這些都不是新名詞，一直有人在用。我覺得有意思的點是這些名詞更突出 " 智能 "，而不是 " 機器 "。這其實是機器人技術社區一個觀念上的轉變，大家意識到 " 智能 " 可能比去 design a task-specific end-effector 更加重要。

看到你的個人簡介裏寫着對 startup 感興趣，而你同時也在谷歌和特斯拉這樣的大廠工作過，你認爲機器人領域還會有自己的 "OpenAI" 麽，還是最終會由大廠主導？尤其是最近從英偉達到 Figure 都體現出來明顯的資源和資本的聚攏，初創公司還有機會麽。趙子豪：我相信任何領域永遠都有創業公司的機會。Startups can be nimble, focused, and fast-executing.

Mobile ALOHA 最重要的意義是低成本，還是它體現出來的處理現實世界數據的雛形，還是一個可以适配不同的模仿學習算法的底層系統平台？趙子豪：Mobile ALOHA 是一個 proof-of-concept home robot, 設計初衷是研究平台。對我來說它的意義在于 ( 1 ) 證明 imitation learning 在 mobile manipulation 的可行性 ( 2 ) 開源軟硬件促進接下來的算法研究。

ACT 把預測的基本元素定爲 Chunk，這讓人想到 transformer 的 token、和最近因爲 Sora 而火了的 patch，這種對智能的最基本單元的理解和定義，會對技術探索帶來多大的不同？這是否也是你們研究時思考的一個重點。趙子豪：這個問題感覺有點 apples to oranges。（我：哈哈哈問了一個 apple to orange 的外行問題。趙子豪：沒事兒～别的問題都很好。）

Mobile ALOHA 的相關研究都給我一種感覺，就是你們追求盡可能的簡潔。這是因爲現在機器人的相關技術到了收斂的階段，還是你們想要先提供一個更簡潔的樣本給技術社區？趙子豪：我非常信奉 Elon 的 "The best part is no part"，和 Richard Sutton 的 bitter lesson。最能利用數據 / 計算的算法往往是簡潔的。語言建模裏的 next-token-prediction 是一個很好的例子。當然，去真正産品化 Mobile ALOHA 還是會需要很多工程細節 . 這篇論文隻是一個雛形。

從 Mobile ALOHA 來看，機器人的數據收集和動作訓練學習，以及動作執行是不是基本上是同時進行的？你提到訓練數據現在是個難題，過往自動駕駛使用大量模拟數據，今天各種大模型訓練裏也開始讨論合成數據的可行性，這些對解決機器人的訓練數據問題有什麽啓發？趙子豪：從數據收集到部署需要幾個小時的模型訓練時間。模拟器 sim2real 對于 locomotion 已經有了很大的幫助，但對于模拟 contact-rich，deformable object manipulation 仍然需要模拟器上的進步。

接下來你最期待的機器人領域或者泛人工智能領域的技術突破是什麽？趙子豪：期待一個和 state-of-the-art 相似的 open-source vision language model. 這對于學界機器人研究會有很大幫助。

你自己接下來有什麽計劃，有什麽可以提前劇透的麽趙子豪：模仿學習在靈巧性的上限非常高，請期待接下來更多在 ALOHA 上的工作！