CMU華人18萬打造高能機器人，完爆斯坦福炒蝦機器人

比斯坦福炒蝦機器人還厲害的機器人來了！

最近，CMU 的研究者隻花費 2.5 萬美元，就打造出一個在開放世界中可以自适應移動操作鉸接對象的機器人。

論文地址：https://arxiv.org/abs/2401.14403

厲害之處就在于，它是完全自主完成操作的。

看，這個機器人能自己打開各式各樣的門。

無論是需要按一下把手才能打開的門。

需要推開的門。

透明的彈簧門。

甚至是昏暗環境中的門。

它還能自己打開櫥櫃。

打開抽屜。

自己打開冰箱。

甚至，它的技能推廣到訓練以外的場景。

結果發現，一個小時内，機器人學會打開 20 個從未見過的門，成功率從行爲克隆預訓練的 50%，飙升到在線自适應的 95%。

即使眼前是一個它從未見過的門，這個優秀的小機器人也順利打開了！

英偉達高級科學家 Jim Fan 表示：

斯坦福的 ALOHA 雖然令人印象深刻，但很多動作都需要人類協同控制，但這個機器人，則是完全自主完成的一系列操作。

它背後的核心思想，就是在測試時進行 RL，使用 CLIP（或任何視覺語言模型）作爲學習的獎勵函數。

這樣，就像 ChatGPT 用 RLHF 進行預訓練一樣，機器人可以對人類收集的軌迹進行預訓練（通過遠程控制），然後通過新場景進行 RLHF，這樣就掌握了訓練以外的技能。

這項工作一經發布，立刻獲得了同行們的肯定。

「恭喜！這是将機械臂帶出實驗室的好裝置。」

「太令人激動了，讓機器人在線學習技能前景巨大！」

「如此便宜的定制硬件，會讓移動操作變得瘋狂。」

「永遠不要惹一個機器人，它已經學會開門了。」

讓我們具體看看，這個機器人是如何完成未見過的開門任務。

機器人自适應學習，性能暴漲至 90%

當前多數機器人移動操作，僅限于拾取 - 移動 - 放置的任務。

由于多種原因，在「開放世界」中開發和部署，能夠處理看不見的物體機器人系統具有極大的挑戰性。

針對學習「通用移動操作」的挑戰，研究人員将研究重點放在一類有限的問題——涉及鉸接式物體的操作，比如開放世界中的門、抽屜、冰箱或櫥櫃。

别看，開門、打開抽屜、冰箱這種日常生活中的操作對于每個人來說，甚至小孩子來說輕而易舉，卻是機器人的一大挑戰。

對此，CMU 研究人員提出了「全棧」的方法來解決以上問題。

爲了有效地操縱開放世界中的物體，研究中采用了「自适應學習」的框架，機器人不斷從交互中收集在線樣本進行學習。

這樣一來，即使機器人遇到了，不同鉸接模式或不同物理參數（因重量或摩擦力不同）的新門，也可以通過交互學習實現自适應。

爲了實現高效學習，研究人員使用一種結構化的分層動作空間。它使用固定的高級動作策略和可學習的低層控制參數。

使用這種動作空間，研究人員通過各種遠程操作演示的數據集，初始化了策略（BC）。這爲探索提供了一個強有力的先驗，并降低了執行不安全動作的可能性。

成本僅 2.5 萬美金

此前，斯坦福團隊在打造 Mobile ALOHA 的所有成本用了 3 萬美元。

而這次，CMU 團隊能夠以更便宜的成本—— 2.5 萬美元（約 18 萬元），打造了一台在通用世界使用的機器人。

如下圖 3 所示，展示了機器人硬件系統的不同組件。

研究人員選用了 AgileX 的 Ranger Mini 2 底座，因其具有穩定性，全向速度控制，和高負載稱爲最佳選擇。

爲了使這樣的系統有效，能夠有效學習至關重要，因爲收集現實世界樣本的成本很高。

使用的移動機械手臂如圖所示。

手臂采用了 xArm 進行操作，有效負載爲 5 公斤，成本較低，可供研究實驗室廣泛使用。

CMU 機器人系統使用了 Jetson 計算機來支持傳感器、底座、手臂，以及托管 LLM 的服務器之間的實時通信。

對于實驗數據的收集，是通過安裝在框架上的 D435 IntelRealsense 攝像頭來收集 RGBD 圖像，并使用 T265 Intel Realsense 攝像頭來提供視覺裏程計，這對于在執行 RL 試驗時重置機器人至關重要。

另外，機器人抓手還配備了 3D 打印抓手和防滑帶，以确保安全穩定的抓握。

研究人員還将創建的模塊化平台的關鍵方面，與其他移動操縱平台進行比較。

看得出，CMU 的機器人系統不論是在手臂負載力，還是移動自由度、全向驅動的底座、成本等方面具有明顯的優勢。

機器人成本

機械臂成本

原始實現

參數化原始動作空間的實現細節如下。

抓取

爲了實現這個動作，對于從實感相機獲得的場景 RGBD 圖像，研究者使用現成的視覺模型，僅僅給出文本提示，就能獲取門和把手的掩碼。

此外，由于門是一個平面，因此可以使用相應的掩碼和深度圖像，來估計門的表面法線。

這就可以将底座移動到靠近門的地方，使其垂直，并設置抓握把手的方向角度。

使用相機校準，将把手的 2D 掩碼中心投影到 3D 坐标，這就是标記的抓取位置。

原始抓取的低級控制參數，會指示要抓取位置的偏移量。

這是十分有益的，因爲根據把手的類型，機器人可能需要到達稍微不同的位置，通過低級連續值參數，就可以來學習這一點。

約束移動操縱

對于機器人手臂末端執行器和機器人底座，研究者使用了速度控制。

通過在 SE2 平面中的 6dof 臂和 3dof 運動，他們創建了一個 9 維向量。

其中前 6 個維度對應手臂的控制，後三個維度對應底座。

研究者使用原始數據，對該空間施加了如下約束——

在控制機器人時，策略會輸出與要執行的原始數據相對應的索引，以及運動的相應低級參數。

低級控制命令的值從 -1 到 1 連續，并且會在一段固定的持續時間内執行。

參數的符号決定了速度控制的方向，順時針或逆時針用于解鎖和旋轉，向前或向後用于打開物體。

預訓練數據集

在這個項目中考慮的鉸接物體，由三個剛性部分組成 : 底座部分、框架部分和手柄部分。

其中包括門、櫥櫃、抽屜和冰箱等物體。

它們的底座和框架通過旋轉接頭 ( 如在櫥櫃中 ) 或棱柱接頭 ( 如在抽屜中 ) 連接。框架通過旋轉接頭或固定接頭連接到手柄。

因此，研究者确定了鉸接物體的四種主要類型，分類取決于與手柄的類型和關節機構。

手柄關節通常包括杠杆 ( A 型 ) 和旋鈕 ( B 型 ) 。

對于手柄沒有鉸接的情況，主體框架可以使用旋轉接頭 ( C 型 ) 繞鉸鏈旋轉，或者沿着柱接頭 ( 例如抽屜 ) 前後滑動 ( D 型 ) 。

雖然并不詳盡，但可以說這四種分類基本涵蓋了機器人系統可能遇到的各種日常鉸接物體。

然而，總還有機器人看不到的新型鉸接物體，爲了提供操作這些新型鉸接物體的泛化優勢，研究者首先收集了離線演示數據集。

在 BC 訓練數據集中，包含了每個類别的 3 個對象，研究者爲每個對象收集 10 個演示，總共生成 120 個軌迹。

此外，研究者還爲每個類别保留了 2 個測試對象，用于泛化實驗。

訓練和測試對象在視覺外觀 ( 例如紋理、顔色 ) 、物理動力學 ( 例如彈簧加載 ) 和驅動 ( 例如手柄關節可能是順時針或逆時針 ) 方面存在顯着差異。

在圖 4 中，包含了訓練和測試集中使用的所有對象的可視化，以及它們來自集合的哪個部分，如圖 5 所示。

自主安全的在線自适應

在這項工作中，研究者們面臨的最大挑戰就在于，如何使用不屬于 BC 訓練集的新對象進行操作？

爲了解決這個問題，他們開發了一個能夠完全自主強化學習 ( RL ) 在線适應的系統。

安全意識探索

确保機器人所采取的探索動作對其硬件來說是安全的，這一點至關重要，特别是它是在關節約束下與物體交互的。

理想情況下，機器人應該可以解決動态任務，比如使用不同力量控制開門。

然而，研究者使用的 xarm-6 這種低成本手臂，不支持精确的力感應。

因此，爲了部署系統，研究者使用了基于在線采樣期間讀取聯合電流的安全機制。

如果機器人采樣到導緻關節電流達到阈值的動作，該事件就會終止，并重置機器人，以防止手臂可能會損害到自身，并且會提供負面獎勵，來抑制此類行爲。

獎勵規範

在實驗中，人類操作員會給機器人提供獎勵。

如果機器人成功開門，則獎勵 +1，如果失敗則獎勵 0，如果存在安全違規則獎勵 -1。

這種獎勵機制是可行的，因爲系統隻需要很少的樣本來學習。

然而，對于自主學習，研究者希望消除依賴人類出現在循環中的瓶頸。

在這種情況下，他們研究了使用大型視覺語言模型作爲獎勵來源的辦法。

具體來說，他們使用 CLIP 來計算兩個文本提示與機器人執行後觀察到的圖像之間的相似度得分。

研究者使用的兩個提示是「門已關閉」和「門已打開」，他們會計算最終觀察到的圖像和每個提示的相似度得分。

如果圖像更接近指示門打開的提示，則分配獎勵 +1，否則分配獎勵 0。如果觸發安全保護，獎勵爲 -1。

複位機制

在這個過程中，機器人會采用視覺裏程計，利用安裝在其底座上的 T265 跟蹤攝像頭，使其能夠導航回初始位置。

每次行動結束時，機器人會放開抓手，并移回原來的 SE2 基地位置，并拍攝 If 的圖像以用于計算獎勵。

然後，研究者對 SE2 基地位置進行随機擾動，以便策略變得更加穩健。

此外，如果獎勵爲 1，門被打開時，機器人就會有一個腳本例程，來把門關上。

實驗結果

研究人員在 CMU 校園内四棟不同建築中（12 個訓練對象和 8 個測試對象），對全新架構加持的機器人系統進行了廣泛的研究。

具體回答了以下幾個問題：

1）系統能否通過跨不同對象類别的在線自适應，來提高未見過對象的性能？

2）這與僅在提供的演示中，使用模仿學習相比如何？

3）可以使用現成的視覺語言模型自動提供獎勵嗎？

4）硬件設計與其他平台相比如何？（硬件部分已進行了比較）

在線自适應

a. 不同物體類别評估

研究人員在 4 個類别的固定銜接物體上，對最新的方法進行了評估。

如下圖 6 所示，呈現了從行爲克隆初始策略開始，利用在線交互進行 5 次叠代微調的持續适應性能。

每次改進叠代包括 5 次策略 rollout，之後使用等式 5 中的損失對模型進行更新。

可以看到，最新方法将所有對象的平均成功率從 50% 提高到 95%。因此，通過在線交互樣本不斷學習能夠克服初始行爲克隆策略的有限泛化能力。

自适應學習過程能夠從獲得高獎勵的軌迹中學習，然後改變其行爲，更頻繁地獲得更高的獎勵。

在 BC 策略性能尚可的情況下，比如平均成功率約爲 70% 的 C 類和 D 類對象，RL 能夠将策略完善到 100% 的性能。

此外，即使初始策略幾乎無法執行任務，強化學習也能夠學習如何操作對象。這從 A 類實驗中可以看出，模仿學習策略的成功率非常低，隻有 10%，完全無法打開兩扇門中的一扇。

通過不斷的練習，RL 的平均成功率可以達到 90%。

這表明，RL 可以從模仿數據集中探索出可能不在分布範圍内的動作，并從中學習，讓機器人學會如何操作未見過的新穎的鉸接物體。

b. Action-replay 基線

還有另一種非常簡單的方法，可以利用演示數據集在新對象上執行任務。

研究團隊針對 2 個特别難以進行行爲克隆的對象（A 類和 B 類各一個（按壓杠杆和旋鈕手柄）運行了這一基線。

這裏，采取了開環和閉環兩種方式對這一基線進行評估。

在前一種情況下，隻使用第一張觀察到的圖像進行比較，并執行整個檢索到的動作序列；而在後一種情況下，每一步執行後都會搜索最近的鄰居，并執行相應的動作。

從表 3 中可以看出，這種方法非常無效，進一步凸顯了實驗中訓練對象和測試對象之間的分布差距。

c. 通過 VLM 自主獎勵

CMU 團隊還研究是否可以通過自動程序來提供獎勵，從而取代人工操作。

正如 Action-replay 基線一樣，研究人員在兩個測試門上對此進行評估，每個門都從把手和旋鈕類别進行評估。

從表 2 中，使用 VLM 獎勵的在線自适應性能與使用人類标注的地面實況獎勵相近，平均爲 80%，而使用人類标注的獎勵則爲 90%。

另外，研究人員還在圖 7 中報告了每次訓練叠代後的性能。學習循環中不再需要人類操作員，這爲自主訓練和改進提供了可能性。

爲了成功操作各種門，機器人需要足夠堅固才能打開并穿過它們。

研究人員根據經驗與另一種流行的移動操縱系統進行比較，即 Stretch RE1（Hello Robot）。

他們測試機器人由人類專家遠程操作，以打開不同類别的兩扇門的能力，特别是杠杆門和旋鈕門。每個物體都進行了 5 次試驗。

如表 IV 所示，這些試驗的結果揭示了 Stretch RE1 的一個重大局限性：即使由專家操作，其有效負載能力也不足以打開真正的門，而 CMU 提出的 AI 系統在所有試驗中都取得了成功。

總而言之，CMU 團隊在這篇文章中提出了一個全棧系統，用于在開放世界中進行進行自适應學習，以操作各種鉸接式物體，例如門、冰箱、櫥櫃和抽屜。

最新 AI 系統通過使用高度結構化的動作空間，能夠從很少的在線樣本中學習。通過一些訓練對象的演示數據集進一步構建探索空間。

CMU 提出的方法能夠将來自 4 個不同對象類别中，8 個不可見對象的性能提高約 50%-95%。

值得一提的是，研究還發現這一系統還可以在無需人工幹預的情況下通過 VLM 的獎勵進行學習。