爲什麽機器人技術遠遠落後于 NLP、視覺和其他 AI 領域?除其他困難外,數據短缺是罪魁禍首。谷歌 DeepMind 聯合其他機構推出了 Open X-Embodiment 數據集,并訓練出了能力更強的 RT-X 模型。
在大模型不斷取得突破的 2023,把大模型當做大腦來輔助運行的具身智能機器人研究也在被迅速推進。
2 個多月前,谷歌 DeepMind 推出了第一個控制機器人的視覺 - 語言 - 動作(VLA)模型 —— RT-2。這個模型讓機器人不僅能解讀人類的複雜指令,還能看懂眼前的物體(即使這個物體之前從未見過),并按照指令采取動作。比如,你讓機器人拿起桌上「已滅絕的動物」。它會抓起眼前的恐龍玩偶。
當時,一位谷歌高管稱,RT-2 是機器人制造和編程方式的重大飛躍。「由于這一變化,我們不得不重新考慮我們的整個研究規劃了。」
更令人吃驚的是,時間僅僅過去了兩個多月,DeepMind 的這個機器人模型又進步了,而且一下就提高了兩倍。
這是怎麽實現的呢?
我們知道,機器人通常在做某一件事情上非常專業,但通用能力很差。一般情況下,你必須針對每項任務、每個機器人和環境訓練一個模型。改變一個變量往往需要從頭開始。但是,如果我們能将各種機器人學的知識結合起來,創造出一種訓練通用機器人的方法呢?
這就是 DeepMind 在過去一段時間所做的事情。他們彙集了來自 22 種不同機器人類型的數據,以創建 Open X-Embodiment 數據集,然後在之前的模型(RT-1 和 RT-2)的基礎上,訓練出了能力更強的 RT-X(分别爲 RT-1-X 和 RT-2-X)。
他們在五個不同的研究實驗室測試了 RT-1-X 模型,結果顯示,與針對每個機器人獨立開發的方法相比,新方法在五種不同的常用機器人中平均成功率提高了 50%。他們還表明,在上述數據集上訓練的 RT-2-X 在現實世界機器人技能上的表現提高了 2 倍,而且,通過學習新數據,RT-2-X 掌握了很多新技能。這項工作表明,在來自多個機器人類型數據上訓練的單個模型比在來自單個機器人類型數據上訓練的模型在多個機器人上的性能要好得多。
值得一提的是,這項研究并非由 DeepMind 獨立完成,而是他們與 33 家學術實驗室通力合作的結果。他們緻力于以開放和負責任的方式開發這項技術。
目前,Open X-Embodiment 數據集和 RT-1-X 模型檢查點已經對廣泛的研究社區開放。
英偉達高級人工智能科學家 Jim Fan 表示今天可能是機器人的 ImageNet 時刻。
谷歌研究員 Karol Hausman 也表達了同樣的感歎:機器人的 ImageNet 時刻終于到來了。
Open X-Embodiment 數據集,機器人的 ImageNet 時刻
數據集以及基于數據集訓練的模型在推進 AI 進步方面發揮了關鍵作用。正如 ImageNet 推動了計算機視覺的研究,Open X-Embodiment 同樣推動了機器人技術的發展。
一直以來,構建多樣化數據集是訓練通用模型的關鍵,這些訓練好的模型可以控制許多不同類型的機器人,遵循不同的指令,對複雜任務進行基本推理,并有效地進行泛化。然而,對于任何單個實驗室來說,收集這樣的數據集都過于耗費資源。
爲此,DeepMind 與 33 家機構的學術研究實驗室展開合作,從而構建了 Open X-Embodiment 數據集。他們從 22 個機器人實例中收集數據,這些數據涵蓋超過 100 萬個片段,展示了機器人 500 多項技能和在 150000 項任務上的表現。該數據集是同類中最全面的機器人數據集。
來自 Open X-Embodiment 數據集的樣本,包括 500 多種技能和 150000 個任務。
Open X-Embodiment 基本信息
RT-1-X:成功率提升 50%
RT-X 基于兩個 robotics transformer(RT)模型構建而成。
具體而言,他們使用 RT-1 訓練 RT-1-X,其中 RT-1 是建立在 Transformer 架構上的 35M 參數網絡,專爲機器人控制而設計,如圖 3 所示。
此外,他們還在 RT-2 上訓練 RT-2-X,其中 RT-2 是一系列大型視覺語言動作模型 ( VLA ) ,在互聯網規模的視覺和語言數據以及機器人控制數據上訓練而成。
爲了評估 RT-1-X,DeepMind 将其與在特定任務上(例如開門)開發的模型進行了比較。結果顯示,使用 Open X-Embodiment 數據集訓練的 RT-1-X 平均性能優于原始模型 50%。
RT-1-X 平均成功率比原始方法提高 50%。
來自不同合作機構的關于 RT-1-X 的效果展示
RT-2-X:無障礙解鎖新技能
爲了研究 RT-X 的知識遷移能力,DeepMind 又進行了其他實驗。這些實驗涉及 RT-2 數據集中不存在的對象和技能,但這些對象和技能存在于另一個機器人的數據集中。結果表明,在掌握新技能方面,RT-2-X 的成功率是其之前的最佳模型 RT-2 的三倍。這也說明了,與其他平台的數據進行聯合訓練可以爲 RT-2-X 賦予原始數據集中不存在的額外技能,使其能夠執行新穎的任務。
上圖展示了 RT-2-X 對物體之間空間關系的理解。
一系列結果表明,RT-2-X 實現了 RT-2 以前無法實現的技能,包括對空間更好的理解。例如,如果我們要求機器人「将蘋果移動到布料附近」、又或者要求機器人「将蘋果移動到布料上」,爲了實現目标要求,機器人會采取完全不同的軌迹。隻需将介詞從「near」更改爲「on」,就可以調整機器人采取的動作。
RT-2-X 表明,将其他機器人的數據結合到 RT-2-X 訓練中可以改善機器人的任務執行範圍,但前提是使用足夠高容量的架構。
RT-2-X ( 55B ) : 迄今爲止在學術實驗室執行未知任務的最大模型之一
研究啓發:機器人需要相互學習,研究人員也一樣
機器人研究正處于令人興奮的早期階段。DeepMind 的這項新研究表明,通過利用更多樣化的數據和更好的模型進行擴展學習,有可能開發出更有用的輔助機器人。與世界各地的實驗室合作并共享資源,對于以開放和負責任的方式推進機器人研究至關重要。DeepMind 希望通過開放數據源和提供安全但有限的模型來減少障礙,加快研究。機器人技術的未來有賴于機器人之間的相互學習,最重要的是,讓研究人員能夠相互學習。
這項工作證明,模型可以在不同環境下通用,無論是在谷歌 DeepMind 的機器人上,還是在世界各地不同大學的機器人上,其性能都得到了顯著提高。未來的研究可以探索如何将這些進步與 RoboCat 的自我完善特性相結合,使模型能夠根據自身經驗不斷改進。未來的另一個方向是進一步探索不同數據集的混合會如何影響跨具身智能體泛化,以及這種泛化是如何是實現的。
如果你想了解有關 RT-X 的更多信息,可以參考 DeepMind 發布的這篇論文。