伯克利團隊發布最新論文，用訓練GPT的方法訓練人形機器人

圖片來源 @視覺中國

文 | 甲子光年科技産業智庫，作者｜劉楊楠，編輯｜趙健

一台人形機器人在人行道、混凝土、瀝青、廣場和沙路上 " 散步 "，這不是科幻電影的場景，而是已經發生在舊金山街頭的真實事件。

這一人形機器人項目也引起了 Sora 團隊的注意。

" 不可思議的成果！"Sora 負責人之一 Bill Peebles 在 X 轉發了這條内容，難掩驚訝。另一位核心作者 Tim Brooks 也評論道："Ilija Radosavovic 的驚人成果把 AI 帶入了真實世界。"

Ilija Radosavovic（伊利亞 · 拉多薩沃維奇）是該人形機器人項目的負責人之一，他是加州大學伯克利分校博士生，曾在 Meta 的 AI 實驗室 FAIR 做研究工程師。

這篇論文名爲《Humanoid Locomotion as Next Token Prediction》。Ilija Radosavovic 表示，論文的核心思想，就是把 OpenAI 訓練 ChatGPT 時所用到的 " 預測下一個 token" 的思路，用在人形機器人的運動控制中。

這被稱爲 " 自回歸生成式 " 路線，最大的特色是可以根據 "Scaling Law" ——擴大模型的參數、數據、算力來提升模型的效果，也被稱爲 " 暴力美學 "。不過，對于 " 暴力美學 " 的前景，目前在業内存在一定的争議。

目前來看，Scaling Law 已經先後突破了文本生成和視頻生成，接下來又會突破人形機器人的運動控制嗎？

" 暴力美學 " 解鎖人形機器人？

這篇論文中，作者提出的核心問題是：

過去十年，深度學習浪潮下，大型神經網絡已經在互聯網多樣化的數據集上有了大量訓練成果，我們能否以類似的方式來學習強化大的感官和運動表示模型？

回溯機器人的發展曆程，傳統機器人的運動高度依賴于人工輸入準确的預測接觸點和執行器方向等信息。" 拿杯子 " 這個動作對人類而言看似簡單，但對機器人而言卻是一個 " 大工程 "。人類需要拆解動作，再告訴機器人每一個動作的具體細節，像這個動作的起點在哪裏、手臂要如何移動等。

這種方法帶來的問題是，機器人隻能在人類規定的路徑中較好地運動和控制肢體動作，但跳出模拟世界後，機器人在真實世界就手足無措了，這個問題可簡單歸類到學術領域所讨論的 " 泛化性 " 較差，不夠通用等問題。

不隻機器人，在人工智能符号主義學派的研究中，" 泛化性 " 也是一個老大難的問題。而 OpenAI 發布的 ChatGPT 之所以驚豔，有一個核心原因就是其用暴力美學——疊加大量數據、算力、參數量，就讓模型對新事物表現出了泛化性極佳的 " 智能湧現 "。

如今，Ilija Radosavovic 團隊試圖借鑒 OpenAI 在語言領域的做法，将現實世界中的仿人機器人控制視爲一個 " 下一個 token 預測 " 問題，類似于語言中預測下一個單詞，來實現人形機器人的運動控制。

該模型是一個通過自回歸預測訓練的 causal transformer（因果轉換器）。

由于訓練數據的多模态特性，該研究以模态對齊的方式進行預測，對于每個輸 token，模型能夠預測相同模态的下一個 token。這個方法讓模型更加通用，能夠利用缺失模态的數據，比如沒有動作的視頻軌迹。

在視頻中，一個仿人形的雙足機器人已經實現 " 零樣本學習 "，正在舊金山 " 閑逛 "。

該模型即使隻在 27 小時的行走數據上訓練，也能轉移到現實世界，并且能夠泛化到訓練期間未見過的命令，比如向後行走。這些發現爲通過生成模型學習具有挑戰性的現實世界控制任務提供了一個有希望的路徑。

仿人運動作爲下一個标記預測

該研究将現實世界中的仿人控制視爲一個大型傳感器運動軌迹數據建模問題。

與語言類似，研究人員訓練了一個通用的 Transformer 模型來自回歸地預測移位的輸入序列。與語言不同，機器人數據是高維的，包含多個感官模态和動作。

研究人員将輸入軌迹 token 化，并訓練一個 causal transformer（因果轉換器）模型來預測移位的标記（shifted token）。

重要的是，模型能夠預測完整的輸入序列，包括感官和動作标記。該團隊是在建模聯合數據分布，而不是條件動作分布。

收集軌迹數據集，通過自回歸預測訓練 Transformer 模型，并将其部署在舊金山零樣本中

一個通用的缺失數據處理框架

該研究假設每個軌迹都是觀察和動作的序列，論文展示了該模型如何泛化到具有缺失模态的序列，比如從沒有動作的人類視頻中提取的軌迹。

假設已經獲取一個沒有動作的觀察軌迹，該團隊的關鍵洞察是，可以将沒有動作的軌迹視爲帶有動作遮蔽的常規軌迹。這個軌迹具有與常規動作軌迹相同的格式，因此可以統一處理。該方法忽略了對應于輸入遮蔽部分的預測的損失。

該方法能夠統一地利用有或沒有動作的軌迹

構建軌迹數據集

該團隊構建了一個軌迹數據集用于訓練模型，有四大數據來源：先前的神經網絡策略，基于模型的控制器，人類運動捕捉，以及 YouTube 上的人類視頻。

不同數據源的插圖如下：

該團隊構建了一個來自四個不同來源的軌迹數據集

不同來源的數據會提供不同維度的信息：

按照上述策略訓練的機器人已經可以行走在不同的表面上，包括人行道、混凝土、瀝青、廣場和沙土路。

有沒有實現 Scaling Law？

論文中也提到了 "Scaling"（擴展或縮放）相關的内容，提到模型性能會随着訓練數據集的大小、上下文長度以及模型大小的增加而變化。

作者們發現，使用更多軌迹進行訓練可以減少位置跟蹤誤差，這是一個積極的信号，表明在更大的數據集上訓練可以提高性能。

他們還研究了在 Transformer 的上下文窗口中使用不同數量的 tokens 對模型性能的影響。結果表明，更大的上下文窗口可以産生更好的策略，這表明生成策略在規模上進行一種上下文适應，随着規模的增加而改善。

此外，在參數規模方面，研究結果顯示，跟蹤誤差随着模型參數規模增大而逐漸減少。

這些擴展研究的結果均表明，人形機器人模型可以從更大規模的數據集、更長的上下文窗口以及更大的模型中受益。

人形機器人風暴‍

人形機器人正在矽谷刮起風暴，包括 OpenAI、英偉達在内的科技巨頭都在積極布局。

2024 年 2 月 24 日，英偉達宣布成立通用智能體研究實驗室（GEAR）。

GEAR 由英偉達高級科學家 Jim Fan 博士和 Yuke Zhu 教授領導，旨在虛拟和現實世界中構建具身智能體基礎模型。GEAR 的研究議程分爲四個方面：

（1）多模态基礎模型

（2）通用機器人

（3）虛拟世界中的基礎智能體

（4）模拟和仿真數據的研究。

英偉達 CEO 黃仁勳近日在采訪中表示，機器人基礎模型可能即将出現，或許是明年，" 從那時起，五年後，将看到一些非常令人驚奇的事情 "。

Jim Fan 也表示：" 我們相信，在未來，每一台移動的機器都将是自主的，機器人和模拟智能體将像 iPhone 一樣無處不在。我們正在構建基礎智能體：一個具有通用能力的 AI，可以在許多虛拟和現實的世界中學習如何熟練地行動。"

同時，英偉達也開始通過投資延展其在人形機器人領域的觸角。

2 月 29 日，開發通用人形機器人的 AI 機器人公司 Figure AI 宣布，已在 B 輪融資中籌集了 6.75 億美元，估值爲 26 億美元，投資方包括微軟、OpenAI Startup Fund、NVIDIA、Jeff Bezos（通過 Bezos Expeditions）、Parkway Venture Capital、Intel Capital、Align Ventures 和 ARK Invest。

Figure AI 成立于 2022 年，去年 5 月完成 Parkway Venture Capital 領投的 7000 萬美元融資；兩個月後，又獲英特爾 900 萬美元投資。

從融資情況來看，這家成立僅一年多的機器人公司已經成爲矽谷創投圈一顆搶手的新星。此次，英偉達和 OpenAI 同時加碼，再一次印證了 Figure AI 的火爆。

Figure AI 同樣是一家野心勃勃的公司。"Figure AI 的願景是盡快将人形機器人引入商業運營，" 該初創公司創始人兼首席執行官布雷特 · 阿德科克 ( Brett Adcock ) 在最新一輪融資的聲明中表示。

除投資外，Figure AI 和 OpenAI 還達成了一項合作協議。此次合作旨在通過增強人形機器人處理和推理語言的能力，幫助加快 Figure AI 的商業化進程。

布雷特 · 阿德科克表示，Figure AI 開發的人工智能模型将基于 OpenAI 最新的 GPT 模型，并根據 Figure AI 收集的機器人動作數據進行專門訓練，以便其人形機器人能夠與人交談、看到事物并執行物理任務。

合作消息公布後，OpenAI CEO Greg Brokman 也在 X 上轉發表示，OpenAI 正在将多模态模型拓展到機器人上。

OpenAI 産品和合作夥伴關系副總裁 Peter Welinder 表示：" 我們一直計劃回歸機器人技術，我們通過 Figure AI 看到了一條探索人形機器人在高性能多模式模型支持下可以實現的目标的道路。"

早在 2022 年，OpenAI 便開始在人形機器人領域有所動作。OpenAI 曾投資一家挪威類人機器人公司 1X Technologies，雙方于 2022 年達成合作，使用 AI 模型爲機器人添加智能。去年 3 月，1X Technologies 獲得了由 OpenAI 創業基金領投的 2350 萬美元融資。

今年年初，1X Technologies 完成超 1 億美元的 B 輪融資，EQT Ventures、三星 NEXT、Nistad 集團、Sandwater、Skagerak Capital 等參投。

在國内，也陸續有團隊試圖将 LLM 與機器人控制相融合。

此前，「甲子光年」獨家獲悉，北京大學前沿計算機研究中心助理教授、博士生導師董豪團隊發布的最新具身大模型研究成果—— ManipLLM 的論文已被計算機視覺領域頂會 CVPR 2024 接收。

" 我們的大模型重點是爲了解決可泛化的物體操作。" 董豪告訴「甲子光年」。簡單來說，ManipLLM 能讓機械臂等機器人聽懂人下達的任務命令，并根據其看到的圖像，做出相應的動作完成任務。

同時，國内人形機器人領域的融資消息也接連不斷。1 月，星動紀元獲得超億元天使輪融資；2 月，宇樹科技拿下近 10 億元 B2 輪融資，刷新賽道紀錄。

不過，長久以來，人形機器人似乎一直都是 " 概念的高地，落地的窪地 " ——一邊是技術暢想高舉高打，一邊是産業落地上無聲無息。人們印象中關于人形機器人的畫面，似乎就是在全球各大高校的實驗室裏奔跑、跳躍、翻跟頭、搬箱子 ......

某種意義上，" 落地難 " 似乎成爲這條賽道所有創業者的 " 原罪 "。

歸根結底，人形機器人雖然乘着大模型、具身智能的新浪潮一路繁花似錦，但真正從實驗室走向産線的過程中，人形機器人依然逃不過減速器、執行器、電機等機械結構的掣肘。機械結構的叠代并不遵守 " 摩爾定律 " 和 Scaling law，更多是緩慢的線性變化。

不過，作爲人工智能在現實世界的終極體現，人形機器人的未來依然值得期待，正如 Figure AI 所說：

" 我們公司的征程将需要幾十年的時間，我們面臨着很高的風險和極低的成功機會。然而，如果我們成功了，我們有可能對人類産生積極影響，并建立地球上最大的公司。"