與 OpenAI 官宣「分手」後,人形機器人公司 Figure 在 X 平台放出狂言,宣稱其内部 AI 模型取得重大突破,将在接下來的 30 天内展示前所未見的創新成果。
這一天的到來沒有讓我們等太久,Figure 深夜正式發布通用具身智能模型 Helix。
Figure 創始人 Brett Adcock 在 X 平台發文稱,Helix 團隊的目标是攻克通用機器人技術——讓每個家庭都能擁有一台機器人,雖然還有很長的路要走,但目前的成果已經初見成效。

「介紹 Helix,我們最新的 AI,它的思維方式更接近人類。要讓機器人真正走進家庭,我們需要能力上的巨大飛躍。Helix 能夠适應并操作任何家居物品。」
具體來說,Helix 是一種通用的視覺 - 語言 - 行動(VLA)模型,它融合了感知、語言理解和學習控制能力,旨在解決機器人技術中長期存在的多個難題。
按照 Figure 的說法,Helix 在多個方面實現了行業首創:
Helix 是首個能夠對整個人形機器人上半身進行高速連續控制的 VLA,包括手腕、軀幹、頭部以及單個手指。
Helix 是首個能夠同時運行在兩台機器人上的 VLA,使它們能夠協作完成一個共享的長時任務,即便面對的是從未見過的物品。
配備 Helix 的 Figure 機器人現在幾乎可以拾取任何小型家用物品,包括成千上萬種它們以前從未接觸過的物品,隻需遵循自然語言指令即可完成操作。
與以往的方法不同,Helix 僅使用一組神經網絡權重來學習所有行爲——從拾取和放置物品,到使用抽屜和冰箱,再到跨機器人交互——無需針對特定任務進行額外微調。
Helix 是首個完全運行在嵌入式低功耗 GPU 上的 VLA,意味着它已具備直接商業化部署的能力。
>比技術報告更直擊人心當屬 Figure 官方發布的演示視頻。
還是熟悉的家庭場景,畫面中的男人三言兩語就給兩個 Figure 02 機器人交代了任務——運用 Helix AI 模型,推理眼前這些第一次看到的物品所屬的位置,然後協作收拾好。
這對機器人搭檔收拾家務主打一個行雲流水,當機器人遞過來一個蘋果,另一個機器人秒 Get 同伴的心思,主動遞過去一個黑色大碗,搭配暗黑色調,賽博朋克風格拉滿。

分類冷藏,這對機器人搭檔分工明确,配合默契,整理完還不忘關上冰箱門,比一些真人室友還要靠譜。

一個遞,一個放,手腳相當麻利。

腦子也很靈活,讓其撿起眼前「沙漠物品」,它二話不說就能在衆多物品中準确揀出仙人掌玩偶。

一些 X 網友甚至将這一成果比作「人形機器人領域的 iPhone 時刻」。

雖然這種評價有些誇大其詞,但 Helix 确實解決了家用機器人領域長期以來的一個核心難題,在理想的家庭場景中,你可以簡單地告訴機器人做某事,它就會去做。
但與标準化的工業環境不同,家庭場景複雜多變,衣物可能皺皺巴巴地散落在各處,餐具可能有着不同的形狀和材質,甚至每天都會出現全新的物品,這對家庭機器人的适應能力提出了極高的要求。

傳統的解決方案往往需要投入大量資源。一種是請博士級專家花費大量時間爲每個具體任務編寫專門的程序;另一種是通過數千次反複示範來訓練機器人學習特定動作。
顯而易見,這些方法不僅耗時費力,而且成本高昂,難以在家用機器人領域大規模普及。基于此,Figure 團隊提出了一個新的解題思路。

既然 AI 在圖像識别、語言理解等領域已經展現出強大的學習能力和即時泛化能力,那爲什麽不利用視覺語言模型(VLM)中積累的豐富語義知識來指導機器人行爲,特别是這些模型通過對互聯網大規模數據的學習,已經積累了大量關于物體、場景和行爲的常識性知識。
點子有了,但路還沒有走通。
如何從 VLM 中提取這些常識性知識,并将其轉化爲可泛化的機器人控制?而這正是打造 Helix 的核心目标——讓機器人能真正理解和執行各種複雜任務,使其具備更強的适應能力。
與傳統機器人系統相比,Helix 最大的優勢在于無需繁瑣的任務演示或複雜的編程,就能自主完成從簡單的物品抓取到複雜的協作任務等多樣化操作。
作爲評價機器人智能水平的關鍵指标,機器人能否自主處理未見過的場景和物品,将決定其實用價值。
憑借強大的泛化能力,Figure 機器人能夠通過自然語言指令,識别和操作數千種不同形狀、大小、顔色和材質的家居用品,即使是從未見過的物品也能準确處理。

技術層面上,Helix 的運作依賴于兩個緊密配合的系統。一個是負責高層語義理解的 System 2(S2,7B 參數),另一個是負責實時控制的 System 1(S1,80M 參數)。
用更通俗的話來說,S2 負責「思考」,S1 負責「行動」。其中,S2 系統以 7-9Hz 的頻率運行,持續處理機器人攝像頭拍攝的畫面和接收到的語言指令,将其轉化爲機器人可以理解的行爲指令。
而 S1 系統則以 200Hz 高頻率運行,基于 S2 的指令和實時環境數據,精确控制機器人的每個動作。
爲了支持這種高效運算,每台配備 Helix 的 Figure 機器人都裝有雙低功耗嵌入式 GPU,通過高效的并行計算實現流暢的控制效果。

在實際應用場景中,Figure 02 不僅能精确控制每一個手指的動作、手臂的運動軌迹、頭部的轉向和身體姿态,更重要的是實現了實時整體協調效果。
執行任務時,Figure 02 機器人能像人類一樣自然地移動雙手,同時調整頭部和身體位置,以獲得最佳的操作視角和活動範圍。
據 Figure 官方介紹,這種全身協調的精準控制在機器人領域是一個重大突破,因爲身體各部位的移動會相互影響,形成複雜的連鎖反應,傳統技術往往很難解決這個問題。
Helix 的另一個重大突破則是實現了真正的多機器人協作。
在測試中,兩台 Figure 機器人共享同一套模型權重,無需爲每台機器人單獨訓練或進行多階段訓練,僅通過簡單的語言指令就能默契配合。
比如,當系統收到「把餅幹袋遞給右邊的機器人」,接着「将餅幹袋放入抽屜」這樣的連續指令時,兩台機器人能完美配合完成任務,即使是首次遇到的物品也能手拿把掐。

降低訓練成本是推動機器人普及的關鍵。通過采用端到端的訓練方法,Helix 能夠直接從原始像素和文本命令映射到連續動作。
據悉,Helix 僅使用了約 500 小時的高質量監督數據(僅爲傳統方案的 5%),卻實現了更強的泛化能力。而且,Helix 還通過梯度反向傳播和時間偏移機制,讓訓練成果能夠順利地應用到實際場景中。

「這僅僅是 Helix 潛力的冰山一角,」Figure 公司表示,「如果将 Helix 規模擴大 1000 倍,當它能夠驅動數百萬個機器人時,将爲人類社會帶來巨大的改變。」
技術突破的背後有着資本市場的強力支持。Figure 在月初的時候表示,公司已與寶馬制造公司以及一家未透露姓名的美國大客戶達成合作。Adcock 透露,這些合作關系将爲「未來四年内實現 10 萬台機器人」奠定基礎。
去年,這家人形機器人公司完成了 6.75 億美元的 B 輪融資,投資方包括 OpenAI、微軟、英偉達和 Jeff Bezos,融資後估值達到 26 億美元。
據報道,該公司正洽談再籌集 15 億美元融資,若成功,其估值将升至 395 億美元。
科技巨頭對人形機器人領域的密集投資,或許預示着這個市場可能即将迎來拐點,家用機器人市場有望迎來類似智能手機的爆發期。