圖片來源 @視覺中國
文|産業象限,作者丨錢江,編輯丨羅輯
2024 年才一開年,一款名叫 Mobile ALOHA 的機器人就因爲 " 會炒菜 " 在 X 上出了名,還被各種大 V 輪番轉發。
▲ Mobile ALOHA 在做菜 圖源:斯坦福大學
可能很多人會有疑問,都 2024 年了,機器人會炒菜早已不是什麽新聞,爲什麽這款機器人會如此備受關注?原因很簡單,因爲 Mobile ALOHA 的 " 炒菜 " 技術,和之前的炒菜機器人完全不是一回事。
傳統炒菜機器人大多是滾筒結構,需要人工進行備菜,機器人按照設定的程序将配菜按順序倒入滾筒,然後滾筒翻滾,在翻滾的過程中,機器人的調料瓶可以自動擠出調料。
但 Mobile ALOHA 卻可以使用人類的案闆和刀具、使用人類的竈具和炒鍋,它也沒有專屬的調料瓶,而是如人類一樣,用 " 手 " 拿起鹽罐和醬油。總之,它如同真人一般,完成了一整套炒菜的流程。
隻這一點,Mobile ALOHA 就已經完全颠覆了傳統機器人的工作方式。
2021 年 8 月,馬斯克首次公布了特斯拉的人形機器人計劃。之所以選擇人形機器人,是因爲這是當前最适合人類生活環境的機器人形态,它不需要爲了适配機器人的工作而改造環境,也不必爲機器人單獨制造額外的工具。
它完全可以像人一樣,走人類所走的路、用人類的工具參與勞動。
但人形機器人一直存在一個很大的問題——學人走路很簡單,學人做事卻很難。
1 月中旬,馬斯克曾在 X 上展示了特斯拉的人形機器人 Optimus Gen 2 疊衣服的視頻,在視頻中,Optimus Gen 2 的動作仍然笨拙,并且這套展示還不是機器人自主執行的操作。
▲馬斯克 X 平台截圖
作爲對比,Mobile ALOHA 表現出來的能力,就更加具有沖擊力了。
而 Mobile ALOHA 之所以能有如此亮眼的表現,關鍵在于斯坦福團隊使用了行爲克隆(BL)的方法,由人帶着機器人針對某個動作重複操作 50 多次,之後機器人就能夠自主完成相應的動作。
這種由人類直接參與的訓練方式,與去年引爆 ChatGPT 的路徑有許多相似之處。
2023 年初,OpenAI 推出的 ChatGPT 引爆全球,推動這一點的關鍵技術就是 " 人類強化反饋學習 ",它通過将人類反饋作爲 " 獎勵 " 和 " 懲罰 " 引入 AI 訓練,打破了原來大模型訓練的瓶頸。
而現在,随着行爲克隆(BL)方法在機器人訓練上的使用,曾經一直桎梏人形機器人訓練的技術也迎來新的突破。似乎,人形機器人正在迎來自己的 "ChatGPT 時刻 "。
這一次,終于輪到了華人?
在世界科技發展的前沿,華人的身份總是在國内受到額外的關注。
比如大家會關注 OpenAI 的華人工程師,關注馬斯克超過三分之一的華人團隊,關注時代周刊 " 全球百大 AI 人物 " 榜單中的華人入圍數量。
雖然華人在世界科技發展的前沿占據重要的地位,也做出過許多不可磨滅的貢獻,但到目前爲止,引領世界科技浪潮的華人角色仍然屈指可數。
但這一次不同,如果行爲克隆(BL)成爲打開人形機器人大門的鑰匙,那華人也将站在世界科技變革的中心。
作爲一款家政機器人,Mobile ALOHA 由斯坦福大學的華人團隊研發,其核心成員包括 Zipeng Fu、Tony Z.Zhao 和他們的導師 Chelsea Finn。其中 Zipeng Fu 是項目共同負責人,他是斯坦福人工智能實驗室計算機學博士生,也是谷歌 Deep Mind 學生研究員。Tony Z. Zhao 則是斯坦福大學的計算機科學博士生。
▲ Mobile ALOHA 主創團隊
雖然我們前面在讨論人形機器人,并認爲 Mobile ALOHA 能夠爲人形機器人的訓練帶來變革,但從外觀上講,Mobile ALOHA 和 " 人形 " 幾乎毫不相關。
Mobile ALOHA 的構造極其簡單,1 個移動底座(AgileX Tracer AGV);兩隻手臂(ViperX 300),配有 2 個腕部攝像頭和 1 個頂部攝像頭,然後在底座上搭配有機載電源和計算設備。
它的實物長這樣:
▲ Mobile ALOHA 樣機
Mobile ALOHA 的操作模式分爲兩種,一種是真人遙控操作,另一種是全自動操作。
在遙控模式下,操控者可以将自己的腰部和底座連接,通過扭動腰部直接驅動輪子實現移動控制,同時,操作人員可以通過後端的機械臂控制前端的機械臂。而在自動模式下,這一切都由計算機在統一操控。
和特斯拉 Optimus Gen 2 的演示視頻并非機器人獨立操作的一樣,X 平台上廣泛流傳的 Mobile ALOHA 的演示視頻也并非由機器人獨立完成,而更多是兩種模式混合下的操作結果。
▲ X 平台截圖
但即便如此,Mobile ALOHA 的操作,也給機器人訓練帶來巨大的突破。比如像炒個蝦仁、擦拭酒瓶、沖洗盤子等簡單的動作,隻需要操作員手把手帶着機器人重複 50 次,機器人就能夠學會并自主操作。
這個過程,就類似小時候,媽媽手把手帶着我們握筆和寫字一樣。但模仿學習的過程對于人類來說,其實并不容易,對機器人來說就更是如此了。
2018 年,波士頓動力一段機器人翻跟頭、跨越障礙的視頻在網絡上走紅,成爲國内對人形機器人最早的科普。大家當時普遍驚訝于波士頓動力的機器狗,對于特技動作的控制能力,但實際上,對于機器人來說,實現翻跟頭、跳躍、鞠躬,要比實現做家務簡單多了。
這種現象有一個專有名詞—— " 莫拉維克悖論 "。
這個概念是人工智能和機器人學領域的先驅漢斯 · 莫拉維克提出的,它描述了在計算機和機器人系統中一個有趣且非直觀的現象:對于人類來說簡單的感知和運動任務,對計算機和機器人而言卻異常困難;而相反,人類認爲複雜的邏輯和抽象思維任務,對計算機來說卻相對容易。
Mobile ALOHA 之所以能夠如此輕松地完成一些簡單動作,關鍵在于斯坦福團隊在機器人模仿學習能力上的突破。
模仿學習有幾個 " 難啃 " 的骨頭。
比如複雜的感知能力和環境适應能力,模仿學習要求機器人需要高度發達的感知能力,包括視覺、聽覺、觸覺等多種感官輸入的綜合處理,以理解和模仿人類行爲。
比如精确的動作複制能力,人類的動作細微且流暢,機器人如果要精确複制,不僅需要複雜的機械結構,還需要高度精确動作控制算法。
最後還有機器人的多樣性和泛化能力,人類可以将學過的技能在多種不同場景中複用,但對于機器人來說,每一個新的場景都是一次新的學習。
爲了應對這些難題,機器學習領域開發了各種不同的模仿學習方法,其中主流的方法有三個,包括行爲克隆(BL)、逆強化學習(IRL)和生成對抗模仿學習(GAIL)。對于 Mobile ALOHA,它的目标隻是爲了完成簡單動作,泛化要求低,且希望在短期内看到效果。所以他們選擇了行爲克隆(BL)的方法。
簡單來說,行爲克隆是一種将觀察映射到行動的方法。比如我們看到有人舉着手向你迎面走來,你可能會下意識地擊掌,比如在你打電話的時候,别人給你任何東西,你都會下意識地接住。
行爲克隆就是利用這個原理,将一部分場景與機器人的行爲進行對應。确定了模仿學習的路徑後,Mobile ALOHA 其實還有一些問題需要解決。
首先是移動問題。在傳統的行爲克隆學習方法裏,機器人可以學習各種原始技能,比如簡單的 " 拾取 " 和 " 放置 ",但是在現實生活中,更多場景需要機器人具備調動全身運動的靈活性,比如煎完蝦滑後,需要機器人移步到身後的餐桌,将蝦滑倒入碗中,這就要求機器人會舉起鍋、移步、轉身、反手倒入等。
Mobile ALOHA 通過将其安裝在輪式底座上,擴展了原始 ALOHA 的功能,即低成本、靈巧的雙手操縱木偶裝置。
其次是如何在短時間内實現高效率數據搜集的問題。Mobile ALOHA 通過執行監督行爲克隆,與現有靜态 ALOHA 數據集的聯合訓練,可以提高移動操作任務的能力。
最後則是複合性誤差的問題。前面提到行爲克隆模仿學習将 " 狀态 " 和 " 行爲 " 深度綁定,所以一旦機器人的 " 行爲 " 産生誤差,就可能改變預期的狀态,從而下一個行爲産生偏差。
爲了解決這一問題,斯坦福團隊從神經科學獲得靈感,将獨立的動作組合成一個單元,簡單地說,就是将一系列 " 狀态 " 進行打包,以單元爲單位執行所有 " 動作 ",這樣就大大降低了誤差,提升執行效率。
這一套方法叫做 ACT 算法(Action Chunking with Transformers,簡稱 ACT),它的核心思想是将複雜的決策過程分解成更小、更易管理的 " 行動塊 "(action chunks),從而提高決策的效率和質量。
Mobile ALOHA 不僅讓大衆享受了一場機器人做飯的視覺 " 盛宴 ",更酷的是它讓機器人的模仿學習能力又上了一個台階,它在數據和算法層面的創新,爲機器人迎來 "ChatGPT 時刻 " 帶來更多可能性。
人形機器人,走到爆發前夜?
2018 年,從波士頓動力依靠機器狗火出圈之後,機器人賽道就開始被更多行業所關注。2022 年 10 月,特斯拉首款人形機器人在 AI Day 上初次亮相,将這個賽道徹底推向高潮。
從此之後,從太平洋的東岸到西岸,各類機器人創業公司層出不窮。
一直以來,機器人賽道都在快速發展,且從來不缺競争者。
比如特斯拉的人形機器人,2022 年登上 AI Day 的舞台時,它還如一個老人步履蹒跚,需要人扶着;但到了 2023 年,Optimus Gen 2 就已經能夠和人類揮手緻意,甚至 90 度彎腰屈伸。
1 月底,Magic Lab 人形機器人 " 翻跟鬥 " 的視頻在網上爆火,這是一家中國的人形機器人公司,因爲跳躍、後空翻等場景的優秀表現,被網友稱爲波士頓動力的挑戰者。
▲ Magic Lab 人形機器人
這樣的機器人,甚至還會制作咖啡 " 拉花 "。
再往前看,2023 年 8 月,宇樹科技發布 H1 人形機器人,它的行走速度超過 1.5m/s,潛在的運動性能可以達到 5m/s 以上。
2023 年 12 月底,國内人形機器人公司優必選在港交所上市,被稱爲 " 人形機器人第一股 "。按照規劃,優必選的人形機器人主要聚焦在工業制造、商用服務和家庭陪伴等三大場景。
而回顧整個 2023 年,機器人的技術進步和産業發展也被市場普遍認爲是除了 AI 和商業航天之外,全球範圍内最重要的技術發展。
所以盡管如今人形機器人還處在起步階段,但其中蘊藏的巨大潛力卻早已經掩蓋不住。
根據 IFR 和中國電子學會數據,參照其他電子産品滲透率超過 20% 後将爆發式增長,2023 — 2030 年,按年均複合增長率 30% 測算,預計到 2030 年,我國人形機器人市場規模有望達約 8700 億元。
▲圖源:中商産業研究院
在這樣的背景下,人形機器人及配件相關的投融資活動也相當活躍。
根據中商産業研究院最新統計數據顯示," 截至 2023 年 11 月底,中國智能機器人行業投資事件數量達 139 件,投資金額達 844.62 億元,投資領域包括人形機器人、智能仿生機器人、智能機械手、智能協作機器人等。"
到了 2024 年,雖然時間過去還不到一個月,人形機器人賽道卻已經産生了 2 筆大額融資。
先是國内人形機器人研發公司 " 星動紀元 " 宣布獲得由聯想創投領投,金鼎資本、清控天誠跟投,老股東世紀金源超額追投的超億元天使輪融資。不久之後,來自挪威的人形機器人初創企業 1X Technologies(簡稱:1X)也宣布完成了 1 億美元的 B 輪融資。1X 在 2023 年就曾獲得由 OpenAI 創業基金領投的 2350 萬美元融資,成爲 Open AI 投資的第一家硬件公司。
資本市場對人形機器人青睐有加,因爲人形機器人賽道落地不僅會改變生産和生活方式,其衆多零部件組建的上下遊生态,也會形成一個巨大的配件生态供應鏈市場。
根據阿裏雲《中國機器人産業圖譜及雲上發展研究報告》顯示,機器人産業鏈主要分爲上遊核心零部件研發與生産、中遊本體制造和系統集成, 以及下遊各行各業的具體應用等三方面 ,每一個環節都充斥着配件市場的新機遇。
▲圖源:行行查研究中心
2023 年 10 月,國家工業和信息化部印發《人形機器人創新發展指導意見》(簡稱《意見》)。《意見》的第一句話就開宗明義:" 人形機器人集成人工智能、高端制造、新材料等先進技術,有望成爲繼計算機、智能手機、新能源汽車後的颠覆性産品,将深刻變革人類生産生活方式,重塑全球産業發展格局。"
機器人将帶動整個工業制造轉型升級、可能成爲新的支柱型産業已經成爲一個可以預見的未來。
1972 年,早稻田大學加藤實驗室發明了世界上第一台人形機器人 WABOT-1,它每走一步需要 45 秒,但它的第一步跨出人類人形機器人曆史性的一刻。
52 年後,載着大模型和多樣化的技術路線,人形機器人或許也将迎來它的 "ChatGPT 時刻 "。