作者丨邱曉芬
編輯丨蘇建勳
在 2024 年的雲栖大會上,作爲 AGI 的一項重要支線,具身智能也成爲了其中一大讨論焦點。
在 " 機器人的圖靈時刻 " 論壇上,阿裏特意邀請了四家當前炙手可熱的人形機器人廠商——宇樹科技、星動紀元、銀河通用、逐迹動力,針對今年的機器人熱潮的本質、發展曆程、如何落地、技術難點等關鍵問題展開了讨論。
不過,不像 AI 的論壇那麽針鋒相對,四位創始人對于機器人賽道的判斷基本一緻,大家認爲:
本次機器人走向台前不是靠自我革命,而是靠大模型能力助推,具身智能将會是多模态大模型的 killer APP;通用機器人本質解決兩件事:移動、操作;此次機器人行業變革兩個關鍵詞:泛化、從專用到通用;機器人領域發展曆程:從規則驅動、到算法驅動、再到數據驅動對機器人落地的判斷:5 年,在某些特定場景(工業 / 零售等)會有大規模落地;10 年,能進家庭;15 年,産生大千萬級别市場;商業化落地的路徑是: 先從單一場景 + 多任務 + 可移動做起;再做多場景 + 多任務,最後普及到全場景 + 全任務。
以下是星動紀元創始人陳建宇、銀河通用創始人王鶴、宇樹科技創始人王興興、逐迹動力創始人張巍的交流整理(略驚摘編)
主持人:通用機器人一定要做成人形嗎?
王興興: 好幾年前有投資人問我,我們做不做人形機器人?我說我堅決地反對做人形機器人,我當時在大一,09 年、10 年的時候,我自己就做過小的人形機器人。做過好以後,我發現全球當前的人類技術其實沒辦法駕馭這麽複雜的機器人系統。
但是 2016 年開始,新的 AI 技術誕生了,在差不多在 22 年的時候,整個的大語言模型的效果已經非常驚豔,整個 AI 技術發展是遠超我自己預計的,所以我們在 23 年初正式開始做人形機器人,目前取得的效果也非常驚豔。
機器人整個發展節奏,無論是硬件和軟件,都是超過我自己預計的節奏 。
張巍:我覺得一定要做成人形,而且是有兩條腿的人形機器人。
我簡單說一下我對通用機器人的理解。我首先覺得機器人和 AI 的使命是不同的,AI 是代替人來思考決策的,而機器人本質上要代替人來運動。
大家看到各式各樣的機器人非常多,本質上就在做兩件事情,一件事情是要移動(Mobility),空間中從 a 到 b;另一件事情是,操作。
所謂的通用機器人,在這兩個能力上都能達到跟人一樣的環境适應能力和任務的泛化性。值得一提的是,通用的移動能力其實是不太需要雙臂的,但是通用的操作能力反而是需要雙腿的,不然你可能都沒法到人能到的地方去幹活。
我覺得 AGI 的發展最相比上一代最大的區别,就是從專用到通用的變化,在大模型出來之前,我感覺通用這個詞是個貶義詞,通用,就是證明它是沒啥用。
但是大模型出來以後,大家發現,以前我們這種在專業領域裏收集數據,去做專項任務的訓練方式是有很大局限性的,反而我們要忽略專項的能力,要先構建通用的基礎模型能力,再在上面長出專用的能力,這才是系統化解決泛化性的關鍵。
我覺得軟件算法的通用性,就靠大模型技術;機器人跟物理世界交互的通用性,就靠人形機器人。
主持人:您怎麽定義人形機器人形态?
王鶴:我們公司叫銀河通用,我們從建立的第一天就是要達成通用機器人。當然通用有一個過程,他先做到單一場景、多任務、可移動,然後再做到多場景、多任務,最後做到全場景、全任務。在這個過程中,形态上在不同階段也有它最适合、最經濟、最穩定的載體。
通用機器人這個萬億市場剛剛開局的時候,我們選擇了先從幾個場景裏頭的多任務做起,比如零售商超場景上貨下貨,在工廠裏去抱箱子,其實我們發現如果它是平地的話,輪子是夠用的,也不能說我們沒有腿,我們是把兩隻腿并在了一體。
那爲什麽要有雙手呢?因爲我們發現,比如說你在超市裏頭一隻手拿籃子,一隻手拿貨,也是要兩隻手,所以我們的形态目前是 360 度輪,雙腿并成一條腿,站直一米七三,夠到二米四,蹲下來可以摸地,用最便宜的價格、最穩定的機器人技術率先實現可以落地的機器人。
主持人:具身智能和人形機器人,大家讨論的時候,總是把兩個詞語放在一塊,您怎麽看?
陳建宇:這個确實是比較容易混淆的兩個概念,但是他們的側重點是不太相同的。
對具身智能來說,我們主要關注智能性和軟件。具身智能其實對形态其實是要求不高的,可以是人形的、四足的、輪式的、單個機械臂的,甚至就是一個桌子、椅子,隻要它能動,都可以給他賦予具身智能,是一個更廣泛的概念。
人形機器人顧名思義一定是人形的。
主持人:機器人現在有很多種類,怎麽判斷它的技術含量?
陳建宇:非常粗略的把人形機器人相關的技術分成三大塊的話,其實就是大腦、小腦和本體。
我覺得這裏面最關鍵的是小腦,它是最基礎的部分,就如果你隻有一個本體、大腦,缺了小腦的話,其實你隻能成爲一個會思考的一堆爛鐵。
小腦是承接大腦思考、規劃的,同時也是技術不确定性最高的,最沒有收斂的。 但是我們是有蠻多的産業可以去借鑒,包括我們的工業機器人産業、電動車的産業。
對于小腦來說,我們發現大部分的機器人用的還是十幾年前,甚至幾十年前的掃地機這一類的技術去做。
王鶴:我認爲人形機器人的技術含金量可以從這兩個地方總結:
一,他的泛化性到底有多強?是不是真正能通向未來的通用?
二,它能不能跟人之間用自然語言來溝通,然後實現零代碼的部署?不僅能幹活,還能交流。
張巍:機器人就看兩個關鍵詞,一個叫泛化,一個叫通用,這是本次變革最關鍵的兩個詞。
我提供個我的角度,我覺得咱們先看腿,人形機器人之所以是一個新的物種,它不是一個傳統機械臂公司的延續,它的本質就是要長出兩條腿來。
那看腿也要看什麽呢?主要看兩點,一個就是腿,他能不能完成他本能的一些本職的工作,就是地形的泛化能力。第二點是看他能不能支撐雙臂去完成全身協同的通用操作,這也是腿存在的一個重要的價值。
主持人:機器人到底什麽時候能幹活?
陳建宇:如果說我們不是特别嚴苛的定義,就是說它能初步去用起來的話,那我認爲不管是工業還是商用,甚至是家用,一兩年的時間就能有,根據羅傑斯的那個創新擴散的模型,都有一些早期的一些使用
工業的場景會更快一些,因爲它是有邊界的,你可以人爲的制定一些規則,所以在它的圖靈時刻還沒到來之前,機器人可能就能逐步應用起來。
王鶴:以零售場景爲例,現在的技術已經達到了産業化的邊界了,我們預測就是從明年開始将會是商用的元年。
5 年,我們的目标是在這樣的場景和車廠的抱箱子裏頭達到一萬台;10 年,是我認爲安全性可以進入家庭标準的;15 年,我預計可能會産生千萬乃至大千萬級别的市場。
王興興:我個人的話相對比較樂觀,我覺得到明年,像一些工業場景,明年基本上該問題不大,我覺得三年左右至少全球範圍内有通用型的 AI 出來,因爲跟過去十年不一樣了,現在整個機器人 AI 人才資金投入是巨量的,都是幾百倍甚至上千倍的投入。五年應該會有天翻地覆的變化。
張巍:我認爲用時間去衡量它,是一個比較難的事情,我管這個賽道的産業的發展叫事件驅動,而不是時間驅動。它更關鍵的是看這個 AI 技術、關鍵的開關什麽時候能找到,而不能用時間去具體的衡量它。
我也是相對樂觀的。隻不過我也說,我們要避免過早的去做商業化,比如說在大模型 ChatGPT 2.0、3.0 的時候你要做個超級應用,那肯定要打一堆補丁,因爲上一代人工智能和機器人落地的過程中也遇到了很多這種挑戰,大家都調侃說 " 人工智能等于智能不夠靠人工 ",所以是靠很多這個增加了部署的售後成本,最終商業邏輯還是挺難跑通的。
主持人:大模型對人形機器人的發展,起到了什麽樣的影響?
張巍:我覺得機器人這一波的發展不是自我革命,發展是靠大模型技術和大模型技術背後的技術,我甚至認爲具身智能将會是多模态大模型的一個 killer APP。當然我把無人駕駛也算在我們具身智能賽道裏邊來了。
我覺得這幾年由于受到大模型技術發展的一個啓發,機器人領域的發展也經曆了從規則驅動、到算法驅動、再到數據驅動的一個跳變啊。
以前你可能看你有什麽算法,然後根據算法的需求來收數據來解決問題。現在的思維變了,我們要首先看你有什麽數據,然後你獲取新數據的方式和成本是怎麽樣?數據的分布是什麽樣的?
這就直接的決定了你采用什麽樣的算法去訓練,所以我們公司有個口号叫,軟件定義硬件,但數據定義軟件。
王興興:我一直感覺,通用人機器人算是大模型的最好的一個落地的載體,二者是非常好的一個組合關系
王鶴:我覺得就是現在的通用機器人,幾乎都是分立的小模型,所以大模型賦能技能有幾步?
第一步是,大模型可以作爲一個 agent 來調用這些 API ,進行長程的任務規劃;
第二步是大模型可以作爲一個 monitor,看小模型執行過程中有沒有出任何錯誤,及時的去終止、挽救這些錯誤,比如藥盒子掉在地上了,他立馬說你也給他撿起來;
第三步是最有想象力的,就是端到端的 vision language action,把動作作爲大模型輸出的模态,像自動駕駛一樣,做一個把通用感知、通用規劃和通用執行融爲一體的大模型。
陳建宇::我認爲大模型這邊帶給我們最重要的啓發就是,告訴我們有 scaling law 的存在,啓發我們去思考怎麽樣去做機器人的 scaling law。
同時它也帶着我們來一些語言模型領域的一些技術,比如說 Transformer 的架構。算法層面、模型層面,還是數據層面,其實都有很多的不同,需要我們去探索。
end