具身智能作爲 AI 技術的重要分支,正逐步從抽象理論邁向物理現實,實現了物理世界與數字世界彼此的感知與鏈接,讓 AI 在物理世界中有所作爲。36 氪長期專注探讨 AI 領域的産業革命和創新趨勢,針對具身智能領域的突破性變革,以 " 讓 AI 通向物理世界 " 爲主題,邀請了重磅研究學者和企業嘉賓,共同見證人工智能技術從數字世界走向物理世界。
2024 年 9 月 26 日 -27 日,爲期兩日的「2024 具身智能大會」在上海盛大召開。大會以具身智能爲核心,構建了從認知 - 發展 - 應用 - 未來爲内容的議題體系,來自工程院、人工智能研究院等專家學者及業内從業者,以及來自知名科技巨頭公司的行業大咖嘉賓,共同深入探究了具身智能技術對千行百業的重塑,并研判具身智能在商業領域應用潛力。同時,大會首日隆重發布 36 氪「2024 具身智能創新應用案例」,爲更多企業在該領域的發展應用提供寶貴參考,助推具身智能産業蓬勃發展。本次大會還特設「具身智能案例路演 show」環節,諸多行業優質企業集體亮相,立體展示了具身智能行業的蓬勃新生力量。
在大會 " 具身智能在千行百業的應用場景落地 " 環節,擎朗智能 CTO 唐旋來發表了以 " 具身智能服務機器人的産業化探索與實踐 " 爲主題的演講。他認爲移動服務機器人在商用服務場景運行下的挑戰有三點,一是非結構化複雜環境。在商用服務環境中,機器人所處的運行環境是持續變化的。環境布局和裏面的人流量都是動态變化的,這就要求服務機器人提升自身的智能性,去适應環境的變化。二是完全開放的環境。商用服務行業是完全開放的,機器人與人是處在一個共同環境中的,需要跟人形成高度自由博弈, 來安全高效完成任務。三是機器人執行任務時需要完成整個流程的閉環,需要像人一樣完成很多複雜的任務。
唐旋來還認爲,在具身智能服用機器人的産業化落地及普及過程中,應用大模型和具身智能技術可以帶來兩點基礎能力的提升。第一,大模型帶來了更加泛化的推理能力,讓機器人具備更強大的大腦和學習能力;第二,随着 VLA、機械臂、運動控制技術等的快速發展,機器人可以具備更強的身體、運動和操作能力。擎朗智能的判斷是在商用服務場景,移動底盤 + 機械臂的技術方案是具身智能商用服務機器人目前最有可能率先産品化的形态架構。
目前,擎朗智能的業務覆蓋全球 600 多個城市及地區,海外營收占比超過 50%。在海外特殊環境場景下,擎朗智能爲酒店機器人增加雙臂,通過模型訓練讓它學習抓取、按電梯等等,來完成服務流程閉環。客戶不需要對酒店環境做任何改造,擎朗服務機器人均可以快速提供服務。此外,在快餐行業的應用場景中,擎朗智能通過具身智能訓練,讓擎朗服務機器人可以自主學習如何收集和回收餐具,減輕服務員的工作負擔。
總的來說,擎朗智能是希望做到讓服務機器人更好地陪伴人、服務人,讓人們的生活變更好。
以下爲演講實錄,經 36 氪編輯整理:
大家好,我來自擎朗智能的産研負責人,今天将結合大模型、人形機器人、具身智能,從技術發展和産業落地的角度來分享我們在具身智能服務業怎樣落地,怎樣做商業化。
擎朗智能十多年來一直在緻力于推動商用服務機器人的普及。我們的願景是緻力于在 2050 年構建一個擁有 "100 億零 1 台 " 機器人的世界。根據聯合國預測,2050 年全球人口将達到 100 億,而我們希望做到比這個人口數量再多 1 台。
首先,我們來談一談做商用服務場景。商用服務場景就是我們日常生活的場景,比如餐廳,酒店,商場,醫院等。這樣的場景具備什麽樣的特點,對機器人有什麽樣的挑戰呢?我們認爲,在商用服務場景運行的移動服務機器人需要面臨以下三個挑戰:
1. 非結構化複雜環境
在商用服務環境中,機器人所處的運行環境是持續變化的。這個變化體現在空間和時間兩個維度, 從空間上來說,不同的商用服務場所,環境的差異很大, 比如不同類型的餐廳、不同地區的餐廳,它們的布局和環境差異很大; 從時間上來說, 商用環境的内部布局是不斷在動态變化的,不同時間的人流情況會變,這往往是無法預測的一些變化。這就要求服務機器人提升自身的智能性,去适應和應對環境的不斷變化,因爲你不可能去改變外部環境。
2. 完全開放的環境
商用服務行業是完全開放的,機器人與人是處在一個共同環境中的。目前機器人與人之間并沒有明确的交互規則,這就會極其考驗機器人的智能水平。我們來做個對比:自動駕駛汽車在高速上可以依賴車道線、紅綠燈、斑馬線等規則來導航;可服務機器人卻在完全自由的狀态下與人互動,沒有任何規則,是跟人之間的高度自由博弈。比如,當一個人在側面挨着機器人運行時,機器人就需要去預判這個人的意圖,他也許下一步橫穿到你面前,也許一直跟着你走,也許下一步就走開了,這個時候怎麽解決問題?保險起見,跑慢一點比較安全,但比如,餐廳用餐高峰期,一方面用餐需求增高,希望機器人的配送速度要快一些,但也由于人流量增多,也需要機器人保證安全。又要跑得快又要跑得安全,這就處于機器人不斷需要跟人群博弈的過程。
3. 全流程閉環
機器人執行任務時需要完成整個流程的閉環。比如在餐廳中,配送不僅僅是從廚房到桌邊的簡單過程,而是包括了從廚房到送餐桌的全流程。對于酒店服務機器人來說,它需要能夠自主搭乘電梯、通知顧客,并完成配送任務。這個閉環需要持續的信息交互和決策,才能形成完整的服務閉環流程。
擎朗智能 CTO 唐旋來
如今,擎朗已經構建了完整的技術鏈路,自研從感知、決策到執行的具身智能全鏈路技術。
我們在這裏面看到的具身智能機器人的技術框架,它跟人是非常類似的,包含感知,執行,決策三個部分。首先它必須要有感知,相當于我們的五官,怎樣從各個維度識别環境的信息,這是多模态的,你的模态越多,拿到的信息越完備。第二是我們需要思考決策,拿到信息以後怎樣處理、過濾,然後形成思考框架,做出決策;最終是執行,執行就是機器人軀體的控制與運動體系決策。
值得一提的是,與目前大模型和自動駕駛技術相比,因爲網絡等基礎設施的原因,商用服務機器人在很多場景中無法依賴強大的後台算力,特别是在海外市場,在脫離網絡和後台的情況下,如何在複雜環境中繼續做智能決策,這往往需要機器人依賴自身的決策來進行判斷。
擎朗智能在服務機器人行業做了 14 年,也一直在思考,在大模型、人形機器人技術興起的過程中,我們該如何應用大模型和具身智能技術,助力推進具身智能服用機器人的産業化落地及普及。目前我們總結下來在商用服務場景,服務機器人需要以下幾個方面的提升:
1. 環境的适應性需提高。因爲全球的商用服務場景太多,差異性也太大,而且商用服務環境變化太頻繁,機器人需要更多模态的感知和數據,才能夠快速去适應這個不斷變化的複雜環境。
2. 機器人如何在複雜環境中提高執行任務的效率,比如配送機器人在用餐高峰期時,環境更擁擠,但需要它配送得更快。
3. 機器人與人的交互能力提升,比如語音、動作等一系列的多模态交互。舉個例子,我們在海外的時候,有一個問題是機器人與人語音交互時,怎樣自由切換語種。比如說第一個客人說的英語,下一個客人說的卻是德語。
4. 關于物理操作方面,輪式機器人往往缺乏手或臂的操作能力,在端到端的服務閉環上還有所欠缺,我們需要作出相應的改善和叠代。
所以大模型和具身智能的發展帶來兩點基礎能力的提升:
第一,具身智能大腦:大模型帶來了更加泛化的推理能力,讓機器人具備更強大的大腦和學習能力。通過大量的學習和訓練,會讓機器人對環境感知,任務理解,任務拆解等層面有更強的理解和推理能力;
第二,具身智能小腦:随着 VLA 技術,機械臂技術,運動控制技術的快速發展,讓機器人具備更強的身體,有更強的運動和操作能力,這樣就可以像人一樣去完成很多複雜的任務。
結合在商用服務場景的大量移動機器人産品落地經驗,我們認爲在商用服務場景,移動底盤 + 機械臂的技術方案是具身智能商用服務機器人目前最有可能率先産品化的形态架構。擎朗已經落地了數萬台的移動服務機器人,解決了輪式底盤在室内穩定運行的問題,當我們賦予機器人上肢後,通過大模型和具身智能的訓練,我們可以讓機器人做更多複雜的任務,創造更多價值。
擎朗智能的業務覆蓋全球 600 多個城市及地區,并在阿聯酋迪拜、德國、韓國、荷蘭、加拿大、美國、日本、中國香港等地設有子公司 / 辦公室,目前海外營收占比超過 50%,但在海外市場的擴展過程中,挑戰必不可少,比如,海外電梯改造的法規難題,比如我們在酒店的貨櫃搭配機器人,機器人怎樣做到像人一樣将貨品取出來?
結合這些場景,我們爲酒店機器人賦予雙臂,通過模型訓練讓它學習抓取、按電梯等等,來完成服務流程閉環。這樣,當這款機器人到達酒店的時候,客戶不需要對酒店環境做任何改造,開箱即用,無論是國内還是海外,擎朗服務機器人都可以快速提供服務。
我們看這個視頻,機器人像人一樣按電梯,進出電梯,不需要對環境做任何改變。在這個過程中,機器人需要跟人一樣,完全根據自身的感知和決策,去完成這個任務。機器人要進入這個電梯,它需要觀察電梯的按鈕在哪裏,離自己有多遠,怎麽按;按完電梯之後,它需要觀察電梯到沒到,哪個電梯先到,電梯門什麽時候開,機器人跟進出電梯的人怎麽交互等。這一整套的流程都需要處理,當然還需要面對很多意外的情況,比如人把電梯門擋住了,或者人把機器擠住了,這些情境都需要機器人去判斷并執行相應的處理動作。
此外,我們在與快餐行業合作時,發現機器人在收集餐盤的場景中也有巨大的潛力。通過具身智能訓練,機器人可以自主學習如何收集和回收餐具,從而減輕服務員的工作負擔。左邊的視頻是我們訓練(如下圖),大家可以看到我們通過遙控操作訓練機器人,訓練如何用機械臂将這些東西抓過來,然後去端起來這個餐具。我們想這一步完成之後,機器人就可以自己到桌邊把這些東西收走,把盤子放到指定回收的地方。
對于未來,邁向人與機器人共存的世界,這是一個必然趨勢,當然也充滿驚喜與奇妙。無論是怎樣的具身智能機器人,無論我們通過大模型賦予它怎樣的思考能力,或者是賦予它像人一樣靈活執行的能力。我們最終還是希望做到讓服務機器人更好地陪伴人、服務人,讓人們的生活變更好。這是我們這代 AI 機器人工作者渴望達成的目标。