作者|黃楠
編輯|彭孝秋
不久前,英偉達成立通用具身智能體研究實驗室(GEAR)的消息曝光,将機器人再度推上了風口。
過去一年,AI 大模型浪潮中,以大模型 + 機器人的路徑,爲人與機器共存提供新的交互模式。甚至有觀點認爲,機器人大腦的進化速度,主要取決于大模型的發展速度。
市場對機器人的火熱反映到實際的資本環境上,是動辄數億、乃至數十億的融資項目、相關零部件規模陡然增長、以及下遊概念股也乘風而起 ...... 具身智能,成爲機器人落地故事裏備受矚目的關鍵詞。
但進入實際的落地中,機器人隻能完成一些定制化任務,缺乏對複雜場景認知能力,應用局限;而另一邊,機器按照已設定算法運行,也難以産生更大智能,思考能力和決策能力無法得到提升。
如何讓具身智能機器人在與人、環境的不斷交互中繼續學習,成爲了一個關鍵命題。
開放場景下的機器人難題
長久以來,AI 和機器人領域都存在着一個經典悖論——莫拉維克悖論提出,和傳統假設不同,計算機要實現例如推理等人類所具備的高階智慧、僅需少量的計算能力,而若要直覺、感知等能力,卻需要巨大的運算能力。
簡單來說,電腦可以在和人類圍棋對弈中輕松取勝,但如果讓機器人爲你取出冰箱裏的可樂,卻并不簡單。
這一過程包括了幾個必要步驟。首先,機器人需要聽懂人發出的指令,将任務進行拆解;第二步是做出決策,确定目标定位并規劃行進路線;第三步到達目的地後,面對冰箱裏各式物品,機器人既要能識别出 " 可樂 "、還要能控制機械臂完成揀取動作;最後再将物品交到指定地點。
過去,上述行動可以預先設定,但由于技術不成熟,機器人隻能提供 case by case 服務;即它隻學會了取 " 可樂 ",一旦物品換成 " 雪碧 ",則需要工程師重新設定一套流程。
當機器人邁進真實場景裏,往往面臨着泛化能力弱、交付難度高的兩大痛點。
雅可比機器人 CEO 邱迪聰在與硬氪交談中,将機器人應用場景劃分爲封閉式和開放場景。
其中,封閉式場景指采用經典的定制化模式。預設機器人的任務執行邊界,用戶下發指令後,先收集現有數據進行訓練,在限定範圍内窮舉出所有任務可能性,盡可能覆蓋更多的解決路徑。
例如工業場景的運輸機器人,工程師會針對特定園區提前設置運輸線路,機器人隻需在固定路徑上完成配送任務,靈活性低;即使存在多條路線,這些路徑亦經過編排和規劃,機器一旦脫離該地圖所設定的任務,便無法運轉。因此面對新任務,機器人需要再次收集數據訓練、設定方案和測試,從而導緻了極大的資源和人力損耗。
開放場景則是指不受強封閉式規範和範圍限制的長尾問題,如商超服務、居家養老等。當機器人與人、環境進行大量的交互,數據集或存在少樣本、甚至零樣本的突發情況,這對機器人理解、處理多種任務的泛化能力要求極高。
比如自動分揀,目前機器人可完成物流分揀、倉庫分揀,但商超分揀卻遲遲未能實現。其主要原因就在于,倉庫物流中心的貨物可以标準化,按外形、大小分類,同時貨品密封性強,有更多冗餘。相比之下,商超裏品類繁多,同樣是 1.5L 白瓶包裝,它可能是牛奶、酸奶或是椰汁;再加上品類特性不同,比如雞蛋和紙巾的抗摔程度大相徑庭,這也對分揀機器人提出了極高的要求,從視覺到力控,都必須做的很精準。
在邱迪聰的設想中,機器人不應隻是指令的執行者,還要具備舉一反三的學習能力。" 今天機器人在清掃、巡檢等任務中可以做得很好,但想要真正走進人們日常生活,離不開它的感知、決策、執行能力。"
而 2023 年國内大模型的爆發式增長,令邱迪聰看到了 AI+ 機器人的新機會。邱迪聰畢業于美國卡内基梅隆(CMU)大學機器人學院,曾參與 NASA 火星車研發、L4 級自動駕駛等項目,有超過 8 年 AI 與機器人跨領域研究和落地經驗。
随着技術改進和成本下降,掃地機器人、工業手臂等任務型機器人滲透率顯著提高。但要提高機器人智能水平,需要更先進的算法和數據支撐。
自然語言的數據是離線的,屬于方法論上的學習;而機器人決策離不開很多高質量數據,其中多數來自于開放場景中遇到的突發性狀況。由此,從單一的封閉式場景任務向開放場景延展,成爲機器人從業者魚貫而入的一條路徑。
去年 4 月,邱迪聰和團隊成立了雅可比機器人,聚焦具身智能商超服務機器人,通過人類語音指令的控制,即可讓機器人在商超場景下實現多任務執行能力,包括自主巡檢、自動補貨、貨品分揀等。4 個月後,雅可比機器人完成天種子輪融資,投資者包括 AI 大牛、奇績創壇創始人陸奇。
一邊是開放場景對機器人提出的極高要求,包括開放詞彙的感知能力、非機器學習方法的任務規劃、高頻任務執行的閉環能力等;另一邊,大模型的語義理解、抽象規劃和推理等能力被印證,可以處理許多複雜任務,這爲機器人在長尾場景中應用提供了一個可行性的通路。
給機器人裝上「大腦 + 小腦」
諾貝爾經濟學獎得主 Daniel Kahneman 曾在《Thinking Fast And Slow》一書中提出,人類的兩種思考模式,第一種是以直覺判斷爲主的 " 快思考 ",第二種是 " 慢思考 ",需要進行大量的推理和計算。
大模型與過去 AI 技術不同點就在于,它采用了 " 慢思考 " 模式,令機器人可以在與人類的交互中不斷學習,獲得更好解決任務、解決更多任務的能力。但也正因如此,關注 AI、機器人賽道的投資人郭旭告訴硬氪,絕大部分落地或完整的機器人産品和項目,普遍希望 " 一招通吃 ",例如大模型的能力很強,就想直接做一個端到端的巨型通用模型來解決所有問題。
對此邱迪聰指出," 從實際 ROI 投入産出比的角度來說,可能不一定劃算、或者說不一定适合當前這個階段。"
開放場景用戶的需求複雜,大模型的訓練和推理費用高昂。據海外《The Economics of Large Language Models》研究測算,每個 token(1000 token 約爲 750 個單詞)的訓練成本通常約爲 6N(N 爲參數的計量單位),推理成本約 2N。即推理成本相當于訓練成本的三分之一。一旦模型上線使用,其推理成本可能遠超訓練成本。
因此,大模型應用于機器人的部署成本也很高。最終帶來的結果是,其市場價格并非普通中小型企業能消費得起的,市場規模和普及程度有限。
要平衡這種尴尬局面,類人腦機器人不失爲一個重要的探索方向。即讓機器人模仿人腦的運轉分工,通過 " 大腦 + 小腦 " 兩個結構互補,大腦負責視覺、聽覺和意識等高層次的感知和決策功能,小腦則負責協同數據來控制運動、平衡和行爲姿态。
以邱迪聰和團隊提出的 " 通用機器人大腦 " 爲例,通用機器人大腦由 " 大腦 "J-Mind 和 " 小腦 "J-Box 構成,J-Mind 負責理解任務、下發指令,并交由 J-Box 來執行。
首先在感知層,結合了 LLM+VLM(大型視覺 - 語言模型)的技術路線可以就指令、結合物理環境進行理解,提高機器人對開放場景的認知能力,即不僅能 " 看到 " 場景中的各種物品, 還能 " 看懂 " 用戶的需求。比如機器人原先隻認識可樂,但在看到雪碧、橙汁等新物品時,可以通過其外形與可樂相似、" 推斷 " 出它們也是罐裝飲料,并讀取包裝信息,從而認知到新物品。
雅可比機器人工作中
邱迪聰告訴硬氪,雅可比機器人之所以選擇商超作爲自身産品的首個應用場景,正是因爲商超的人員聚集效應,有大量反複的物品信息和交互産生,可以爲機器人自我學習提供數據支撐。也即是說,機器人是從真實場景中收集數據實時學習,而非在已有的數據庫找答案。
在決策層,機器人通過 J-Mind 可以将用戶需求轉化具體的指令和子步驟,形成任務分配輸出與決策動态閉環,下發執行任務給到 J-Box。随後,再由 J-Box 來驅動機器人完成操控、抓取、放下等動作。
機器人正在進行「抓取、放下」
例如,當商超貨架缺貨時,店員隻需以口頭或文字輸入的形式,提出 " 貨架上可樂缺貨、需補貨 " 的指令,雅可比機器人可自動移動到所需補貨的貨架前,識别貨架陳列狀态。當 J-Mind 在多類物品識别到可樂後,可将補貨指令拆解爲子步驟,由 J-Box 來抓取可樂、并把可樂放置到貨架的空缺位置中。
這種 " 大腦 + 小腦 " 路線在通用機器人大腦的基礎框架上,集成了很多經典的主流機器人算法,無需部署工程師,開箱即可使用;同時還支持人工調度和機器人自動化協助,靈活性更高,由機器人大腦來判斷任務是否需要調用大模型、亦或是用算法就能解決的,進而降低服務成本。
商業化困局:叠代周期長、高成本
公開數據顯示,2017 年至 2021 年五年間,全球智能服務機器人從原本未達百億的市場增長至 200 億美元,預計到 2026 年将超過 600 億美元。
其中,中國智能專業服務機器人市場也從 2021 年的百億元、預計到 2026 年可邁向千億規模,增速較快。
可以看到,相比于商場裏隻能移動或展示廣告的傳統機器人,大模型的出現讓人們看到了具身智能的希望,以雅可比爲代表的商超機器人已經實現了一個台階的提升。
不過,其痛點也依舊存在。在技術層面,大模型增強了機器人的理解能力,但機器人本身是一個複雜的跨學科系統,涉及仿生學設計、AI 應用、動力學建模、能量管理等等,要實現從理解、決策到控制運動、執行任務,還需要匹配各種算法和軟件。AI 技術升級叠代不是線性發展的,周期長、投入高,存在長期無法突破關鍵技術的風險。
硬件方面,機器人的征集結構複雜,核心零部件決定了其精度、穩定性、負荷能力等重要性能指标,其中技術難度最高分别是減速器、伺服系統和控制器,占成本的 70%。加上傳感器等其他零部件,這些都會增加機器人的制造和後期維護的成本。
邱迪聰就告訴硬氪,商超場景客戶對 ROI 十分關注。爲此,雅可比機器人已找到核心零部件的供應渠道," 這種方式的成本控制空間較高,核算下來符合預期。"
此外,機器人在産品化過程中,基于開放場景的融合打磨和叠代,也需要時間來産生和驗證價值。
某機器人廠商的市場負責人向硬氪表示," 下遊買家一定是需要拓展和教育的,很難實現一上市就得以被接受和認可。解決方法一是産品持續叠代,二是要與客戶保持緊密溝通,這是一個共同打磨産品、共同打磨場景的過程,通過這種共創的形式,發掘更多産品價值。"
例如除商超場景外,雅可比機器人也在探索餐飲服務、辦公室、家用等環境。機器人作爲餐廳服務員可以完成點菜、上菜等任務;作爲公司前台可以引導訪客,并完成材料分發、倒水等任務;作爲家庭助手,協助整理衣物、擦洗家具等。
機器人餐飲服務工作流程
" 我們最終的目标是,從商超場景出發,将機器人所學遷移至更多場景中,進入到日常的家庭生活,真正實現多個任務的自動化閉環。" 邱迪聰說到。
無法否認,目前市場上的機器人整體還處于一種 " 玩具 " 的階段,遠沒有達到大規模産業化的地步。但可以期待的是,通過機器人和大模型的融合方法,有 " 大腦 + 小腦 " 的仿真演化,有大模型與經典算法的自動化協同,有規則和模型的相互轉化,一個更複雜的、可以不斷自我成長的機器人智能體或許已經不遠了。