被用錢投票的“具身智能”，将如何引領AI的下一個浪潮？

英偉達 GEAR 實驗室的聯合創始人 JimFan 博士在推特上表示："2024 年将是具身機器人、AI 仿真之年。" 無獨有偶，資深機器人專家 Eric Jang 不久前曾預言，"ChatGPT 曾在一夜之間出現。我認爲，有智慧的機器人技術也将如此。"

現如今，具身智能已經被用錢投票，不久前，人形機器人初創公司 Figure 宣布，已從亞馬遜創始人貝索斯、英偉達、OpenAI 和微軟等巨頭那裏籌集了約 6.75 億美元的資金，公司估值 26 億美元。

而 Figure 本身，成立于 2022 年。從 OpenAI 宣布介入與之合作，到今天它們共同推出一個能夠自主對話和決策的機器人，隻有 13 天。

浪潮已至

去年的 ITF World 2023 半導體大會上，英偉達創始人兼 CEO 黃仁勳表示，人工智能下一個浪潮将是 " 具身智能 "，是能理解、推理、并與物理世界互動的智能系統，AI 與機器人的融合，具有很好的想象空間。

他還介紹了英偉達的多模态具身智能系統 Nvidia-VIMA，能在視覺文本提示的指導下，執行複雜任務、獲取概念、理解邊界、甚至模拟物理學，标志着 AI 能力的顯著進步。

此外，在特斯拉召開 2023 年年度股東大會上，馬斯克展示了人形機器人 Optimus 的全新型号，和具身智能機器人幾乎劃等。

馬斯克表示，人形機器人将是今後特斯拉主要的長期價值來源，他也認爲，以具身智能機器人爲代表的産品有望成爲 AI 的下一浪潮。

1950 年，圖靈在他的論文——《Computing Machinery and Intelligence》中首次提出了具身智能的概念。

具身智能（Embodied AI）指的是，有身體并支持物理交互的智能體，如智能服務機器人、自動駕駛汽車等，具身智能機器人指的是，像人一樣能夠與環境交互感知、自助規劃、決策、行動、執行任務的機器人。

它包含人工智能領域幾乎所有的技術，包括機器視覺、自然語言理解、認知和推理、機器人學、博弈倫理、機器學習等，橫跨多個學科方向，是 AI 的集大成者。

2023 年是生成式 AI 的爆發之年，也被業内人士稱爲 " 機器人覺醒之年 "。ChatGPT 等生成式 AI 與人形機器人行業結合，開啓了具身智能的時代。

具身智能機器人熱潮，從美國 " 吹 " 到了中國。連日來在國内 A 股市場上，有關人形機器人的個股紛紛上漲，多隻觸及漲停。

國家層面，智能機器人相關支持性政策頻傳，2023 年 11 月工信部印發《人形機器人創新發展指導意見》，提出到 2025 年，人形機器人創新體系初步建立，" 大腦、小腦、肢體 " 等一批關鍵技術取得突破，整機産品達到國際先進水平，并實現批量生産。

地方上也在積極響應，目前包括北京、上海、深圳等重要制造業基地，都發布了相應的 " 人形機器人 " 計劃，推動當地的機器人産業落地應用。

去年 8 月，小米發布了全尺寸人形仿生機器人 CyberOne（藝名 " 鐵大 "）。據官方透露，鐵大身高 177cm，體重 52kg，定位家庭服務機器人。去年 10 月，小鵬汽車公布了自研雙足人形機器人 PX5。這款智能機器人擁有雙足行走和跨越障礙能力，憑借高性能關節，可在室内外大步行走、敏捷運動。

中國電子學會數據顯示，到 2030 年，我國人形機器人市場規模有望達約 8700 億元。人形機器人正成爲多方競逐未來産業的新賽道。

尤其近日，斯坦福華人團隊的這個炒菜機器人刷屏朋友圈。機器人硬件打造成本 22 萬元，通過人工遠程操作演示，讓機器人學會完成各種複雜任務。

90後CMU回國創業者讓具身智能真正商業化落地，完爆炒蝦機器人

國産具身智能走在世界前沿

國内具身智能行業也毫不示弱，在一線科學家和創業者的努力下，走在了世界領先的水平。

邱迪聰，雅可比機器人的創始人，是一名 90 後創業者。他畢業于世界著名的卡耐基梅隆機器人研究院，一直以來都緻力于通用人工智能（AGI）與機器人的強結合，在包括具身通用智能智能、基于心智理論（Theory of Mind）的機器人行爲決策與規劃、不确定性與非線性優化控制、強化學習和模仿學習等領域的前沿科研和工程化落地上有多年的積累，在相關領域定會上發表過多篇論文和多項國内 / 國際專利。他也曾主導 / 參與過美國航空航天局（NASA）火星車研發、人形機器人強化學習、L4 級自動駕駛系統全技術棧研發等項目。

他長期專注于 AI 和機器人技術的結合，打造能在陌生開放環境中，可以與用戶進行直接對話交互，能夠自主理解用戶意圖和進行任務推理，并閉環完成各種複雜任務和操作的智能機器人。同時，結合我國産業優勢，讓該系列機器人能夠以低成本推向市場，讓通用具身智能 / 人形機器人有正向的 ROI（投入産出比）落地，真正地提供價值，加速智能機器人進入到我們日常生活的進程。

" 我們正在開發屬于下一個時代機器人，結合着我們自主研發的多模态機器人大腦以及能持續自驅學習的全身運動控制和任務執行算法，我們的目标是讓機器人能夠實現和人類相近的認知能力，同時達到與人類相同甚至更高效的任務執行能力。" 邱迪聰表示。

雅可比機器人創始人邱迪聰

在國外學習工作多年，同時在看到國内 AI 發展的浪潮後，邱迪聰決定回國創業，于 2023 年成立了一家具身通用智能機器人公司 --- 雅可比（廣州）機器人有限公司。

通過機器人邏輯思考大腦 J-Mind 和運動控制小腦 J-Box, 機器人在不經過任何培訓（Zero-shot）的情況下可以移動到所需補貨的貨架前，能夠高效的識别貨架的陳列狀态，把雪碧精準地放到空缺位置中，嚴格遵守貨品與貨品之間的距離間隔，從而自動完成貨架補貨和整理，形成發現問題到解決問題的流程全閉環。

在邱迪聰看來，機器人有三個階段的叠代，在 1.0 時代叫做純機械控制時代，機器人在工廠裏面通過一些機械運動去做固定重複任務的執行。

到了這個 2.0 時代，開始接入算法，但主要是解決單一的任務處理，例如在工廠、酒店或物流場景中，我們能看到 2.0 時代機器人。

但即使是接入了 AI 的能力獲得了更高維度的感知，2.0 時代機器人任務執行仍舊非常單一，在任務的理解和自己對世界的認知上面，還是完全空白的。

進入到 3.0 時代，随着大模型的誕生、開放世界感知模型的進化，以及基于模型和基于學習的機器人全身運動能力的革新，我們可以看到機器人開始逐步從封閉場景走向全開放的場景，解鎖更多樣化的應用，能夠在一個場景中執行多項任務，甚至能夠跨越多種場景交叉學習和完成多樣化的任務。

3.0 時代的機器人，也是當前創業者們最聚焦的方向。其中，商用服務、家庭養老陪伴陪護和智能制造将是具身通用智能機器人和人形機器人的三大應用場景。

雅可比的發展路徑，則涵蓋了商用和家庭陪伴等服務領域。目前雅可比發布一款具身智能商超服務機器人，能夠通過人類語音指令的控制，在商超場景下實現多任務執行能力，包括自主巡檢、自動補貨、貨品分揀等功能。另外，他們也展示了該款機器人在跨場景學習和技能遷移的能力，能夠零樣本（zero-shot）完成其他商用服務場景的任務。目前該機器人已經與國内某大型連鎖商超集團達成了 POC 合作協議，未來一段時間該機器人也将在該超市落地進行 POC 測試，充分驗證機器人的閉環任務執行能力和可替代性，這也将成爲國内甚至全球落地的第一款通用具身智能零售機器人，也充分證明了雅可比強大的商業化能力和工程化落地速度。

邱迪聰表示商超隻是作爲雅可比商業化落地的一個切入點，而不是商業化的天花闆。商超現階段一方面将爲雅可比帶來一定的商業化收入，另外一方面則将爲雅可比通用具身智能機器人的不斷進化提供海量的真實環境數據積累。未來雅可比機器人将不止在某一個場景執行某一個具體的任務，而是将成爲人類的生活夥伴或者工作上的合作者，成爲人類能力的延伸，能夠橫跨零售、倉儲、辦公行政、餐飲服務等一系列場景，最終希望機器人能進入家庭，爲我們的家庭生活提供娛樂價值和情緒價值。

現階段技術落點在勞動力的一個補充上，是在機器人和人力成本之間做平衡。在雅可比内部，把機器人的矩陣職能劃分爲了兩個部分，一是情感線和情緒價值能力；二是功能和操作能力。

随着機器人在商超不斷地與人交互，它的情感能力也會随之而升級，在交互的過程中，機器人能夠持續加深對外部環境的認知，在數據上沉澱積累，也在交互算法和模型上不斷優化情感理解的能力。

圖靈獎獲得者、中國科學院院士姚期智則指出，具身機器人目前遇到的主要有四大挑戰：第一，機器人不能夠像大語言模型一樣有一個基礎大模型直接一步到位，做到最底層的控制；第二，計算能力的挑戰，即使谷歌研發的 Robotics Transformer 模型，要做到機器人控制，距離實際需要的控制水平仍有許多事情要做；第三，如何把機器人多模态的感官感知全部融合起來，仍面臨諸多難題需要解決；第四，機器人的發展需要收集很多數據，其中也面臨很多安全隐私等方面的問題。

" 具身智能作爲學術或者實驗室研究課題它非常成立，但是如果說基于這個潮流，在今天就想去做一個通用機器人的話，我覺得挑戰是非常大的。" 有 AI 投資人表示。

對此，邱迪聰表示，對于雅可比未來 5 年的規劃，非常有信心。" 在創業之初，我們就做了許多理論驗證，即使是我們第一階段的商業服務機器人，也需要滿足許多技術的瓶頸和關節點，我們知道自己的邊界在哪裏，超出這個邊界就玩不動了，我們的未來規劃以及前瞻性的預測都在邊界條件之内。"

"Open AI 的偉大之處其實不在于 GPT 有多火，而是它向全世界證明了這條路線是可行的。一旦可行，就把一個學術問題變成了工程化的問題，隻要是工程化的問題它就會有一個确切的解決時間周期。" 邱迪聰說。

持續探尋技術邊界

通過大腦 J-Mind 和小腦 J-Box, 機器人在不經過任何培訓（zero-shot）的情況下可以移動到所需補貨的貨架前，能夠高效的識别貨架的陳列狀态，把雪碧精準地放到空缺位置中，嚴格遵守貨品與貨品之間的距離間隔，從而自動完成貨架補貨和整理，形成發現問題到解決問題的閉環。

團隊自研的機器人運動控制小腦 J-Box 根據行爲指令直接對機器人進行控制，無需大量數據進行預訓練。在多類貨品中，機器人可以精準識别并抓取出用戶所需的雪碧。

隻需要口頭對機器人說或者通過文字輸入 "xx 貨品不夠了，需要補貨 " 的需求，團隊打造的機器人 " 大腦 "J-Mind 就能将抽象的需求和指令進行推理，并拆解成子任務，以及機器人可以執行的動作指令。

比如：

" 貨架上雪碧不夠了，請你幫我補一下。"

幾秒後，J-Mind 就完成了自主推理和拆解任務，自動形成具體的任務指令。

" 好的，我去爲您補充雪碧。"

事實上，上述這些主要功能得以實現的背後，主要涉及感知、規劃和執行三個層面的技術。雅可比研發的通用具身智能機器人，具備開放的機器人全棧能力，即開放的感知和認知能力，開放的業務邏輯推理和決策能力，開放的任務閉環執行能力。而将三個層面的技術結合在一起之後，就可以幫助機器人完成從感知端到決策端再到行爲端，最終到物理世界的執行端的任務全閉環。

他認爲，到了 3.0 時代的機器人，由于機器人對語言和環境理解能力的提升，而且還可以自主規劃運動和技能。" 新一代的機器人将有很強的泛化能力，而且編程訓練的成本也大幅度降低，屆時通用具身智能 3.0 時代的機器人，将有進一步走近人類生活的先決條件。"

" 我們希望可以在商超的執行環境中，訓練出機器人對各類物品的認知、對工作人員和顧客的交互，以及處理任務的等一系列能力，再将其推向人們的生活，讓它能夠獨立地完成更多自主任務，以提升人類的生活幸福感，以及提高整個社會的價值。" 邱迪聰說。

幫顧客點單、遞送餐品、擦桌子、将顧客喝完的飲料瓶丢到垃圾桶等，也是該機器人已經擁有的其中一種開放場景服務能力。這也能夠很好地體現機器人在跨場景的能力遷移。

他提到，雅可比非常關注通用人形機器人的任務執行能力，在通用人形機器人的實現路徑上跟目前國内外的廠商會有很大區别，雅可比專注于通用人形機器人的上半身的任務執行能力，彌補了市面上通用人形機器人廠商隻專注于雙足的全地形移動能力的尴尬，雅可比将在解決通用人形機器人全開放場景的任務執行能力基礎之上，同時覆蓋機器人的移動能力。

據了解，雅可比機器人正在布局以下兩方面的事務。其一，提升 " 大腦 "J-Mind 的能力，讓機器人可以更加通用地理解開放場景，并将其轉化爲抽象的行爲執行過程。其二，基于共創模式，與來自商超、藥企、餐飲等領域的客戶共同打磨場景，以大幅地提升面向未來的具身智能機器人的行爲能力，并走向真正的落地。