英偉達Jim Fan：如何構建開放世界中的通用智能體？

近日舉行的 GTC 大會上，英偉達 CEO 黃仁勳（Jensen Huang）宣布推出通用人形機器人基礎模型項目——英偉達 GR00T 平台。

黃仁勳表示，GR00T 是英偉達爲波士頓動力、宇樹科技和小鵬鵬行等人形機器人制造商提供的一個專用 AI 平台。

" 構建通用人形機器人的基本模型，是我們今天可以在 AI 領域解決的最令人興奮的問題之一。這些技術正融合在一起，使世界各地領先的機器人專家，能夠在通用人形機器人領域取得巨大飛躍。" 黃仁勳稱，而 GR00T 這一名字似乎是緻敬漫威宇宙的超級英雄 Groot。

而在 3 月 23 日，GTC 大會官方釋出英偉達公司研究經理、英偉達 GearLab 實驗室負責人 Jim Fan 進行的一場接近一個小時左右的演講，題目爲《在開放世界中的通用智能體》。

Jim Fan 在演講中詳細整理和分享英偉達在 " 具身智能 "（Embodied AI）、人形機器人平台以及 AI 智能體（AI Agents）等方面的技術進展。

事實上，所謂 " 具身智能 "，就是指機器人或智能系統能夠通過感知器和執行器與其所處的環境進行實時互動，通常具備感知、認知、決策和行動的能力，能夠根據環境的變化做出相應的調整。

與傳統機器人相比，具身智能對環境的感知和響應能力相對更出色。而且，具身智能不僅能接收外部信息，還能理解這些信息，并作出适當的反應。

在此之前，華人計算機科學家、斯坦福大學教授李飛飛，上海交通大學教授盧策吾等人都曾提出 " 具身智能 " 這一概念技術。

随着 2022 年底發布的 ChatGPT 風靡全球，在 ITF World 2023 半導體大會上，黃仁勳表示，AI 的下一個浪潮将是 " 具身智能 "，即能理解、推理、并與物理世界互動的智能系統，引發全球關注。

今年 GTC 大會上，黃仁勳在現場展示了由 Disney Research 研發、由英偉達 Jetson 機器人芯片驅動的迪士尼機器人。黃仁勳對此非常滿意。

英偉達研究經理 Jim Fan

Jim Fan 透露，今年 2 月，在黃仁勳的支持下，英偉達建立了通用化身智能體研究實驗室—— GearLab，Jim Fan 是該實驗室的負責人。他将帶領團隊研究和布局具身智能、AI 智能體等下一代 AI 與機器人結合的創新技術。

Jim Fan 是英偉達 NVIDIA 的研究經理（Research Manager），也是 " 具身智能 " 的主導人之一。他主要緻力于開發具有泛化能力的自主智能體。爲了應對這個重大挑戰，他的研究涵蓋了基礎模型、政策學習、機器人、多模态學習和大規模系統。他在斯坦福大學獲得了計算機科學博士學位。

在演講中，Jim Fan 表示，通用智能體擁有三大特征——能在開放世界中探索、擁有海量世界知識、能執行無數任務。因此，這一領域技術研究需要足夠開放的環境、大規模預訓練數據和強大的基礎模型。

" 讓我們回到基本原則。一個通用智能體需要具備哪些基本特征呢？我認爲有三點。

首先，它應該能夠在一個開放的世界中生存、導航和探索。一個具體的目标隻有一個，而這個目标并不是開放的。

其次，世界知識。智能體應該擁有大量的預訓練知識，而不是僅僅知道環境中的幾個概念。

第三，作爲一個通用智能體，它必須能夠執行多項任務，理想情況下，應該能夠執行無數任務。你隻需使用任意語言給出提示詞，智能體就應該能夠爲你完成任務。

因此，我們需要的環境要有足夠的開放性，因爲智能體的複雜性受到環境複雜性的限制。以我們生活的地球爲例，正是因爲地球的開放性，才催生了名爲自然進化的算法，創造出了地球上所有多樣化的生命行爲。那麽，我們能否創造一個基本上是低保真度的地球模拟器，但我們仍可以在實驗室的電腦上運行呢？

接下來，我們需要爲智能體提供海量的預訓練數據，因爲在如此開放的世界中從零開始探索幾乎是不可能的。這些數據将成爲如何操作的參考手冊，更重要的是，它會告訴我們什麽是值得嘗試的有趣事物。

最後，我們需要一個可擴展性強的基礎模型，能将這大規模的數據轉化爲可操作的洞察信息。基于此，我們想到了 " 我的世界 "，這是史上最暢銷的視頻遊戲。對于不熟悉的人來說，" 我的世界 " 遊戲是一個由 3D 立體像素程序生成的世界。在這個遊戲中，你可以盡情發揮你的想象力。所以，該遊戲的獨特之處在于，" 我的世界 " 并沒有設定具體的最高得分或要遵循的目标。這使它非常适合作爲一個真正開放的環境。"Jim Fan 表示。

從 AlphaGo、MineCLIP，到 Voyager、Eureka、Groot，從具身化（Embodiment）和技能（Skill），從單一形态到多形态，英偉達在 " 具身智能 " 和 AI 智能體方面進行了多年的布局研究，希望能在 AI 通用體方面有所成果。

目前，英偉達擁有多模态具身智能系統 Nvidia VIMA，其能在視覺文本提示的指導下，執行複雜任務、獲取概念、理解邊界、甚至模拟物理學——這也标志着 AI 能力的顯著進步。

" 我相信，訓練這種基礎智能體的過程将和 ChatGPT 非常相似。所有的語言任務都可以被歸類爲文本輸入和輸出，無論是寫詩、翻譯，還是做數學。訓練 ChatGPT 就是在大量的文本數據上進行擴大。同樣的，基礎智能體會接受一個實體化提示詞和指令提示詞作爲輸入，然後輸出行動指令。我們隻需在大量環境中大規模擴大它。

基礎智能體是 GearLab 的下一章。昨天，老黃在他的主題演講中宣布了我們路線圖上的一項重要倡議，即 Groot 項目。我們的目标是爲人形機器人構建一個基礎模型。爲什麽要選擇人形呢？因爲這是最通用的形式。我們所生活的世界是爲了适應人類和人類的習慣而形成的。理論上，我們在日常生活中可以做到的所有事情，都可以在足夠先進的人形機器人硬件上實現。因此，我非常興奮能與全球多家領先的人形機器人公司合作，使得 Groot 能夠在不同的實體之間進行遷移。在一個更高的層面上，Groot 可以接受包括語言、視頻和示範等多模态指令，并在模拟以及真實世界中開發技能。"Jim Fan 表示。

Jim Fan 指出，如今 Groot 項目的目标，是爲最通用的人形機器人打造基礎模型，通過海量環境訓練獲得通用性，并與各種基礎設施共建生态。而且，未來新的人形機器人不僅會搭載 Jensen Thor 芯片，并有望在邊緣計算設備上驅動 Groot。

"Groot 是在 OSPO 上誕生的，這是一個新的計算調度系統，用于在 DGX 上提升模型的規模，以及在 OVX 上進行模拟。我們在 Isaac 實驗室爲人形機器人運行了許多不同的環境，期望模型能适應各種技能和環境，并能在模拟與真實的場景間無縫遷移，以便我們可以大規模擴展訓練，利用 GPU 加速的模拟環境。"Jim Fan 在演講中指出。

Jim Fan 強調，GEAR 實驗室是一項以使命爲驅動的研究。" 通用 AI 之路任重道遠，GEAR 實驗室正朝着這一使命不懈努力。"

（本文首發钛媒體 App，作者｜林志佳）