2024,除了大模型繼續狂飙外,機器人發展也将迎來高潮。
去年年底,英偉達 " 網紅研究員 "、OpenAI 第一個實習生 Jim Fan 發推文稱,除了大模型,2024 年最重要的就是機器人,我們距離 " 具身智能 " 的 ChatGPT 時刻大約還有三年時間。
Jim 指出,長期以來,人們深受 " 莫拉維克悖論 "(Moravec's paradox)的困擾,這是一種和人們直覺相悖的現象,即 " 人類覺得容易的任務對人工智能來說卻極其困難,反之亦然 "。
但是 Jim 樂觀地預測,2024 年将成爲人工智能界全面崛起反擊這一悖論的元年,Jim 表示 " 我們不會立即獲勝,但我們将走上獲勝之路 "。
同時,Jim 列舉了 2023 年關于未來機器人的基礎模型和平台的發展:
1、以機械臂作爲物理輸入 / 輸出設備的多模态 LLM:VIMA、PerAct、RvT(英偉達)、RT-1、RT-2、PaLM-E(谷歌)、RoboCat(DeepMind)、Octo(伯克利、斯坦福、CMU)等。
2、彌合 System 1(負責低級控制)和 System 2(負責高級推理)之間差距的算法(使得系統能夠利用高級推理進行決策和理解,并将這些決策轉化爲實際的操作和控制):Eureka(英偉達)、Code as Policies(谷歌)等。
3、在強大硬件方面取得的驚人進展:特斯拉擎天柱、Figure、1X、Apptronik、Sanctuary、Agility+Amazon、Unitree 等。
4、數據一直是機器人技術的緻命弱點,研究界正在共同策劃下一個 ImageNet(人工智能深度學習取得突破的關鍵項目),如開放 Open X-Embodiment ( RT-X ) 數據集。雖然數據集還不夠多樣化,但邁出了重要的一步。
5、模拟和合成數據将在解決機器人靈巧性乃至整個計算機視覺問題上發揮關鍵作用。
(1)NVIDIA Isaac 可以以比實時快 1000 倍的速度模拟現實,傳入的數據流随着計算規模的增加而擴展;
(2)通過硬件加速的光線追蹤可以實現逼真的效果。逼真的渲染還帶有免費的地面真實注釋,如分割、深度、3D 姿勢等;
(3)模拟器甚至可以将真實世界的數據擴大,創造更大的數據集,從而大大減少昂貴的人工演示工作。MimicGen(英偉達)是一個典型的例子。