《科創闆日報》1 月 5 日訊(編輯 宋子喬) 大秀了一把廚藝後,斯坦福華人團隊開發的機器人又在北京時間今日淩晨發布了新視頻《Mobile ALOHA 的一天》,展示了澆花、打掃房間、煮咖啡、給主人刮胡子、洗碗、逗貓、扔垃圾、洗衣服、換被套、收納衣物等數十種家務技能,堪稱 " 全能家政員 "。
友熱評," 最難得的是眼裏有活。"
長期以來,人們深受 " 莫拉維克悖論 "(Moravec's paradox)的困擾,這是一種和人們直覺相悖的現象,即 " 人類覺得容易的任務對人工智能來說卻極其困難,反之亦然 "。
換言之,一個會做家務的機器人,非常難得。
但别高興得太早,Mobile ALOHA 雖然 " 眼裏有活 " 了,但它的動作依然由人操控(見下圖),并非完全智能的自主操作。
團隊負責人之一對此表示,人類操控是暫時的,他們已經在研究如何彌合人爲控制和機器人自控之間的差距。團隊的另一位負責人 Tony Z. Zhao 樂觀表示,"2024 年将是機器人年,這(家政機器人)僅僅是開始!"
Mobile ALOHA 更大的意義在于,其運動控制能力比成本高出 5-10 倍的同類系統更強大,展示了通用機器人的可行性,一個便宜、好用的家用機器人或許很快将會到來。
ALOHA 即 A Low-cost Open-source Hardware System for Bimanual Teleoperation,是一個低成本的開源雙手遙控操作硬件系統,即開源機械臂。其算法 Action Chunking with Transformers (ACT)采用了神經網絡模型 Transformers,因此具備模仿學習能力。隻需要 15 分鍾的演示,機械臂就可以學會一個動作——直接從真實演示中執行端到端模仿學習,并通過自定義遠程操作界面收集。
據上述華人團隊介紹,僅用 50 個演示,就能讓 Mobile ALOHA 完成各種複雜任務,其成本僅爲 32000 美元(約 22 萬元),軟件和硬件全部開源。
該團隊在論文中詳細介紹了 Mobile ALOHA 的硬件配置——最貴的是機械臂和移動底座,其中移動底座選擇了同類産品中相對便宜的一款;傳感器方面配備了 2 個腕部攝像頭和 1 個頂部攝像頭;配有機載電源和計算,即 1.26 千瓦時重 14 公斤的電池,在數據收集和推理過程中的所有計算都在一台消費級筆記本電腦上進行,該筆記本電腦配有英偉達 3070ti GPU (8gb VRAM)和英特爾 i7-12800H。
物料單中高價值量的部件
英偉達 " 網紅研究員 "、OpenAI 第一個實習生 Jim Fan 此前樂觀預測,2024 年将成爲人工智能界全面崛起反擊莫拉維克悖論的元年," 我們不會立即獲勝,但我們将走上獲勝之路 "。
這并非一時 " 口嗨 ",如今産業面的各種進展層出不窮,Jim 列舉了 2023 年關于未來機器人的基礎模型和平台的發展:
1、以機械臂作爲物理輸入 / 輸出設備的多模态大模型:VIMA、PerAct、RvT(英偉達)、RT-1、RT-2、PaLM-E(谷歌)、RoboCat(DeepMind)、Octo(伯克利、斯坦福、CMU)等;
2、彌合 System 1(負責低級控制)和 System 2(負責高級推理)之間差距的算法(使得系統能夠利用高級推理進行決策和理解,并将這些決策轉化爲實際的操作和控制):Eureka(英偉達)、Code as Policies(谷歌)等;
3、在強大硬件方面取得的驚人進展:特斯拉擎天柱、Figure、1X、Apptronik、Sanctuary、Agility+Amazon、Unitree 等;
4、數據一直是機器人技術的緻命弱點,研究界正在共同策劃下一個 ImageNet(人工智能深度學習取得突破的關鍵項目),如開放 Open X-Embodiment ( RT-X ) 數據集。雖然數據集還不夠多樣化,但邁出了重要的一步;
5、模拟和合成數據将在解決機器人靈巧性乃至整個計算機視覺問題上發揮關鍵作用;
基礎正一步步被夯實,站在 2024 年的年頭,我們有理由期待更強大的機器人驚豔亮相。
(科創闆日報 宋子喬)