不知道你是否曾有過這樣的想法:當一個「甩手掌櫃」,把一切家務都交給家務機器人。說實話,這是在科幻作品中經常能夠看到的場景。
畢竟,誰不想擁有一位任勞任怨的「賽博仆人」呢?
來自舊金山的初創公司 Physical Intelligence(物理智能,簡稱 Pi)正在緻力于幫助人們實現這個夢想。這家公司近日展示了一種「接受了前所未有的數據量訓練」的人工智能模型,它已經學會了幹各種有用的家務活。
Physical Intelligence 發布的視頻顯示,他們的機器人可以十分靈巧地完成各種家務活,包括但不限于:整理擺滿了杯子和盤子的桌面:
把咖啡豆從袋子舀到機器當中:
甚至可以組裝紙箱:
最令人深刻的是,它們可以取出烘幹機内的衣物并折疊整齊。兩隻機械臂如同人類的雙手一般,配合熟練:
有趣的是,該公司開發的這種算法有時會表現出一些的類似人類的怪癖,例如搖晃 T 恤和短褲,讓它們平整地鋪開。
Physical Intelligence 的首席執行官豪斯曼(Hausman)指出,折疊衣服對于機器人來說尤其具有挑戰性,需要更多關于物理世界的一般智能,因爲它涉及處理各種會不可預測地變形和皺折的柔性物品。
他還表示,目前的算法并不很穩定。就像 AI 聊天機器人有時也會「崩潰」一樣,這些「家務機器人」有時也會做出一些令人不可思議的舉動:比如它會将雞蛋塞滿已經裝不下的紙箱,把紙箱強行合上;有一次在裝東西時,機器人突然把盒子從桌上扔了下去。
▲ Physical Intelligence 的 CEO 豪斯曼 . 圖片來自:The Information
盡管算法還不完美,但 Physical Intelligence 至少爲未來的「通用家務機器人」提供了一種可能性。
然而,豪斯曼的野心遠不止于此。「家務」隻是其中一種用途,「通用」才是公司的雄心壯志:
我們的目标是通過一個通用模型将人工智能帶入物理世界,基本上對于任何應用程序來講,該模型可以爲任何機器人或任何物理設備提供動力。
▲圖片來自:maginative
換句話說,Physical Intelligence 的目标是創建一個類似于大型語言模型(LLMs)的物理世界模型,這是一種「通用人工智能模型」。
他們将構建語言模型的技術與控制和指導機器的自有方法相結合,并通過訓練大量的機器人數據來實現。豪斯曼表示,他們的方法「非常通用」,可以利用來自不同機器人類型的數據進行訓練,類似于人們訓練語言模型的方式。
公司在過去八個月中開發了其「基礎模型」,名爲 π 0(pi-zero)。π 0 通過使用來自多種機器人執行各種家務的數據進行訓練,公司還經常讓人類遠程操作機器人以提供必要的教學。
Physical Intelligence 的聯合創始人之一、加州大學伯克利分校的副教授謝爾蓋 · 萊文(Sergey Levine)表示,他們訓練的數據量比以往任何機器人模型都要大得多,并且「幅度非常大」。
▲謝爾蓋 · 萊文(Sergey Levine). 圖片來自:YouTube
與其他公司譬如 Figure AI 和特斯拉專注于構建仿人機器人,以及像 Covariant 這樣的公司開發通用機器人軟件不同,Pi 旨在創建可以應用于廣泛機器人硬件的軟件。
對此,知名科技投資者,也是 Pi 的聯合創始人之一的拉奇 · 格魯姆(Lachy Groom)表示「使人類變得有趣的是我們的大腦,而不是我們的硬件,我們是終極的通用主義者」。
▲特斯拉開發的名爲「Optimus」的人形機器人
Physical Intelligence 面臨的一個關鍵挑戰是,與大型語言模型訓練中可用的文本數據相比,用于訓練的機器人數據規模有限。
因此,公司必須生成自己的數據,并想出提高從更有限數據集中學習的技巧。
實際上,爲了開發 π 0,公司結合了所謂的視覺語言模型(在圖像和文本上訓練)和擴散建模(從 AI 圖像生成中借鑒的技術),以實現更通用的學習。
一切的一切,都在爲「通用」而努力。
對于 Physical Intelligence 的現狀和未來,萊文的觀點是:
爲了讓機器人能夠承擔人類要求它們做的任何雜務,這種學習需要大幅擴大。盡管還有很長的路要走,但我們有一些你可以認爲是基礎框架的東西,未來的事情從中可見一斑。
但同時,萊文對 Pi 的發展充滿信心。他表示有足夠的迹象表明,在現實世界中使用機器人的最大障礙「現在已經可以解決」。