還記得曾火遍全網的 ALOHA 家務機器人嗎?最近該項目導師,斯坦福計算機科學與電氣工程系教授 Chelsea Finn 在 X 宣布,正式與其他幾位伯克利大牛學者、谷歌 DeepMind 科學家共同創業,全力爲機器人打造智能大腦。
新公司的名字叫 Physical Intelligence,簡稱 Pi 或 π。目标是開發一套 " 爲各種機械設備添加高級智能的軟件 ",最終構建可以控制任何機器人執行任何任務的通用 AI 模型。
Chelsea Finn 解釋說,這其實極具挑戰性,需要整合機器人跨平台策略、從視覺和語言模型中遷移學習、并通過模仿學習實現對靈活技能的掌握。
聯合創始人兼 CEO Karol Hausman 也興奮表示,項目将收集前所未見規模的機器人數據,進行算法改進和訓練超大模型,并攻堅一切将 AI 引入物理世界所需的技術。爲此他們組建了一支 " 世界級團隊 ",迫不及待開始這趟新的冒險旅程。
根據公開消息,才創立不到一個月,Pi 已經被包括 OpenAI 和其早期投資者 Khosla Ventures、美國紅杉資本、Lux Capital 在内的多家風投機構提前鎖定,拿下 7000 萬美元的高額融資。這不僅因爲公司在機器人賽道中的技術前景被無比看好,更多是對創始團隊實力的信心押注。
十人團隊,人均大神,一位華人成員
Pi 的官網頁面上是這樣介紹自己的:
"Physical Intelligence 是一家将通用人工智能帶入物理世界的新公司。
我們是一群工程師、科學家、機器人學家和公司創建者,正在開發驅動當今機器人和未來物理設備的基礎模型及學習算法。現在還處于初期階段,歡迎有興趣的夥伴加入!"
列出的成員目前隻有十人:
雖然展示方式 " 過于樸素 ",但團隊陣容實際上相當豪華,幾乎是人均大神。在加入 Pi 以前,他們各自都有不斐的研發成果,好幾位都是業界響當當的名字。
首先必須介紹的是除 Chelsea Finn 和 Karol Hausman 的另一位聯創Sergey Levine。
Sergey Levine 現任 UC Berkley 電氣工程與計算機科學系助理教授,專注于研究讓自主智能體通過學習獲得複雜行爲的通用算法,集中在機器學習決策和控制領域。并開發端到端深度神經網絡訓練策略,曾帶領團隊與谷歌聯合開發 RT-X 機器人項目,被認爲是強化學習領域的領軍人物之一。
圖源:MIT Technology Review
然而更令這個男人揚名立萬的是他 " 學術狂魔 " 的名号。Sergey Levine 谷歌學術上被引用量超過 13 萬,同時在頂級國際會議和期刊上發表過大量研究論文,接收量長期位居前列,并且經常霸榜。
例如 NeurIPS 2019 和 2020 上他分别有 12 篇論文被接收,位列 NeurIPS 榜單第一。2019 年 ICML 論文接收量并列第二。2022 年更是向 ICML 投稿了 30 篇論文,并以 16 篇的接收量斷崖式登頂作者 Top1 ——簡直是令人聞之喪膽的 " 論文收割機 "!
此外 Sergey Levine 還是伯克利人氣超高的 " 網紅教授 ",教育成就十分突出。他開設的深度學習課程(Deep Reinforcement Learning,代号 CS285)在學生中反響極爲熱烈,很受歡迎。線上視頻在油管和 B 站都可以觀看,廣爲傳播。
在這次對于新公司 Pi 的 " 創業聲明 " 裏他說,希望爲機器人領域帶來類似 " 大語言模型之于自然語言處理 " 那樣的通用解決方案。
" 過去我們已經多次看到,機器學習在大規模數據集與小數據集中面臨的問題有巨大不同。我們的研究很有實用性價值,相信也會爲基礎研究突破打開大門。"
開篇的提到的Chelsea Finn也是聯合創始人之一。她從 MIT 大學畢業後在伯克利取得博士學位,其介紹元學習算法的畢業論文獲得 2018 年 ACM 博士論文獎,當時的指導老師就有 Sergey Levine。
目前 Chelsea Finn 擔任斯坦福大學計算機科學和電氣工程的助理教授,重點研究通過學習和交互來發展機器人等智能體的廣泛智能行爲。例如端到端視覺感知和機器人操控,從收集的經驗中自主學習通用技能,以及快速學習新概念和行爲的元學習算法等。
Chelsea 的谷歌學術引用量雖沒有 Sergey 多但也很突出,超過了 4.9 萬次。她也曾在谷歌大腦擔任過 5 年研究科學家,開發機器人深度預測模型。
Pi 的首席執行官Karol Hausman是谷歌大腦的高級研究科學家,同時也是斯坦福大學的兼職教授。他的研究興趣集中在使機器人能夠在真實世界中以最小的監督自主獲得通用技能,并因 " 對可擴展的機器人學習算法做出重大貢獻 " 而獲得 2023 年 IEEE 機器人與自動化學會行業職業獎。
Hausman 在 X 的自我介紹十分有趣:" 喜歡機器人、AI、NBA、哲學、足球和杏仁可頌。"
除了這三位,團隊還聚集了擅長機器人運動規劃和基礎模型的前谷歌研究科學家 Brian Ichter;巴基斯坦裔傑出工程師、前特斯拉自動駕駛和硬件專家(設計了 Model X 獨特的上翹式獵鷹門)、現 Anduril Industries 高級副總裁兼電氣工程負責人 Anduril Industries;Chelsea 得意門生、豐田研究所機器學習、機器人學和計算機視覺研究科學家 Suraj Nair;以及支付公司 Stripe 前高管、著名科技投資人 Lachy Groom 等業界大牛。
另外吸引我們注意的是,這份名單列表裏還有一位華人成員Lucy Shi。這位來自人大附中的姑娘在 USC 獲得計算機科學學士學位,現在是一名斯坦福的學生研究員,由 Chelsea Finn 教授指導。曾與 NVIDIA 高級研究科學家兼通用具身智能團隊負責人 Yoke Zhu 和高級研發經理 Jim Fan 合作過。
最近她剛在 X 公布了斯坦福與伯克利合作的 Yell At Your Robot ( YAY Robot ) 項目,展示機器人從語音糾正中實時改進,根據人類口語反饋來學習和不斷提升,執行靈巧操作任務的研究成果。
Lucy Shi 在個人頁面開心地分享了自己以 " 第一位實習生 " 身份加入 Physical Intelligence 的消息。
自我介紹中她寫道," 我對機器人學習有着廣泛興趣。研究目标是創造出通用型機器人,在我們日常生活中無縫執行複雜、長期的任務… . 我深信人類的創造力和人工智能的潛力。未來 20 年,我希望成爲一名大學教授,建立起新一代的貝爾實驗室 ——這個改變世界的創新思想工廠。" 也讓我們欣喜地看到又一位智慧與理想兼具、前途無量的年輕學者。
迎難而上的智能機器人大腦締造者
在曆久以來的科幻小說和電影裏,人們總夢想有一個真正聽懂自己需求的機器人。它會思考、有情緒,能跟在身邊陪伴我們,幫助解決生活中的種種難題,像人類朋友一樣全能。然而現實中的機器人雖說可以在工廠搬運重物、給家裏打掃衛生,但與日益通用化的聊天機器人相比,能夠執行的任務範圍相對要局限很多。
Chatbot 和 LLM 的崛起得益于互聯網語料中的海量數據。OpenAI 和 Google 可以通過向大語言模型輸入數十億個人類語言樣本來訓練它們。然而從真實世界收集類似規模的數據是極其困難的,這也限制了近幾年人工智能在物理機器人領域的進步。
Physical Intelligence 認爲,現在正是采用新方法推進通用型機器人的好時機。
Figure 01 通過接入 ChatGPT 實現了人形機器人智能化的 " 看聽說 " 交互,讓人們看到大模型與機器人結合的巨大潛力。Pi 也希望将構建語言模型的先進技術與自己的機器控制和指令技術相結合,創建一種任何硬件、任何平台都可用的,具備廣泛任務執行能力的通用人工智能系統。
團隊表示,Pi 并不專注于特定類型的機械臂或工業機器人,而是計劃開發可以應用于多種類型機器人的軟件。他們也不會制造自己的硬件,創業後第一步是解決工程問題、搭建模型,以及購買各種不同的機器人并在上面開展訓練,目的就是積累迄今爲止最大規模的機器人數據。
Karol Hausman 在接受公開采訪時強調,團隊要開發一個通用模型,将人工智能從計算機裏帶到物理世界," 它能爲任何硬件設備提供動力,用于任何應用。"
而這顯然不僅僅是 Pi 的願景。除了面臨來自 Figure AI 和特斯拉等制造人形機器人公司的競争,幾十年來,人們也一直在努力改進驅動機器人的軟件。
就在 Pi 宣布成立的同一周,有着 7 年曆史、由知名 AI 科學家 Pieter Abbeel 和他三位華人博士生創立的 Covariant 公司就推出了基礎模型 RFM-1,爲機器人提供類似 ChatGPT 的語言理解和生成能力。經過一般互聯網數據和豐富現實世界交互數據的聯合訓練,RFM-1 可以讓機器人理解自然語言指令并生成相應的動作,并能處理一些突發狀況,收獲大量好評。
如今強強聯合,正式加入戰場的 Pi,到了将團隊多年潛心累積的卓越成果集大成的時候了。再加上 OpenAI 的背後支持,能不能湊齊龍珠召喚神龍,推動通用機器人領域的新紀元?
" 我們的目标是爲機器帶來人類那樣的基本能力。" Lachy Groom 說," 我認爲構建人形機器人是非常酷的事情。但從根本上讓人類變得有趣的是大腦,而不是什麽硬件——我們才是終極的通才。"
(封面圖源:Tunvarat Pruksachat/Moment RF)