貝索斯又給一家 AI 創企 Physical Intelligence 投資了,一頓操作下來,使其估值狂飙至 24 億美元。
值得一提的是,這波融資除了貝索斯外,還有風險投資公司 Thrive Capital 和 Lux Capital 同時牽頭,OpenAI、Redpoint Ventures、Bond 紛紛跟投。
讓 Robot 疊衣服,一句話的事兒
這個讓一衆大佬紛紛看好的 Physical Intelligence,它的核心産品是一款名爲 π 0 ( pi-zero ) 的軟件,這是一個通用的機器人基礎模型,旨在使用戶通過簡單的語言指令控制機器人,類似于與聊天助手互動的方式。
在上周發布的論文中,Physical Intelligence 還展示了 π 0 如何使機器人能夠折疊衣物、清理桌子、壓平盒子的技術分析等等。
其中,π 0 機器人控制模型集成了一系列高科技手段,使其能夠靈巧地完成複雜的任務。
這個模型首先利用視覺 - 語言模型來理解圖片和文字中的信息,然後通過一個特殊的動作輸出系統,以很快的速度告訴機器人該如何動作。這種快速、連續的動作指令對于需要精細操作的任務非常關鍵,比如疊衣服或者裝箱子。
π 0 模型的訓練分爲兩個階段:預訓練和後訓練。
預訓練階段,模型會學習大量的數據,這樣它就能夠掌握廣泛的技能和适應不同的場景。後訓練階段,模型會針對特定的任務進行調整,以提高其在這些任務上的表現。
此外,π 0 還采用了一種叫做流匹配的技術,這讓它能夠處理連續的動作,而不是單一的、離散的步驟。這種技術的應用,加上模型的混合專家架構,使得 π 0 在預測動作時更加準确。
總的來說,這些技術的綜合應用讓 π 0 在多種機器人平台上都能夠展現出色的表現,無論是在預訓練後立即執行任務,還是經過特定任務的微調後。
網友直呼:我一直相信 AI 機器人的能力,現在它能幫我洗衣服,我就更喜歡它了!
還有網友化身 " 賽博乞丐 ":給我來一個!
不過也有網友覺得演示中的内容在特斯拉的機器人面前有點太小兒科了,不過馬上遭到反駁:人家隻是初創公司!
而這也和 Physical Intelligence 的想法一緻,聯合創始人 Sergey Levine 就曾經表示:" 據我們所知,我們正在訓練的數據量比有史以來制作的任何機器人模型都要大。"
但他還補充道:" 它無論如何都不是 ChatGPT,但也許它接近 GPT-1",表達他們的軟件更接近于 OpenAI 爲聊天機器人發布的首個模型 GPT-1,而不是那些更先進的、爲 ChatGPT 提供動力的大腦,暗示他們仍處于早期開發階段。
野心勃勃,要做機器人行業中的「OpenAI」
之所以 Physical Intelligence 能夠拿到這麽大的融資,可能是因爲它和 OpenAI 一樣,都是企圖從模型與數據層面颠覆此前的技術慣性,或許将 Physical Intelligence 的 π 0 與 OpenAI 的 ChatGPT 進行比較,可以更直觀地理解其創新和潛力。
首先,ChatGPT 的精準語義理解能力是其核心優勢之一,對于 π 0 而言,這種能力同樣至關重要。
π 0 必須具備理解物理世界中的交互指令和上下文的能力,這包括但不限于視覺、語言和觸覺等多種感官輸入。
通過接受大規模互聯網視覺 - 語言預訓練,并結合豐富的機器人操作數據集,π 0 能夠熟練地執行一系列多樣化的任務。這不僅彰顯了 π 0 在解讀物理世界指令方面的卓越能力,也體現了其在多模态感知和任務執行上的先進性。
其次,ChatGPT 的卓越之處在于其能夠将宏觀問題細化爲微觀問題,并巧妙地整合答案。
對于 π 0 而言,這表示它必須将複雜的物理任務分解成一系列可操作的步驟,并根據環境的實時反饋靈活調整其行動,以确保達成預定目标。
π 0 通過在廣泛的機器人操作數據集上進行訓練,已經能夠熟練執行從簡單的物體搬運到複雜的衣物整理等多樣化任務,這充分展現了其在任務分解和解決方案構建方面的強大能力。
關于這點,Physical Intelligence 的創始人 Karol 也曾說過:" 我們有一個非常通用的方法,它可以利用來自許多不同實施例、許多不同機器人類型的數據,并且類似于人們訓練語言模型的方式。"
最後,ChatGPT 的通用性體現在其能夠将人類知識遷移至語言交流中。相較之下,Physical Intelligence 的通用性則表現在将互聯網規模數據中學習到的深層語義知識,成功應用到物理世界的實際操作中。π 0 繼承了這種從大規模互聯網預訓練中獲得的豐富語義知識,并将其有效運用于實時的靈巧機器人控制,從而在知識遷移和通用性方面展現了其非凡的能力。
值得一提的是,Physical Intelligence 的一個關鍵特點是與物理世界的直接交互。與 ChatGPT 主要處理語言和信息不同,Physical Intelligence 需要處理的是物理信号和實際操作,正是這一點可以看出,它的野心是成爲機器人行業中的「OpenAI」。
總的來說,ChatGPT 的裏程碑在于其對自然語言的理解和生成能力,而 Physical Intelligence 之所以受到投資人重視,則在于其對物理世界的理解和操作能力。
π 0 所做的,就是将構建語言模型的技術與控制和指導機器的自有方法相結合,并通過大量的機器人數據訓練來實現。爲了獲得更多數據,該公司使用了在圖像和文本上訓練大腦視覺語言模型和從 AI 圖像生成中借鑒的擴散建模技術。
人均 " 大咖 " 的初創公司
Physical Intelligence 成立于 2024 年,至今不到一年時間。它是一家專注于将通用人工智能與物理系統相結合的機器人初創公司,總部位于加利福尼亞州舊金山。公司的目标是開發一種能夠應用于各種機器人的基礎軟件,使其能夠執行複雜的多步驟任務,而不再局限于特定的功能。
公司的聯合創始人兼首席執行官卡羅爾 · 豪斯曼(Karol Hausman)曾在谷歌 DeepMind 擔任機器人科學家,一直專注于深度學習和機器人技術的應用,目前在斯坦福大學當客座教授。
Karol 在慕尼黑工業大學獲得機器人碩士學位,在南加州大學獲得計算機科學博士學位,研究方向爲感知 - 行動循環的重新思考,通過交互感知和學習表征來提升機器人的智能。自 2018 年起,擔任谷歌大腦的員工研究科學家,領導機器人操作團隊,并負責多個重要項目。2021 年至今,擔任斯坦福大學計算機科學系的兼職教授,教授深度強化學習等課程。同時也在 NASA 噴氣推進實驗室等多個頂尖研究機構擔任過短期訪問研究員。
同時他也在多個國際會議和期刊上發表了大量論文,涵蓋深度學習、機器人操作、交互感知等主題。其論文《Rt-1: Robotics transformer for real-world control at scale》在 2022 年引起廣泛關注。
值得一提的是,在談及自家機器人在疊衣服方面的表現時,Karol 還強調:對于機器人而言,折疊衣物是一項特别困難的任務,因爲它需要對物理世界有更深入的一般性智能,尤其是在處理那些會不斷變化形态和産生褶皺的柔軟物品時。
他還提到,現有的算法還不夠穩定。就像人工智能聊天機器人有時會出現一些 " 人類怪癖 ",例如搖晃 T 恤和短褲,讓它們平整地鋪開。并且這些家庭服務機器人有時也會突然 " 崩潰 ",然後做出一些令人難以置信的行爲:例如它們可能會把雞蛋塞進已經裝滿的紙箱,然後強行關閉紙箱,甚至還有一次,在整理物品時,機器人突然将盒子從桌子上扔了下去 ...
其他聯合創始人包括加州大學伯克利分校的教授謝爾蓋 · 萊維甯(Sergey Levine),Sergey 發表了多篇具有影響力的論文,其中《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》和《Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor》是其代表作,分别被引用超過 13738 次和 9441 次。
聯合創始人切爾西 · 芬(Chelsea Finn),2019 年至今,Chelsea 擔任斯坦福大學的助理教授,并且享有 "William George and Ida Mary Hoover Faculty Fellow" 的稱号,她在機器人學和人工智能領域的研究工作得到了認可和尊重。值得一提的是,在加入斯坦福之前,她曾在 Google Brain 擔任研究科學家,專注于深度學習和機器人學習算法的開發。
聯合創始人 布萊恩 · 伊赫特(Brian Ichter)在斯坦福大學期間獲得了航空航天與航天工程的碩士以及博士學位,在攻讀博士學位期間,他作爲研究助理參與了多個項目,開發了基于 GPU 的算法,用于運動規劃和不确定性感知。自 2018 年 11 月到 2024 年 3 月,Brian 擔任谷歌大腦的研究科學家,專注于開發高效的算法和機器學習方法,使機器人能夠在複雜的現實環境中進行規劃和操作。
聯合創始人拉基 · 格魯姆(Lachy Groom),Lachy 于 2012 年加入 Stripe,成爲該公司的第 30 名員工。在 Stripe 工作期間,他參與了多個關鍵項目,包括支付産品的開發和全球擴展。最終擔任了 Stripe Issuing 的負責人,領導團隊開發用于創建、分發和管理實體及虛拟卡片的平台。在離開 Stripe 後,Lachy 積極參與天使投資,專注于早期階段的創業公司。他通過自己的投資基金(LGF)支持多個行業,包括金融科技、氣候科技和消費者互聯網等。
" 彌補遺憾 " ?OpenAI 跟投兩輪
2024 年 3 月,剛剛成立的 Physical Intelligence 籌集到了 7000 萬美元的種子輪融資,這一輪由 Thrive Capital 領投,參與者還包括 Khosla Ventures、Lux Capital、OpenAI 和 Sequoia Capital。其中領投 Thrive Capital 是一家具有強大影響力的風險投資公司,通過其專注于互聯網和軟件領域的投資策略,爲許多初創企業提供了資金支持與戰略指導。
2024 年 11 月,亞馬遜創始人貝索斯又領投了 4 億美元,至此,短短8 個月的時間,這家 AI 創企的估值已經飙升至24 億美元。
值得一提的是,Physical Intelligence 的這兩輪融資中 OpenAI 都有跟投,可見其對這家初創公司寄予厚望,但作爲行業領頭的 OpenAI 爲什麽不去去自己做機器人,而是轉爲投資其他公司呢?
這也許是 OpenAI 的一些 " 遺憾 "。
2018 年 OpenAI 推出了 Dactyl,一個類人機械手,通過強化學習算法實現了對物理物體的靈巧操控。Dactyl 能夠在沒有特定編程的情況下,自主學習完成各種任務。
2019 年,OpenAI 展示了一款單手解魔方的機器人。這款機器人經過 13000 小時的訓練,能夠在一定幹擾下高效地還原魔方。同年,OpenAI 發布了 Roboschool,這是一個用于模拟環境中控制機器人的開源軟件,旨在爲研究者提供一個平台來測試和開發強化學習算法。
但在兩年後,OpenAI 于 2021 年夏天宣布解散其機器人團隊。
對于解散的原因,OpenAI 聯合創始人 Wojciech Zaremba 解釋說:機器人研究面臨的數據稀缺問題使得研發受阻。相比之下,其他領域(如自然語言處理)能夠獲得更豐富的數據,從而促進更快的進展。并且随着 OpenAI 逐漸轉向商業化,其資源和精力更多地集中于大語言模型的開發,而不是高成本的機器人研發。因此團隊内部出現了對公司方向的不滿和分歧,最終團隊解散。
除此之外,一些分析人士指出,相比于機器人技術,研究語言模型被認爲具有更高的投資回報率和更低的風險,這使得 OpenAI 更傾向于将資源投入到語言模型上。
盡管解散了機器人團隊,OpenAI 并未完全放棄其在機器人領域的夢想,近年來,OpenAI 開始投資與其技術路線相符的初創公司,如人形機器人公司 Figure 和 1X Technologies,以及剛剛跟投的 Physical Intelligence。
具身智能大模型,還有更多
除了 Physical Intelligence,雷峰網總結國内外還有很多專注于具身智能大模型領域的初創公司。
例如由卡内基梅隆大學的兩位教授 Deepak Pathak 和 Abhinav Gupta 在 2023 年聯合創立的 Skild AI,其核心競争力在于其構建的 " 可擴展的機器人基礎模型 "。
這一模型采用了基于 Transformer 的自适應架構,通過大規模數據訓練,使其能夠适應多種機器人形式和任務。與傳統機器人技術不同,Skild AI 不再局限于特定任務的數據收集,而是追求一種能夠泛化應用于多種場景與任務的通用智能。
而它也在成立不到一年的時間内便獲得了 3 億美元的 A 輪融資,估值迅速攀升至 15 億美元,吸引了包括傑夫 · 貝佐斯、軟銀集團和紅杉資本等知名投資者的關注。
再例如由 Ivan Poupyrev 在在 2023 年創建的 Archetype AI,在種子輪融資中就籌集了 1300 萬美元,主要投資者包括 Venrock、亞馬遜工業創新基金和日立風險投資等。
Archetype AI 的核心技術是其創新的物理 AI 模型 Newton,這是一個大行爲模型(LBM),能夠捕捉人類難以察覺的複雜和快速變化的隐藏行爲模式。Newton 模型融合了多模态傳感器數據和自然語言,實現了對物理世界的實時感知與推理。其核心技術能力包括時間序列理解、多模态輸出、實時描述和多模态摘要等,這些能力使得 Newton 可以廣泛應用于安全、城市管理、工程和零售等領域
除此之外還有由 Brett Adcock 在 2022 年創辦的 Figure AI,這家在 2024 年完成了一輪 6750 萬美元的融資,公司的估值達到了 26 億美元。主要投資者包括 NVIDIA、微軟、亞馬遜創始人傑夫 · 貝索斯的 Explore Investments 基金等。
其核心技術在于它端到端的神經網絡框架,該框架能夠處理多模态數據并生成語言響應和執行策略,以及視覺到行動的 Transformer 網絡,它直接将視覺信息轉換爲動作指令。此外,Figure AI 還專注于解決雙足機器人的平衡與接觸問題,這些技術的綜合應用推動了人形機器人技術的發展,使其能夠執行複雜動作,并在商業領域得到應用。
不光是國外,而國内也有不少涉足機器人行業的初創公司。
例如由前 Robotics Learning 研究員王潛與北大計算物理博士王昊于 2023 年 12 月聯合創建的自變量機器人,已經完成 Pre-A 與 Pre-A+ 輪融資,總金額達到億元級。投資方包括德聯資本、基石資本、啟賦資本、南山戰新投,老股東九合創投持續加注。
其核心技術是 " 統一具身智能大模型 ",它通過端到端的完全縱向統一和任務泛化性,使得機器人能夠直接從原始輸入處理到最終動作輸出,無需中間步驟,并能夠跨任務學習通用架構,從而實現更廣泛的應用和更高的适應性。
還有由前珞石機器人聯合創始人兼 CTO 韓峰濤與清華大學交叉信息學院助理教授高陽于 2024 年 2 月聯合創建的千尋智能(Spirit AI),在成立後的短短幾個月内完成了近 2 億元人民币的種子輪和天使輪融資,主要由弘晖基金領投,其他投資者包括達晨創投、千乘資本、順爲資本和綠洲資本等。
千尋智能的技術核心在于其全棧的具身智能數據利用能力,使其能夠高效地從多種數據源中學習并應用到機器人技術中。團隊還開發了 EfficientImitate 高性能模仿學習算法,大幅提升了模仿學習的效率和泛化能力。
此外,千尋智能的 EfficientZero 算法在強化學習領域也展現出高樣本效率。在硬件方面,千尋智能擁有強大的機器人運動控制系統和硬件開發能力,特别是在模型預測控制、仿生柔順控制、動态環境操作等方面積累了深厚的經驗。