OpenAI大模型上身機器人，原速演示炸場！

OpenAI 大模型加持的機器人，深夜來襲！

名曰Figure 01，它能聽會說，動作靈活。

能和人類描述眼前看到的一切：

我在桌子上看到了一個紅色的蘋果，瀝水架上面還有幾個盤子和一個杯子；然後你站在附近，手放在桌子上。

聽到人類說 " 想吃東西 "，就馬上遞過去蘋果。

而且對于自己做的事有清楚認知，給蘋果是因爲這是桌上唯一能吃的東西。

還順便把東西整理，能同時搞定兩種任務。

最關鍵的是，這些展示都沒有加速，機器人本來的動作就這麽迅速。

（也沒人在後面操縱）

這下網友坐不住了，立馬 @波士頓動力：

老夥計們，這家夥是真來勁兒了。咱得回實驗室，讓以前的機器人（波士頓動力）多跳點舞了。

也有網友看在 OpenAI 卷完大語言模型、文生視頻之後，又狙擊機器人後感慨道：

這是一場激烈的競争；與 OpenAl 合作，蘋果可能會超越特斯拉。

但硬件方面，擎天柱看起來更美觀，Figure 01 仍然需要一些 " 整容手術 "。（doge）

接下來，我們繼續來看下 Figure 01 的細節。

OpenAI 視覺語言大模型加持

根據創始人的介紹，Figure 01 通過端到端神經網絡，可以和人類自如對話。

基于 OpenAI 提供的視覺理解和語言理解能力，它能完成快速、簡單、靈巧的動作。

模型隻說是一個視覺語言大模型，是否爲 GPT-4V 不得而知。

它還能規劃動作、有短期記憶能力、用語言解釋它的推理過程。

比如對話裏說 " 你能把它們放在那裏嗎？"

" 它們 "、" 那裏 " 這種模糊表述的理解，就體現了機器人的短期記憶能力。

它使用了 OpenAI 訓練的視覺語言模型，機器人攝像頭會以 10Hz 拍下畫面，然後神經網絡将以 200Hz 輸出24 自由度動作（手腕 + 手指關節角度）。

具體分工上，機器人的策略也很像人類。

複雜動作交給 AI 大模型，預訓練模型會對圖像和文本進行常識推理，給出動作計劃；

簡單動作如抓起塑料袋（抓哪裏都可以），機器人基于已學習的視覺 - 動作執行策略，可以做出一些 " 下意識 " 的快速反應行動。

同時全身控制器會負責保持機身平衡、運動穩定。

機器人的語音能力則基于一個文本 - 語音大模型微調而來。

除了最先進的 AI 模型，Figure 01 背後公司—— Figure 的創始人兼 CEO 還在推文中提到，Figure 方面整合了機器人的所有關鍵組成。

包括電機、中間件操作系統、傳感器、機械結構等，均由 Figure 工程師設計。

據了解，這家機器人初創公司在 2 周前才正式宣布和 OpenAI 的合作，但才 13 天後就帶來如此重磅成果。不少人都開始期待後續合作了。

由此，具身智能領域又有一顆新星走到了聚光燈下。

" 将人形機器人帶進生活 "

說到 Figure，這家公司創立于 2022 年，正如前文所言，再次引爆外界關注，就在十幾天前——

官宣在新一輪融資中籌集 6.75 億美元，估值沖到 26 億美元，投資方幾乎要集齊半個矽谷，包括微軟、OpenAI、英偉達和亞馬遜創始人貝佐斯等等。

更重要的是，OpenAI 同時公開了與 Figure 更進一步合作的計劃：将多模态大模型的能力擴展到機器人的感知、推理和交互上，" 開發能夠取代人類進行體力勞動的人形機器人 "。

用現在最熱的科技詞彙來說，就是要一起搞具身智能。

彼時，Figure 01 的最新進展是醬嬸的：

通過觀看人類的示範視頻，僅需 10 小時端到端訓練，Figure 01 就能學會用膠囊咖啡機泡咖啡。

Figure 與 OpenAI 的合作一公開，網友們就已經對未來的突破充滿了期待。

畢竟 Brett Adcock，可是把 " 唯一的重點是以 30 年的視角建立 Figure，以積極影響人類的未來 " 這樣的話都寫在個人主頁上了。

但可能沒人能想得到，僅僅兩周左右的時間，新進展就來了。

如此之快，如此之遠。并且還能持續泛化、擴展規模。

值得一提的是，與炸場 demo 同時發布的，還有 Figure 的招聘信息：

我們正在将人形機器人帶進生活。加入我們。

參考鏈接：

[ 1 ] https://twitter.com/figure_robot/status/1767913661253984474?s=46&t=HBob6gxh8cOfZTIbieKeSA

[ 2 ] https://twitter.com/adcock_brett/status/1767913955295744449

[ 3 ] https://twitter.com/coreylynch/status/1767927194163331345