OpenAI 大模型加持的機器人,深夜來襲!
名曰Figure 01,它能聽會說,動作靈活。
能和人類描述眼前看到的一切:
我在桌子上看到了一個紅色的蘋果,瀝水架上面還有幾個盤子和一個杯子;然後你站在附近,手放在桌子上。
聽到人類說 " 想吃東西 ",就馬上遞過去蘋果。
而且對于自己做的事有清楚認知,給蘋果是因爲這是桌上唯一能吃的東西。
還順便把東西整理,能同時搞定兩種任務。
最關鍵的是,這些展示都沒有加速,機器人本來的動作就這麽迅速。
(也沒人在後面操縱)
這下網友坐不住了,立馬 @波士頓動力:
老夥計們,這家夥是真來勁兒了。咱得回實驗室,讓以前的機器人(波士頓動力)多跳點舞了。
也有網友看在 OpenAI 卷完大語言模型、文生視頻之後,又狙擊機器人後感慨道:
這是一場激烈的競争;與 OpenAl 合作,蘋果可能會超越特斯拉。
但硬件方面,擎天柱看起來更美觀,Figure 01 仍然需要一些 " 整容手術 "。(doge)
接下來,我們繼續來看下 Figure 01 的細節。
OpenAI 視覺語言大模型加持
根據創始人的介紹,Figure 01 通過端到端神經網絡,可以和人類自如對話。
基于 OpenAI 提供的視覺理解和語言理解能力,它能完成快速、簡單、靈巧的動作。
模型隻說是一個視覺語言大模型,是否爲 GPT-4V 不得而知。
它還能規劃動作、有短期記憶能力、用語言解釋它的推理過程。
比如對話裏說 " 你能把它們放在那裏嗎?"
" 它們 "、" 那裏 " 這種模糊表述的理解,就體現了機器人的短期記憶能力。
它使用了 OpenAI 訓練的視覺語言模型,機器人攝像頭會以 10Hz 拍下畫面,然後神經網絡将以 200Hz 輸出24 自由度動作(手腕 + 手指關節角度)。
具體分工上,機器人的策略也很像人類。
複雜動作交給 AI 大模型,預訓練模型會對圖像和文本進行常識推理,給出動作計劃;
簡單動作如抓起塑料袋(抓哪裏都可以),機器人基于已學習的視覺 - 動作執行策略,可以做出一些 " 下意識 " 的快速反應行動。
同時全身控制器會負責保持機身平衡、運動穩定。
機器人的語音能力則基于一個文本 - 語音大模型微調而來。
除了最先進的 AI 模型,Figure 01 背後公司—— Figure 的創始人兼 CEO 還在推文中提到,Figure 方面整合了機器人的所有關鍵組成。
包括電機、中間件操作系統、傳感器、機械結構等,均由 Figure 工程師設計。
據了解,這家機器人初創公司在 2 周前才正式宣布和 OpenAI 的合作,但才 13 天後就帶來如此重磅成果。不少人都開始期待後續合作了。
由此,具身智能領域又有一顆新星走到了聚光燈下。
" 将人形機器人帶進生活 "
說到 Figure,這家公司創立于 2022 年,正如前文所言,再次引爆外界關注,就在十幾天前——
官宣在新一輪融資中籌集 6.75 億美元,估值沖到 26 億美元,投資方幾乎要集齊半個矽谷,包括微軟、OpenAI、英偉達和亞馬遜創始人貝佐斯等等。
更重要的是,OpenAI 同時公開了與 Figure 更進一步合作的計劃:将多模态大模型的能力擴展到機器人的感知、推理和交互上," 開發能夠取代人類進行體力勞動的人形機器人 "。
用現在最熱的科技詞彙來說,就是要一起搞具身智能。
彼時,Figure 01 的最新進展是醬嬸的:
通過觀看人類的示範視頻,僅需 10 小時端到端訓練,Figure 01 就能學會用膠囊咖啡機泡咖啡。
Figure 與 OpenAI 的合作一公開,網友們就已經對未來的突破充滿了期待。
畢竟 Brett Adcock,可是把 " 唯一的重點是以 30 年的視角建立 Figure,以積極影響人類的未來 " 這樣的話都寫在個人主頁上了。
但可能沒人能想得到,僅僅兩周左右的時間,新進展就來了。
如此之快,如此之遠。并且還能持續泛化、擴展規模。
值得一提的是,與炸場 demo 同時發布的,還有 Figure 的招聘信息:
我們正在将人形機器人帶進生活。加入我們。
參考鏈接:
[ 1 ] https://twitter.com/figure_robot/status/1767913661253984474?s=46&t=HBob6gxh8cOfZTIbieKeSA
[ 2 ] https://twitter.com/adcock_brett/status/1767913955295744449
[ 3 ] https://twitter.com/coreylynch/status/1767927194163331345