文 | 有界 UnKnown
人形機器人行業又迎來一對新的強強聯合。
近期,波士頓動力宣稱,會使用豐田研究所的 " 大型行爲模型 " 來訓練機器人,它類似于驅動 ChatGPT 的 " 大型語言模型 ",可以讓機器人通過少量演示數據和多模态感知來掌握複雜任務,走向通用機器人。
在過去,這條技術路徑一直是馬斯克爲 Optimus(下稱 " 擎天柱 ")畫的 " 餅 ",想借此實現通用人形機器人。
今年 10 月初,馬斯克以《We, Robot》爲主題在加州開了一場 " 科幻 " 味兒十足的發布會。在現場,擎天柱以服務員的身份一邊爲賓客調酒,一邊擡手打招呼說着 "Hi,everybody",甚至在現場和賓客熱舞。
但發布會結束後,有現場賓客卻表示,擎天柱 " 親口 " 向他承認,自己是被遠程遙控的。而整個發布會,馬斯克也沒有透露關于擎天柱的任何技術細節。
看似自主的機器人,依舊離不開人類的遠程遙控。
馬斯克似乎做了一個雙面鏡,一面是真實的擎天柱仍然做着人類的提線木偶;而另一面,他又用一種近乎虛假的方式爲人們構畫出一個可能實現的未來。
但顯而易見,馬斯克并沒有興趣解答擎天柱當前的研發進度,那麽作爲馬斯克在機器人領域的強敵, 波士頓動力這次與豐田研究所的聯合,能将馬斯克畫的餅實現嗎?
波士頓動力,率先走到終點?
想要完成馬斯克這張拼圖,擎天柱需要擁有與人類和環境交互的能力。
比如将機器人放在廚房,它首先要能識别出自己所處場景是 " 廚房 "。然後,當人類告訴他要做一道菜時,它可以主動從冰箱拿出食材、清洗、切菜、并按步驟烹饪。
要實現這個過程,意味着機器人能夠自主辨别什麽是冰箱,并移動到冰箱前,打開冰箱門,在衆多食材中找到需要的食材,取出來,然後結合各種工具進行清洗 .....
這個過程對人類來說十分簡單,但對機器人而言卻十分困難。
當前無論是老牌人形機器人波士頓動力的 Atlas,還是 " 新貴 " 擎天柱、Figure,都隻能在受限制的環境裏執行單一任務,比如在案闆前将已經分揀好的各種蔬果拿起或者放下。
▲ Figure01 拾取水果,圖源 YouTube@Figure
▲ Optimus Gen2 拾取雞蛋,圖源 YouTube@Tesla
要知道這其中的區别,可以想一想咱們自己家裏的冰箱,當各種食材被混雜在一起、用透明塑料袋裝着的時候,識别難度就會高于單個的西紅柿、紅薯。
所以如果将機器人自主做出一頓飯的難度,比作是登上珠穆朗瑪峰,那麽現在的人形機器人才剛剛坐進學步車。對,它還沒有學會 " 走路 "。
而更重要的是,當前機器人學習新技能的效率十分低下,比如學會了疊衣服之後,轉而疊被子就要重新學習大量數據。
爲了克服這個難題,波士頓動力和豐田研究院團隊采用一種新的 AI 系統 " 大型行爲模型 " 訓練機器人,通過物理演示任務(例如觀看視頻)進行教學,來幫助将 Atlas 打造成一款自主性能力強的通用人形機器人。
經過這套 " 大型行爲模型 " 的訓練,機器人可以通過少量數據學習新技能,這種方法叫做" 擴散策略 ",這套策略可以探索多種不同的路徑,并根據實時情況選擇最佳方案,它可以幫助機器人更好地應對不确定性的環境,比如突然的障礙或任務變化。
豐田研究院公布了關于這一成果的報告,其中有一個通俗案例可以解釋這個策略:
經過擴散策略訓練的機器人,可以做醬汁燒注和塗抹任務,需要将醬汁塗抹在披薩面團中心,分拆步驟來看:①握住勺子接近披薩面團中心;②将醬汁以螺旋狀鋪在披薩上;③提起勺子。
▲論文《擴散政策:通過動作擴散進行視覺運動策略學習》
在這個過程裏,披薩面團會随機移動,而機器人可以 " 随機應變 ",它能跟随披薩面團中心位置的遷移而即時挪動勺子。
根據豐田工作人員透露,學會這個能力并不費勁," 這個過程從老師遠程操作演示一小部分技能開始 ",機器人晚上學習,第二天就可以獲得新技能。也就是說,它用少量數據向機器人演示,便能夠讓機器人獲得 " 泛化 " 能力。
和傳統的機器人學習相比,這種行爲模型就像運動界的 ChatGPT 一樣,給它一點行爲上的 Prompt,就能泛化出一套完成任務的操作軌迹和應變能力。
但并不是任何人形機器人都能适配這套策略,擴散策略更依賴視覺數據,這就需要硬件上擁有高精度視覺傳感器,還要擁有抓取複雜和精細物體操作能力。
這也是目前波士頓動力面臨的挑戰。
其最新款人形機器人 Atlas 目前并不具備實現 " 自主 " 的硬性條件,它既沒有靈巧手,又缺乏生活場景的數據。
Atlas 機器人雖然具備一定的抓握能力,但其手部設計相對簡單,隻有三指,并且常用場景是應急救援和工廠搬運,對于生活場景的數據也相對缺乏。
與此相比,特斯拉的擎天柱卻顯得更有優勢。
比如在視覺數據上,特斯拉的自動駕駛一直堅持純視覺的解決方案,目前市場上運行着将近 600 萬輛特斯拉汽車,可以積累大量的視覺數據。
其次擎天柱在靈巧手、關節有更接近人類的設計。在特斯拉最新展示的視頻裏,擎天柱可以走到桌邊,用雙手的 " 指尖 " 舉起重 11kg 的 4680 電池盒。
這雙機械手已經擁有 22 個自由度,分布在手指、手腕和小指下方,而年初手部擁有 11 個自由度的第二代擎天柱,所有手指都具有觸覺感應,能夠靈巧地處理雞蛋等易碎物品。
▲擎天柱舉起電池,圖源:Tesla@YouTube
所以,雖然波士頓動力和豐田研究院的找到了一種更有效率的機器人訓練方式,但想要比擎天柱更快實現真正的自主性,Marc Raibert 或許需要聯合他的老搭檔 --- 曾一起在 MIT 腿部實驗室共事、豐田研究所的 CEO 兼豐田汽車公司首席科學家 Gill Pratt,對目前 Atlas 的機械手作一番改造,并且補足視覺識别所需要的硬件能力。
馬斯克鍾愛 " 奇迹廚房 "
與波士頓動力聯合豐田研究院發布的新技術相比,馬斯克更鍾愛打造 " 奇迹廚房 "。
所謂 " 奇迹廚房 ",是指誇大産品能力的科技營銷行爲。
1959 年 7 月,《展望》雜志刊登了一篇描述未來 " 奇迹廚房 " 的文章,讓美國人認爲,未來自己家庭會有功能齊全、十分智能的廚房,在美國的宣傳片中,有一部分電器的運作會被含糊其辭地描述爲 " 自主 " 的:
" 推車會将吃完飯後的髒盤子,推到牆面,進行自動清洗和幹燥 "
" 清潔器可以從牆上自動出來,在清理完地面後,會自動回歸原來的位置 "
" 揮一揮手 " 就能召喚出隐藏在牆面的飲料機,告訴它 " 我想喝一罐冰凍橙汁 ",飲料機就會自動出水
▲吸塵機器人,照片由 Robert S. Lerner Photography LLC 拍攝
但這些在 50 年代令人感到驚奇的黑科技,卻是一個實實在在的謊言。
2013 年,一位 " 奇迹廚房 " 設計師成員揭露,自動洗碗機和清潔器這些 " 自走式電器 " 根本無法正常工作,而是工作人員在後台通過遙控操作,讓一些隐藏在地闆下的電子軌道輔助完成的。
" 奇迹廚房 " 本質上是冷戰時期的一種營銷工具,設計初衷是爲了吓唬蘇聯遊客,讓他們産生 " 一無所有 " 的感覺。
但從馬斯克的角度,他上演 " 奇迹廚房 " 的目的,顯然并不是爲了讓人覺得自己一無所有,反而是爲了讓人們知道自己未來可能會擁有什麽。
2021 年 9 月,馬斯克在特斯拉 AI Day 上突然宣布進軍人形機器人領域,配合他宣傳的是一段 " 機器人 " 的熱舞,當時這些機器人還隻是身穿緊身衣的人類舞者,而僅僅一年之後,擎天柱的原型機就被人攙扶着走上了發布會。
一直以來,馬斯克都以這種近乎誇張的方式,超前兜售自己的夢想。今年的《We,Robot》發布會也是如此。
在 10 月初的《We,Robot》發布會上馬斯克用了一種科幻手法,在香槟美酒和燈光舞影之下,一群擎天柱與人類其樂融融地相處,甚至在一個玻璃房裏集體大跳 " 夜店舞 "。
▲擎天柱熱舞,圖源 Tesla@YouTube
可能是因爲擎天柱的表現過于自然,以緻于現場賓客幾乎沒有格格不入感。
但賓客很快就發現了不對勁。在現場,不同擎天柱的音色不盡相同,并且它們與人類互動的反應是即時的,還伴随着順滑的手勢,相比于自主,更像遠程遙控。
連擎天柱自己都承認了這一點,前微軟戰略家 Robert Scoble 在 X 上分享了一段視頻,他在現場向擎天柱發問:"How much of you is AI?Some or none."(你的表現裏有多少成分是 AI 驅動?一點點,還是完全沒有?),擎天柱回複 "It might be some."
擎天柱就像提線木偶,和背後操縱它的人類共同演了一場戲。
馬斯克并不是第一次這麽做,2024 年 1 月份,他在 X 上發了一個擎天柱疊衣服的視頻,并配文 " 擎天柱在折襯衫。"
▲擎天柱折襯衫,圖源 X@Elon Musk
眼尖的網友從視頻上看到一隻快速閃現的手,擎天柱很快被質疑背後由人類遠程操控,馬斯克也親自承認了這一點,他發了一條 " 重要提示 ":擎天柱還不能自主地做到這一點。
馬斯克的做法,與當年 " 奇迹廚房 " 的構建如出一轍。通過模棱兩可地描述,來構建一個似有似無的科技場景。
雖然很多人對于這樣的營銷方式不滿,但一些機器人從業者表示理解,谷歌 DeepMind 一位工作人員 Ted Xiao 在 X 上直言 " 實現低延遲全身遠程操作是邁向自主化的一大步 "。
特斯拉機器人工程師 Milan Kovac 在 X 上也承認擎天柱 " 一定程度上有人類的幫助 ",但它們可以自主行走,并且在保持平衡的情況下,跳了 4 個小時的舞蹈,期間隻摔倒過一次。
▲特斯拉機器人工程師 Milan Kovac,X@Milan Kovac
總結起來看,雖然擎天柱每一次的出場,都有着遙操的成分,但它在遙操模式下的表現越來越好。
而馬斯克就好像在完成一張龐大的拼圖,一點一點地累積擎天柱的能力,讓它從一個需要被攙扶着上台的 " 機器 ",逐步變身爲一個 " 有血有肉 " 的 " 類人 " 物種。
擎天柱研發每走到一個新的階段,馬斯克就開始啓動一次 " 奇迹廚房 ",用營銷上的含糊口徑,向外界秀一遍自己腦中關于擎天柱的拼圖全貌。
哪怕這張拼圖可能才完成百分之一。
結語
1939 年,在紐約的世界博覽會,西屋電氣公司推出一款身高 7 英尺(2.1 米)的機器人 Elektro,它的外形酷似人類,會抽煙、會用手指數數,可以通過語音命令行走、會說 700 個單詞。
一經出現,Elektro 就成爲大衆心中的文化偶像,他激發了當時的人們對未來機器人的想象。
▲ A Blast from the Past,圖源 justoborn-Elektro Robot
但實際上就像特斯拉擎天柱第一次登上發布會一樣,Elektro 的一切都是假的,它其實是用内置 78rpm 的唱片機來朗讀預先錄制的詞彙。
但 85 年後的今天,Elektro 展示的一切已經成爲現實。越來越多企業開始聯合,共同推動人形機器人的發展。
比如爲了給給機器人安裝大腦,波士頓動力、Figure 都選擇了尋找軟件實力強的合作夥伴,前者找到了豐田,後者綁定了 OpenAI.
與他們相比,馬斯克就像一個孤膽英雄,他選擇了軟硬件自研的路徑。
不論是哪一種方法,在探索新物種的道路上,都充滿荊棘。
人類一直試圖厘清自己 " 從哪裏來 ",并據此衍生出女娲造人、亞當夏娃這些神話故事。
在這些神話裏,中國的女娲、歐美的耶和華神,都充當着人類 " 造物主 " 的角色。而人形機器人,則是人類自己企圖成爲 " 造物主 " 的具象體現。
這個物種需要和人類一樣,擁有自己的思想和行動。
但現在,人們還隻能在 " 奇迹廚房 " 裏,等待着它們的到來。