作者 郭思
編輯 陳彩娴
9 月底,一則關于特斯拉機器人的視頻流出,外界看到了 Optimus 擎天柱機器人的最新進展。
與此同時,在推特官方賬号上,Optimus 賬号也發出了一則 Hi,human,I have returned 的訊息。
而往年九月底會迎來的特斯拉 AI DAY,今年卻遲遲沒有動靜,種種迹象表明,對于人形機器人,特斯拉似乎一直在憋着大招,蓄勢待發。(爲什麽此前一直宣傳 AI 會毀滅人類的馬斯克如今卻頻頻點燃具身智能的技術火焰,你心目中理想的具身智能又是哪樣?歡迎添加本文作者郭思微信 lionceau2046,大家一起暢聊。)
據最新資料顯示,Optimus 擎天柱搭載了特斯拉自主研發的神經網絡和計算機視覺技術,能夠實時感知周圍環境,執行各種任務。
馬斯克表示,若未來兩年内 " 擎天柱 " 能夠量産,在規模效應下,其成本比汽車還要低,售價或許爲 2.5 萬美元(約合人民币 16.74 萬元,低于一部車的價格。
算法層面,一名特斯拉機器人部門内部員工則告訴 AI 科技評論,特斯拉此次會将以往在自動駕駛采用的 FSD 算法引用到人形機器人中,FSD 算法對于整個科技行業都是炸裂式的存在,一旦引入中國,将大殺四方,使得中國自動駕駛領域成爲敗垣。(現在上海市政府正有想要引入的想法,暫未有實質文件。)
而在香港城市大學助理教授殷鵬看來,特斯拉視頻的此番表現表明國内企業與特斯拉的差距将進一步拉開, 10 年都難以追趕。軍方看到人形機器人的巨大突破,應該感到擔憂,因爲一旦大規模部署,人形機器人的成本肯定會低于人的成本。
與贊美之詞一同而來的,是懷疑與争議,AIRS 副研究員張添威,就向 AI 科技評論表示:特斯拉的機器人是美式的工業審美,全球頂級機器人隻有日本可以做出來,擎天柱隻是一種特斯拉的 PR。
宇樹機器人 CEO 王興興則表示,特斯拉人形機器人的手展示出來的關節隻有七到八個主動自由度,而人的手至少有二三十個自由度,相較而言,目前特斯拉人形機器人的手指靈活度還是很不足的。回歸事件本身,我們發現此番特斯拉擎天柱引發的讨論點最多在于:人形機器人落地的難點究竟在哪裏,特斯拉展出的人形機器人優勢具體有哪些?大模型時代, 機器人産業的發展會呈現怎樣的發展态勢?
1、未來機器人:2 歲的行動力加上 20 歲的大腦
在視頻中,擎天柱有以下具體的突破:
不僅能夠依靠單一的視覺傳感進行物品撿拾,還可以當衆表演一場瑜伽。
瑜伽高難度動作,這對于機器人步态的穩定性和複雜環境的适應性要求極高。讓機器人走得穩,也一直是困擾人形機器人的最大難點之一。
相較于與去年首次亮相的「擎天柱」,已經完成了非常大的叠代升級。
機器人是軟件界和硬件界交互的最終落地點,能否落地最終不僅考驗硬件的安全穩健,更考驗軟件或算法層面的創新性。
特斯拉的人形機器人第一亮點便在于核心算法 FSD。
FSD 采用的是端對端的算法方案。
「端到端」是深度學習中的概念,英文爲 End-to-End(E2E)指的是一個 AI 模型,隻要輸入原始數據就可以輸出最終結果。
比如大火的 ChatGPT 的就是端到端效果的直接體現,也就是說讓神經網絡替代規則編寫,在實際過程中,可以理解爲從以前用規則指導行動變爲用真實數據指導行動。
在此前的機器人領域,絕大多數采用的是模塊化架構,也就是把機器人的行爲拆分成一個個典型任務,然後将這些任務交由專門的 AI 模型或模塊來處理,比如說感知、預測、規劃等等。
就好比一個公司的運作需要财務、銷售、市場、産品等各個部門的共同協作,是一種流水線工作,需要多個層級的信息輸送,而端對端算法方案,最大的特點就是直接,負責決策的人直接與底層人員對接,不用經過非常多的中間環節。
其實端到端的思路是非常容易理解的,也并不是特斯拉的首創(早在 1988 年就面世的 ALVINN 自動駕駛試驗車就基于端到端架構,)而特斯拉的優勢就在于,鐵定地認爲這條路是對的,并且是可實現的。
初心決定終局。
在 Transformer 推出之後,這一切有了落地的實施路徑。
在以前,卷積神經網絡 CNN 大行其道,優勢十分明顯,在處理二維圖像識别之時,CNN 能完美完成背景識别、圖像分割、特征提取、目标檢測的等衆多二維靜态任務。但是到了多維動态的交通環境,CNN 的劣勢就顯現出來。
而 Transformer 能依靠注意力機制洞察各種交通參與者之間的關聯,判斷自車和周圍動靜态交通參與者的時空關系,建立了三維的矢量空間,極大地改善了對于動态任務的處理結果。
種種迹象表明,特斯拉或許已經率先将這個優勢用在了如今的人形機器人身上。
其實早在年初,我們便在汽車上看到了 FSD 的優越性。
馬斯克當時在 X 上進行了一場 45 分鍾的直播,在直播裏,馬斯克乘坐老款 Model S,全程使用 FSD,途徑環島、施工路段等。
「我們沒有寫任何一行代碼告訴它該如何處理這種狀況,全程都是靠 AI 實現的。」
馬斯克在直播中表示,FSD V11 版本有超過 30 萬行的 C++ 代碼,而 V12 版本隻有 2000+ 行。
FSD 運算靈活,能在離線情況下進行運算。
馬斯克還表示,按推理,V12 版本的運算功率隻有 100W。更少的代碼也增加了系統的穩定性,讓車輛智能駕駛更加安全。
可以推測,如果特斯拉人形機器人最終效果可以實現 FSD 算法與硬件的完美結合,就意味着大模型展現驚人出來的湧現能力在特斯拉機器人上也會出現 。采用了 FSD 算法的特斯拉人形機器人,将會擁有一個可被訓練的大腦,隻是相對來說行動能力還差了一些。
這就類似于訓練小孩,小孩可以在不斷地試錯之中,持續進化。
據特斯拉員工介紹,我們可以看到的特斯拉人形機器人四肢雖然隻有 2 歲的水平,但由于大腦可以不斷叠代,後續做很多事情會變得很簡單。可能後續會演變成 20 歲的大腦,2 歲的四肢,想象空間十分巨大。(在你的想象中,機器人擁有自主學習能力會給整個産業帶來怎樣的影響和震撼,歡迎與本文作者:郭思,微信 lionceau2046,聊聊你的看法。)
2、人形機器人,回歸人本質
要想理解特斯拉人形機器人,就得理解馬斯克。
在馬斯克其人以及他所堅持的第一性原理已經在業界盛傳的當下,知道馬斯克個性鮮明,和真正體會馬斯克的作風是兩回事。
馬斯克傳記裏寫道「他的火星任務仿佛是對于重返家園的渴望,而他打造人形機器人的願望似乎又在表達着一種對親密情感關系的心理訴求。如果他扯掉襯衫,你發現他沒有肚臍,你也不應該感到驚訝,因爲他本來就不像地球人。」
而 AI 科技評論接觸的特斯拉員工都坦言,馬斯克是一個喜歡直接和底層員工接觸的「奇怪」老闆。
其中一員工告訴 AI 科技評論,他進入特斯拉半年, 就已經和馬斯克彙報過四次。而他還隻是一個普通工程師。更爲誇張的是,進入特斯拉的實習生,不到兩星期,馬斯克就會叫他直接彙報,了解工作細節。
「馬斯克十分嚴厲,經常會問一些很犀利的問題,談論細節。他不會刻意 push 你,但是員工會自帶緊張感,因爲本身項目的有趣性,自發的熱情又會被點燃。」
淩晨 3 點回家, 早上 9 點又重新上班,是特斯拉人形機器人團隊工作的常态。
工作作風上,馬斯克崇尚第一性原理,他認爲太多人就太複雜,所以特斯拉内部自動駕駛部門的人數隻有兩百人。遇到重點事項,底層員工需要直接向他彙報。
第一性原理體現在馬斯克的工作決策上,最著名的是飽受争議的「毫米波雷達闌尾」的言論。
一直以來,馬斯克都認爲,汽車自動駕駛應該和人類司機一樣,采用純視覺系統。人類可以依靠眼睛和智力來進行判斷和駕駛,汽車同樣可以通過相機和 AI 技術來控制。
2019 年特斯拉的「Autonomy Day」上,馬斯克就直言:激光雷達就像是人身上長了一堆闌尾,是傻子的玩意,任何人用激光雷達都注定失敗。
2021 年 5 月,特斯拉開始從其車輛中移除毫米波雷達;2022 年,又開始從銷往北美、歐洲、中東和中國台灣的 Model 3 和 Model Y 上拆除了 12 個超聲波傳感器。
在那以後,特斯拉傳感器方案從「8 攝像頭 +1 毫米波雷達 +12 超聲波雷達」的多傳感器方案減爲「8 攝像頭『的純視覺方案。
在汽車上采用 FSD 算法是第一性原理的體現,轉到人形機器人的研究,馬斯克的思考也很直接,特斯拉員工直言「馬斯克想要的是能從車上搬過來的東西全部都搬過來,沒有必要再做一套全新的 AI 系統。」
當然即使是将已經成熟的系統全部搬到人形機器人之上,人形機器人也不是那麽簡單的事情。
雙足人形機器人的設計要求它在真實環境中以與人類相似的方式工作。這包括對不斷變化的動态環境做出快速反應、執行複雜的身體動作,并精确及時地回應人類的語言、表情和情緒等。
在平衡能力上,雙足機器人肯定會比機器狗要求更好,可以理解爲,一個人站着會比趴着所需要的平衡能力更強。
根據展示的公開資料顯示,特斯拉 Optimus 共有 14 個旋轉執行器,14 個線性執行器,這些零部件累積起來的複雜程度和成本可想而知。
拿線性執行器之中比較經典的滾柱絲杠爲例,參考阿裏 1688 網站部分公司的報價,瑞士 ROLLVIS 行星滾柱絲杠産品售價在 2 萬元 / 套左右,國産博特精工相關産品約 1900 元 / 套。
人形機器人并不簡單,即使是對于多次創造神話的特斯拉而言也是如此。
對于這個難題的解決,馬斯克的第一性邏輯再次發揮作用:
「人類的發展史,是一個不斷優化的過程,人長成這樣子一定是最适合生存的樣子,所以人形機器人的優化過程一定要在人身上完成。」
所謂人工智能,不就是一場對人的模仿遊戲嗎 ? 隻有對人有充分的研究和了解,才能更好地處理人工智能。
借由這個思路,擎天柱機器人的發展曆程朝着端對端的思路進行,在過程中如果遇到難題,也會借鑒傳統算法,但核心理念會盡可能地使機器人靠近人,加入一些 assumptions(假設),以及人爲的理解在機器人算法裏。
讓「人」形更接近人,是這場遊戲的核心。
3、中國市場能否迎來一個「人形機器人」時代?
2018 年是改變馬斯克的一年。
這一年,上海允許特斯拉建造超級工廠,以此來解決困擾馬斯克已久的産能問題。上海決定給特斯拉提供年利率 3.9% 的貸款,并允許從上海臨港以一成價格拿地,以 9.73 億拿下了臨港 1297.32 畝(86.49 萬平米)土地。
而引入特斯拉的中國汽車行業也迎來了新的變革,特斯拉這條「鲶魚」推動了中國汽車行業的技術升級和産業轉型。
資料顯示,2019 年 11 月,特斯拉一飛沖天,直接終結了豐田全球市值第一高的位置,且遙遙領先。
同期中國汽車開始不斷呈現不斷趕超的态勢,截至 2022 年 12 月,中國企業 8 家進入榜單 TOP30,5 家進入 TOP20,排名最高的比亞迪 2021 開始超越大衆,成爲世界第三(或第四),長城、上汽則分别居于中國第二、三。
毋庸置疑,特斯拉沖擊并深刻影響了中國汽車市場,那麽如今特斯拉在人形機器人上的布局與引領,是否也會再次讓中國市場迎來一個「人形機器人」時代?國内企業與特斯拉的差距究竟有多大?
機器人最關鍵三大要素:動力、精準度,以及算法。
筆者采訪的衆多行業人士,紛紛表示,其實現今人形機器人産業發展的主要問題是 AI 算法的發展不夠,以及軟硬件結合的臨界點還沒有到來。(你怎樣看待人形機器人産業的發展現狀與難點?歡迎與本文作者郭思微信 lionceau2046 交流觀點與看法 ~)
此次外界對于特斯拉人形機器人推測最多的也是,特斯拉将 FSD 算法引入到了人形機器人之上。好處無需多談,但難點其實也很明顯。
AI 模型比規則更省運算空間,提升了運算效率。采用端對端算法,雖然減少了運算成本,但是端對端是隻需要輸入原始數據,即可輸出最終結果,這意味着把感知、預測、規劃三大部分劃爲一個整體,對于任務執行可解釋性的黑盒子一直存在,能保證安全嗎?
算法加入了人爲的理解雖然極爲便利,但肯定不通用,有些特殊情況可能無法預料,能否覆蓋所有的情況?
對于這個問題,王興興提供了一個新思路,可解釋性或許本身就是一個不值得深究的問題。
人形機器人領域有時候未必需要可解釋性,很多情況下,許多事物的發展就是不可解釋的,世界就是這麽運作的。
「早在公元前 200 多年前,阿基米德便建立了包括浮力定律、浮體穩定性在内的液體平衡理論,由此奠定了流體靜力學的基礎。此後衍生出來的流體動力學,其中原理至今還是很難解釋, 但不影響這門學科的發展以及人類對其的加以利用。」
特斯拉的端對端算法亦是如此。
對于 AI 算法發展本身,行業人士普遍判斷,國内硬件水平要高于國外,但 AI 算法這塊,國内與國外差距十分明顯。王興興就坦言,中國高端 AI 人才較少,目前中國教育體系學出來的落後國外十幾年。
「我自己去年各種崗位将近面試了 1000 個人,但比較合适一些的其實沒多少個候選人。」
說回可解釋性,對于這一點,馬斯克認爲,隻要一直喂數據,就能喂到足夠準确安全。
大力出奇迹, 與 GPT 的運行邏輯同出一轍。如果馬斯克順着這個思路,我們可以發現,數據,是未來人形機器人時代的關鍵要素。
以往的機器人系統或者自動駕駛系統在視覺模塊,普遍會采用深度學習算法,操作操控的話大部分都是一部分 深度學習算法和傳統的算法混合一起使用,執行層面基本上采用傳統算法,各個版塊之間數據沒有打通。
特斯拉 FSD 本身能從算法層面解決數據打通的問題。另一方面,特斯拉這個汽車巨頭一直以來積累的數據優勢和資本優勢也是這場競争之中不可忽視的籌碼。
據特斯拉發布的報告顯示,特斯拉在二季度的總營收爲 249.27 億美元,較上年同期增加了 47%,除去收入外,特斯拉的交付量也打破了其單季交付量的紀錄。盡管特斯拉在上半年數次下調了美國,墨西哥,歐洲以及中國四款有軌電車的價格,但特斯拉在二季度的交付量達到了創紀錄的 466,000 輛。
這足以表明,特斯拉積累的資本實力能使它有足夠的底氣去投資自己的研發 。
特斯拉員工表示,人形機器人出來後,會首先應用于特斯拉自己的工廠,自給自銷,這樣的好處是,機器人能跑起來,能捕捉到足夠多的真實場景數據。
機器人産業的每一塊數據都是從真實世界或者仿真環境得到的,無論多高大上的算法,多複雜的任務程序,最後都得落地于真實世界,真實世界的一組數據的作用大于虛拟環境的 100 組數據。
高質量數據來自于真實用戶日常駕駛場景中遇到的罕見場景,搭載自動駕駛的本土車企保有量和特斯拉之間有着巨大的差距,在數據上存在天然的短闆。
除了數據,在訓練算力上,本土企業與特斯拉也存在巨大的差距。特斯拉的訓練算力不僅來自 NVIDIA(與絕大多數中國企業不一樣),還有自家打造的超級計算機 Dojo- 道場,這也是特斯拉視頻展示的另一亮點。數據顯示,一台 Dojo 的算力高達 1.1EFLOPS。
據特斯拉内部員工透露,Dojo 正在瘋狂的擴張。成本 10 倍低于 NVIDIA , Dojo 的另一個優勢在于 GPU 是一個通用的平台。但 Dojo 是圍繞着自動駕駛訓練,完全定制化的超算系統,不光是芯片定制化,整個架構、電源、機櫃全都是圍繞自動駕駛設計。一塊闆上面全都是芯片,運算以及通訊速度大幅提高。這樣的算力加載的汽車和機器人,其威懾力可想而知。
數據和算力的差距加持,再加上特斯拉算法本身的卓越性,一旦正式量産,擎天柱對于國内機器人産業的沖擊不言而喻。
另一方面,馬斯克宣稱的 16.8 萬元的成本,背後所采用的方法或許也和他在車上采用的「最小有效規模效應」同出一轍。也就是随着産量的增加,成本下降幅度會迅速加大。
利用這一點,特斯拉汽車的每個生産環節都緻力于以最小的成本實現最大的效益。
以電池電芯爲例,數據顯示,特斯拉在美國市場的電池電芯成本爲每千瓦時 142 美元,整個電動車産業的平均值爲每千瓦時 186 美元。與産業均值相比,特斯拉電芯成本低了 23.7%。
特斯拉内部員工告訴 AI 科技評論,曾經有禾賽的人找過他想打入特斯拉人形機器人供應鏈,但是他一口回絕,因爲他知道供應鏈每一個環節,馬斯克都會把成本降到最低。
一套組合拳下來,其他企業的生存空間似乎被特斯拉不斷擠壓。
不過,這場角逐的關鍵轉折點還沒有完全實現,人形機器人的商業落地是國内外企業共同面對的問題。
特斯拉所展示的「全能」的、能夠有效替代人力的人形機器人,其實并沒有完全匹配的落地場景,用在哪是一個巨大的問題,而且大衆對其的感知也十分遙遠,沒有強烈的市場需要。
所以馬斯克才會在活動日上表示,會首先實現自産自銷。
王興興也強調,工業領域是有可能最先落地的場景,其次才是商業領域,家庭服務領域反倒是更難實現落地的地方。
國内人形機器人産業發展與特斯拉之間的确存在差距,但作爲有高達 300 萬工業機器人産業缺口的中國,未來機器人産業的發展擁有巨大的空間。
畢竟,在 2008 年之際,第一輛特斯拉在上海生産時,沒有人想到,它會間接影響中國此後新能源汽車的蓬勃發展。如今,特斯拉成本低至 16.8 萬的人形機器人大軍雄赳氣昂而來,機器人行業或許也将迎來新的變革。
雷峰網 雷峰網 雷峰網