具身智能在 2024 年成爲科技領域的新熱詞。
人形機器人和具身智能公司,紛紛成立,一時風頭無兩。
不過,目前的人形機器人和具身智能,往往更多停留在概念和 demo 之中,何時能真正落地,仍然未知。包括特斯拉的 Optimus 在内的不少人形機器人企業,都将人形機器人落地的第一場景,設在工業場景當中。
然而,工廠場景中,實際早已存在不少工業機器人。這些更傳統的工業機器人,未來會被人形機器人取代嗎?或者,它們是否将在哪些方面結合新的具身智能技術,帶來新的生産效率的突破?
近期,極客公園接觸到了移動機器人解決方案提供商優艾智合。
優艾智合在 2017 年就已經成立,爲工業企業提供物流機器人和巡檢機器人,尤其深耕半導體行業,已經形成上遊晶圓生産、芯片封測、模組封裝到下遊組裝的生産環節全覆蓋機器人解決方案,是半導體領域出貨量最大的移動機器人企業。在 2022 年,優艾智合的機器人已經做到年出貨量兩千餘台。
極客公園了解到,從 2022 年起,優艾智合也在部署具身智能相關的技術能力,并在 11 月 20 日,與西安交通大學共同宣布成立具身智能機器人研究院。
在具身智能火起來之後,人們常常暢想,一個通用的人形機器人,可能會替代很多原有的專用機器人的未來。作爲一個已經有真實成熟的工業落地場景的公司,優艾智合如何看待具身智能呢?
帶着這樣的疑問,極客公園采訪了優艾智合 CTO 邊旭。采訪記錄有删節。
具身智能可以讓機器人更聰明
問:什麽時候開始思考落地具身智能?
邊旭:這應該是從 22 年 10 月份到 2023 年我們開始真正關注具身智能這個概念。
當時谷歌和 Everyday Robotics 合作,第一次将大型語言模型集成到機器人中,我們當時看了論文,下了一個判斷是,多模态大模型,最終隻是一個接口,真正機器人要發揮作用,光靠大模型是遠遠不夠的,需要強化學習、模拟學習等很多技術産生突破。
這是我們思考的起點,我們也開始從 2023 年開始投入了一些預研的資源。
問:目前的具身智能技術進步,能夠解決哪些你們面臨的問題?
邊旭:目前在進展中的,最快能解決的問題是視覺模型對環境的理解,能夠讓我們做出更安全、柔性的控制策略。
傳統的機器人對物理環境的重建,基本都是基于激光雷達的這種直接測量的方法進行構建。激光測距這項技術是有極限的。
比如我們的地面是平的,但是其實傳感器掃描出來的地面不是平的,是震蕩的。它掃出來,可能是 5cm 厚的一個點雲。其中上下 2cm,都是它對地掃描的誤差。但是這仍然導緻有些情況下,地上出現一條電線,這條電線本身的凸起并不超過 2cm,這時候對微小物體的識别,會被淹沒在噪聲中。
而通過視覺識别,則機器人能夠直接認識到前方出現細小物體,從而進行避障。
我們運送晶圓的機器人,如果被絆一跤,一點點損傷都會帶來很大的經濟損失。在之前,我們隻能通過工廠的安規管理,給機器人開辟出專門的運行區域來保證這樣的事情不會發生。
優艾智合晶圓盒搬運機器人 | 圖源:優艾智合
但是真正解決這個問題,要依靠具身智能中可自主學習的多模态感知——也就是機器人能夠通過視覺識别,識别出物體,進行更智能的規避。
在這點上,我們的研發已經有了階段性的成果,在我們的樣機上,demo 上效果已經能做到比較好了。
問:具身智能的下一步技術進步中,作爲一個有落地場景的工業機器人公司,你們更關注于哪方面的技術進步?
邊旭:我們也在關注端到端的運動控制,這件事本身是很難的,目前我們也隻是在做前期的研究工作。
端到端的自動控制,類似于特斯拉在做的端到端的自動駕駛,也就是整個運動控制的指令都是模型生成的。而我們提供工業機器人,要到運動控制的指令都由機器人生成,實際上需要更精準,犯錯率更低。
另外,達成端到端的運動控制,也依賴爲我們提供機械臂本體的上下遊生态夥伴,做相應的底層調整,共同進步。
問:端到端的運動控制可以幫你們解決什麽樣的問題?
邊旭:比如我們爲半導體行業提供工業物流機器人,機器人的形态是複合機器人,這樣的機器人,每台對接一個工位,正常都需要經過一些參數化的配置和調試,這是行業通用的做法。
但實際上這個是非常耗時的。你要做一些标定,做一些過渡點的錄制,這樣的配置和調試過程其實是非常不柔性的,也無法被批量複制。
我們之前做出海,已經賣出了不少機器人解決方案,其實我們在全世界都有很大的需求,但是在近中國的日本和東南亞,開展地更順利,原因之一就是出海的話,我們也需要很大的部署成本。
通過我們前面說的目标識别,融合視覺和 3D 的點雲數據,保證目标識别的魯棒性,再根據目标識别,做到通過少量學習和零次學習,可以讓機器人完成手眼協同,自适應部署。
這樣基于目标的端到端的運動控制模型,和通用代碼大模型去自動化腳生成檢測、生成部署腳本能夠幫助我們大幅降低部署成本。
企業客戶希望有更聰明的機器人,但最好沒有成本增加
問:在之前已經落地的場景中,其實通過安規管理等方式,可以部分解決機器人不夠智能的問題,那麽使用具身智能會不會使成本提升很高?
邊旭:在人形機器人上要做具身智能,可能需要非常強大的 GPU,上萬塊的成本,這确實在工業機器人裏是不可接受的。
我們考慮要使用低算力的平台,實現高具身智能的效果。我們主要是使用 NPU,6-7 TOPS 的算力,來跑一些視覺模型。
即使是我們後面說的這種,運動控制方向的具身智能的部署,在我看來,未來也是成本可控的。因爲我們機器人硬件中,本身已經有了視覺和雷達的部分,這部分的成本是本來就有的。隻是需要再對數據進行算法層面的訓練。
問:你覺得企業實際上能接受多少成本的上升?
邊旭:我覺得對企業來說,其實最好是沒有成本增加,甚至有運維成本的下降。
比如我們前面說的,通過管理的方式可以解決的問題,實際上本身還是依賴于人工,而人是工業生産中最不可控的變量,根本上如果機器人能智能化地解決這個問題,整體運維成本是下降的。
對于我們自身而言,也會降低很多和企業之間的溝通成本。
問:除了成本之外,企業還會比較關注哪些問題?
邊旭:企業也會比較在意數據鏈路的絕對安全。
很多客戶的要求是數據不出園區,那可能一些人形機器人使用公有雲上的模型的這種操作模式就不适合我們。
優艾智合智能巡檢操作機器人| 圖源:優艾智合
此外,前面說過,工業場景對 AI 的犯錯容忍度很低。客戶對我們的要求就是零異常。一般的工業公司對推 AI 都比較謹慎。
所以我們認爲純靠 AI 算法解決所有問題的思路本身是錯的。越智能就越容易不可控。泛化性的智能控制,還是需要結合一些條件策略,才能更好地讓産品閉環。
問:在工業領域,具身智能還有什麽獨特的特點?
邊旭:我們理解具身智能是兩部分,第一個是單體智能,也就是一腦多态的這種智能控制系統,另一方面是,群體智能。
在這套解決方案裏,機器人隻是一環,機器人的智能化水平可以無限接近于人。但是工廠中要實現全廠的生産,它還需要其他的,比如說電梯、産線,和其他設備類的東西,都會參與到整個的過程中。我們現在傳感器隻是布置在機器人上,未來可能傳感器是部署在全場的解決方案裏面的。
這個全場的解決方案,裏面涉及到的就是群體智能。這裏面怎麽去融合感知,來保證機器人的安全和效率,我覺得想象的空間比機器人本體更大。
人形機器人,能夠橫掃工業場景嗎?
問:過去一兩年,有很多具身智能和人形機器人的公司成立。很多公司的願景都是最後走向一個通用的人形機器人,它泛化性非常強,什麽工廠都能進,什麽工廠内的任務都能做。你怎麽看待未來的通用人形機器人,它會成爲傳統工業機器人的終結者嗎?
邊旭:其實爲什麽工廠在很多場景下已經開始使用機器人了?就是因爲其實人類在很多情況下已經不夠适應工業所需的一些情況了。
比如在工業巡檢領域,人隻能看到可見光,看不到紅外光,也看不到聲波。我們隻能依靠目視距離操作。
因此我們在巡檢中,提出了超視距的多模态感知,首先傳感器不局限于機器人在哪裏,都能獲得數據,其次能夠通過 AI 的分析處理,獲得隐藏在聲紋等數據中的一些異常,得到自适應感知,這其實都是對人類能力的超越。
對于我們工業從業者來說,我們看問題比較實際。我認爲我們的積累其實是一種壁壘。
一個機器人,你沒有做過這個場景,怎麽能講它有泛化的能力,去解決這個場景的問題?
對于工業場景而言,首先,工業場景比較閉塞,很難通過互聯網去學習到相關的知識,有很強的行業屬性,機器人很難通過通用的數據進行泛化地學習。
其次,工業機器人的産品定義,本身就是工業機器人企業和工業企業一起推動的。客戶需要機器人,但又不完全清晰的知道需求的細節。很多産品定義都是我們在這個場景中積累總結,和客戶共創獲得的。
問:傳統工業場景下已經落地的機器人企業的主要優勢在哪裏?
邊旭:主要還是在行業深耕後,獲得的壁壘。
比如我們在最基本的 SLAM 能力上,我們有很多 corner case 的應對經驗。比如環境對機器人定位的多種非線性擾動,對于機器人定位導航的幹擾是非常大的,并且是很難量化。這對于你的定位導航的魯棒性,和智能化要求很高。
人形機器人本身,如果能找到一個合适落地的場景,再有很強的技術基礎,或許未來在工業場景中也會有一席之地。
但我認爲在一個我們已經深耕過的行業裏,我們再加入具身智能的技術,我們做這件事的路徑可以是最短的。
問:工業場景,最終的形态會是人形機器人嗎?
邊旭:一個通用人形機器人,來适配所有的場景是很難的,你很難倒逼所有行業客戶改去适配你的設備。
可能隻有純人工的場景,用人形做,客戶改造成本就低一點。但也可能在那之前,全場景的移動機器人的方案已經覆蓋了這個行業了。
我覺得工業,相對于對于服務場景等,最大的區别就是成本和效率。
越通用,代表着對于某個細分行業來講,應用成本越高,它會有很多功能的冗餘。
考慮到效率因素,其實不應該所有行業都用一樣機器人。
特斯拉人形機器人 Optimus | 圖片來源:視覺中國
而爲不同行業打造的話,模型也可以是更加針對這個場景的,可以就是以更小的數據去訓練,然後運用的成本也更低,然後更針對這個場景,
問:對于隻做大腦的具身智能企業而言,如果不是一個通用的人形機器人來承載其大腦的部分,而是有多種多樣的終端形态,會對執行産生一些困難嗎?
邊旭:會有一些困難。
不同的上集成其實是一個新的模型。雖然從目标識别,視覺的角度來講差别不大,但在執行和安全角度講,不同的本體構型是有差異的。
在工業裏邊,其實在機電系統和機構學上不存在通用的。就是每一種構型其實都要滿足它的一個特殊工藝的一個設計生産要求。
問:怎麽看未來的人形機器人?
邊旭:我覺得,現在的人形機器人,不論從技術成熟度、量産能力,還是商業模式的成熟度上,其實是和幾年前工業移動機器人剛興起的時候很像。
機器人本體是一部分, 但更重要的是智能系統端的進步。
在移動機器人行業,目前其實有很多做移動機器人本體的廠家,可以把産品做得很标準,成本很低,穩定性很強。而我們做解決方案的企業的優勢,則在于需要長時間積累的智能系統。
我想未來,可能也會有很多做這種人形機型本體的廠家,将本體做的很好。而像我們這樣的公司,可以在人形機器人上,構建我們的工業應用。
我們目前的技術布局,已經在具身控制器這塊布局了未來兼容足式機器人的架構,我們目前看不到人形機器人在工業場景有太好的應用,但不代表未來沒有,我們會持續關注提前布局。
比起機器人的形态,我們更關注具身智能技術在工業領域規模化落地的路徑與節點。我們認爲 " 一腦多态 " 是具身智能落地工業場景的最佳形态,再通過集群化的協同交互,可以實現工業企業生産效率和效率的提升。