編者按:
從 ChatGPT 開始,整個世界都爲生成式 AI 瘋狂不已,當大模型開始有能力「像人一樣思考」,那麽造一台真正智能的機器的時代,是否也已經到來。
從伊隆 · 馬斯克的特斯拉,再到 OpenAI、微軟和亞馬遜,幾乎所有 AI 巨頭都對人形機器人行業押下重注。
不過,具身智能在真正進入千萬家庭之前,他們的第一個真正的應用場景,反而可能是工廠——讓工業機器人因爲 AI 而具備更高的智能,才可能是具身智能發展起來的根本。而人們頭腦中想象的人形機器人,可能并不是具身智能工業機器人的最佳形态。
爲此,微億智造科技有限公司 CTO 趙何博士、上海捷勃特機器人有限公司 CTO 賀岩,前者主攻工業 AI+ 機器人智能控制,後者是專業的工業機器人研發及制造商,兩位深耕在 AI 和機器人領域的專家,從機器人智能的曆史出發,撰文論述爲什麽具身智能工業機器人的時代,已經到來。
以下爲《你好,具身智能工業機器人》全文:
01「你好,具身智能」
具身智能 :「探索 - 利用」的學習範式
具身智能理論根源于「具身認知」 ( Embodied Recognition ) ,包括人類在内的一切智能體的認知能力是由智能體自身結構決定的,并在此基礎上構建自己的世界模型。而這種認知又直接影響智能體的高級心理活動,諸如:推理,決策等。
從認知産生的機制到智能體決策依賴的世界模型,均受制于智能體具體的物質形态。具身智能理論挑戰了包括笛卡爾二元論在内的諸多認知理論,建立起了将「身」與「智」統一的理論框架,将智能體和周圍環境看作一個系統,通過「軀體」與外界環境進行互動,再從外界對智能體的動作産生的反饋獲取信息,建立對環境的認知。整個認知過程遵循「探索 - 利用」(exploration-exploitation)的範式。
具身智能理論強調了智能體與環境之間的強關聯,「智能」本質上是這兩個實體的總和。以建立這個總和爲共同目的,具身智能體必須具有一些最基本的通用能力。包括:
空間認知能力
空間認知能力是這個世界裏智能體的基本能力之一,這個過程其實是智能體對外部物理世界的實體先進行「解構」,然後用抽象的幾何模型在心理層面對外部世界進行「建構」的過程。
移動導航能力
如果空間認知能力是智能體對宏觀世界的抽象,那麽移動導航能力則是智能體對自身所處的微觀環境的适應。通過「探索 - 利用」的學習範式發現知識,積累經驗,提高智能,在自然進化中勝出。
具身智能
硬件爲「智能」而生
長期以來,人工智能的發展主要緻力于如何在通用的硬件上實現更好的智能,而沒有充分考慮如何以智能需求爲導向驅動新型硬件的開發。也許,将「硬件爲智能而生」提升到具身智能發展應秉持的原則高度并不爲過。從近些年的行業發展來看,這種趨勢其實已經初見端倪。可以預見,具身智能的發展會将這一原則擴散到所有硬件的設計生産中,促使應用從「自發」走向「自覺」。
以具身智能爲共同理論基礎的硬件,它們在基本功能的要求上存在共性,歸納起來表現:在多模态的環境認知及通過語言、視覺方式的交互能力;智能的任務學習和理解能力,并基于内部世界模型把任務轉化成内部結構化表示;在自身軟硬件系統上,實現高度自主的智能決策能力,以應對全新、突發的情況;智能高效的單任務執行能力,基本不需要、或僅偶爾需要非常少量的人工幹預;以及智能的多任務切換能力。
具身智能理論明确了智能與軀體之間的耦合,論述了智能體和環境之間的關系。因此,在設計具身智能産品時,不能把它從任務環境中剝離出來孤立地考慮。
02 你好,具身智能工業機器人
早期工業機器人主要用于重複性、單一性的任務。随着新技術的發展,逐漸實現自動化,能執行更複雜、精細的任務。然而發展到今天,工業機器人正遭遇技術發展瓶頸,面臨成本、複雜性、靈活性和人機協作等困難和挑戰。
與此同時人工智能技術迅猛發展,深度學習技術在語音及圖像識别、自然語言處理等任務上取得了突破性的進展。近兩年多模态大模型技術的發展,更是奠定了實現人機自然交互的技術基礎。「人工智能 +」成爲積極探索的領域。
一邊是早已發展成熟、遭遇瓶頸、苦苦尋找新發展的行業;一邊是如日中天、帶着變革、颠覆的光環急于尋找用武之地的新興技術。人類固有的敏感和直覺告訴我們,曆史到了一個迫切需要将兩者融合的時刻,結出最驚豔的果實:你好,具身智能工業機器人!
以具身智能理論作爲指導,将成熟的工業機器人與新興的人工智能技術融合,誕生了「具身智能工業機器人」(Embodied Intelligent Industrial Robots, EIIR)。
EIIR 的本質:解放「人」超越「人」
EIIR 的生存環境就是工業生産環境。充分考察 EIIR 的生存環境可以幫助我們識别其應該具有的形态。由此我們可以得出結論:人形機器人不是 EIIR 的形态。相對于自然環境,生産環境是一個閉合、簡單的環境。從邏輯上講,「人形」作爲開放環境下的産物天然不會是閉合環境最佳的軀體形态。其次,生産環境是人爲設計制造出來的,如果可以由機器自主完成而不需要人的參與,那麽對應的生産環境可以設計成對機器更加友好,而完全不用考慮人類體形的局限,從而讓生産過程更加高效可靠。
「人形」适配的是人的生存環境,而非工業的生産環境 | 來源:視覺中國
EIIR 需要替代的是人在生産過程中被異化後的投影,不是人的本質,更不是人的外形。進一步,EIIR 還需要把替代的人類能力在生産環境中放大、強化,充分利用 EIIR 作爲機器的同時,發揮出超出人類的性能,使得将人類從生産活動中解放出來成爲可能和必要。相比精确的自動化控制,EIIR 可以更好的實現真正的無人化生産,正是因爲:
生産場景的不确定性
從定性角度來看,工業場景在宏觀上是閉合有界的。但在微觀層面,工業場景下也存在諸多不确定因素,是一個定量上開放的環境,這就需要有靈巧的智能能力來應對這類不确定性。
生産環境閉合邊界不一
不同的生産任務都有與之對應确定的生産環境,它們之間閉合的邊界是不一樣的。生産任務間切換的可能性是開放、近乎無限的,這就要求足夠高的智能水平或在少量人類幫助下,完成這種環境的切換和适應。
标準産品具有标準智能
标準産品具有一定水平的标準智能,使得它在被部署到具體的生産場景時,可以較低的時間、人力成本學會具體的生産任務,盡可能适用不同的生産場景,使大規模應用成爲可能。
EIIR 的模樣:具象化的具身智能
如果對 EIIR 的本質沒有太多的疑問,不妨想象一下 EIIR 的模樣。具身智能理論認爲智能體由感知系統、運動系統和世界模型三部分組成,這個論述對于 EIIR 仍然适用。爲了更好的說明,我們以微億智造的技術探索實踐爲例,進一步展開探讨。微億智造作爲工業 AI 領域先行者,長期布局「視覺 AI+ 機器人智能控制」全棧技術,深耕工業場景,持續技術創新。
感知系統——多模态泛傳感器系統
通過合理選型、配置,輔以高效智能的數據算法,建立起比人類強大得多的感知系統,無論是周邊環境還是 EIIR 自身,都将進行連續、不間斷的狀态感知,爲決策提供精準的信息。如在工業檢測中挑戰最大的外觀缺陷檢測領域,微億智造樹立了機器感知的典範:識别和分析對象姿态和特征,自主生成檢測序列,以高精度的圖像傳感器來追蹤形态不定、位置不定的缺陷,實現柔性的、超越人類的缺陷檢測能力。并在此基礎上,基于動力學原理進行建模,通過信息反饋「認知」自身能力,并實時更新。
通過「感知系統」對環境及自身持續采樣,并基于聯合認知進行決策
運動系統——閉環控制系統
打通、融合上下層系統,實現狀态反饋和控制的聯合處理、合并計算,共同優化、協作以滿足靈活、精準、快速的要求。以「關節電機」爲例,其「視覺伺服」系統由多個控制器、按層級嵌套組合而成,每一層都有自身需要優化的控制指标與對象。從整體到局部逐層細化,實現閉環控制。比如微億智造自研的整套多軸實時控制系統,結合動力學和運動學算法,計算時間和狀态最優的運動軌迹,并以毫秒級速度閉環運動控制,以 10 毫秒級别的速度使用圖像模型完成閉環運動的規劃。
通過「視覺伺服」實現感知系統與運動系統的閉環控制
世界模型——對生産環境的總結和抽象
世界模型是智能體根據自身結構特點構建起來、用于解釋世界的認知框架。它是動态變化的,智能體與環境的每一次互動都在不同程度上影響着它。而大模型技術結合工業數據又爲世界模型提供了一個共享的基礎版本,故且稱之爲「基礎世界模型」。當然,這個「基礎世界模型」賦予了 EIIR 強大的理解能力,能夠通過人類習慣的模式與人類進行信息交換。而人類訓練 EIIR 的方式也發生了根本性變化,隻需通過自然語言、圖片、視頻、動作示教等,就可與 EIIR 建立起「示教 - 學習 - 反饋」的互動模式,通過多輪對話将知識進行傳遞。這樣的持續學習會一直貫穿在 EIIR 整個生命周期裏。
通過「基礎世界模型」建立「示教 - 學習 - 反饋」的互動模式
EIIR 的關鍵:智能化柔性适配
如何讓标準、通用的 EIIR 産品很快具備執行具體生産任務的能力,或者如何把人類的專業技能輕便地轉移到 EIIR 上,核心在于通過「人機交互」實現「智能化柔性适配」。以 ChatGPT 爲例,它第一次在人和機器之間建立起了一種高效的溝通方式,從根本上打破了人機交流的障礙,變革了人機交互範式。
而大模型加持下的 EIIR 将徹底逆轉人機關系。人類可以用自身習慣的方式與 EIIR 溝通,如自然語言、肢體語言、動作、行爲示範等,從根本上打破人與機器間的語義隔離。軟件方面,大模型的加持使得 EIIR 具備了快速學習的能力,保證了智能上的柔性。随着芯片技術的發展,軟硬件的功能邊界将變得模糊,「軟件硬化」的趨勢将會越來越明顯。伴随更強大的運算能力及集成密度,EIIR 的算力密度也将實現質的提升。機械構型方面,新材料、新技術的廣泛應用将爲 EIIR 提供更多不同的外部形态,甚至根據任務的要求實時調整機械結構。這種能力最忠實地還原了具身智能理論的根本要求,實現了智能和機體最深程度的融合。
03 EIIR,未來已來
EIIR 的誕生和曆史使命就是接管人類社會物質資料的生産,爲人類的發展提供持續的物質支持,這也是它唯一的曆史歸宿。作爲機器,随着技術的進步,EIIR 的發展勢必将循序漸進。前期階段,它将長期和人類共處在同一生産環境下。伴随技術的發展,其智能化程度會越來越高,越來越多時候将不需要與人協作就可獨立完成任務。而發展的高級階段,将會實現真正的「無人工廠」。
到這個階段,工廠、産線的組織形式将完全不同于現在,而人類也将實現從使之異化的物質生産中徹底解放出來。這對人類社會的發展所起的作用是無法估量的,将極大加快人類自我解放的步伐。誠然,這會是一個漫長的過程,但值得我們期待,值得我們努力,因爲它終将到來!