" 大模型怎麽融進人形機器人裏?" 這是龐建新最近一直在琢磨的核心問題。
作爲優必選副總裁、研究院副院長,龐建新正領導團隊,将大模型技術應用于人形機器人的多模态感知和決策規劃中,提升人形機器人智能化水平。
在從業的近三十年裏,他的專業背景橫跨語音處理、計算機視覺,再到人形機器人技術;從中科大的博士,到中國科學院深圳先進技術研究院的 PI,再到優必選的技術高管,他的職業生涯,已然是中國智能科技崛起的一個縮影。
現如今,大模型的橫空出世,除了讓龐建新看到了一些可能性,更多是冷靜。
他坦陳," 因爲在技術快速發展時,整個技術路線和應用場景還存在不确定性,但同時也正是國内人形機器人企業快速發展的最佳時期。"
這是一種強烈的矛盾感。
在談及大模型技術對人形機器人智能化進程的影響時,龐建新提出了自己的見解。
他認爲,大模型技術的核心是其能夠融合大量知識和數據,這對于人形機器人領域來說是一個巨大的機遇,但同時也帶來了新的挑戰。比如如何将大語言模型技術(可理解爲 " 大腦 ")與人形機器人的 " 小腦 "(控制大模型)和 " 本體 " 結合,以及如何處理大語言模型可能産生的 " 幻覺 " 問題等等。
而要落到實際操作層面,龐建新表示,優必選的策略是雙管齊下,既要一種分層結構的解決方案,同時也不能放棄端到端的解決方案。
前者是将大模型分爲處理知識、常識推理的 " 大腦 " 層,指導動作規劃的 " 小腦 " 層,以及直接與控制相結合的動作執行層。這種分層解耦的方法,使得每一層都可以專注于其特定的任務和數據需求,提高了技術的應用效率。
後者則是從感知直接到控制的全過程,這種方法導緻數據獲取更爲複雜,卻能夠提供更爲直接的解決方案。
針對大模型與機器人智能化現狀,龐建新說了四個字:百花齊放。
" 當下人工智能和人形機器人技術的結合正處于一個開放性問題的時期。" 這正是當下人形機器人從業者的樂趣所在。而換句話說,這也意味着目前技術尚未開始收斂,仍需在一些小規模場景中進行實驗和測試。
今年 2 月,優必選與新能源車廠的合作,正是他們在多模态感知決策技術應用實訓方面的一次嘗試。龐建新堅信,大模型技術将是推動未來技術進步和産業化的關鍵。
近期在與雷峰網 -AI 科技評論的對話中,龐建新分享他對于大模型技術推動人形機器人智能化進程的見解,以及國内企業如何在技術快速發展的背景下把握機遇。
以下爲對話(經編輯):
4 月 8 日(周一)20:00-22:00,雷峰網将舉辦主題爲「大模型時代,機器人的技術革新與場景落地」的線上圓桌論壇,屆時龐博士将分享更多前沿觀察。
01 尋找最适合機器人的大模型
雷峰網:首先請問龐博,您的團隊目前在 AI+ 人形機器人領域有哪些探索,有哪些不錯的技術成果可以分享?
龐建新:我們确實有一些頗具前瞻性的課題項目,在近期進展不錯。
衆所周知,當前人工智能已經邁入了一個嶄新的時代,其中大模型、多模态技術以及具身智能等重要進展,對于機器人領域産生了深遠影響。這些變革性的技術正在推動着許多傳統觀念的更新換代。
我們的團隊也緻力于類似的研究工作,特别是在如何運用大型模型和具身智能,來解決以往基于傳統 DNN、CNN 方法所無法克服的問題。
我們的研究重點之一是多模态感知問題。
傳統上,感知技術往往專注于單任務,并且隻在決策層面進行信息融合。而現在,我們希望能夠将多模态技術應用到人形機器人技術中,将視覺感知、語音感知、上下文信息以及相關知識等統一作爲輸入,以促進人形機器人的決策過程。
此外,我們還關注于人形機器人的決策和任務規劃。
通過多模态感知信息的整合,我們期望引導人形機器人進行更爲高效的決策。傳統的決策過程往往較爲複雜,依賴于狀态轉移和條件判斷。而我們現在正嘗試利用大型模型的技術,充分發揮大模型的邏輯和推理能力,以解決人形機器人在決策和推理方面的挑戰。
具體到人形機器人的能力方面,因爲人形機器人通常需要具備幾大核心能力:人機交互、對話、移動和操作能力。這些能力在傳統上對于人形機器人而言并不容易自主實現,往往需要憑借大量的外部輸入和條件限制。而我們現在的研究,正是通過大型模型技術的應用,充分利用大模型内含的知識邏輯和推理能力,提升人形機器人的自主性和智能化水平,把機器人各種能力鏈接起來。
雷峰網:大模型這項技術将如何影響人形機器人的智能化進程?相應地,大模型對人形機器人來說是否也帶來了新的挑戰?
龐建新:将大模型技術融入人形機器人領域,确實存在一些挑戰和問題,我們在做實際項目時就能感受到。
首先,大模型的核心是在于其能夠集成大量知識,供人類使用。然而在人形機器人領域,許多場景與知識并無直接關聯。
許多行爲,如人類的本能反應或動作智能,并不完全依賴于顯性的知識。比如說我們在抓取物體或在不平坦地面行走時,往往不需要經過深思熟慮,身體能夠自動适應環境。
在人形機器人的設計中,我們可以将其分爲 " 大腦 "、" 小腦 " 和 " 軀體 " 三部分。小腦部分與大模型中的知識學習并不直接相關。因此,在大模型技術落地時,我們需要解決如何将大腦與小腦結合,以及如何通過小腦驅動軀體的問題。
其次,大模型依賴數據,當任務與數據關系不大,或者數據難以采集和學習時,這構成了一個重大挑戰。大模型訓練和推理的高算力要求也是一個問題,特别是當應用場景對實時性有高要求時。
第三個挑戰是大模型本身的特性,伴随着 " 湧現 " 的同時,這也可能導緻 " 幻覺 " 問題。如何抑制這些幻覺,通過各種方式抑制或者控制大模型輸出錯誤信息,是我們需要克服的難題。
此外,大模型的成功率或者有效率問題也至關重要。對于大多數用戶,往往需要多次嘗試輸入才能得到有效答案,如何盡可能降低使用者的專業水平,比如通過自動生成相關提示語高效地獲得正确結果,也是當前大模型需要解決的重要問題。
雷峰網:大模型與人形機器人的結合正在發展期,是否分化爲幾種不同流派?
龐建新:我個人認爲,可能有兩種流派。
一種流派采用分層結構,将大模型分爲三個層次:
第一層與大腦相關,主要處理知識、常識推理等;
第二層與動作決策和任務規劃相關,類似于小腦的功能,指導動作的規劃;
第三層則直接與控制相結合,處理動作的規劃與控制。
這種分層解耦的方法,使得每一層都可以專注于其特定的任務和數據需求。
在大腦層面,可以使用現有的大模型數據,如與場景相關的知識和數據。
而在動作規劃層面,由于大語言模型中缺乏這方面的内容,我們需要在仿真環境或物理環境中采集新的數據,以豐富這一層次的數據集。
至于控制層面,可能需要通過強化學習等技術,在虛拟或物理環境中生成所需數據。
另一種流派則追求端到端的解決方案,即從感知直接到控制的全過程。
這種方法雖然數據更爲複雜,但能夠提供更爲直接的解決方案。然而,這種端到端的數據同樣難以獲取。
在實踐中,我們的選擇并不局限于單一流派。我們同時探索了解耦的分層方法和端到端的技術,以技術儲備和實際應用需求爲導向。也就是說,由于人形機器人存在特殊的非剛體特性,我們目前更傾向于采用解耦的分層方法。同時,我們也在進行端到端技術的探索和研究,以适應未來可能的需求和發展。
雷峰網:最近我們對孫宇教授做了專訪。孫教授的研究重點在于将大型語言模型應用于具體的機器人任務中,例如廚房烹饪場景。他的研究使得機器人能夠創造出知識庫中未包含的新菜單。此外,GPT-4 通過精心設計的提示工程,能夠生成多個不同的高級任務規劃,并将其轉化爲可執行的低級 PDDL 計劃。請問,優必選在這一領域的研究是否有相似之處,或者存在某些差異?
龐建新:孫教授的研究實際上涉及到了高層決策和任務規劃。
當我們人類執行一個任務時,通常會将其分解爲一系列子任務,這個過程可能是下意識的,不一定由大腦直接完成,也可能是小腦參與其中,因爲人類的認知過程相當複雜。
例如,當我們想要拿一瓶水時,我們自然而然地知道水可能在冰箱裏,于是我們會走向冰箱,打開門,通過視覺找到水,然後抓取并帶回。這個過程就是一個任務流。
所以抽象來看,人類執行任務時,将其拆解爲各個子任務本身就是一種知識。這種知識可以通過推理或場景驅動來實現。這表明,大模型在理解和生成任務規劃方面具有巨大的潛力,尤其是在與具體場景和知識庫相結合時。
當前的 AI 技術,正是通過大模型,包括 GPT 或其他模型,處理這種任務流,進行決策,并将任務分解爲子任務,再由人形機器人執行。
我們的一些研究工作與孫教授的研究類似,也是在特定場景中進行。例如,我們在 2023 年世界機器人大會上展示的 " 人形機器人多模态具身智能系統 ",就涉及到更高層次的決策和任務拆解。
雷峰網:我追問一個問題,大模型與人形機器人的結合,是否能夠幫助機器人向人類智能邁出關鍵一步?
龐建新:首先,我們需要認識到,大模型的應用不僅僅是關于知識的問題,它還涉及到上下文和環境的問題。
當我們考慮将大模型應用于人形機器人時,目前還是會采用多個模型的集成應用,我們通常會将其分爲幾類:
基于語言的大模型、基于視覺的小模型、語音的小模型、多模态的大模型,以及通過強化學習等方式學習到的動作規劃,以及控制策略的方面的大模型等等,它們在學習方式和應用上的差異是顯著的。
一般看來,人們通常将大模型與基于生成式的語言大模型聯系在一起。然而,在人形機器人的控制和規劃領域,它們有自己獨特的模型體系,這些模型與語言處理的并不是完全一樣。
但無論是哪一種大模型,它們能與人形機器人結合的原因在于,人形機器人需要在複雜多變的環境中進行有效的交互和操作。那麽,多模态大模型和基于知識的大模型,能夠爲機器人提供豐富的上下文信息和環境理解能力,從而提高其适應性和決策質量。此外,通過強化學習等技術學到的動作規劃策略,可以增強人形機器人的動作協調性和任務執行能力,通過将這些模型進行融合,從而提升了人形機器人與物理世界的交互能力和智能化水平。
雷峰網:那麽您的團隊在融合大模型技術時,在分工上如何安排?
龐建新:優必選在這方面采取了一種靈活而協同的工作方式。
由于大模型技術涉及的領域廣泛,公司在進行相關項目時通常會組織多個團隊聯合作業。這些團隊可能包括視覺感知、控制和語言處理等領域的專家。這樣的跨領域合作模式已經成爲優必選的标準做法。
而且與傳統的深度學習項目不同,大模型技術的應用已經超越了單一工種的界限,需要多個團隊的緊密協作。
這種跨團隊的合作模式并不是新的組織結構,而是大模型技術發展至今的必然結果。技術的多樣性和複雜性要求不同領域的專家共同參與,來實現項目的成功。
雷峰網:當前優必選推動技術成果産業化方面,有哪些計劃或正在進行的項目?
龐建新:今年 2 月底,我的團隊與新能源車廠合作開展了一項實訓工作。這項工作涉及到了我們多模感知決策技術的一部分應用。然而,我們也認識到,盡管這是一個很好的開始,但要實現 AI 大模型與人機協作的深度融合,我們仍需攻克一些核心技術難題。
人工智能技術,特别是大模型的應用,已經與我們的研究和實際項目緊密結合。
近期,優必選也跟百度達成了合作,将文心大模型接入人形機器人 Walker S ,共同探索中國 AI 大模型 + 人形機器人的應用。
伴随着大模型技術的賦能,人形機器人的産業化進程将加快,未來 " 降本增效 " 的人形機器人将在工業制造、商用服務和家庭陪伴等多個場景實現落地應用,解決勞動力短缺,提高生産效率,讓人類生活變得更加美好。我們堅信,這項技術将是未來長期發展的重要方向。我們将繼續緻力于這一領域的研究和開發,以推動技術的進步和産業化進程。
02 優必選技術高管的身份背後
雷峰網:能介紹下您的研究背景嗎,是什麽激發了您對 AI 與機器人技術結合的興趣?
龐建新:我本科是在中科大,這段時期專注于語音信号處理,而科大訊飛正是在我所在的語音實驗室孵化出來的。後來我又在中科大完成了計算機視覺方向的博士學習。
2011 年,我加入中國科學院深圳先進技術研究院,一邊做科研,一邊做産業。因項目合作,參與到與騰訊公司的合作中,研發了名爲 " 小 Q" 智能機器人的産品系列。也就是那時候我正式從 AI 研究轉向機器人研發,将人工智能與機器人相結合。
當我 2015 年加入優必選時,我專注于将人工智能技術與機器人融合,推動機器人技術的研發和應用落地。
所以總結來說,我的經驗涵蓋了語音處理、視覺識别到機器人技術等多個領域,這些都是當前人工智能和機器人發展的關鍵領域。
雷峰網:爲什麽看中了優必選?加入已經近十年時間了,這種專注來源于什麽?
龐建新:我加入優必選确實有一段奇妙的經曆。
2014 年,在前海深港青年夢工廠開業典禮上的一次展覽,我和團隊代表中國科學院深圳先進技術研究院,展示了我們的産品,而優必選的展位就在隔壁。
後來我了解到,優必選在做國内自主研發的人形機器人,也了解到了公司創始人周劍對于人形機器人的願景和夢想,發現這個與自己的夢想高度契合,所以選擇加入了優必選。
那時候,我住在寶安西鄉,每天往返近 100 公裏,到龍崗上班。因爲我加入公司比較早,參與了公司早期和中期的多個項目,将這些技術轉化爲公司的衆多産品。這就是熱情所在。
實際上我從未真正離開過工業界。在我加入中科院之前,曾在一家外資企業從事計算機視覺算法的研發工作,後來這家企業在國内科創闆上市。我在中科院的工作中,一半的精力用于技術轉化,孵化了幾個有影響力的産品,另一半則緻力于前沿科研。這些年來,我的工作始終圍繞着如何将最新技術轉化爲實際産品。
雷峰網:自 2015 年加入優必選以來,你眼中的公司經曆了哪幾個發展階段?
龐建新:優必選從未局限于單一的技術研發或産品開發。公司始終堅持技術和産品同步發展的戰略,這也是優必選吸引我的地方。我認爲,隻專注于技術可能會導緻與實際應用脫節,而隻關注産品則可能失去技術優勢和市場競争力。
在 2015 年加入優必選後,在 CTO 熊友軍博士的帶領下,我們共同推動了研究院的成立,目的是将技術研發和産品開發緊密結合。
我們公司内部要求,研究院除了支持産品進行技術研發,還要投入資源跟進最新技術,根據技術發展趨勢和未來場景中可能遇到的關鍵技術進行研發。
從 2016 年開始,優必選着手研發大型人形機器人,并以此平台爲基礎,将技術成果轉化爲各業務線的産品支持。公司始終堅持兩條腿走路的策略,不偏重任何一方。
優必選在技術投入上非常聚焦,始終思考機器人技術的未來發展趨勢和應用場景。基于這些長期趨勢和應用場景的考量,公司有針對性地尋找和研發适合的技術。因此,優必選很少會受到外部研究熱點的影響,而是堅持沿着既定的技術發展路徑和應用場景進行研發。
雷峰網:研究成果轉化爲實際産品,您有哪些心得?
龐建新:科研人員往往專注于技術創新和獨特性,以解決科學問題爲導向,追求學術上的突破和理論上的完備解或最優解。
而在工業産品開發中,我們更多的是尋找和解決已經存在的關鍵問題。目标是找到與工業場景、成本、軟硬件匹配度以及研發周期最相匹配的解決方案。這意味着在工業界,我們需要更多地考慮産品的實際應用和市場的需求。
此外,在面向産品或特定場景的工作中,還需要建立一套标準化的思路。這涉及到如何将場景中的各種元素數字化、标準化或規範化,确保技術的長期積累和持續改進。
盡管科研和工業界的目标和思路有所不同,但解決挑戰的方法和路徑在本質上是類似的。
雷峰網:以大模型這個熱點技術舉例,業界對其的廣泛關注始于 2022 年底,當時 ChatGPT 的發布引發了衆多讨論。在優必選是什麽時候讨論大模型?
龐建新:我們對大模型技術的重視可以追溯到更早的時期。優必選在 2022 年,甚至在 2021 年上半年,就已經注意到了大模型技術的潛力。
最初,大模型技術主要應用于視覺領域,許多國内外的科研機構和大型企業都在探索,如何利用視覺大模型進行識别和檢測。
随着時間的推移,當語言大模型開始出現時,優必選内部已經開展了類似的項目,并在内部開展了小規模的研究項目來深入探索這些技術。
到了 2023 年和 2024 年,優必選迅速将這些技術應用到了機器人領域。通過自身的研究,優必選在技能上也進行了一些創新應用,将大模型技術融入到産品開發中,提升産品的性能和智能化水平。
這次,優必選 Walker S 與百度文心大模型進行深度融合,進行任務調度應用開發,快速構建了任務規劃與執行能力,并完成柔軟物體操作和物體幹擾分揀等任務,也是這種技術應用的一次體現。
03 機器人如何進化?
雷峰網:您認爲當前市場對機器人的需求主要集中在哪?是否有特定的場景,爲您的技術和産品研發提供了啓發?
龐建新:在大模型技術出現之後,整個行業對大模型及其在各種場景中的應用提出了明确的需求。因爲大模型技術正在重塑我們的生産方式,改變了生産力的構成。
人們可能會思考,是否可以通過人形機器人結合大模型技術,來解決工業制造中的問題?打造教育領域的潛在應用?
傳統上,計算機教育可能側重于采用編程的教學方法,但随着大模型技術的發展,我們現在可以探索低代碼甚至零代碼的方式來解決問題。這可能爲教育帶來新的範式,使得更多人能夠通過使用這項技術來滿足他們的生産力需求。
除了工業制造和人工智能教育,優必選也在探索大模型技術在人機對話、康養以及其他應用場景中的潛力。
雷峰網:國内外對于機器人的較量到了什麽階段?對于 AI 前沿技術的把控會最終是如何影響大機器人開發上?
龐建新:國内外在機器人的研究思路上存在一些區别。中國企業的研究思路更加面向實際應用場景,而海外企業,如 OpenAI 等,在得到大量資金的支持下,能夠進行更多開放式的科學研究。
中國學術界和産業界曾經經曆過一段跟随階段,尤其是在大模型等技術領域跟随歐美的研究趨勢。
但中國的跟随步伐相對緊湊,尤其在面向産品應用開發方面。盡管在某些領域,如芯片和 GPU 等與大模型密切相關的技術,中國可能會面臨一些挑戰,但我認爲這種跟随是必須的。
因爲在技術快速發展時,整個技術路線和應用場景還存在不确定性,當前正是國内機器人企業快速發展的最佳時期。
雷峰網:國内有哪些企業在機器人和大模型結合方面做得比較好?
龐建新:從全球範圍來看,大模型與具體行業的結合還處于非常早期階段。盡管大模型技術取得了很多進步,但它在商業應用方面的轉化還處于早期。
當技術進入平台期,真正的應用才會開始。也就是說,目前技術尚未開始收斂,當技術開始收斂時,才意味着它真正準備好進行大規模應用。目前可能還處于小規模場景或特定場景的實驗和測試階段。
此外,大模型技術發展迅速,但應用仍面臨一些挑戰,如算力和數據的高要求,以及效率、成本和幻覺等問題。
雷峰網:在 AI+ 機器人領域,未來幾年可能會出現哪些颠覆性的技術變革?除了大模型技術之外,還有哪些值得關注的發展趨勢?
龐建新:仿真技術可能是未來人形機器人領域一個潛在的颠覆性變化。由于人形機器人控制和操作相關的數據難以構建,仿真技術的發展将對人形機器人領域産生重大影響。通過高效的仿真技術,我們可以構建大量用于人形機器人應用的數據和虛拟場景,這對于人形機器人技術的進步非常重要。
當前階段,人工智能和人形機器人技術的結合正處于一個開放性問題的時期。
無論是在高層決策應用、底層控制,還是場景構建和仿真等方面,都呈現出多樣化的發展态勢。雖然已經在特定場景中看到了一些成果,但這些成果是否足夠泛化,是否能夠在人形機器人上直接進行使用,仍然是一個挑戰。
總之,AI 增強人形機器人領域正處于一個充滿活力和創新的時期,未來幾年可能會出現多項颠覆性的技術變革。仿真技術、大模型以及其他 AI 技術的發展,将爲人形機器人領域帶來新的機遇和挑戰。
在這個百花齊放的階段,我們需要持續關注技術的發展動态,并積極探索如何将這些技術應用于實際場景中。
本文作者 吳彤,長期關注 AI4S,歡迎添加微信 (icedaguniang)互通有無。
|GAIR live 圓桌預告
4 月 8 日(周一)晚間 8 點~10 點,雷峰網将舉辦一場主題爲「大模型時代,機器人的技術革新與場景落地」的線上圓桌論壇。
本次論壇的嘉賓有:南佛羅裏達大學孫宇教授、武漢大學李淼教授、逐際動力張巍博士、優必選科技龐建新博士。
" 全球人工智能與機器人大會 "(GAIR)始于 2016 年雷峰網與中國計算機學會(CCF)合作創立的 CCF-GAIR 大會,旨在打造人工智能浪潮下,連接學術界、産業界、投資界的新平台,而雷峰網 " 連接三界 " 的全新定位也在此大會上得以确立。
經過幾年發展,GAIR 大會已成爲行業标杆,是目前爲止粵港澳大灣區人工智能領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。
GAIR Live 作爲雷峰網旗下視頻直播品牌,旨在輸出新鮮、深度、原創的大咖訪談與對話内容,打造輻射産、學、研、投的特色線上平台。
|AI+ 機器人相關資料
1,Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliabilityhttps://gairdao.com/doi/10.1142/S2972335324500029
2,《對話南佛羅裏達大學孫宇教授:當大語言模型用于機器人任務規劃丨 IJAIRR》https://mp.weixin.qq.com/s/vrTMsssLQvmI11kX38Jvog