對話武漢大學李淼教授：以大模型視角看待一切機器人問題

" 人們對機器人的抓取和操作存在很多誤解，很多研究成果很難推進到實際應用環節。"

武漢大學李淼教授介紹，這是他放棄前往麻省理工 MCube Lab（操縱與機制實驗室）Alberto Rodriguez 教授團隊做博士後研究，選擇回國創業的重要原因。

李淼教授博士畢業于瑞士洛桑聯邦理工學院，師從學習算法與系統實驗室的創辦者 Aude Billard 教授，長期緻力于機器人學習和控制、物體抓取和操作等領域的研究。

他關于動态抓取算法研究的博士論文，在瑞士洛桑聯邦理工學院獲得了全球每兩年僅一名的瑞士 ABB 獎（Asea Brown Boveri Ltd. ），也是該獎的唯一華人獲得者。這項研究提出了複雜物體靈巧操作的魯棒性算法以及成功應用于現實世界的機器人操作問題，尤其在機器人抓取、操作方面。

李淼教授回國後依然延續了這項研究，爲抓取算法尋找合适的落地場景。

大模型技術出現後，李淼教授的研究内容也随之變化，一方面與業界合作，将大模型技術應用在家庭服務機器人的産品研發上；

另一方面，在學術研究上，也開始嘗試将擴散模型（Diffusion Policy）和手術機器人動作生産策略相結合、将大模型和醫療影像相結合。

" 我在與團隊成員交流時一直強調，我們要以大模型的視角來看待一切機器人的問題，無論是算法研究還是其他各類工作，如果和大模型不相關，也許 5 年之内就會被淘汰。"

李淼教授指出，大模型将徹底改變機器人領域的發展進程。

4 月 8 日（周一）20:00-22:00，雷峰網将舉辦主題爲「大模型時代，機器人的技術革新與場景落地」的線上圓桌論壇，屆時李淼教授将分享更多前沿觀察。

以下爲對話（經編輯）：

01 從理論研究到機器人研究

雷峰網：碩士畢業後，您爲什麽選擇了瑞士洛桑聯邦理工學院讀博？該校的機器人研究有何特色？

李淼：我最開始是在華中科技大學申請的直博，碩士階段結束後，考慮到當時國外的機器人研究比較領先，所以嘗試申請了國際上機器人專業排名最高的幾個學校，也拿到了很多 offer，比如美國的約翰 · 霍普金斯大學、英國的帝國理工大學等等。

我希望選擇一個與 AI 算法結合更緊密的方向，所以最終去了瑞士洛桑聯邦理工學院 Aude Billard 教授的學習算法與系統實驗室（Learning algorithms and systems Laboratory）。

由于我本科、碩士階段的機器人研究方向更加偏向理論，和數學、醫學、動力學等學科的相關性很高，而 Aude Billard 教授團隊的研究則更加注重數據，通過模仿學習等手段收集機器人工作過程中的數據并進行分析，Aude Billard 教授是這一領域的開創者，也是瑞士機器人專題網絡負責人。

除 Aude Billard 教授的實驗室之外，瑞士洛桑聯邦理工學院還有很多技術領先的機器人研究團隊，如研究仿生機器人的生物機器人實驗室（Biorobotics Laboratory）、發明了折紙機器人的可重構機器人實驗室（Reconfigurable Robotics Lab）等等。

瑞士洛桑聯邦理工學院機器人研究的整體風格就是小而精，學校拓展了非常多具體的研究方向和團隊。

雷峰網：工業機器人四大家族之一的 ABB 也誕生于瑞士，您多次提名和獲得該校的 ABB 獎，這對您後來的創業方向有什麽影響？

李淼：ABB 的總部在瑞士，與瑞士洛桑聯邦理工學院有很多合作，ABB 在學校裏設立了的一個獎項（Asea Brown Boveri Ltd. ），每兩年頒布一次，獎勵獎勵能源、自動化、電信等各個領域的原創科學工作，每次隻有一個獲獎名額，競争非常激烈。

我憑借研發的複雜物體靈巧操作的魯棒性算法以及成功應用于現實世界的機器人操作問題獲得了 2018 年的獎項（論文：《Dynamic Grasp Adaptation -- From Humans To Robots》），同時我也是唯一的華人獲得者。

以往的機器人研究中開發了大量的算法，但是并不能很好地解決實際問題，而我的這項研究第一次成功地應用于現實世界的機器人操作問題，尤其在機器人抓取、操作方面。

2016 年我離開瑞士洛桑聯邦理工學院後之後，發覺在機器人領域的很多研究成果仍舊很難推進到實際應用環節，人們對機器人的抓取和操作存在很多誤解，所以我決定回國創辦一家公司，将機器人技術推廣到實際應用場景之中。

我回國後的創業團隊依舊延續了對這項技術的探索，将其應用在物流、藥房等場景的抓取、操作中，不斷打磨解決方案。

雷峰網：2016 年您回國創業，從事機器人抓取與智能控制相關應用的研究。爲什麽決定回國創業？

李淼：最開始回來時我還是一個 fresh PHD，對行業的認知還有限，嘗試爲抓取的算法找到合适的落地場景，從物流、工業到醫療場景都進行了落地嘗試，最後聚焦到醫療場景。

這時候我們發現，一個機器人産品不僅僅需要有抓取技術，還需要有很多輔助的硬件設配相配合，慢慢就形成了綜合的解決方案。

2017 年我來到武漢大學工作後，前期的這些工作也間接影響了我在學校裏的研究方向，使我更加關注機器人的落地應用。

雷峰網：早在 2022 年，您與港中文的陳翡教授就合作發表過一篇烹饪機器人的論文《Robot Cooking With Stir-Fry: Bimanual Non-PrehensileManipulation of Semi-Fluid Objects》，這篇論文的關注角度與孫宇教授此前發布在 IJAIRR 期刊上的《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability》一文有哪些不同？您認爲在烹饪場景中機器人技術還有哪些值得探索的方向？

李淼：在廚房這個場景中，對機器人的要求是最綜合的，不論是精細的運動，還是更高維度的規劃，以及對不同模塊的理解，烹饪場景都是最豐富的。

甚至在其他場景中鮮少用到的味覺和嗅覺，烹饪場景中也有涉及。

機器人在烹饪場景的工作可以分爲兩個大的邏輯，一是上層的任務規劃，二是底層的動作規劃。我和陳翡教授的合作更多是動作層面的規劃，孫宇教授的研究則是關于任務層面的規劃。

要将上層的任務規劃和底層的動作規劃打通，還需要一個中間層 middle layer，也可以叫做膠水層。

在當前的研究領域，針對中間層架構的深入探究尚未達到預期的成熟度。

無論是采用規劃領域定義語言（Planning Domain Definition Language, PDDL）以形式化地描述和連接自動化規劃任務，還是依賴于基于規則的專家系統進行決策支持，亦或是利用神經網絡構建的專家系統，這些方法在實現高效、可靠的中間層處理能力方面均顯示出了一定的局限性。

這些技術在處理動态變化的環境、提升決策的透明度和解釋性、以及增強系統的泛化能力等方面仍面臨諸多挑戰。

雷峰網：在您對機器人領域的研究中，也融合了機器視覺、深度學習等不同學科知識，如何看待機器人研究中跨學科合作的意義？

李淼：機器人研究可以大體分爲四塊：設計（具身）、感知、規劃、控制。

我們從感知的角度來看，當機器人需要獲取視覺信息時，就需要視覺傳感器的配合；機器人需要獲取觸覺信息時，就需要觸覺傳感器的配合，看起來似乎是多學科交叉融合的研究。

但是我們從當下大模型的視角或數據驅動的視角來看，這些東西本身就是一體的。

不論是具身層面還是感知層面，機器人都是多模态的。機器人的外觀既可以是人形，也可以是狗形；機器人的獲取的信息既可以是視覺信息，也可以是觸覺信息。我們可以将這些内容都看作是機器人研究的一部分。

02 當機器人遇上大模型

雷峰網：大模型技術的出現爲機器人研究帶來了巨大的影響。在您的研究中對這項技術進行了哪些應用？

李淼：在我和業界的合作中，已經開始嘗試将大模型技術應用在家庭服務機器人的研發上。

以掃地機爲例，在掃地機的感知中，我們利用大模型進行數據生成，合成仿真數據以提升真實數據的不足；同時又将邏輯推理融入感知中，基于本身的語義地圖 ,，讓掃地機更智能地進行運動判斷，避免線材、雜物等障礙物的幹擾；

在清掃報告部分，我們利用大模型生成清掃報告，同時允許用戶進行報告中内容的自定義選項添加，從而更全面的了解家庭情況。

在學校的研究裏我們還沒有用到真實的大模型，但是也已經開始向這方面的研究靠近，比如擴散模型（Diffusion Policy）和手術機器人動作生産策略相結合、大模型和醫療影像的結合等等。

我在與團隊成員交流時，一直強調我們要以大模型的視角來看待一切機器人的問題，無論是算法研究還是其他各類工作，如果和大模型不相關，也許 5 年之内就會被淘汰。

以前我們做的那些工作，現在從大模型的視角來看，所設計的模塊一定要足夠大，将其建成 "data in、 data out" 的形式，隻要輸入不同模态的數據，就能得到想要的結果。

舉一個例子，我的博士論文做的是機器人抓取，主要任務是消除抓取過程中的不确定性。我當時的做法是選擇在機器人的規劃層和執行層分别處理不确定性。

簡單來講，在機器人抓取一個杯子的過程中，規劃層可能會出現視覺誤差，無法保證手指準确地抓到杯子上，執行層可能會出現重量誤差，無法保證機器人爲杯子施加一個合适的力。

所以我将抓取這個杯子過程中存在的不确定性分配到不同的環節，再分别處理。

和機器人不同的是，人在拿去一個杯子時并不會區分規劃層還是執行層，二者之間是并行的。

我們将這兩個環節合并到一起，就是現在所謂的多模态，數據變得更加充沛，無法對其進行特征的抽取，就隻能将其轉變爲大模型的思路來解決，即輸入所有的數據，讓大模型自動理解這項任務，将規劃和執行融合到一起，輸出一個我們想要的結論。

雷峰網：機器人智能控制這一領域當前的發展趨勢如何？

李淼：機器人控制的發展最初是基于傳統的示教器示教；後來發展爲模仿學習，從點對點的模仿學習逐漸升級到利用生成模型來做模仿學習；再到後期又發展爲強化學習，隻要給定一個目标，設置 reward function（獎勵函數），機器人即可完成任務。

随着任務越來越複雜，設置 reward function 時需要滿足更多的條件，就逐漸變成的大模型。

當機器人對力的訴求、視覺的訴求、觸覺的訴求等不同模态有人融入其中，就演變爲多模态、大模型的發展趨勢。

這個發展思路也存在缺點，就是随着對數據要求的增加，大模型會變得越來越複雜，需要更多的參數。

事實上，我們追求的應該是小參數的計算，也許 200 個參數就已經是個不小的數目。

但大模型時代往往都是數十億、數百億甚至數千億級别的參數，這對芯片的算力有很大的要求，尤其是需要在毫秒級得到計算結果的情況下。

因此，未來需要 " 端、邊、雲 "（端：物聯網中的各種設備、傳感器、智能硬件等；邊：網絡邊緣、移動邊緣、物聯網邊緣等；雲：雲計算、雲存儲、雲應用等領域）三者相協同，将大模型部署在雲上，在單側部署時隻解決單側的局部問題。

例如在人形機器人走路的例子中，大家的目光都聚焦在如何讓機器人走地穩這個問題上，但是人形機器人從 A 地到 B 的長周期導航，目前仍無法解決，我們可以将這個概念具體化：

端（設備）：機器人的傳感器和控制系統可以直接在機器人本體上進行一些簡單的處理，比如即時調整步伐以保持平衡。

邊（邊緣計算）：對于更複雜的決策，如避開障礙物或規劃路徑，可以在機器人附近的邊緣計算設備上進行。這些設備可以更快地處理數據，減少延遲，并減輕雲端的計算負擔。

雲（雲計算）：對于需要大量計算資源的任務，如長時間的導航規劃，可以在雲端進行。雲端的強大計算能力可以用來處理和分析大量的數據，生成詳細的導航計劃，并将其發送回機器人。

在這個例子中，邊緣計算的作用是處理那些需要較快響應但又不需要雲端巨大計算資源的任務。通過這種方式，可以确保機器人在執行長周期導航任務時，既能保持較低的延遲，又能利用雲端的強大計算能力進行複雜決策的制定。因此人形機器人長周期導航問題，可以通過 " 端、邊、雲 " 三者協同的方式來解決。

雷峰網：您的研究團隊未來一段時間的研究方向是什麽？會側重哪方面的技術探索？

李淼：主要還是圍繞機器人的抓取和靈巧操作，以及相關的行業應用做研究。

機器人行業的從業者們以往關注的更多是表層的應用，比如看到現實中有人用手去抓東西，于是就讓機器人來做這項工作，取代人進行體力勞動。

然而，從實際情況而言，我們觀察了很多不同行業，例如在介入手術、腦外科手術等應用場景中，需要人手能夠完成更加靈巧的操作。

這些靈巧的操作如何用機器人來實現？其中涉及到哪些具體的技術？都是我們未來關注的重點。

我們會持續挖掘這些以往不易被發現的場景，開發适應場景的相關技術。

但未來這些技術是否能夠在對應的場景中真正實現産業化，還是個未知數。

我曾經評估過腦動脈瘤手術這個場景，這項手術的成功率僅爲 50%，對醫生的操作經驗要求非常高，也許 20 年内都無法實現全自動手術機器人的産業化。

但我依然認爲這項工作對全人類來說是具有長期價值的。

我的團隊目前已經開始進行相關的研究工作，例如觸覺傳感器的研發。在腦動脈瘤手術中，觸覺傳感器既要檢測法向力和切向力，又要應對極端環境下的操作。

因此，我們要将機器人的設計、感知、規劃、控制等各個環節打通，用大模型的方式将這些場景模拟一遍，才能推動研究。

雷峰網：從您在工業界的經驗來看，機器人從技術研發到場景落地的過程中存在哪些難題？

李淼：目前最大的難題是大模型的核心規律 scaling law（标準律），即很難在機器人方面進行創新，尤其是在工業場景下，很難達到規模化的程度，這也是所有機器人創業公司面臨的共性問題。

也許做核心零部件、電機、減速器的公司活得還不錯，可一旦涉及到做具體的機器人産品，不論是六軸機器人、四軸機器人或是并聯機器人，銷量和銷售額都不會很高。

機器人行業甚至至今都沒有出現一款統一的芯片，又何談規模化。

這意味着，機器人本身或許就不具備一個統一的形态。

我認爲機器人雖然叫這個名字，但不能将它完全等效爲一個人形機器人，如果站在生物的角度來看，其實有更多不同形态的生物能夠更好地解決問題，比如人的彈跳能力不是最好的，跑動速度不是最快的，甚至還不會飛，所以人形形态并不是機器人最終的選擇。

抛開具身這個層面，我們也要看機器人的智能層面能否得到很大的提升，隻有通過智能層面驅動其他不同智能産品的叠代，才能解決機器人行業的共性問題。

例如，智能家居系統可以通過集成更智能的機器人技術來提供更個性化的服務；自動駕駛汽車可以通過機器人的感知和決策技術來提高安全性和效率；無人機可以通過機器人的導航和控制技術來進行更複雜的任務等等。（歡迎添加微信 icedaguniang，交流認知，互通有無。）

GAIR live 圓桌預告

4 月 8 日，北京時間 20:00-22:00，雷峰網将舉辦主題爲「大模型時代，機器人的技術革新與場景落地」的線上圓桌論壇。

本次論壇嘉賓有，南佛羅裏達大學孫宇教授、武漢大學李淼教授、南方科技大學張巍教授、優必選科技龐建新博士。

" 全球人工智能與機器人大會 "（GAIR）始于 2016 年雷峰網與中國計算機學會（CCF）合作創立的 CCF-GAIR 大會，旨在打造人工智能浪潮下，連接學術界、産業界、投資界的新平台，而雷峰網 " 連接三界 " 的全新定位也在此大會上得以确立。

經過幾年發展，GAIR 大會已成爲行業标杆，是目前爲止粵港澳大灣區人工智能領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。

GAIR Live 作爲雷峰網旗下視頻直播品牌，旨在輸出新鮮、深度、原創的大咖訪談與對話内容，打造輻射産、學、研、投的特色線上平台。

大模型與機器人相關資料

1.《對話南佛羅裏達大學孫宇教授：當大語言模型用于機器人任務規劃丨 IJAIRR》

2. 論文：Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability

IJAIRR 正在邀約論文和專題

《國際人工智能與機器人研究期刊》（International Journal of Artificial Intelligence and Robotics Research，簡稱 IJAIRR），是由新加坡 GAIR 研究院與世界科技出版社聯合出版的國際學術期刊。

作爲全球首本專注于人工智能（AI）、機器人技術（Robotics）以及基礎科學交叉研究（Research）的期刊，IJAIRR 緻力于成爲 AI 與機器人領域研究的權威發布平台。

IJAIRR 歡迎各類研究論文、評論文章、短篇論文、書評以及專題（Special Issue）形式的投稿。

我們特别關注那些在頂級 AI 會議上發表并現場展示，但缺乏長期沉澱平台的優秀論文。爲了給這些論文及其作者提供一個更廣泛的發表和推廣渠道，IJAIRR 現正積極邀約相關論文投稿。

如果您在本領域頂級會議上發表的文章（或即将發表）不超過一年，我們将協助您稍作修改後在 IJAIRR 期刊上發表。

如果您領導的團隊在頂級會議上有多篇論文發表，并希望在 IJAIRR 上圍繞特定主題策劃一個專題（Special Issue），我們誠摯邀請您深入讨論合作事宜。

如果您是頂級會議的組織者，并有意與 IJAIRR 合作，針對特定會議策劃一個專題（Special Issue），我們也期待與您具體商讨合作細節。

IJAIRR 期待與您攜手，共同推動人工智能與機器人研究的發展。圖片

聯系人：IJAIRR 創刊主編朱曉蕊博士，[email protected]

關于期刊創刊主編等更多信息，可點擊 https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

關于雷峰網、GAIR 大會、GAIR 研究院（期刊和在線社區）的詳細介紹，請閱讀朱曉蕊教授的專訪：https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

IJAIRR 期刊的主頁鏈接爲：https://gairdao.com/journals/ijairr