北大機器人當上亞運志願者，全靠學生把多模态大模型結合具身智能

亞運會導遊，原來背後離不開北大學生團隊！

且看這個智能導遊，它可不是一般人：

外觀看上去像一輛小車，四個輪子在地面上快速靈活移動。

上面安裝了機械臂，配有攝像頭及語音等交互設施，使其能夠對周圍環境和需要執行的任務進行識别與理解。

據悉，這名導遊機器人系統由北大計算機學院 HMI 團隊研發，它結合了多模态大模型和具身智能。

在亞運會期間，它爲視障人士提供引領和導航等幫助，并可解析視障人士的需求并完成相應任務，如幫助他們撿拾掉落的物品等。

具身智能，搭載多模态大模型那種

那麽，這位具身智能導遊是怎麽煉成的？

在研究員仉尚航的指導和支持下，北大學生們形成了一種創新路徑，即設計感知生成一體化的多模态大模型，以實現對各種視覺場景的精準感知與理解，并生成準确豐富的語言描述。

之所以這樣設計，是因爲這個導遊最初就設計定位爲服務殘障人士、老年人、少數民族等——當前的技術落點，還沒有完全解決他們的需求。

" 少數民族的觀衆可能面臨語言障礙，而殘疾人士可能需要更多的輔助工具或特别的服務，以便更好地享受比賽。" 團隊成員、北大學生莊棨甯表示，多模态大模型是課題組的重點研究方向，于是一個把多模态大模型和具身智能結合起來，研發一個專門服務殘障人士觀賽的 AI 系統的想法，誕生了。

于是，多模态愛心助手亮相亞運會。

多模态愛心助手所搭載的系統，基于團隊自研的感知生成一體化通用多模态大模型。

該系統集成了大模型的泛化感知能力和湧現能力。

同時，在愛心助手身上，多模态大模型和具身智能結合了起來，爲機器人賦予更加智能的大腦，使其可以将人類複雜需求轉化爲具體行動指令。

它能做的事情，體現出一體化處理能力，包括：

場景感知，能夠識别圖像中的特定目标或特征；

場景解析，能夠爲圖像生成描述性文本；

行爲決策與規劃，具備基于圖像和文本信息進行決策和規劃的能力。

考慮到機器人會面對不同場景，需要具備快速适應新場景的泛化能力，團隊設計了基于端雲協作的大小模型協同高效微調，提升模型的泛化性，使其可以持續适應不同的場景。

舉個。

如果有運動員用戶說 " 我渴了 "，機器人聽到這句話後，完成轉身拿水——遞到用戶手中，過程看似簡單，實際上涉及了一系列子任務：

首先捕捉 " 我渴了 " 這句語音信号，然後通過語音識别技術，轉換爲文字；

理解 " 我渴了 " 這句話的含義，即用戶現在需要水；

通過良好的感知能力，利用 CV 技術，識别、定位瓶裝水；

規劃來到瓶裝水面前的路線，涉及路徑規劃算法；

控制自身動作，根據路徑規劃，來到水面前；

準确抓住瓶裝水，涉及視覺檢測、機器人控制系統和抓取的相關技術；

規劃返回路徑，并控制自身動作，将水送到說話者的手中。

上述的每一個子任務，都需要大量的研究和工程實踐。

不僅如此，機器人還需要能夠處理在訓練數據中未曾出現過的新情況，也就是說，模型需要具有強大的泛化能力，能夠在新的、未知的環境中有效地工作。

爲了提升機器人在開放環境下的持續性泛化能力，團隊構建了一個端雲協作的持續學習系統。

這一系統的設計旨在兼顧終端計算的個性化、隐私保護和低通信成本等優勢，同時也充分利用雲端計算的大規模計算資源、大量标注數據以及卓越的泛化能力。

還研發亞運會賽事解說 AI 系統

據悉，杭州亞運會的多模态多語種視頻解說系統，也出自這個團隊之手。

基于多模态大模型，團隊通過自研的X-Accessory 一體化大模型工具鏈，設計了多模态多語種視頻解說系統，在亞運會期間用于乒乓球、跆拳道、跳水、體操等賽事。

這個解說系統的特點在于，不僅能夠理解和分析正在進行的比賽，生成實時的解說内容，還可以根據觀衆的喜好提供個性化的解說服務，包括将解說内容翻譯成多種語言，包括維吾爾語、阿拉伯語等。

除了應用在本次亞運會，團隊在大模型方面還有許多其他成果。

" 多模态大模型是我們組研究的核心，目前也取得了一定的成果。" 北京大學計算機學院博士後王冠群介紹，" 除了這次自研的感知生成一體化通用多模态大模型、大小模型協同訓練與部署，我們還關注多模态生成式大模型 Agent 設計、大模型記憶機制設計、面向多場景的智能醫療多模态大模型集群、通用大模型适配器等。"

就拿團隊進行的多模态生成式大模型 Agent 設計來說。

單模态模型無法有效地結合視覺、聽覺和文本等多種模态信息，這種局限性在複雜的實際場景，如虛拟助手、機器人交互和智慧城市中，可能導緻效果并不理想。

因此，團隊開發了一種多模态生成式大模型 Agent，将各種模态的優點結合起來，例如視覺的細節捕捉能力、聽覺的時序特性和文本的結構化知識。

這樣的綜合性設計，将有助于推動生成式模型向更加實用和高效的方向發展，滿足未來多種複雜應用場景的需求。

在更複雜的應用場景，團隊還研究過面向多場景的智能醫療多模态大模型集群。

他們設計和實現了一組智能醫療多模态大模型集群，包括面向患者的個性化醫療知識問答多模态時序大模型、面向醫生的臨床影像報告生成多模态大模型和面向導診場景的檢索增強大語言模型。

這樣一來，能使大模型技術适配臨床場景，滿足患者 - 醫生 - 醫院多方訴求，解決行業痛點，推動大模型在醫療領域的落地應用。

△杭州亞運會期間科研團隊合影（第一排左起：張雨澤、莊棨甯、謝愛麗、仉尚航、張融宇、羅峪霖、王振宇；第二排左起：侯沂、戴鴻銘、王昊、李忱軒、張啓哲、劉家銘、王冠群）