面向複雜 PC 任務的多模态智能體框架 PC-Agent,來自阿裏通義實驗室。
從 Office 到浏覽器,跨 APP 工作流都可以交給 AI 來完成了。

指令 1(翻譯):在記事本應用程序中,打開 " 文檔 " 中的 " 備忘錄 " 文件,查看上午的第二項活動。在時鍾應用程序中,在該活動開始前 1 小時設置鬧鍾。
指令 2(翻譯):在文件資源管理器中,打開 " 文檔 " 中的 " 旅行計劃 " 文件,查看旅行計劃的目的地。将旅行目的地添加到時鍾應用程序的世界時鍾列表中。在 Chrome 浏覽器上搜索從北京到旅行目的地的航班時間。
指令 3(翻譯):在 Chrome 浏覽器中分别搜索英偉達(Nvidia)和蘋果(Apple)的當前股價。在 Excel 中打開 "stock_prices" 文件,将公司名稱寫入 A 列,相應的股價寫入 B 列。
指令 4(翻譯):在 Outlook 中讀取發給豪伊的主題爲 " 旅行 " 的已讀郵件,記錄行程的出發地、目的地和出發日期。在 Chrome 浏覽器上的 booking.com 網站搜索單程機票。
指令 5(翻譯):在文件資源管理器中打開 " 文檔 " 文件夾裏的 "test_doc1" 文件,在 Word 中将标題設爲加粗,并将前兩段的行距設爲 1.5 倍。
近期,基于多模态大模型(MLLM)構建 GUI 智能體以實現智能設備上(如手機、PC)的任務自動化,受到了廣泛的關注。
如下圖所示,與手機相比,PC 場景的複雜性體現在兩方面:
一是 PC 的圖形界面包含了更密集多樣的可交互元素,以及不同布局的文本,給細粒度感知帶來了挑戰;二
是 PC 常用于生産力場景,涉及更多複雜的 App 内及跨 App 工作流,因此包含更複雜的任務序列。
現有工作如 UFO、Agent-S 等,對文本的精細感知和操作能力不足,并且忽視了子任務之間的複雜依賴,因此在複雜 PC 任務上存在局限性。

針對這一問題,阿裏通義實驗室的研究人員提出面向複雜 PC 任務的多模态智能體框架 PC-Agent:
(1)設計主動感知模塊(APM)實現對屏幕内容的精細感知和操作;
(2)提出層次化多智能體協作結構,将複雜指令分解爲指令 - 子任務 - 動作 3 個層次,并在相應層次設置 Manager、Progress、Decision 及 Reflection 智能體,實現對複雜指令自上而下的難度分解,以及自下而上的精确反饋。
爲了更好地評估智能體在複雜 PC 任務上的表現,作者還構建了一個涉及 8 個常用 PC 應用的複雜指令集,實驗評估發現,所提出的 PC-Agent 框架在複雜任務上的表現顯著超越已有方法。
主動感知模塊 APM
對于可交互元素,通過提取屏幕的 accessibility tree 來獲取其位置及功能描述信息。對于文本信息,當決策智能體觸發 Select ( 目标文本 ) 動作時,主動感知模塊通過基于 MLLM 的意圖理解模塊提取目标文本的起止範圍,然後利用 OCR 工具進行精确定位及後續精細操作。

△主動感知模塊示意圖
層次化多智能體協作
PC-Agent 将複雜指令的執行分解爲 3 個層次:指令 - 子任務 - 動作。
(1)在指令層次,設置 Manager 智能體負責将複雜指令拆分爲子任務,以及進行跨子任務通信。如上圖所示,複雜指令的子任務之間往往相互依賴,部分子任務需要前序子任務的執行結果才能實例化爲一個可獨立執行的子任務。設置 Manager 智能體,有助于處理子任務之間複雜的依賴關系,并有效降低單一子任務的決策難度。
(2)在子任務層次,設置 Progress 智能體,負責跟蹤和總結子任務的執行進度,從而實現更精确的進度感知,并避免冗長模糊的操作曆史幹擾決策。
(3)在動作層次,設置 Decision 智能體和 Reflection 智能體。對于當前子任務的每個步驟,Decision 智能體通過感知模塊觀察屏幕,并結合 Progress 智能體輸出的進度信息和 Reflection 智能體輸出的反思信息,生成當前步驟的操作決策。Reflection 智能體則根據每個步驟操作前後屏幕的變化,判斷該步驟是否達到了預期的效果,并将可能出現的異常情況反饋給 Progress 和 Decision 智能體。

△PC-Agent 框架示意圖
PC-Eval 指令集
由于現有基于真實 PC 環境的動态評測數據集(如 WindowsAgentArena)主要由相對基礎的指令構成,爲了更好地評估智能體在實際場景複雜指令的表現,作者提出了一個新的評測指令集 PC-Eval,包含涉及 8 個常用 PC 應用的 25 條複雜用戶指令。
每條指令由若幹具有依賴關系的子任務構成,強調精細化操作及長程決策,并與現實場景工作流相對應。下表列舉了部分指令的示例。

實驗結果
現有基于先進 MLLM(如 GPT-4o、Claude-3.5)的單智能體方法,幾乎無法完成任何複雜指令,驗證了 PC 複雜場景在感知、決策方面極具挑戰性。此外,對比分析現有的開源多智能體方法 UFO 及 Agent-S 的測試結果,可以發現:
(1)現有方法的精細感知和操作能力較弱,例如 UFO 在 Excel 表格場景會将多個信息重複填入同一單元格,而 UFO 和 Agent-S 均無法執行 Word 文檔的編輯操作。
(2)現有方法無法有效處理子任務間複雜的依賴,例如對于 " 打開文檔 A,翻譯其内容,新建文檔 B,将文檔 A 内容的翻譯寫在文檔 B 中 " 這樣的指令,Agent-S 會在新建的文檔中寫下 "The translation of the content" 這句話,而非實際的翻譯内容。
(3)相比之下,主動感知模塊使得 PC-Agent 具備精細感知與操作能力,層次化多智能體協作也實現了有效的指令拆解、子任務間通信、進度感知以及錯誤反饋,從而顯著提升了 PC-Agent 在複雜任務上的性能表現。

樣例展示

搜索多項信息并編輯 Excel 表格的操作序列

Reflection 智能體發現無效操作并反饋給 Decision 智能體

Word 文檔中的居中、添加下劃線等編輯操作
論文鏈接:https://arxiv.org/pdf/2502.14282
代碼鏈接:https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent